]> git.sesse.net Git - ffmpeg/blob - libavfilter/vf_normalize.c
avfilter/vf_normalize: fix filtering of RGB0 formats
[ffmpeg] / libavfilter / vf_normalize.c
1 /*
2  * Copyright (c) 2017 Richard Ling
3  *
4  * This file is part of FFmpeg.
5  *
6  * FFmpeg is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU Lesser General Public
8  * License as published by the Free Software Foundation; either
9  * version 2.1 of the License, or (at your option) any later version.
10  *
11  * FFmpeg is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14  * Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with FFmpeg; if not, write to the Free Software
18  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
19  */
20
21 /*
22  * Normalize RGB video (aka histogram stretching, contrast stretching).
23  * See: https://en.wikipedia.org/wiki/Normalization_(image_processing)
24  *
25  * For each channel of each frame, the filter computes the input range and maps
26  * it linearly to the user-specified output range. The output range defaults
27  * to the full dynamic range from pure black to pure white.
28  *
29  * Naively maximising the dynamic range of each frame of video in isolation
30  * may cause flickering (rapid changes in brightness of static objects in the
31  * scene) when small dark or bright objects enter or leave the scene. This
32  * filter can apply temporal smoothing to the input range to reduce flickering.
33  * Temporal smoothing is similar to the auto-exposure (automatic gain control)
34  * on a video camera, which performs the same function; and, like a video
35  * camera, it may cause a period of over- or under-exposure of the video.
36  *
37  * The filter can normalize the R,G,B channels independently, which may cause
38  * color shifting, or link them together as a single channel, which prevents
39  * color shifting. More precisely, linked normalization preserves hue (as it's
40  * defined in HSV/HSL color spaces) while independent normalization does not.
41  * Independent normalization can be used to remove color casts, such as the
42  * blue cast from underwater video, restoring more natural colors. The filter
43  * can also combine independent and linked normalization in any ratio.
44  *
45  * Finally the overall strength of the filter can be adjusted, from no effect
46  * to full normalization.
47  *
48  * The 5 AVOptions are:
49  *   blackpt,   Colors which define the output range. The minimum input value
50  *   whitept    is mapped to the blackpt. The maximum input value is mapped to
51  *              the whitept. The defaults are black and white respectively.
52  *              Specifying white for blackpt and black for whitept will give
53  *              color-inverted, normalized video. Shades of grey can be used
54  *              to reduce the dynamic range (contrast). Specifying saturated
55  *              colors here can create some interesting effects.
56  *
57  *   smoothing  The amount of temporal smoothing, expressed in frames (>=0).
58  *              the minimum and maximum input values of each channel are
59  *              smoothed using a rolling average over the current frame and
60  *              that many previous frames of video.  Defaults to 0 (no temporal
61  *              smoothing).
62  *
63  *   independence
64  *              Controls the ratio of independent (color shifting) channel
65  *              normalization to linked (color preserving) normalization. 0.0
66  *              is fully linked, 1.0 is fully independent. Defaults to fully
67  *              independent.
68  *
69  *   strength   Overall strength of the filter. 1.0 is full strength. 0.0 is
70  *              a rather expensive no-op. Values in between can give a gentle
71  *              boost to low-contrast video without creating an artificial
72  *              over-processed look. The default is full strength.
73  */
74
75 #include "libavutil/imgutils.h"
76 #include "libavutil/opt.h"
77 #include "libavutil/pixdesc.h"
78 #include "avfilter.h"
79 #include "drawutils.h"
80 #include "formats.h"
81 #include "internal.h"
82 #include "video.h"
83
84 typedef struct NormalizeContext {
85     const AVClass *class;
86
87     // Storage for the corresponding AVOptions
88     uint8_t blackpt[4];
89     uint8_t whitept[4];
90     int smoothing;
91     float independence;
92     float strength;
93
94     uint8_t co[4];      // Offsets to R,G,B,A bytes respectively in each pixel
95     int num_components; // Number of components in the pixel format
96     int step;
97     int history_len;    // Number of frames to average; based on smoothing factor
98     int frame_num;      // Increments on each frame, starting from 0.
99
100     // Per-extremum, per-channel history, for temporal smoothing.
101     struct {
102         uint8_t *history;       // History entries.
103         uint32_t history_sum;   // Sum of history entries.
104     } min[3], max[3];           // Min and max for each channel in {R,G,B}.
105     uint8_t *history_mem;       // Single allocation for above history entries
106
107 } NormalizeContext;
108
109 #define OFFSET(x) offsetof(NormalizeContext, x)
110 #define FLAGS AV_OPT_FLAG_VIDEO_PARAM|AV_OPT_FLAG_FILTERING_PARAM
111
112 static const AVOption normalize_options[] = {
113     { "blackpt",  "output color to which darkest input color is mapped",  OFFSET(blackpt), AV_OPT_TYPE_COLOR, { .str = "black" }, CHAR_MIN, CHAR_MAX, FLAGS },
114     { "whitept",  "output color to which brightest input color is mapped",  OFFSET(whitept), AV_OPT_TYPE_COLOR, { .str = "white" }, CHAR_MIN, CHAR_MAX, FLAGS },
115     { "smoothing",  "amount of temporal smoothing of the input range, to reduce flicker", OFFSET(smoothing), AV_OPT_TYPE_INT, {.i64=0}, 0, INT_MAX/8, FLAGS },
116     { "independence", "proportion of independent to linked channel normalization", OFFSET(independence), AV_OPT_TYPE_FLOAT, {.dbl=1.0}, 0.0, 1.0, FLAGS },
117     { "strength", "strength of filter, from no effect to full normalization", OFFSET(strength), AV_OPT_TYPE_FLOAT, {.dbl=1.0}, 0.0, 1.0, FLAGS },
118     { NULL }
119 };
120
121 AVFILTER_DEFINE_CLASS(normalize);
122
123 // This function is the main guts of the filter. Normalizes the input frame
124 // into the output frame. The frames are known to have the same dimensions
125 // and pixel format.
126 static void normalize(NormalizeContext *s, AVFrame *in, AVFrame *out)
127 {
128     // Per-extremum, per-channel local variables.
129     struct {
130         uint8_t in;     // Original input byte value for this frame.
131         float smoothed; // Smoothed input value [0,255].
132         float out;      // Output value [0,255].
133     } min[3], max[3];   // Min and max for each channel in {R,G,B}.
134
135     float rgb_min_smoothed; // Min input range for linked normalization
136     float rgb_max_smoothed; // Max input range for linked normalization
137     uint8_t lut[3][256];    // Lookup table
138     int x, y, c;
139
140     // First, scan the input frame to find, for each channel, the minimum
141     // (min.in) and maximum (max.in) values present in the channel.
142     for (c = 0; c < 3; c++)
143         min[c].in = max[c].in = in->data[0][s->co[c]];
144     for (y = 0; y < in->height; y++) {
145         uint8_t *inp = in->data[0] + y * in->linesize[0];
146         uint8_t *outp = out->data[0] + y * out->linesize[0];
147         for (x = 0; x < in->width; x++) {
148             for (c = 0; c < 3; c++) {
149                 min[c].in = FFMIN(min[c].in, inp[s->co[c]]);
150                 max[c].in = FFMAX(max[c].in, inp[s->co[c]]);
151             }
152             inp += s->step;
153             outp += s->step;
154         }
155     }
156
157     // Next, for each channel, push min.in and max.in into their respective
158     // histories, to determine the min.smoothed and max.smoothed for this frame.
159     {
160         int history_idx = s->frame_num % s->history_len;
161         // Assume the history is not yet full; num_history_vals is the number
162         // of frames received so far including the current frame.
163         int num_history_vals = s->frame_num + 1;
164         if (s->frame_num >= s->history_len) {
165             //The history is full; drop oldest value and cap num_history_vals.
166             for (c = 0; c < 3; c++) {
167                 s->min[c].history_sum -= s->min[c].history[history_idx];
168                 s->max[c].history_sum -= s->max[c].history[history_idx];
169             }
170             num_history_vals = s->history_len;
171         }
172         // For each extremum, update history_sum and calculate smoothed value
173         // as the rolling average of the history entries.
174         for (c = 0; c < 3; c++) {
175             s->min[c].history_sum += (s->min[c].history[history_idx] = min[c].in);
176             min[c].smoothed = s->min[c].history_sum / (float)num_history_vals;
177             s->max[c].history_sum += (s->max[c].history[history_idx] = max[c].in);
178             max[c].smoothed = s->max[c].history_sum / (float)num_history_vals;
179         }
180     }
181
182     // Determine the input range for linked normalization. This is simply the
183     // minimum of the per-channel minimums, and the maximum of the per-channel
184     // maximums.
185     rgb_min_smoothed = FFMIN3(min[0].smoothed, min[1].smoothed, min[2].smoothed);
186     rgb_max_smoothed = FFMAX3(max[0].smoothed, max[1].smoothed, max[2].smoothed);
187
188     // Now, process each channel to determine the input and output range and
189     // build the lookup tables.
190     for (c = 0; c < 3; c++) {
191         int in_val;
192         // Adjust the input range for this channel [min.smoothed,max.smoothed]
193         // by mixing in the correct proportion of the linked normalization
194         // input range [rgb_min_smoothed,rgb_max_smoothed].
195         min[c].smoothed = (min[c].smoothed  *         s->independence)
196                         + (rgb_min_smoothed * (1.0f - s->independence));
197         max[c].smoothed = (max[c].smoothed  *         s->independence)
198                         + (rgb_max_smoothed * (1.0f - s->independence));
199
200         // Calculate the output range [min.out,max.out] as a ratio of the full-
201         // strength output range [blackpt,whitept] and the original input range
202         // [min.in,max.in], based on the user-specified filter strength.
203         min[c].out = (s->blackpt[c] *         s->strength)
204                    + (min[c].in     * (1.0f - s->strength));
205         max[c].out = (s->whitept[c] *         s->strength)
206                    + (max[c].in     * (1.0f - s->strength));
207
208         // Now, build a lookup table which linearly maps the adjusted input range
209         // [min.smoothed,max.smoothed] to the output range [min.out,max.out].
210         // Perform the linear interpolation for each x:
211         //     lut[x] = (int)(float(x - min.smoothed) * scale + max.out + 0.5)
212         // where scale = (max.out - min.out) / (max.smoothed - min.smoothed)
213         if (min[c].smoothed == max[c].smoothed) {
214             // There is no dynamic range to expand. No mapping for this channel.
215             for (in_val = min[c].in; in_val <= max[c].in; in_val++)
216                 lut[c][in_val] = min[c].out;
217         } else {
218             // We must set lookup values for all values in the original input
219             // range [min.in,max.in]. Since the original input range may be
220             // larger than [min.smoothed,max.smoothed], some output values may
221             // fall outside the [0,255] dynamic range. We need to clamp them.
222             float scale = (max[c].out - min[c].out) / (max[c].smoothed - min[c].smoothed);
223             for (in_val = min[c].in; in_val <= max[c].in; in_val++) {
224                 int out_val = (in_val - min[c].smoothed) * scale + min[c].out + 0.5f;
225                 out_val = FFMAX(out_val, 0);
226                 out_val = FFMIN(out_val, 255);
227                 lut[c][in_val] = out_val;
228             }
229         }
230     }
231
232     // Finally, process the pixels of the input frame using the lookup tables.
233     for (y = 0; y < in->height; y++) {
234         uint8_t *inp = in->data[0] + y * in->linesize[0];
235         uint8_t *outp = out->data[0] + y * out->linesize[0];
236         for (x = 0; x < in->width; x++) {
237             for (c = 0; c < 3; c++)
238                 outp[s->co[c]] = lut[c][inp[s->co[c]]];
239             if (s->num_components == 4)
240                 // Copy alpha as-is.
241                 outp[s->co[3]] = inp[s->co[3]];
242             inp += s->step;
243             outp += s->step;
244         }
245     }
246
247     s->frame_num++;
248 }
249
250 // Now we define all the functions accessible from the ff_vf_normalize class,
251 // which is ffmpeg's interface to our filter.  See doc/filter_design.txt and
252 // doc/writing_filters.txt for descriptions of what these interface functions
253 // are expected to do.
254
255 // Set the pixel formats that our filter supports. We should be able to process
256 // any 8-bit RGB formats. 16-bit support might be useful one day.
257 static int query_formats(AVFilterContext *ctx)
258 {
259     static const enum AVPixelFormat pixel_fmts[] = {
260         AV_PIX_FMT_RGB24,
261         AV_PIX_FMT_BGR24,
262         AV_PIX_FMT_ARGB,
263         AV_PIX_FMT_RGBA,
264         AV_PIX_FMT_ABGR,
265         AV_PIX_FMT_BGRA,
266         AV_PIX_FMT_0RGB,
267         AV_PIX_FMT_RGB0,
268         AV_PIX_FMT_0BGR,
269         AV_PIX_FMT_BGR0,
270         AV_PIX_FMT_NONE
271     };
272     // According to filter_design.txt, using ff_set_common_formats() this way
273     // ensures the pixel formats of the input and output will be the same. That
274     // saves a bit of effort possibly needing to handle format conversions.
275     AVFilterFormats *formats = ff_make_format_list(pixel_fmts);
276     if (!formats)
277         return AVERROR(ENOMEM);
278     return ff_set_common_formats(ctx, formats);
279 }
280
281 // At this point we know the pixel format used for both input and output.  We
282 // can also access the frame rate of the input video and allocate some memory
283 // appropriately
284 static int config_input(AVFilterLink *inlink)
285 {
286     NormalizeContext *s = inlink->dst->priv;
287     // Store offsets to R,G,B,A bytes respectively in each pixel
288     const AVPixFmtDescriptor *desc = av_pix_fmt_desc_get(inlink->format);
289     int c;
290
291     ff_fill_rgba_map(s->co, inlink->format);
292     s->num_components = desc->nb_components;
293     s->step = av_get_padded_bits_per_pixel(desc) >> 3;
294     // Convert smoothing value to history_len (a count of frames to average,
295     // must be at least 1).  Currently this is a direct assignment, but the
296     // smoothing value was originally envisaged as a number of seconds.  In
297     // future it would be nice to set history_len using a number of seconds,
298     // but VFR video is currently an obstacle to doing so.
299     s->history_len = s->smoothing + 1;
300     // Allocate the history buffers -- there are 6 -- one for each extrema.
301     // s->smoothing is limited to INT_MAX/8, so that (s->history_len * 6)
302     // can't overflow on 32bit causing a too-small allocation.
303     s->history_mem = av_malloc(s->history_len * 6);
304     if (s->history_mem == NULL)
305         return AVERROR(ENOMEM);
306
307     for (c = 0; c < 3; c++) {
308         s->min[c].history = s->history_mem + (c*2)   * s->history_len;
309         s->max[c].history = s->history_mem + (c*2+1) * s->history_len;
310     }
311     return 0;
312 }
313
314 // Free any memory allocations here
315 static av_cold void uninit(AVFilterContext *ctx)
316 {
317     NormalizeContext *s = ctx->priv;
318
319     av_freep(&s->history_mem);
320 }
321
322 // This function is pretty much standard from doc/writing_filters.txt.  It
323 // tries to do in-place filtering where possible, only allocating a new output
324 // frame when absolutely necessary.
325 static int filter_frame(AVFilterLink *inlink, AVFrame *in)
326 {
327     AVFilterContext *ctx = inlink->dst;
328     AVFilterLink *outlink = ctx->outputs[0];
329     NormalizeContext *s = ctx->priv;
330     AVFrame *out;
331     // Set 'direct' if we can modify the input frame in-place.  Otherwise we
332     // need to retrieve a new frame from the output link.
333     int direct = av_frame_is_writable(in) && !ctx->is_disabled;
334
335     if (direct) {
336         out = in;
337     } else {
338         out = ff_get_video_buffer(outlink, outlink->w, outlink->h);
339         if (!out) {
340             av_frame_free(&in);
341             return AVERROR(ENOMEM);
342         }
343         av_frame_copy_props(out, in);
344     }
345
346     // Now we've got the input and output frames (which may be the same frame)
347     // perform the filtering with our custom function.
348     normalize(s, in, out);
349
350     if (ctx->is_disabled) {
351         av_frame_free(&out);
352         return ff_filter_frame(outlink, in);
353     }
354
355     if (!direct)
356         av_frame_free(&in);
357
358     return ff_filter_frame(outlink, out);
359 }
360
361 static const AVFilterPad inputs[] = {
362     {
363         .name         = "default",
364         .type         = AVMEDIA_TYPE_VIDEO,
365         .filter_frame = filter_frame,
366         .config_props = config_input,
367     },
368     { NULL }
369 };
370
371 static const AVFilterPad outputs[] = {
372     {
373         .name = "default",
374         .type = AVMEDIA_TYPE_VIDEO,
375     },
376     { NULL }
377 };
378
379 AVFilter ff_vf_normalize = {
380     .name          = "normalize",
381     .description   = NULL_IF_CONFIG_SMALL("Normalize RGB video."),
382     .priv_size     = sizeof(NormalizeContext),
383     .priv_class    = &normalize_class,
384     .uninit        = uninit,
385     .query_formats = query_formats,
386     .inputs        = inputs,
387     .outputs       = outputs,
388     .flags         = AVFILTER_FLAG_SUPPORT_TIMELINE_INTERNAL,
389 };