]> git.sesse.net Git - ffmpeg/blob - libavfilter/af_amix.c
lavfi: add error handling to filter_samples().
[ffmpeg] / libavfilter / af_amix.c
1 /*
2  * Audio Mix Filter
3  * Copyright (c) 2012 Justin Ruggles <justin.ruggles@gmail.com>
4  *
5  * This file is part of Libav.
6  *
7  * Libav is free software; you can redistribute it and/or
8  * modify it under the terms of the GNU Lesser General Public
9  * License as published by the Free Software Foundation; either
10  * version 2.1 of the License, or (at your option) any later version.
11  *
12  * Libav is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * Lesser General Public License for more details.
16  *
17  * You should have received a copy of the GNU Lesser General Public
18  * License along with Libav; if not, write to the Free Software
19  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20  */
21
22 /**
23  * @file
24  * Audio Mix Filter
25  *
26  * Mixes audio from multiple sources into a single output. The channel layout,
27  * sample rate, and sample format will be the same for all inputs and the
28  * output.
29  */
30
31 #include "libavutil/audioconvert.h"
32 #include "libavutil/audio_fifo.h"
33 #include "libavutil/avassert.h"
34 #include "libavutil/avstring.h"
35 #include "libavutil/float_dsp.h"
36 #include "libavutil/mathematics.h"
37 #include "libavutil/opt.h"
38 #include "libavutil/samplefmt.h"
39
40 #include "audio.h"
41 #include "avfilter.h"
42 #include "formats.h"
43 #include "internal.h"
44
45 #define INPUT_OFF      0    /**< input has reached EOF */
46 #define INPUT_ON       1    /**< input is active */
47 #define INPUT_INACTIVE 2    /**< input is on, but is currently inactive */
48
49 #define DURATION_LONGEST  0
50 #define DURATION_SHORTEST 1
51 #define DURATION_FIRST    2
52
53
54 typedef struct FrameInfo {
55     int nb_samples;
56     int64_t pts;
57     struct FrameInfo *next;
58 } FrameInfo;
59
60 /**
61  * Linked list used to store timestamps and frame sizes of all frames in the
62  * FIFO for the first input.
63  *
64  * This is needed to keep timestamps synchronized for the case where multiple
65  * input frames are pushed to the filter for processing before a frame is
66  * requested by the output link.
67  */
68 typedef struct FrameList {
69     int nb_frames;
70     int nb_samples;
71     FrameInfo *list;
72     FrameInfo *end;
73 } FrameList;
74
75 static void frame_list_clear(FrameList *frame_list)
76 {
77     if (frame_list) {
78         while (frame_list->list) {
79             FrameInfo *info = frame_list->list;
80             frame_list->list = info->next;
81             av_free(info);
82         }
83         frame_list->nb_frames  = 0;
84         frame_list->nb_samples = 0;
85         frame_list->end        = NULL;
86     }
87 }
88
89 static int frame_list_next_frame_size(FrameList *frame_list)
90 {
91     if (!frame_list->list)
92         return 0;
93     return frame_list->list->nb_samples;
94 }
95
96 static int64_t frame_list_next_pts(FrameList *frame_list)
97 {
98     if (!frame_list->list)
99         return AV_NOPTS_VALUE;
100     return frame_list->list->pts;
101 }
102
103 static void frame_list_remove_samples(FrameList *frame_list, int nb_samples)
104 {
105     if (nb_samples >= frame_list->nb_samples) {
106         frame_list_clear(frame_list);
107     } else {
108         int samples = nb_samples;
109         while (samples > 0) {
110             FrameInfo *info = frame_list->list;
111             av_assert0(info != NULL);
112             if (info->nb_samples <= samples) {
113                 samples -= info->nb_samples;
114                 frame_list->list = info->next;
115                 if (!frame_list->list)
116                     frame_list->end = NULL;
117                 frame_list->nb_frames--;
118                 frame_list->nb_samples -= info->nb_samples;
119                 av_free(info);
120             } else {
121                 info->nb_samples       -= samples;
122                 info->pts              += samples;
123                 frame_list->nb_samples -= samples;
124                 samples = 0;
125             }
126         }
127     }
128 }
129
130 static int frame_list_add_frame(FrameList *frame_list, int nb_samples, int64_t pts)
131 {
132     FrameInfo *info = av_malloc(sizeof(*info));
133     if (!info)
134         return AVERROR(ENOMEM);
135     info->nb_samples = nb_samples;
136     info->pts        = pts;
137     info->next       = NULL;
138
139     if (!frame_list->list) {
140         frame_list->list = info;
141         frame_list->end  = info;
142     } else {
143         av_assert0(frame_list->end != NULL);
144         frame_list->end->next = info;
145         frame_list->end       = info;
146     }
147     frame_list->nb_frames++;
148     frame_list->nb_samples += nb_samples;
149
150     return 0;
151 }
152
153
154 typedef struct MixContext {
155     const AVClass *class;       /**< class for AVOptions */
156     AVFloatDSPContext fdsp;
157
158     int nb_inputs;              /**< number of inputs */
159     int active_inputs;          /**< number of input currently active */
160     int duration_mode;          /**< mode for determining duration */
161     float dropout_transition;   /**< transition time when an input drops out */
162
163     int nb_channels;            /**< number of channels */
164     int sample_rate;            /**< sample rate */
165     int planar;
166     AVAudioFifo **fifos;        /**< audio fifo for each input */
167     uint8_t *input_state;       /**< current state of each input */
168     float *input_scale;         /**< mixing scale factor for each input */
169     float scale_norm;           /**< normalization factor for all inputs */
170     int64_t next_pts;           /**< calculated pts for next output frame */
171     FrameList *frame_list;      /**< list of frame info for the first input */
172 } MixContext;
173
174 #define OFFSET(x) offsetof(MixContext, x)
175 #define A AV_OPT_FLAG_AUDIO_PARAM
176 static const AVOption options[] = {
177     { "inputs", "Number of inputs.",
178             OFFSET(nb_inputs), AV_OPT_TYPE_INT, { 2 }, 1, 32, A },
179     { "duration", "How to determine the end-of-stream.",
180             OFFSET(duration_mode), AV_OPT_TYPE_INT, { DURATION_LONGEST }, 0,  2, A, "duration" },
181         { "longest",  "Duration of longest input.",  0, AV_OPT_TYPE_CONST, { DURATION_LONGEST  }, INT_MIN, INT_MAX, A, "duration" },
182         { "shortest", "Duration of shortest input.", 0, AV_OPT_TYPE_CONST, { DURATION_SHORTEST }, INT_MIN, INT_MAX, A, "duration" },
183         { "first",    "Duration of first input.",    0, AV_OPT_TYPE_CONST, { DURATION_FIRST    }, INT_MIN, INT_MAX, A, "duration" },
184     { "dropout_transition", "Transition time, in seconds, for volume "
185                             "renormalization when an input stream ends.",
186             OFFSET(dropout_transition), AV_OPT_TYPE_FLOAT, { 2.0 }, 0, INT_MAX, A },
187     { NULL },
188 };
189
190 static const AVClass amix_class = {
191     .class_name = "amix filter",
192     .item_name  = av_default_item_name,
193     .option     = options,
194     .version    = LIBAVUTIL_VERSION_INT,
195 };
196
197
198 /**
199  * Update the scaling factors to apply to each input during mixing.
200  *
201  * This balances the full volume range between active inputs and handles
202  * volume transitions when EOF is encountered on an input but mixing continues
203  * with the remaining inputs.
204  */
205 static void calculate_scales(MixContext *s, int nb_samples)
206 {
207     int i;
208
209     if (s->scale_norm > s->active_inputs) {
210         s->scale_norm -= nb_samples / (s->dropout_transition * s->sample_rate);
211         s->scale_norm = FFMAX(s->scale_norm, s->active_inputs);
212     }
213
214     for (i = 0; i < s->nb_inputs; i++) {
215         if (s->input_state[i] == INPUT_ON)
216             s->input_scale[i] = 1.0f / s->scale_norm;
217         else
218             s->input_scale[i] = 0.0f;
219     }
220 }
221
222 static int config_output(AVFilterLink *outlink)
223 {
224     AVFilterContext *ctx = outlink->src;
225     MixContext *s      = ctx->priv;
226     int i;
227     char buf[64];
228
229     s->planar          = av_sample_fmt_is_planar(outlink->format);
230     s->sample_rate     = outlink->sample_rate;
231     outlink->time_base = (AVRational){ 1, outlink->sample_rate };
232     s->next_pts        = AV_NOPTS_VALUE;
233
234     s->frame_list = av_mallocz(sizeof(*s->frame_list));
235     if (!s->frame_list)
236         return AVERROR(ENOMEM);
237
238     s->fifos = av_mallocz(s->nb_inputs * sizeof(*s->fifos));
239     if (!s->fifos)
240         return AVERROR(ENOMEM);
241
242     s->nb_channels = av_get_channel_layout_nb_channels(outlink->channel_layout);
243     for (i = 0; i < s->nb_inputs; i++) {
244         s->fifos[i] = av_audio_fifo_alloc(outlink->format, s->nb_channels, 1024);
245         if (!s->fifos[i])
246             return AVERROR(ENOMEM);
247     }
248
249     s->input_state = av_malloc(s->nb_inputs);
250     if (!s->input_state)
251         return AVERROR(ENOMEM);
252     memset(s->input_state, INPUT_ON, s->nb_inputs);
253     s->active_inputs = s->nb_inputs;
254
255     s->input_scale = av_mallocz(s->nb_inputs * sizeof(*s->input_scale));
256     if (!s->input_scale)
257         return AVERROR(ENOMEM);
258     s->scale_norm = s->active_inputs;
259     calculate_scales(s, 0);
260
261     av_get_channel_layout_string(buf, sizeof(buf), -1, outlink->channel_layout);
262
263     av_log(ctx, AV_LOG_VERBOSE,
264            "inputs:%d fmt:%s srate:%d cl:%s\n", s->nb_inputs,
265            av_get_sample_fmt_name(outlink->format), outlink->sample_rate, buf);
266
267     return 0;
268 }
269
270 /**
271  * Read samples from the input FIFOs, mix, and write to the output link.
272  */
273 static int output_frame(AVFilterLink *outlink, int nb_samples)
274 {
275     AVFilterContext *ctx = outlink->src;
276     MixContext      *s = ctx->priv;
277     AVFilterBufferRef *out_buf, *in_buf;
278     int i;
279
280     calculate_scales(s, nb_samples);
281
282     out_buf = ff_get_audio_buffer(outlink, AV_PERM_WRITE, nb_samples);
283     if (!out_buf)
284         return AVERROR(ENOMEM);
285
286     in_buf = ff_get_audio_buffer(outlink, AV_PERM_WRITE, nb_samples);
287     if (!in_buf)
288         return AVERROR(ENOMEM);
289
290     for (i = 0; i < s->nb_inputs; i++) {
291         if (s->input_state[i] == INPUT_ON) {
292             int planes, plane_size, p;
293
294             av_audio_fifo_read(s->fifos[i], (void **)in_buf->extended_data,
295                                nb_samples);
296
297             planes     = s->planar ? s->nb_channels : 1;
298             plane_size = nb_samples * (s->planar ? 1 : s->nb_channels);
299             plane_size = FFALIGN(plane_size, 16);
300
301             for (p = 0; p < planes; p++) {
302                 s->fdsp.vector_fmac_scalar((float *)out_buf->extended_data[p],
303                                            (float *) in_buf->extended_data[p],
304                                            s->input_scale[i], plane_size);
305             }
306         }
307     }
308     avfilter_unref_buffer(in_buf);
309
310     out_buf->pts = s->next_pts;
311     if (s->next_pts != AV_NOPTS_VALUE)
312         s->next_pts += nb_samples;
313
314     return ff_filter_samples(outlink, out_buf);
315 }
316
317 /**
318  * Returns the smallest number of samples available in the input FIFOs other
319  * than that of the first input.
320  */
321 static int get_available_samples(MixContext *s)
322 {
323     int i;
324     int available_samples = INT_MAX;
325
326     av_assert0(s->nb_inputs > 1);
327
328     for (i = 1; i < s->nb_inputs; i++) {
329         int nb_samples;
330         if (s->input_state[i] == INPUT_OFF)
331             continue;
332         nb_samples = av_audio_fifo_size(s->fifos[i]);
333         available_samples = FFMIN(available_samples, nb_samples);
334     }
335     if (available_samples == INT_MAX)
336         return 0;
337     return available_samples;
338 }
339
340 /**
341  * Requests a frame, if needed, from each input link other than the first.
342  */
343 static int request_samples(AVFilterContext *ctx, int min_samples)
344 {
345     MixContext *s = ctx->priv;
346     int i, ret;
347
348     av_assert0(s->nb_inputs > 1);
349
350     for (i = 1; i < s->nb_inputs; i++) {
351         ret = 0;
352         if (s->input_state[i] == INPUT_OFF)
353             continue;
354         while (!ret && av_audio_fifo_size(s->fifos[i]) < min_samples)
355             ret = ff_request_frame(ctx->inputs[i]);
356         if (ret == AVERROR_EOF) {
357             if (av_audio_fifo_size(s->fifos[i]) == 0) {
358                 s->input_state[i] = INPUT_OFF;
359                 continue;
360             }
361         } else if (ret < 0)
362             return ret;
363     }
364     return 0;
365 }
366
367 /**
368  * Calculates the number of active inputs and determines EOF based on the
369  * duration option.
370  *
371  * @return 0 if mixing should continue, or AVERROR_EOF if mixing should stop.
372  */
373 static int calc_active_inputs(MixContext *s)
374 {
375     int i;
376     int active_inputs = 0;
377     for (i = 0; i < s->nb_inputs; i++)
378         active_inputs += !!(s->input_state[i] != INPUT_OFF);
379     s->active_inputs = active_inputs;
380
381     if (!active_inputs ||
382         (s->duration_mode == DURATION_FIRST && s->input_state[0] == INPUT_OFF) ||
383         (s->duration_mode == DURATION_SHORTEST && active_inputs != s->nb_inputs))
384         return AVERROR_EOF;
385     return 0;
386 }
387
388 static int request_frame(AVFilterLink *outlink)
389 {
390     AVFilterContext *ctx = outlink->src;
391     MixContext      *s = ctx->priv;
392     int ret;
393     int wanted_samples, available_samples;
394
395     ret = calc_active_inputs(s);
396     if (ret < 0)
397         return ret;
398
399     if (s->input_state[0] == INPUT_OFF) {
400         ret = request_samples(ctx, 1);
401         if (ret < 0)
402             return ret;
403
404         ret = calc_active_inputs(s);
405         if (ret < 0)
406             return ret;
407
408         available_samples = get_available_samples(s);
409         if (!available_samples)
410             return AVERROR(EAGAIN);
411
412         return output_frame(outlink, available_samples);
413     }
414
415     if (s->frame_list->nb_frames == 0) {
416         ret = ff_request_frame(ctx->inputs[0]);
417         if (ret == AVERROR_EOF) {
418             s->input_state[0] = INPUT_OFF;
419             if (s->nb_inputs == 1)
420                 return AVERROR_EOF;
421             else
422                 return AVERROR(EAGAIN);
423         } else if (ret < 0)
424             return ret;
425     }
426     av_assert0(s->frame_list->nb_frames > 0);
427
428     wanted_samples = frame_list_next_frame_size(s->frame_list);
429
430     if (s->active_inputs > 1) {
431         ret = request_samples(ctx, wanted_samples);
432         if (ret < 0)
433             return ret;
434
435         ret = calc_active_inputs(s);
436         if (ret < 0)
437             return ret;
438     }
439
440     if (s->active_inputs > 1) {
441         available_samples = get_available_samples(s);
442         if (!available_samples)
443             return AVERROR(EAGAIN);
444         available_samples = FFMIN(available_samples, wanted_samples);
445     } else {
446         available_samples = wanted_samples;
447     }
448
449     s->next_pts = frame_list_next_pts(s->frame_list);
450     frame_list_remove_samples(s->frame_list, available_samples);
451
452     return output_frame(outlink, available_samples);
453 }
454
455 static int filter_samples(AVFilterLink *inlink, AVFilterBufferRef *buf)
456 {
457     AVFilterContext  *ctx = inlink->dst;
458     MixContext       *s = ctx->priv;
459     AVFilterLink *outlink = ctx->outputs[0];
460     int i, ret = 0;
461
462     for (i = 0; i < ctx->nb_inputs; i++)
463         if (ctx->inputs[i] == inlink)
464             break;
465     if (i >= ctx->nb_inputs) {
466         av_log(ctx, AV_LOG_ERROR, "unknown input link\n");
467         ret = AVERROR(EINVAL);
468         goto fail;
469     }
470
471     if (i == 0) {
472         int64_t pts = av_rescale_q(buf->pts, inlink->time_base,
473                                    outlink->time_base);
474         ret = frame_list_add_frame(s->frame_list, buf->audio->nb_samples, pts);
475         if (ret < 0)
476             goto fail;
477     }
478
479     ret = av_audio_fifo_write(s->fifos[i], (void **)buf->extended_data,
480                               buf->audio->nb_samples);
481
482 fail:
483     avfilter_unref_buffer(buf);
484
485     return ret;
486 }
487
488 static int init(AVFilterContext *ctx, const char *args)
489 {
490     MixContext *s = ctx->priv;
491     int i, ret;
492
493     s->class = &amix_class;
494     av_opt_set_defaults(s);
495
496     if ((ret = av_set_options_string(s, args, "=", ":")) < 0) {
497         av_log(ctx, AV_LOG_ERROR, "Error parsing options string '%s'.\n", args);
498         return ret;
499     }
500     av_opt_free(s);
501
502     for (i = 0; i < s->nb_inputs; i++) {
503         char name[32];
504         AVFilterPad pad = { 0 };
505
506         snprintf(name, sizeof(name), "input%d", i);
507         pad.type           = AVMEDIA_TYPE_AUDIO;
508         pad.name           = av_strdup(name);
509         pad.filter_samples = filter_samples;
510
511         ff_insert_inpad(ctx, i, &pad);
512     }
513
514     avpriv_float_dsp_init(&s->fdsp, 0);
515
516     return 0;
517 }
518
519 static void uninit(AVFilterContext *ctx)
520 {
521     int i;
522     MixContext *s = ctx->priv;
523
524     if (s->fifos) {
525         for (i = 0; i < s->nb_inputs; i++)
526             av_audio_fifo_free(s->fifos[i]);
527         av_freep(&s->fifos);
528     }
529     frame_list_clear(s->frame_list);
530     av_freep(&s->frame_list);
531     av_freep(&s->input_state);
532     av_freep(&s->input_scale);
533
534     for (i = 0; i < ctx->nb_inputs; i++)
535         av_freep(&ctx->input_pads[i].name);
536 }
537
538 static int query_formats(AVFilterContext *ctx)
539 {
540     AVFilterFormats *formats = NULL;
541     ff_add_format(&formats, AV_SAMPLE_FMT_FLT);
542     ff_add_format(&formats, AV_SAMPLE_FMT_FLTP);
543     ff_set_common_formats(ctx, formats);
544     ff_set_common_channel_layouts(ctx, ff_all_channel_layouts());
545     ff_set_common_samplerates(ctx, ff_all_samplerates());
546     return 0;
547 }
548
549 AVFilter avfilter_af_amix = {
550     .name          = "amix",
551     .description   = NULL_IF_CONFIG_SMALL("Audio mixing."),
552     .priv_size     = sizeof(MixContext),
553
554     .init           = init,
555     .uninit         = uninit,
556     .query_formats  = query_formats,
557
558     .inputs    = (const AVFilterPad[]) {{ .name = NULL}},
559     .outputs   = (const AVFilterPad[]) {{ .name          = "default",
560                                           .type          = AVMEDIA_TYPE_AUDIO,
561                                           .config_props  = config_output,
562                                           .request_frame = request_frame },
563                                         { .name = NULL}},
564 };