]> git.sesse.net Git - ffmpeg/blob - libavformat/tedcaptionsdec.c
avformat/tedcaptionsdec: Fix leak of AVBPrint upon error
[ffmpeg] / libavformat / tedcaptionsdec.c
1 /*
2  * TED Talks captions format decoder
3  * Copyright (c) 2012 Nicolas George
4  *
5  * This file is part of FFmpeg.
6  *
7  * FFmpeg is free software; you can redistribute it and/or
8  * modify it under the terms of the GNU Lesser General Public
9  * License as published by the Free Software Foundation; either
10  * version 2.1 of the License, or (at your option) any later version.
11  *
12  * FFmpeg is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * Lesser General Public License for more details.
16  *
17  * You should have received a copy of the GNU Lesser General Public
18  * License along with FFmpeg; if not, write to the Free Software
19  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20  */
21
22 #include "libavutil/bprint.h"
23 #include "libavutil/log.h"
24 #include "libavutil/opt.h"
25 #include "avformat.h"
26 #include "internal.h"
27 #include "subtitles.h"
28
29 typedef struct {
30     AVClass *class;
31     int64_t start_time;
32     FFDemuxSubtitlesQueue subs;
33 } TEDCaptionsDemuxer;
34
35 static const AVOption tedcaptions_options[] = {
36     { "start_time", "set the start time (offset) of the subtitles, in ms",
37       offsetof(TEDCaptionsDemuxer, start_time), AV_OPT_TYPE_INT64,
38       { .i64 = 15000 }, INT64_MIN, INT64_MAX,
39       AV_OPT_FLAG_SUBTITLE_PARAM | AV_OPT_FLAG_DECODING_PARAM },
40     { NULL },
41 };
42
43 static const AVClass tedcaptions_demuxer_class = {
44     .class_name = "tedcaptions_demuxer",
45     .item_name  = av_default_item_name,
46     .option     = tedcaptions_options,
47     .version    = LIBAVUTIL_VERSION_INT,
48 };
49
50 #define BETWEEN(a, amin, amax) ((unsigned)((a) - (amin)) <= (amax) - (amin))
51
52 #define HEX_DIGIT_TEST(c) (BETWEEN(c, '0', '9') || BETWEEN((c) | 32, 'a', 'z'))
53 #define HEX_DIGIT_VAL(c) ((c) <= '9' ? (c) - '0' : ((c) | 32) - 'a' + 10)
54 #define ERR_CODE(c) ((c) < 0 ? (c) : AVERROR_INVALIDDATA)
55
56 static void av_bprint_utf8(AVBPrint *bp, unsigned c)
57 {
58     int bytes, i;
59
60     if (c <= 0x7F) {
61         av_bprint_chars(bp, c, 1);
62         return;
63     }
64     bytes = (av_log2(c) - 2) / 5;
65     av_bprint_chars(bp, (c >> (bytes * 6)) | ((0xFF80 >> bytes) & 0xFF), 1);
66     for (i = bytes - 1; i >= 0; i--)
67         av_bprint_chars(bp, ((c >> (i * 6)) & 0x3F) | 0x80, 1);
68 }
69
70 static void next_byte(AVIOContext *pb, int *cur_byte)
71 {
72     uint8_t b;
73     int ret = avio_read(pb, &b, 1);
74     *cur_byte = ret > 0 ? b : ret == 0 ? AVERROR_EOF : ret;
75 }
76
77 static void skip_spaces(AVIOContext *pb, int *cur_byte)
78 {
79     while (*cur_byte == ' '  || *cur_byte == '\t' ||
80            *cur_byte == '\n' || *cur_byte == '\r')
81         next_byte(pb, cur_byte);
82 }
83
84 static int expect_byte(AVIOContext *pb, int *cur_byte, uint8_t c)
85 {
86     skip_spaces(pb, cur_byte);
87     if (*cur_byte != c)
88         return ERR_CODE(*cur_byte);
89     next_byte(pb, cur_byte);
90     return 0;
91 }
92
93 static int parse_string(AVIOContext *pb, int *cur_byte, AVBPrint *bp, int full)
94 {
95     int ret;
96
97     ret = expect_byte(pb, cur_byte, '"');
98     if (ret < 0)
99         return ret;
100     while (*cur_byte > 0 && *cur_byte != '"') {
101         if (*cur_byte == '\\') {
102             next_byte(pb, cur_byte);
103             if (*cur_byte < 0)
104                 return AVERROR_INVALIDDATA;
105             if ((*cur_byte | 32) == 'u') {
106                 unsigned chr = 0, i;
107                 for (i = 0; i < 4; i++) {
108                     next_byte(pb, cur_byte);
109                     if (!HEX_DIGIT_TEST(*cur_byte))
110                         return ERR_CODE(*cur_byte);
111                     chr = chr * 16 + HEX_DIGIT_VAL(*cur_byte);
112                 }
113                 av_bprint_utf8(bp, chr);
114             } else {
115                 av_bprint_chars(bp, *cur_byte, 1);
116             }
117         } else {
118             av_bprint_chars(bp, *cur_byte, 1);
119         }
120         next_byte(pb, cur_byte);
121     }
122     ret = expect_byte(pb, cur_byte, '"');
123     if (ret < 0)
124         return ret;
125     if (full && !av_bprint_is_complete(bp))
126         return AVERROR(ENOMEM);
127
128     return 0;
129 }
130
131 static int parse_label(AVIOContext *pb, int *cur_byte, AVBPrint *bp)
132 {
133     int ret;
134
135     av_bprint_init(bp, 0, AV_BPRINT_SIZE_AUTOMATIC);
136     ret = parse_string(pb, cur_byte, bp, 0);
137     if (ret < 0)
138         return ret;
139     ret = expect_byte(pb, cur_byte, ':');
140     if (ret < 0)
141         return ret;
142     return 0;
143 }
144
145 static int parse_boolean(AVIOContext *pb, int *cur_byte, int *result)
146 {
147     static const char * const text[] = { "false", "true" };
148     const char *p;
149     int i;
150
151     skip_spaces(pb, cur_byte);
152     for (i = 0; i < 2; i++) {
153         p = text[i];
154         if (*cur_byte != *p)
155             continue;
156         for (; *p; p++, next_byte(pb, cur_byte))
157             if (*cur_byte != *p)
158                 return AVERROR_INVALIDDATA;
159         if (BETWEEN(*cur_byte | 32, 'a', 'z'))
160             return AVERROR_INVALIDDATA;
161         *result = i;
162         return 0;
163     }
164     return AVERROR_INVALIDDATA;
165 }
166
167 static int parse_int(AVIOContext *pb, int *cur_byte, int64_t *result)
168 {
169     int64_t val = 0;
170
171     skip_spaces(pb, cur_byte);
172     if ((unsigned)*cur_byte - '0' > 9)
173         return AVERROR_INVALIDDATA;
174     while (BETWEEN(*cur_byte, '0', '9')) {
175         val = val * 10 + (*cur_byte - '0');
176         next_byte(pb, cur_byte);
177     }
178     *result = val;
179     return 0;
180 }
181
182 static int parse_file(AVIOContext *pb, FFDemuxSubtitlesQueue *subs)
183 {
184     int ret, cur_byte, start_of_par;
185     AVBPrint label, content;
186     int64_t pos, start, duration;
187     AVPacket *pkt;
188
189     av_bprint_init(&content, 0, AV_BPRINT_SIZE_UNLIMITED);
190
191     next_byte(pb, &cur_byte);
192     ret = expect_byte(pb, &cur_byte, '{');
193     if (ret < 0)
194         return AVERROR_INVALIDDATA;
195     ret = parse_label(pb, &cur_byte, &label);
196     if (ret < 0 || strcmp(label.str, "captions"))
197         return AVERROR_INVALIDDATA;
198     ret = expect_byte(pb, &cur_byte, '[');
199     if (ret < 0)
200         return AVERROR_INVALIDDATA;
201     while (1) {
202         start = duration = AV_NOPTS_VALUE;
203         ret = expect_byte(pb, &cur_byte, '{');
204         if (ret < 0)
205             goto fail;
206         pos = avio_tell(pb) - 1;
207         while (1) {
208             ret = parse_label(pb, &cur_byte, &label);
209             if (ret < 0)
210                 goto fail;
211             if (!strcmp(label.str, "startOfParagraph")) {
212                 ret = parse_boolean(pb, &cur_byte, &start_of_par);
213                 if (ret < 0)
214                     goto fail;
215             } else if (!strcmp(label.str, "content")) {
216                 ret = parse_string(pb, &cur_byte, &content, 1);
217                 if (ret < 0)
218                     goto fail;
219             } else if (!strcmp(label.str, "startTime")) {
220                 ret = parse_int(pb, &cur_byte, &start);
221                 if (ret < 0)
222                     goto fail;
223             } else if (!strcmp(label.str, "duration")) {
224                 ret = parse_int(pb, &cur_byte, &duration);
225                 if (ret < 0)
226                     goto fail;
227             } else {
228                 ret = AVERROR_INVALIDDATA;
229                 goto fail;
230             }
231             skip_spaces(pb, &cur_byte);
232             if (cur_byte != ',')
233                 break;
234             next_byte(pb, &cur_byte);
235         }
236         ret = expect_byte(pb, &cur_byte, '}');
237         if (ret < 0)
238             goto fail;
239
240         if (!content.size || start == AV_NOPTS_VALUE ||
241             duration == AV_NOPTS_VALUE) {
242             ret = AVERROR_INVALIDDATA;
243             goto fail;
244         }
245         pkt = ff_subtitles_queue_insert(subs, content.str, content.len, 0);
246         if (!pkt) {
247             ret = AVERROR(ENOMEM);
248             goto fail;
249         }
250         pkt->pos      = pos;
251         pkt->pts      = start;
252         pkt->duration = duration;
253         av_bprint_clear(&content);
254
255         skip_spaces(pb, &cur_byte);
256         if (cur_byte != ',')
257             break;
258         next_byte(pb, &cur_byte);
259     }
260     ret = expect_byte(pb, &cur_byte, ']');
261     if (ret < 0)
262         goto fail;
263     ret = expect_byte(pb, &cur_byte, '}');
264     if (ret < 0)
265         goto fail;
266     skip_spaces(pb, &cur_byte);
267     if (cur_byte != AVERROR_EOF)
268         ret = ERR_CODE(cur_byte);
269 fail:
270     av_bprint_finalize(&content, NULL);
271     return ret;
272 }
273
274 static av_cold int tedcaptions_read_header(AVFormatContext *avf)
275 {
276     TEDCaptionsDemuxer *tc = avf->priv_data;
277     AVStream *st = avformat_new_stream(avf, NULL);
278     int ret, i;
279     AVPacket *last;
280
281     if (!st)
282         return AVERROR(ENOMEM);
283
284     ret = parse_file(avf->pb, &tc->subs);
285     if (ret < 0) {
286         if (ret == AVERROR_INVALIDDATA)
287             av_log(avf, AV_LOG_ERROR, "Syntax error near offset %"PRId64".\n",
288                    avio_tell(avf->pb));
289         ff_subtitles_queue_clean(&tc->subs);
290         return ret;
291     }
292     ff_subtitles_queue_finalize(avf, &tc->subs);
293     for (i = 0; i < tc->subs.nb_subs; i++)
294         tc->subs.subs[i].pts += tc->start_time;
295
296     last = &tc->subs.subs[tc->subs.nb_subs - 1];
297     st->codecpar->codec_type     = AVMEDIA_TYPE_SUBTITLE;
298     st->codecpar->codec_id       = AV_CODEC_ID_TEXT;
299     avpriv_set_pts_info(st, 64, 1, 1000);
300     st->probe_packets = 0;
301     st->start_time    = 0;
302     st->duration      = last->pts + last->duration;
303     st->cur_dts       = 0;
304
305     return 0;
306 }
307
308 static int tedcaptions_read_packet(AVFormatContext *avf, AVPacket *packet)
309 {
310     TEDCaptionsDemuxer *tc = avf->priv_data;
311
312     return ff_subtitles_queue_read_packet(&tc->subs, packet);
313 }
314
315 static int tedcaptions_read_close(AVFormatContext *avf)
316 {
317     TEDCaptionsDemuxer *tc = avf->priv_data;
318
319     ff_subtitles_queue_clean(&tc->subs);
320     return 0;
321 }
322
323 static av_cold int tedcaptions_read_probe(const AVProbeData *p)
324 {
325     static const char *const tags[] = {
326         "\"captions\"", "\"duration\"", "\"content\"",
327         "\"startOfParagraph\"", "\"startTime\"",
328     };
329     unsigned i, count = 0;
330     const char *t;
331
332     if (p->buf[strspn(p->buf, " \t\r\n")] != '{')
333         return 0;
334     for (i = 0; i < FF_ARRAY_ELEMS(tags); i++) {
335         if (!(t = strstr(p->buf, tags[i])))
336             continue;
337         t += strlen(tags[i]);
338         t += strspn(t, " \t\r\n");
339         if (*t == ':')
340             count++;
341     }
342     return count == FF_ARRAY_ELEMS(tags) ? AVPROBE_SCORE_MAX :
343            count                         ? AVPROBE_SCORE_EXTENSION : 0;
344 }
345
346 static int tedcaptions_read_seek(AVFormatContext *avf, int stream_index,
347                                  int64_t min_ts, int64_t ts, int64_t max_ts,
348                                  int flags)
349 {
350     TEDCaptionsDemuxer *tc = avf->priv_data;
351     return ff_subtitles_queue_seek(&tc->subs, avf, stream_index,
352                                    min_ts, ts, max_ts, flags);
353 }
354
355 AVInputFormat ff_tedcaptions_demuxer = {
356     .name           = "tedcaptions",
357     .long_name      = NULL_IF_CONFIG_SMALL("TED Talks captions"),
358     .priv_data_size = sizeof(TEDCaptionsDemuxer),
359     .priv_class     = &tedcaptions_demuxer_class,
360     .read_header    = tedcaptions_read_header,
361     .read_packet    = tedcaptions_read_packet,
362     .read_close     = tedcaptions_read_close,
363     .read_probe     = tedcaptions_read_probe,
364     .read_seek2     = tedcaptions_read_seek,
365 };