]> git.sesse.net Git - ffmpeg/blob - libavcodec/lagarith.c
lagarith: frame multithreading
[ffmpeg] / libavcodec / lagarith.c
1 /*
2  * Lagarith lossless decoder
3  * Copyright (c) 2009 Nathan Caldwell <saintdev (at) gmail.com>
4  *
5  * This file is part of Libav.
6  *
7  * Libav is free software; you can redistribute it and/or
8  * modify it under the terms of the GNU Lesser General Public
9  * License as published by the Free Software Foundation; either
10  * version 2.1 of the License, or (at your option) any later version.
11  *
12  * Libav is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15  * Lesser General Public License for more details.
16  *
17  * You should have received a copy of the GNU Lesser General Public
18  * License along with Libav; if not, write to the Free Software
19  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20  */
21
22 /**
23  * @file
24  * Lagarith lossless decoder
25  * @author Nathan Caldwell
26  */
27
28 #include "avcodec.h"
29 #include "get_bits.h"
30 #include "mathops.h"
31 #include "dsputil.h"
32 #include "lagarithrac.h"
33 #include "thread.h"
34
35 enum LagarithFrameType {
36     FRAME_RAW           = 1,    /**< uncompressed */
37     FRAME_U_RGB24       = 2,    /**< unaligned RGB24 */
38     FRAME_ARITH_YUY2    = 3,    /**< arithmetic coded YUY2 */
39     FRAME_ARITH_RGB24   = 4,    /**< arithmetic coded RGB24 */
40     FRAME_SOLID_GRAY    = 5,    /**< solid grayscale color frame */
41     FRAME_SOLID_COLOR   = 6,    /**< solid non-grayscale color frame */
42     FRAME_OLD_ARITH_RGB = 7,    /**< obsolete arithmetic coded RGB (no longer encoded by upstream since version 1.1.0) */
43     FRAME_ARITH_RGBA    = 8,    /**< arithmetic coded RGBA */
44     FRAME_SOLID_RGBA    = 9,    /**< solid RGBA color frame */
45     FRAME_ARITH_YV12    = 10,   /**< arithmetic coded YV12 */
46     FRAME_REDUCED_RES   = 11,   /**< reduced resolution YV12 frame */
47 };
48
49 typedef struct LagarithContext {
50     AVCodecContext *avctx;
51     AVFrame picture;
52     DSPContext dsp;
53     int zeros;                  /**< number of consecutive zero bytes encountered */
54     int zeros_rem;              /**< number of zero bytes remaining to output */
55     uint8_t *rgb_planes;
56     int rgb_stride;
57 } LagarithContext;
58
59 /**
60  * Compute the 52bit mantissa of 1/(double)denom.
61  * This crazy format uses floats in an entropy coder and we have to match x86
62  * rounding exactly, thus ordinary floats aren't portable enough.
63  * @param denom denominator
64  * @return 52bit mantissa
65  * @see softfloat_mul
66  */
67 static uint64_t softfloat_reciprocal(uint32_t denom)
68 {
69     int shift = av_log2(denom - 1) + 1;
70     uint64_t ret = (1ULL << 52) / denom;
71     uint64_t err = (1ULL << 52) - ret * denom;
72     ret <<= shift;
73     err <<= shift;
74     err +=  denom / 2;
75     return ret + err / denom;
76 }
77
78 /**
79  * (uint32_t)(x*f), where f has the given mantissa, and exponent 0
80  * Used in combination with softfloat_reciprocal computes x/(double)denom.
81  * @param x 32bit integer factor
82  * @param mantissa mantissa of f with exponent 0
83  * @return 32bit integer value (x*f)
84  * @see softfloat_reciprocal
85  */
86 static uint32_t softfloat_mul(uint32_t x, uint64_t mantissa)
87 {
88     uint64_t l = x * (mantissa & 0xffffffff);
89     uint64_t h = x * (mantissa >> 32);
90     h += l >> 32;
91     l &= 0xffffffff;
92     l += 1 << av_log2(h >> 21);
93     h += l >> 32;
94     return h >> 20;
95 }
96
97 static uint8_t lag_calc_zero_run(int8_t x)
98 {
99     return (x << 1) ^ (x >> 7);
100 }
101
102 static int lag_decode_prob(GetBitContext *gb, uint32_t *value)
103 {
104     static const uint8_t series[] = { 1, 2, 3, 5, 8, 13, 21 };
105     int i;
106     int bit     = 0;
107     int bits    = 0;
108     int prevbit = 0;
109     unsigned val;
110
111     for (i = 0; i < 7; i++) {
112         if (prevbit && bit)
113             break;
114         prevbit = bit;
115         bit = get_bits1(gb);
116         if (bit && !prevbit)
117             bits += series[i];
118     }
119     bits--;
120     if (bits < 0 || bits > 31) {
121         *value = 0;
122         return -1;
123     } else if (bits == 0) {
124         *value = 0;
125         return 0;
126     }
127
128     val  = get_bits_long(gb, bits);
129     val |= 1 << bits;
130
131     *value = val - 1;
132
133     return 0;
134 }
135
136 static int lag_read_prob_header(lag_rac *rac, GetBitContext *gb)
137 {
138     int i, j, scale_factor;
139     unsigned prob, cumulative_target;
140     unsigned cumul_prob = 0;
141     unsigned scaled_cumul_prob = 0;
142
143     rac->prob[0] = 0;
144     rac->prob[257] = UINT_MAX;
145     /* Read probabilities from bitstream */
146     for (i = 1; i < 257; i++) {
147         if (lag_decode_prob(gb, &rac->prob[i]) < 0) {
148             av_log(rac->avctx, AV_LOG_ERROR, "Invalid probability encountered.\n");
149             return -1;
150         }
151         if ((uint64_t)cumul_prob + rac->prob[i] > UINT_MAX) {
152             av_log(rac->avctx, AV_LOG_ERROR, "Integer overflow encountered in cumulative probability calculation.\n");
153             return -1;
154         }
155         cumul_prob += rac->prob[i];
156         if (!rac->prob[i]) {
157             if (lag_decode_prob(gb, &prob)) {
158                 av_log(rac->avctx, AV_LOG_ERROR, "Invalid probability run encountered.\n");
159                 return -1;
160             }
161             if (prob > 257 - i)
162                 prob = 257 - i;
163             for (j = 0; j < prob; j++)
164                 rac->prob[++i] = 0;
165         }
166     }
167
168     if (!cumul_prob) {
169         av_log(rac->avctx, AV_LOG_ERROR, "All probabilities are 0!\n");
170         return -1;
171     }
172
173     /* Scale probabilities so cumulative probability is an even power of 2. */
174     scale_factor = av_log2(cumul_prob);
175
176     if (cumul_prob & (cumul_prob - 1)) {
177         uint64_t mul = softfloat_reciprocal(cumul_prob);
178         for (i = 1; i < 257; i++) {
179             rac->prob[i] = softfloat_mul(rac->prob[i], mul);
180             scaled_cumul_prob += rac->prob[i];
181         }
182
183         scale_factor++;
184         cumulative_target = 1 << scale_factor;
185
186         if (scaled_cumul_prob > cumulative_target) {
187             av_log(rac->avctx, AV_LOG_ERROR,
188                    "Scaled probabilities are larger than target!\n");
189             return -1;
190         }
191
192         scaled_cumul_prob = cumulative_target - scaled_cumul_prob;
193
194         for (i = 1; scaled_cumul_prob; i = (i & 0x7f) + 1) {
195             if (rac->prob[i]) {
196                 rac->prob[i]++;
197                 scaled_cumul_prob--;
198             }
199             /* Comment from reference source:
200              * if (b & 0x80 == 0) {     // order of operations is 'wrong'; it has been left this way
201              *                          // since the compression change is negligable and fixing it
202              *                          // breaks backwards compatibilty
203              *      b =- (signed int)b;
204              *      b &= 0xFF;
205              * } else {
206              *      b++;
207              *      b &= 0x7f;
208              * }
209              */
210         }
211     }
212
213     rac->scale = scale_factor;
214
215     /* Fill probability array with cumulative probability for each symbol. */
216     for (i = 1; i < 257; i++)
217         rac->prob[i] += rac->prob[i - 1];
218
219     return 0;
220 }
221
222 static void add_lag_median_prediction(uint8_t *dst, uint8_t *src1,
223                                       uint8_t *diff, int w, int *left,
224                                       int *left_top)
225 {
226     /* This is almost identical to add_hfyu_median_prediction in dsputil.h.
227      * However the &0xFF on the gradient predictor yealds incorrect output
228      * for lagarith.
229      */
230     int i;
231     uint8_t l, lt;
232
233     l  = *left;
234     lt = *left_top;
235
236     for (i = 0; i < w; i++) {
237         l = mid_pred(l, src1[i], l + src1[i] - lt) + diff[i];
238         lt = src1[i];
239         dst[i] = l;
240     }
241
242     *left     = l;
243     *left_top = lt;
244 }
245
246 static void lag_pred_line(LagarithContext *l, uint8_t *buf,
247                           int width, int stride, int line)
248 {
249     int L, TL;
250
251     if (!line) {
252         /* Left prediction only for first line */
253         L = l->dsp.add_hfyu_left_prediction(buf + 1, buf + 1,
254                                             width - 1, buf[0]);
255     } else {
256         /* Left pixel is actually prev_row[width] */
257         L = buf[width - stride - 1];
258
259         if (line == 1) {
260             /* Second line, left predict first pixel, the rest of the line is median predicted
261              * NOTE: In the case of RGB this pixel is top predicted */
262             TL = l->avctx->pix_fmt == PIX_FMT_YUV420P ? buf[-stride] : L;
263         } else {
264             /* Top left is 2 rows back, last pixel */
265             TL = buf[width - (2 * stride) - 1];
266         }
267
268         add_lag_median_prediction(buf, buf - stride, buf,
269                                   width, &L, &TL);
270     }
271 }
272
273 static void lag_pred_line_yuy2(LagarithContext *l, uint8_t *buf,
274                                int width, int stride, int line,
275                                int is_luma)
276 {
277     int L, TL;
278
279     if (!line) {
280         if (is_luma) {
281             buf++;
282             width--;
283         }
284         l->dsp.add_hfyu_left_prediction(buf + 1, buf + 1, width - 1, buf[0]);
285         return;
286     }
287     if (line == 1) {
288         const int HEAD = is_luma ? 4 : 2;
289         int i;
290
291         L  = buf[width - stride - 1];
292         TL = buf[HEAD  - stride - 1];
293         for (i = 0; i < HEAD; i++) {
294             L += buf[i];
295             buf[i] = L;
296         }
297         buf   += HEAD;
298         width -= HEAD;
299     } else {
300         TL = buf[width - (2 * stride) - 1];
301         L  = buf[width - stride - 1];
302     }
303     l->dsp.add_hfyu_median_prediction(buf, buf - stride, buf, width,
304                                       &L, &TL);
305 }
306
307 static int lag_decode_line(LagarithContext *l, lag_rac *rac,
308                            uint8_t *dst, int width, int stride,
309                            int esc_count)
310 {
311     int i = 0;
312     int ret = 0;
313
314     if (!esc_count)
315         esc_count = -1;
316
317     /* Output any zeros remaining from the previous run */
318 handle_zeros:
319     if (l->zeros_rem) {
320         int count = FFMIN(l->zeros_rem, width - i);
321         memset(dst + i, 0, count);
322         i += count;
323         l->zeros_rem -= count;
324     }
325
326     while (i < width) {
327         dst[i] = lag_get_rac(rac);
328         ret++;
329
330         if (dst[i])
331             l->zeros = 0;
332         else
333             l->zeros++;
334
335         i++;
336         if (l->zeros == esc_count) {
337             int index = lag_get_rac(rac);
338             ret++;
339
340             l->zeros = 0;
341
342             l->zeros_rem = lag_calc_zero_run(index);
343             goto handle_zeros;
344         }
345     }
346     return ret;
347 }
348
349 static int lag_decode_zero_run_line(LagarithContext *l, uint8_t *dst,
350                                     const uint8_t *src, const uint8_t *src_end,
351                                     int width, int esc_count)
352 {
353     int i = 0;
354     int count;
355     uint8_t zero_run = 0;
356     const uint8_t *src_start = src;
357     uint8_t mask1 = -(esc_count < 2);
358     uint8_t mask2 = -(esc_count < 3);
359     uint8_t *end = dst + (width - 2);
360
361 output_zeros:
362     if (l->zeros_rem) {
363         count = FFMIN(l->zeros_rem, width - i);
364         memset(dst, 0, count);
365         l->zeros_rem -= count;
366         dst += count;
367     }
368
369     while (dst < end) {
370         i = 0;
371         while (!zero_run && dst + i < end) {
372             i++;
373             if (src + i >= src_end)
374                 return AVERROR_INVALIDDATA;
375             zero_run =
376                 !(src[i] | (src[i + 1] & mask1) | (src[i + 2] & mask2));
377         }
378         if (zero_run) {
379             zero_run = 0;
380             i += esc_count;
381             memcpy(dst, src, i);
382             dst += i;
383             l->zeros_rem = lag_calc_zero_run(src[i]);
384
385             src += i + 1;
386             goto output_zeros;
387         } else {
388             memcpy(dst, src, i);
389             src += i;
390             dst += i;
391         }
392     }
393     return src_start - src;
394 }
395
396
397
398 static int lag_decode_arith_plane(LagarithContext *l, uint8_t *dst,
399                                   int width, int height, int stride,
400                                   const uint8_t *src, int src_size)
401 {
402     int i = 0;
403     int read = 0;
404     uint32_t length;
405     uint32_t offset = 1;
406     int esc_count = src[0];
407     GetBitContext gb;
408     lag_rac rac;
409     const uint8_t *src_end = src + src_size;
410
411     rac.avctx = l->avctx;
412     l->zeros = 0;
413
414     if (esc_count < 4) {
415         length = width * height;
416         if (esc_count && AV_RL32(src + 1) < length) {
417             length = AV_RL32(src + 1);
418             offset += 4;
419         }
420
421         init_get_bits(&gb, src + offset, src_size * 8);
422
423         if (lag_read_prob_header(&rac, &gb) < 0)
424             return -1;
425
426         ff_lag_rac_init(&rac, &gb, length - stride);
427
428         for (i = 0; i < height; i++)
429             read += lag_decode_line(l, &rac, dst + (i * stride), width,
430                                     stride, esc_count);
431
432         if (read > length)
433             av_log(l->avctx, AV_LOG_WARNING,
434                    "Output more bytes than length (%d of %d)\n", read,
435                    length);
436     } else if (esc_count < 8) {
437         esc_count -= 4;
438         if (esc_count > 0) {
439             /* Zero run coding only, no range coding. */
440             for (i = 0; i < height; i++) {
441                 int res = lag_decode_zero_run_line(l, dst + (i * stride), src,
442                                                    src_end, width, esc_count);
443                 if (res < 0)
444                     return res;
445                 src += res;
446             }
447         } else {
448             if (src_size < width * height)
449                 return AVERROR_INVALIDDATA; // buffer not big enough
450             /* Plane is stored uncompressed */
451             for (i = 0; i < height; i++) {
452                 memcpy(dst + (i * stride), src, width);
453                 src += width;
454             }
455         }
456     } else if (esc_count == 0xff) {
457         /* Plane is a solid run of given value */
458         for (i = 0; i < height; i++)
459             memset(dst + i * stride, src[1], width);
460         /* Do not apply prediction.
461            Note: memset to 0 above, setting first value to src[1]
462            and applying prediction gives the same result. */
463         return 0;
464     } else {
465         av_log(l->avctx, AV_LOG_ERROR,
466                "Invalid zero run escape code! (%#x)\n", esc_count);
467         return -1;
468     }
469
470     if (l->avctx->pix_fmt != PIX_FMT_YUV422P) {
471         for (i = 0; i < height; i++) {
472             lag_pred_line(l, dst, width, stride, i);
473             dst += stride;
474         }
475     } else {
476         for (i = 0; i < height; i++) {
477             lag_pred_line_yuy2(l, dst, width, stride, i,
478                                width == l->avctx->width);
479             dst += stride;
480         }
481     }
482
483     return 0;
484 }
485
486 /**
487  * Decode a frame.
488  * @param avctx codec context
489  * @param data output AVFrame
490  * @param data_size size of output data or 0 if no picture is returned
491  * @param avpkt input packet
492  * @return number of consumed bytes on success or negative if decode fails
493  */
494 static int lag_decode_frame(AVCodecContext *avctx,
495                             void *data, int *data_size, AVPacket *avpkt)
496 {
497     const uint8_t *buf = avpkt->data;
498     int buf_size = avpkt->size;
499     LagarithContext *l = avctx->priv_data;
500     AVFrame *const p = &l->picture;
501     uint8_t frametype = 0;
502     uint32_t offset_gu = 0, offset_bv = 0, offset_ry = 9;
503     uint32_t offs[4];
504     uint8_t *srcs[4], *dst;
505     int i, j, planes = 3;
506
507     AVFrame *picture = data;
508
509     if (p->data[0])
510         ff_thread_release_buffer(avctx, p);
511
512     p->reference = 0;
513     p->key_frame = 1;
514
515     frametype = buf[0];
516
517     offset_gu = AV_RL32(buf + 1);
518     offset_bv = AV_RL32(buf + 5);
519
520     switch (frametype) {
521     case FRAME_SOLID_RGBA:
522         avctx->pix_fmt = PIX_FMT_RGB32;
523
524         if (ff_thread_get_buffer(avctx, p) < 0) {
525             av_log(avctx, AV_LOG_ERROR, "get_buffer() failed\n");
526             return -1;
527         }
528
529         dst = p->data[0];
530         for (j = 0; j < avctx->height; j++) {
531             for (i = 0; i < avctx->width; i++)
532                 AV_WN32(dst + i * 4, offset_gu);
533             dst += p->linesize[0];
534         }
535         break;
536     case FRAME_ARITH_RGBA:
537         avctx->pix_fmt = PIX_FMT_RGB32;
538         planes = 4;
539         offset_ry += 4;
540         offs[3] = AV_RL32(buf + 9);
541     case FRAME_ARITH_RGB24:
542     case FRAME_U_RGB24:
543         if (frametype == FRAME_ARITH_RGB24 || frametype == FRAME_U_RGB24)
544             avctx->pix_fmt = PIX_FMT_RGB24;
545
546         if (ff_thread_get_buffer(avctx, p) < 0) {
547             av_log(avctx, AV_LOG_ERROR, "get_buffer() failed\n");
548             return -1;
549         }
550
551         offs[0] = offset_bv;
552         offs[1] = offset_gu;
553         offs[2] = offset_ry;
554
555         if (!l->rgb_planes) {
556             l->rgb_stride = FFALIGN(avctx->width, 16);
557             l->rgb_planes = av_malloc(l->rgb_stride * avctx->height * planes + 1);
558             if (!l->rgb_planes) {
559                 av_log(avctx, AV_LOG_ERROR, "cannot allocate temporary buffer\n");
560                 return AVERROR(ENOMEM);
561             }
562         }
563         for (i = 0; i < planes; i++)
564             srcs[i] = l->rgb_planes + (i + 1) * l->rgb_stride * avctx->height - l->rgb_stride;
565         if (offset_ry >= buf_size ||
566             offset_gu >= buf_size ||
567             offset_bv >= buf_size ||
568             (planes == 4 && offs[3] >= buf_size)) {
569             av_log(avctx, AV_LOG_ERROR,
570                     "Invalid frame offsets\n");
571             return AVERROR_INVALIDDATA;
572         }
573         for (i = 0; i < planes; i++)
574             lag_decode_arith_plane(l, srcs[i],
575                                    avctx->width, avctx->height,
576                                    -l->rgb_stride, buf + offs[i],
577                                    buf_size - offs[i]);
578         dst = p->data[0];
579         for (i = 0; i < planes; i++)
580             srcs[i] = l->rgb_planes + i * l->rgb_stride * avctx->height;
581         for (j = 0; j < avctx->height; j++) {
582             for (i = 0; i < avctx->width; i++) {
583                 uint8_t r, g, b, a;
584                 r = srcs[0][i];
585                 g = srcs[1][i];
586                 b = srcs[2][i];
587                 r += g;
588                 b += g;
589                 if (frametype == FRAME_ARITH_RGBA) {
590                     a = srcs[3][i];
591                     AV_WN32(dst + i * 4, MKBETAG(a, r, g, b));
592                 } else {
593                     dst[i * 3 + 0] = r;
594                     dst[i * 3 + 1] = g;
595                     dst[i * 3 + 2] = b;
596                 }
597             }
598             dst += p->linesize[0];
599             for (i = 0; i < planes; i++)
600                 srcs[i] += l->rgb_stride;
601         }
602         break;
603     case FRAME_ARITH_YUY2:
604         avctx->pix_fmt = PIX_FMT_YUV422P;
605
606         if (ff_thread_get_buffer(avctx, p) < 0) {
607             av_log(avctx, AV_LOG_ERROR, "get_buffer() failed\n");
608             return -1;
609         }
610
611         if (offset_ry >= buf_size ||
612             offset_gu >= buf_size ||
613             offset_bv >= buf_size) {
614             av_log(avctx, AV_LOG_ERROR,
615                    "Invalid frame offsets\n");
616             return AVERROR_INVALIDDATA;
617         }
618
619         lag_decode_arith_plane(l, p->data[0], avctx->width, avctx->height,
620                                p->linesize[0], buf + offset_ry,
621                                buf_size - offset_ry);
622         lag_decode_arith_plane(l, p->data[1], avctx->width / 2,
623                                avctx->height, p->linesize[1],
624                                buf + offset_gu, buf_size - offset_gu);
625         lag_decode_arith_plane(l, p->data[2], avctx->width / 2,
626                                avctx->height, p->linesize[2],
627                                buf + offset_bv, buf_size - offset_bv);
628         break;
629     case FRAME_ARITH_YV12:
630         avctx->pix_fmt = PIX_FMT_YUV420P;
631
632         if (ff_thread_get_buffer(avctx, p) < 0) {
633             av_log(avctx, AV_LOG_ERROR, "get_buffer() failed\n");
634             return -1;
635         }
636
637         if (offset_ry >= buf_size ||
638             offset_gu >= buf_size ||
639             offset_bv >= buf_size) {
640             av_log(avctx, AV_LOG_ERROR,
641                    "Invalid frame offsets\n");
642             return AVERROR_INVALIDDATA;
643         }
644
645         lag_decode_arith_plane(l, p->data[0], avctx->width, avctx->height,
646                                p->linesize[0], buf + offset_ry,
647                                buf_size - offset_ry);
648         lag_decode_arith_plane(l, p->data[2], avctx->width / 2,
649                                avctx->height / 2, p->linesize[2],
650                                buf + offset_gu, buf_size - offset_gu);
651         lag_decode_arith_plane(l, p->data[1], avctx->width / 2,
652                                avctx->height / 2, p->linesize[1],
653                                buf + offset_bv, buf_size - offset_bv);
654         break;
655     default:
656         av_log(avctx, AV_LOG_ERROR,
657                "Unsupported Lagarith frame type: %#x\n", frametype);
658         return -1;
659     }
660
661     *picture = *p;
662     *data_size = sizeof(AVFrame);
663
664     return buf_size;
665 }
666
667 static av_cold int lag_decode_init(AVCodecContext *avctx)
668 {
669     LagarithContext *l = avctx->priv_data;
670     l->avctx = avctx;
671
672     ff_dsputil_init(&l->dsp, avctx);
673
674     return 0;
675 }
676
677 static av_cold int lag_decode_end(AVCodecContext *avctx)
678 {
679     LagarithContext *l = avctx->priv_data;
680
681     if (l->picture.data[0])
682         ff_thread_release_buffer(avctx, &l->picture);
683     av_freep(&l->rgb_planes);
684
685     return 0;
686 }
687
688 AVCodec ff_lagarith_decoder = {
689     .name           = "lagarith",
690     .type           = AVMEDIA_TYPE_VIDEO,
691     .id             = AV_CODEC_ID_LAGARITH,
692     .priv_data_size = sizeof(LagarithContext),
693     .init           = lag_decode_init,
694     .close          = lag_decode_end,
695     .decode         = lag_decode_frame,
696     .capabilities   = CODEC_CAP_DR1 | CODEC_CAP_FRAME_THREADS,
697     .long_name      = NULL_IF_CONFIG_SMALL("Lagarith lossless"),
698 };