]> git.sesse.net Git - ffmpeg/blob - libavcodec/mpegvideo.h
6b6782334272ae1c6c9fdba90a5724cf767e7412
[ffmpeg] / libavcodec / mpegvideo.h
1 /*
2  * Generic DCT based hybrid video encoder
3  * Copyright (c) 2000,2001 Gerard Lantau.
4  *
5  * This program is free software; you can redistribute it and/or modify
6  * it under the terms of the GNU General Public License as published by
7  * the Free Software Foundation; either version 2 of the License, or
8  * (at your option) any later version.
9  *
10  * This program is distributed in the hope that it will be useful,
11  * but WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
13  * GNU General Public License for more details.
14  *
15  * You should have received a copy of the GNU General Public License
16  * along with this program; if not, write to the Free Software
17  * Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
18  */
19
20 /* Macros for picture code type. */
21 #define I_TYPE 1
22 #define P_TYPE 2
23 #define B_TYPE 3
24 #define S_TYPE 4 //S(GMC)-VOP MPEG4
25
26 #define FRAME_SKIPED 100 // return value for header parsers if frame is not coded
27
28 enum OutputFormat {
29     FMT_MPEG1,
30     FMT_H263,
31     FMT_MJPEG, 
32 };
33
34 #define MPEG_BUF_SIZE (16 * 1024)
35
36 #define QMAT_SHIFT_MMX 19
37 #define QMAT_SHIFT 25
38
39 #define MAX_FCODE 7
40 #define MAX_MV 2048
41 #define REORDER_BUFFER_SIZE (FF_MAX_B_FRAMES+2)
42
43 typedef struct Predictor{
44     double coeff;
45     double count;
46     double decay;
47 } Predictor;
48
49 typedef struct RateControlEntry{
50     int pict_type;
51     int qscale;
52     int mv_bits;
53     int i_tex_bits;
54     int p_tex_bits;
55     int misc_bits;
56     uint64_t expected_bits;
57     int new_pict_type;
58     float new_qscale;
59 }RateControlEntry;
60
61 typedef struct RateControlContext{
62     FILE *stats_file;
63     int num_entries;
64     RateControlEntry *entry;
65 }RateControlContext;
66
67 typedef struct ReorderBuffer{
68     UINT8 *picture[3];
69     int pict_type;
70     int qscale;
71     int force_type;
72     int picture_number;
73     int picture_in_gop_number;
74 } ReorderBuffer;
75
76 typedef struct MpegEncContext {
77     struct AVCodecContext *avctx;
78     /* the following parameters must be initialized before encoding */
79     int width, height; /* picture size. must be a multiple of 16 */
80     int gop_size;
81     int frame_rate; /* number of frames per second */
82     int intra_only; /* if true, only intra pictures are generated */
83     int bit_rate;        /* wanted bit rate */
84     int bit_rate_tolerance; /* amount of +- bits (>0)*/
85     enum OutputFormat out_format; /* output format */
86     int h263_plus; /* h263 plus headers */
87     int h263_rv10; /* use RV10 variation for H263 */
88     int h263_pred; /* use mpeg4/h263 ac/dc predictions */
89     int h263_msmpeg4; /* generate MSMPEG4 compatible stream */
90     int h263_intel; /* use I263 intel h263 header */
91     int fixed_qscale; /* fixed qscale if non zero */
92     float qcompress;  /* amount of qscale change between easy & hard scenes (0.0-1.0) */
93     float qblur;      /* amount of qscale smoothing over time (0.0-1.0) */
94     int qmin;         /* min qscale */
95     int qmax;         /* max qscale */
96     int max_qdiff;    /* max qscale difference between frames */
97     int encoding;     /* true if we are encoding (vs decoding) */
98     int flags;        /* AVCodecContext.flags (HQ, MV4, ...) */
99     int force_input_type;/* 0= no force, otherwise I_TYPE, P_TYPE, ... */
100     int max_b_frames; /* max number of b-frames for encoding */
101     float b_quant_factor;/* qscale factor between ips and b frames */
102     int rc_strategy;
103     int b_frame_strategy;
104     /* the following fields are managed internally by the encoder */
105
106     /* bit output */
107     PutBitContext pb;
108
109     /* sequence parameters */
110     int context_initialized;
111     int input_picture_number;
112     int input_picture_in_gop_number; /* 0-> first pic in gop, ... */
113     int picture_number;
114     int fake_picture_number; /* picture number at the bitstream frame rate */
115     int gop_picture_number;  /* index of the first picture of a GOP based on fake_pic_num & mpeg1 specific */
116     int picture_in_gop_number; /* 0-> first pic in gop, ... */
117     int b_frames_since_non_b;  /* used for encoding, relative to not yet reordered input */
118     int mb_width, mb_height;   /* number of MBs horizontally & vertically */
119     int mb_num;                /* number of MBs of a picture */
120     int linesize;              /* line size, in bytes, may be different from width */
121     UINT8 *new_picture[3];     /* picture to be compressed */
122     UINT8 *picture_buffer[REORDER_BUFFER_SIZE][3]; /* internal buffers used for reordering of input pictures */
123     int picture_buffer_index;
124     ReorderBuffer coded_order[REORDER_BUFFER_SIZE];
125     UINT8 *last_picture[3];      /* previous picture */
126     UINT8 *last_picture_base[3]; /* real start of the picture */
127     UINT8 *next_picture[3];      /* previous picture (for bidir pred) */
128     UINT8 *next_picture_base[3]; /* real start of the picture */
129     UINT8 *aux_picture[3];       /* aux picture (for B frames only) */
130     UINT8 *aux_picture_base[3];  /* real start of the picture */
131     UINT8 *current_picture[3];   /* buffer to store the decompressed current picture */
132     int last_dc[3];              /* last DC values for MPEG1 */
133     INT16 *dc_val[3];            /* used for mpeg4 DC prediction, all 3 arrays must be continuous */
134     int y_dc_scale, c_dc_scale;
135     UINT8 *coded_block;          /* used for coded block pattern prediction (msmpeg4v3, wmv1)*/
136     INT16 (*ac_val[3])[16];      /* used for for mpeg4 AC prediction, all 3 arrays must be continuous */
137     int ac_pred;
138     int mb_skiped;              /* MUST BE SET only during DECODING */
139     UINT8 *mbskip_table;        /* used to avoid copy if macroblock skipped (for black regions for example) 
140                                    and used for b-frame encoding & decoding (contains skip table of next P Frame) */
141     UINT8 *mbintra_table;       /* used to avoid setting {ac, dc, cbp}-pred stuff to zero on inter MB decoding */
142
143     int input_qscale;           /* qscale prior to reordering of frames */
144     int input_pict_type;        /* pict_type prior to reordering of frames */
145     int force_type;             /* 0= no force, otherwise I_TYPE, P_TYPE, ... */
146     int qscale;                 /* QP */
147     int last_non_b_qscale;      /* QP of last non b frame used for b frame qscale*/
148     int pict_type;              /* I_TYPE, P_TYPE, B_TYPE, ... */
149     int last_non_b_pict_type;   /* used for mpeg4 gmc b-frames & ratecontrol */
150     int frame_rate_index;
151     /* motion compensation */
152     int unrestricted_mv;
153     int h263_long_vectors; /* use horrible h263v1 long vector mode */
154
155     int f_code; /* forward MV resolution */
156     int b_code; /* backward MV resolution for B Frames (mpeg4) */
157     INT16 (*motion_val)[2];            /* used for MV prediction (4MV per MB) */
158     INT16 (*p_mv_table)[2];            /* MV table (1MV per MB) p-frame encoding */
159     INT16 (*last_p_mv_table)[2];       /* MV table (1MV per MB) p-frame encoding */
160     INT16 (*b_forw_mv_table)[2];       /* MV table (1MV per MB) forward mode b-frame encoding */
161     INT16 (*b_back_mv_table)[2];       /* MV table (1MV per MB) backward mode b-frame encoding */
162     INT16 (*b_bidir_forw_mv_table)[2]; /* MV table (1MV per MB) bidir mode b-frame encoding */
163     INT16 (*b_bidir_back_mv_table)[2]; /* MV table (1MV per MB) bidir mode b-frame encoding */
164     INT16 (*b_direct_forw_mv_table)[2];/* MV table (1MV per MB) direct mode b-frame encoding */
165     INT16 (*b_direct_back_mv_table)[2];/* MV table (1MV per MB) direct mode b-frame encoding */
166     INT16 (*b_direct_mv_table)[2];     /* MV table (1MV per MB) direct mode b-frame encoding */
167     int me_method;                     /* ME algorithm */
168     uint8_t *me_scratchpad;            /* data area for the me algo, so that the ME doesnt need to malloc/free */
169     int mv_dir;
170 #define MV_DIR_BACKWARD  1
171 #define MV_DIR_FORWARD   2
172 #define MV_DIRECT        4 // bidirectional mode where the difference equals the MV of the last P/S/I-Frame (mpeg4)
173     int mv_type;
174 #define MV_TYPE_16X16       0   /* 1 vector for the whole mb */
175 #define MV_TYPE_8X8         1   /* 4 vectors (h263, mpeg4 4MV) */
176 #define MV_TYPE_16X8        2   /* 2 vectors, one per 16x8 block */ 
177 #define MV_TYPE_FIELD       3   /* 2 vectors, one per field */ 
178 #define MV_TYPE_DMV         4   /* 2 vectors, special mpeg2 Dual Prime Vectors */
179     /* motion vectors for a macroblock 
180        first coordinate : 0 = forward 1 = backward
181        second "         : depend on type
182        third  "         : 0 = x, 1 = y
183     */
184     int mv[2][4][2];
185     int field_select[2][2];
186     int last_mv[2][2][2];             /* last MV, used for MV prediction in MPEG1 & B-frame MPEG4 */
187     UINT16 (*mv_penalty)[MAX_MV*2+1]; /* amount of bits needed to encode a MV, used for ME */
188     UINT8 *fcode_tab; /* smallest fcode needed for each MV */
189
190     int has_b_frames;
191     int no_rounding; /* apply no rounding to motion compensation (MPEG4, msmpeg4, ...) 
192                         for b-frames rounding mode is allways 0 */
193
194     /* macroblock layer */
195     int mb_x, mb_y;
196     int mb_incr;
197     int mb_intra;
198     UINT16 *mb_var;    /* Table for MB variances */
199     UINT8 *mb_type;    /* Table for MB type */
200 #define MB_TYPE_INTRA    0x01
201 #define MB_TYPE_INTER    0x02
202 #define MB_TYPE_INTER4V  0x04
203 #define MB_TYPE_SKIPED   0x08
204 #define MB_TYPE_DIRECT   0x10
205 #define MB_TYPE_FORWARD  0x20
206 #define MB_TYPE_BACKWARD 0x40
207 #define MB_TYPE_BIDIR    0x80
208
209     int block_index[6]; /* index to current MB in block based arrays with edges*/
210     int block_wrap[6];
211
212     /* matrix transmitted in the bitstream */
213     UINT16 intra_matrix[64];
214     UINT16 chroma_intra_matrix[64];
215     UINT16 non_intra_matrix[64];
216     UINT16 chroma_non_intra_matrix[64];
217     /* precomputed matrix (combine qscale and DCT renorm) */
218     int q_intra_matrix[64];
219     int q_non_intra_matrix[64];
220     /* identical to the above but for MMX & these are not permutated */
221     UINT16 __align8 q_intra_matrix16[64];
222     UINT16 __align8 q_non_intra_matrix16[64];
223     int block_last_index[6];  /* last non zero coefficient in block */
224
225     void *opaque; /* private data for the user */
226
227     /* bit rate control */
228     int I_frame_bits; //FIXME used in mpeg12 ...
229     int avg_mb_var;        /* average MB variance for current frame */
230     int mc_mb_var;         /* motion compensated MB variance for current frame */
231     int last_non_b_mc_mb_var;/* motion compensated MB variance for last non b frame */
232     INT64 wanted_bits;
233     INT64 total_bits;
234     int frame_bits;        /* bits used for the current frame */
235     int pb_frame_bits;     /* bits of the last b...bp group */
236     Predictor i_pred;
237     Predictor p_pred;
238     double qsum;         /* sum of qscales */
239     double qcount;       /* count of qscales */
240     double short_term_qsum;   /* sum of recent qscales */
241     double short_term_qcount; /* count of recent qscales */
242     RateControlContext rc_context;
243
244     /* statistics, used for 2-pass encoding */
245     int mv_bits;
246     int header_bits;
247     int i_tex_bits;
248     int p_tex_bits;
249     int i_count;
250     int p_count;
251     int skip_count;
252     int misc_bits; // cbp, mb_type
253     int last_bits; //temp var used for calculating the above vars
254
255     /* H.263 specific */
256     int gob_number;
257     int gob_index;
258     int first_gob_line;
259         
260     /* H.263+ specific */
261     int umvplus;
262     int umvplus_dec;
263     int h263_aic; /* Advanded INTRA Coding (AIC) */
264     int h263_aic_dir; /* AIC direction: 0 = left, 1 = top */
265     
266     /* mpeg4 specific */
267     int time_increment_resolution;
268     int time_increment_bits;        /* number of bits to represent the fractional part of time */
269     int last_time_base;
270     int time_base;                  /* time in seconds of last I,P,S Frame */
271     int64_t time;                   /* time of current frame */ 
272     int64_t last_non_b_time;
273     uint16_t pp_time;               /* time distance between the last 2 p,s,i frames */
274     uint16_t bp_time;               /* time distance between the last b and p,s,i frame */
275     int shape;
276     int vol_sprite_usage;
277     int sprite_width;
278     int sprite_height;
279     int sprite_left;
280     int sprite_top;
281     int sprite_brightness_change;
282     int num_sprite_warping_points;
283     int real_sprite_warping_points;
284     int sprite_offset[2][2];
285     int sprite_delta[2][2][2];
286     int sprite_shift[2][2];
287     int mcsel;
288     int quant_precision;
289     int quarter_sample;              /* 1->qpel, 0->half pel ME/MC */ 
290     int scalability;
291     int new_pred;
292     int reduced_res_vop;
293     int aspect_ratio_info;
294     int sprite_warping_accuracy;
295     int low_latency_sprite;
296     int data_partioning;
297     int resync_marker;
298     int resync_x_pos;
299     int low_delay;                   /* no reordering needed / has no b-frames */
300     int vo_type;
301
302     /* divx specific, used to workaround (many) bugs in divx5 */
303     int divx_version;
304     int divx_build;
305 #define BITSTREAM_BUFFER_SIZE 1024*256
306     uint8_t *bitstream_buffer; //Divx 5.01 puts several frames in a single one, this is used to reorder them
307     int bitstream_buffer_size;
308     
309     /* RV10 specific */
310     int rv10_version; /* RV10 version: 0 or 3 */
311     int rv10_first_dc_coded[3];
312     
313     /* MJPEG specific */
314     struct MJpegContext *mjpeg_ctx;
315     int mjpeg_vsample[3]; /* vertical sampling factors, default = {2, 1, 1} */
316     int mjpeg_hsample[3]; /* horizontal sampling factors, default = {2, 1, 1} */
317     int mjpeg_write_tables; /* do we want to have quantisation- and
318                                huffmantables in the jpeg file ? */
319
320     /* MSMPEG4 specific */
321     int mv_table_index;
322     int rl_table_index;
323     int rl_chroma_table_index;
324     int dc_table_index;
325     int use_skip_mb_code;
326     int slice_height;      /* in macroblocks */
327     int first_slice_line;  /* used in mpeg4 too to handle resync markers */
328     int flipflop_rounding;
329     int bitrate;
330     int msmpeg4_version;   /* 1=mp41, 2=mp42, 3=mp43/divx3 */
331     /* decompression specific */
332     GetBitContext gb;
333
334     /* MPEG2 specific - I wish I had not to support this mess. */
335     int progressive_sequence;
336     int mpeg_f_code[2][2];
337     int picture_structure;
338 /* picture type */
339 #define PICT_TOP_FIELD     1
340 #define PICT_BOTTOM_FIELD  2
341 #define PICT_FRAME         3
342
343     int intra_dc_precision;
344     int frame_pred_frame_dct;
345     int top_field_first;
346     int concealment_motion_vectors;
347     int q_scale_type;
348     int intra_vlc_format;
349     int alternate_scan;
350     int repeat_first_field;
351     int chroma_420_type;
352     int progressive_frame;
353     int mpeg2;
354     int full_pel[2];
355     int interlaced_dct;
356     int last_qscale;
357     int first_slice;
358     
359     /* RTP specific */
360     /* These are explained on avcodec.h */
361     int rtp_mode;
362     int rtp_payload_size;
363     void (*rtp_callback)(void *data, int size, int packet_number);
364     UINT8 *ptr_lastgob;
365     UINT8 *ptr_last_mb_line;
366     UINT32 mb_line_avgsize;
367     
368     DCTELEM (*block)[64]; /* points to one of the following blocks */
369     DCTELEM blocks[2][6][64] __align8; // for HQ mode we need to keep the best block
370     void (*dct_unquantize_mpeg1)(struct MpegEncContext *s, 
371                            DCTELEM *block, int n, int qscale);
372     void (*dct_unquantize_mpeg2)(struct MpegEncContext *s, 
373                            DCTELEM *block, int n, int qscale);
374     void (*dct_unquantize_h263)(struct MpegEncContext *s, 
375                            DCTELEM *block, int n, int qscale);
376     void (*dct_unquantize)(struct MpegEncContext *s, // unquantizer to use (mpeg4 can use both)
377                            DCTELEM *block, int n, int qscale);
378 } MpegEncContext;
379
380 int MPV_common_init(MpegEncContext *s);
381 void MPV_common_end(MpegEncContext *s);
382 void MPV_decode_mb(MpegEncContext *s, DCTELEM block[6][64]);
383 void MPV_frame_start(MpegEncContext *s);
384 void MPV_frame_end(MpegEncContext *s);
385 #ifdef HAVE_MMX
386 void MPV_common_init_mmx(MpegEncContext *s);
387 #endif
388
389 /* motion_est.c */
390 void ff_estimate_p_frame_motion(MpegEncContext * s,
391                              int mb_x, int mb_y);
392 void ff_estimate_b_frame_motion(MpegEncContext * s,
393                              int mb_x, int mb_y);
394 int ff_get_best_fcode(MpegEncContext * s, int16_t (*mv_table)[2], int type);
395 void ff_fix_long_p_mvs(MpegEncContext * s);
396 void ff_fix_long_b_mvs(MpegEncContext * s, int16_t (*mv_table)[2], int f_code, int type);
397
398 /* mpeg12.c */
399 extern INT16 default_intra_matrix[64];
400 extern INT16 default_non_intra_matrix[64];
401
402 void mpeg1_encode_picture_header(MpegEncContext *s, int picture_number);
403 void mpeg1_encode_mb(MpegEncContext *s,
404                      DCTELEM block[6][64],
405                      int motion_x, int motion_y);
406 void mpeg1_encode_init(MpegEncContext *s);
407
408 /* h263enc.c */
409
410 /* run length table */
411 #define MAX_RUN    64
412 #define MAX_LEVEL  64
413
414 typedef struct RLTable {
415     int n; /* number of entries of table_vlc minus 1 */
416     int last; /* number of values for last = 0 */
417     const UINT16 (*table_vlc)[2];
418     const INT8 *table_run;
419     const INT8 *table_level;
420     UINT8 *index_run[2]; /* encoding only */
421     INT8 *max_level[2]; /* encoding & decoding */
422     INT8 *max_run[2];   /* encoding & decoding */
423     VLC vlc;            /* decoding only */
424 } RLTable;
425
426 void init_rl(RLTable *rl);
427 void init_vlc_rl(RLTable *rl);
428
429 static inline int get_rl_index(const RLTable *rl, int last, int run, int level)
430 {
431     int index;
432     index = rl->index_run[last][run];
433     if (index >= rl->n)
434         return rl->n;
435     if (level > rl->max_level[last][run])
436         return rl->n;
437     return index + level - 1;
438 }
439
440 void h263_encode_mb(MpegEncContext *s, 
441                     DCTELEM block[6][64],
442                     int motion_x, int motion_y);
443 void mpeg4_encode_mb(MpegEncContext *s, 
444                     DCTELEM block[6][64],
445                     int motion_x, int motion_y);
446 void h263_encode_picture_header(MpegEncContext *s, int picture_number);
447 int h263_encode_gob_header(MpegEncContext * s, int mb_line);
448 void h263_dc_scale(MpegEncContext *s);
449 INT16 *h263_pred_motion(MpegEncContext * s, int block, 
450                         int *px, int *py);
451 void mpeg4_pred_ac(MpegEncContext * s, INT16 *block, int n, 
452                    int dir);
453 void ff_set_mpeg4_time(MpegEncContext * s, int picture_number);
454 void mpeg4_encode_picture_header(MpegEncContext *s, int picture_number);
455 void h263_encode_init(MpegEncContext *s);
456
457 void h263_decode_init_vlc(MpegEncContext *s);
458 int h263_decode_picture_header(MpegEncContext *s);
459 int h263_decode_gob_header(MpegEncContext *s);
460 int mpeg4_decode_picture_header(MpegEncContext * s);
461 int intel_h263_decode_picture_header(MpegEncContext *s);
462 int h263_decode_mb(MpegEncContext *s,
463                    DCTELEM block[6][64]);
464 int h263_get_picture_format(int width, int height);
465
466 /* rv10.c */
467 void rv10_encode_picture_header(MpegEncContext *s, int picture_number);
468 int rv_decode_dc(MpegEncContext *s, int n);
469
470 /* msmpeg4.c */
471 void msmpeg4_encode_picture_header(MpegEncContext * s, int picture_number);
472 void msmpeg4_encode_ext_header(MpegEncContext * s);
473 void msmpeg4_encode_mb(MpegEncContext * s, 
474                        DCTELEM block[6][64],
475                        int motion_x, int motion_y);
476 void msmpeg4_dc_scale(MpegEncContext * s);
477 int msmpeg4_decode_picture_header(MpegEncContext * s);
478 int msmpeg4_decode_ext_header(MpegEncContext * s, int buf_size);
479 int msmpeg4_decode_mb(MpegEncContext *s, 
480                       DCTELEM block[6][64]);
481 int msmpeg4_decode_init_vlc(MpegEncContext *s);
482
483 /* mjpegenc.c */
484
485 int mjpeg_init(MpegEncContext *s);
486 void mjpeg_close(MpegEncContext *s);
487 void mjpeg_encode_mb(MpegEncContext *s, 
488                      DCTELEM block[6][64]);
489 void mjpeg_picture_header(MpegEncContext *s);
490 void mjpeg_picture_trailer(MpegEncContext *s);
491
492 /* rate control */
493 int ff_rate_control_init(MpegEncContext *s);
494 int ff_rate_estimate_qscale(MpegEncContext *s);
495 int ff_rate_estimate_qscale_pass2(MpegEncContext *s);
496 void ff_write_pass1_stats(MpegEncContext *s);
497 void ff_rate_control_uninit(MpegEncContext *s);
498
499
500
501