]> git.sesse.net Git - ffmpeg/blob - libavcodec/h264.c
9048886bd3534612b72f5cd530b28953b96994c6
[ffmpeg] / libavcodec / h264.c
1 /*
2  * H.26L/H.264/AVC/JVT/14496-10/... encoder/decoder
3  * Copyright (c) 2003 Michael Niedermayer <michaelni@gmx.at>
4  *
5  * This library is free software; you can redistribute it and/or
6  * modify it under the terms of the GNU Lesser General Public
7  * License as published by the Free Software Foundation; either
8  * version 2 of the License, or (at your option) any later version.
9  *
10  * This library is distributed in the hope that it will be useful,
11  * but WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * Lesser General Public License for more details.
14  *
15  * You should have received a copy of the GNU Lesser General Public
16  * License along with this library; if not, write to the Free Software
17  * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
18  *
19  */
20  
21 /**
22  * @file h264.c
23  * H.264 / AVC / MPEG4 part10 codec.
24  * @author Michael Niedermayer <michaelni@gmx.at>
25  */
26
27 #include "common.h"
28 #include "dsputil.h"
29 #include "avcodec.h"
30 #include "mpegvideo.h"
31 #include "h264data.h"
32 #include "golomb.h"
33
34 #include "cabac.h"
35
36 #undef NDEBUG
37 #include <assert.h>
38
39 #define interlaced_dct interlaced_dct_is_a_bad_name
40 #define mb_intra mb_intra_isnt_initalized_see_mb_type
41
42 #define LUMA_DC_BLOCK_INDEX   25
43 #define CHROMA_DC_BLOCK_INDEX 26
44
45 #define CHROMA_DC_COEFF_TOKEN_VLC_BITS 8
46 #define COEFF_TOKEN_VLC_BITS           8
47 #define TOTAL_ZEROS_VLC_BITS           9
48 #define CHROMA_DC_TOTAL_ZEROS_VLC_BITS 3
49 #define RUN_VLC_BITS                   3
50 #define RUN7_VLC_BITS                  6
51
52 #define MAX_SPS_COUNT 32
53 #define MAX_PPS_COUNT 256
54
55 #define MAX_MMCO_COUNT 66
56
57 /**
58  * Sequence parameter set
59  */
60 typedef struct SPS{
61     
62     int profile_idc;
63     int level_idc;
64     int log2_max_frame_num;            ///< log2_max_frame_num_minus4 + 4
65     int poc_type;                      ///< pic_order_cnt_type
66     int log2_max_poc_lsb;              ///< log2_max_pic_order_cnt_lsb_minus4
67     int delta_pic_order_always_zero_flag;
68     int offset_for_non_ref_pic;
69     int offset_for_top_to_bottom_field;
70     int poc_cycle_length;              ///< num_ref_frames_in_pic_order_cnt_cycle
71     int ref_frame_count;               ///< num_ref_frames
72     int gaps_in_frame_num_allowed_flag;
73     int mb_width;                      ///< frame_width_in_mbs_minus1 + 1
74     int mb_height;                     ///< frame_height_in_mbs_minus1 + 1
75     int frame_mbs_only_flag;
76     int mb_aff;                        ///<mb_adaptive_frame_field_flag
77     int direct_8x8_inference_flag;
78     int crop;                   ///< frame_cropping_flag
79     int crop_left;              ///< frame_cropping_rect_left_offset
80     int crop_right;             ///< frame_cropping_rect_right_offset
81     int crop_top;               ///< frame_cropping_rect_top_offset
82     int crop_bottom;            ///< frame_cropping_rect_bottom_offset
83     int vui_parameters_present_flag;
84     AVRational sar;
85     int timing_info_present_flag;
86     uint32_t num_units_in_tick;
87     uint32_t time_scale;
88     int fixed_frame_rate_flag;
89     short offset_for_ref_frame[256]; //FIXME dyn aloc?
90     int bitstream_restriction_flag;
91     int num_reorder_frames;
92 }SPS;
93
94 /**
95  * Picture parameter set
96  */
97 typedef struct PPS{
98     int sps_id;
99     int cabac;                  ///< entropy_coding_mode_flag
100     int pic_order_present;      ///< pic_order_present_flag
101     int slice_group_count;      ///< num_slice_groups_minus1 + 1
102     int mb_slice_group_map_type;
103     int ref_count[2];           ///< num_ref_idx_l0/1_active_minus1 + 1
104     int weighted_pred;          ///< weighted_pred_flag
105     int weighted_bipred_idc;
106     int init_qp;                ///< pic_init_qp_minus26 + 26
107     int init_qs;                ///< pic_init_qs_minus26 + 26
108     int chroma_qp_index_offset;
109     int deblocking_filter_parameters_present; ///< deblocking_filter_parameters_present_flag
110     int constrained_intra_pred; ///< constrained_intra_pred_flag
111     int redundant_pic_cnt_present; ///< redundant_pic_cnt_present_flag
112 }PPS;
113
114 /**
115  * Memory management control operation opcode.
116  */
117 typedef enum MMCOOpcode{
118     MMCO_END=0,
119     MMCO_SHORT2UNUSED,
120     MMCO_LONG2UNUSED,
121     MMCO_SHORT2LONG,
122     MMCO_SET_MAX_LONG,
123     MMCO_RESET, 
124     MMCO_LONG,
125 } MMCOOpcode;
126
127 /**
128  * Memory management control operation.
129  */
130 typedef struct MMCO{
131     MMCOOpcode opcode;
132     int short_frame_num;
133     int long_index;
134 } MMCO;
135
136 /**
137  * H264Context
138  */
139 typedef struct H264Context{
140     MpegEncContext s;
141     int nal_ref_idc;    
142     int nal_unit_type;
143 #define NAL_SLICE               1
144 #define NAL_DPA                 2
145 #define NAL_DPB                 3
146 #define NAL_DPC                 4
147 #define NAL_IDR_SLICE           5
148 #define NAL_SEI                 6
149 #define NAL_SPS                 7
150 #define NAL_PPS                 8
151 #define NAL_PICTURE_DELIMITER   9
152 #define NAL_FILTER_DATA         10
153     uint8_t *rbsp_buffer;
154     int rbsp_buffer_size;
155
156     /**
157       * Used to parse AVC variant of h264
158       */
159     int is_avc; ///< this flag is != 0 if codec is avc1
160     int got_avcC; ///< flag used to parse avcC data only once
161     int nal_length_size; ///< Number of bytes used for nal length (1, 2 or 4)
162
163     int chroma_qp; //QPc
164
165     int prev_mb_skipped; //FIXME remove (IMHO not used)
166
167     //prediction stuff
168     int chroma_pred_mode;
169     int intra16x16_pred_mode;
170
171     int top_mb_xy;
172     int left_mb_xy[2];
173     
174     int8_t intra4x4_pred_mode_cache[5*8];
175     int8_t (*intra4x4_pred_mode)[8];
176     void (*pred4x4  [9+3])(uint8_t *src, uint8_t *topright, int stride);//FIXME move to dsp?
177     void (*pred8x8  [4+3])(uint8_t *src, int stride);
178     void (*pred16x16[4+3])(uint8_t *src, int stride);
179     unsigned int topleft_samples_available;
180     unsigned int top_samples_available;
181     unsigned int topright_samples_available;
182     unsigned int left_samples_available;
183     uint8_t (*top_borders[2])[16+2*8];
184     uint8_t left_border[2*(17+2*9)];
185
186     /**
187      * non zero coeff count cache.
188      * is 64 if not available.
189      */
190     uint8_t non_zero_count_cache[6*8] __align8;
191     uint8_t (*non_zero_count)[16];
192
193     /**
194      * Motion vector cache.
195      */
196     int16_t mv_cache[2][5*8][2] __align8;
197     int8_t ref_cache[2][5*8] __align8;
198 #define LIST_NOT_USED -1 //FIXME rename?
199 #define PART_NOT_AVAILABLE -2
200     
201     /**
202      * is 1 if the specific list MV&references are set to 0,0,-2.
203      */
204     int mv_cache_clean[2];
205
206     /**
207      * block_offset[ 0..23] for frame macroblocks
208      * block_offset[24..47] for field macroblocks
209      */
210     int block_offset[2*(16+8)];
211     
212     uint32_t *mb2b_xy; //FIXME are these 4 a good idea?
213     uint32_t *mb2b8_xy;
214     int b_stride; //FIXME use s->b4_stride
215     int b8_stride;
216
217     int halfpel_flag;
218     int thirdpel_flag;
219
220     int unknown_svq3_flag;
221     int next_slice_index;
222
223     SPS sps_buffer[MAX_SPS_COUNT];
224     SPS sps; ///< current sps
225     
226     PPS pps_buffer[MAX_PPS_COUNT];
227     /**
228      * current pps
229      */
230     PPS pps; //FIXME move to Picture perhaps? (->no) do we need that?
231
232     int slice_num;
233     uint8_t *slice_table_base;
234     uint8_t *slice_table;      ///< slice_table_base + mb_stride + 1
235     int slice_type;
236     int slice_type_fixed;
237     
238     //interlacing specific flags
239     int mb_aff_frame;
240     int mb_field_decoding_flag;
241     
242     int sub_mb_type[4];
243     
244     //POC stuff
245     int poc_lsb;
246     int poc_msb;
247     int delta_poc_bottom;
248     int delta_poc[2];
249     int frame_num;
250     int prev_poc_msb;             ///< poc_msb of the last reference pic for POC type 0
251     int prev_poc_lsb;             ///< poc_lsb of the last reference pic for POC type 0
252     int frame_num_offset;         ///< for POC type 2
253     int prev_frame_num_offset;    ///< for POC type 2
254     int prev_frame_num;           ///< frame_num of the last pic for POC type 1/2
255
256     /**
257      * frame_num for frames or 2*frame_num for field pics.
258      */
259     int curr_pic_num;
260     
261     /**
262      * max_frame_num or 2*max_frame_num for field pics.
263      */
264     int max_pic_num;
265
266     //Weighted pred stuff
267     int use_weight;
268     int use_weight_chroma;
269     int luma_log2_weight_denom;
270     int chroma_log2_weight_denom;
271     int luma_weight[2][16];
272     int luma_offset[2][16];
273     int chroma_weight[2][16][2];
274     int chroma_offset[2][16][2];
275     int implicit_weight[16][16];
276    
277     //deblock
278     int deblocking_filter;         ///< disable_deblocking_filter_idc with 1<->0 
279     int slice_alpha_c0_offset;
280     int slice_beta_offset;
281      
282     int redundant_pic_count;
283     
284     int direct_spatial_mv_pred;
285     int dist_scale_factor[16];
286     int map_col_to_list0[2][16];
287
288     /**
289      * num_ref_idx_l0/1_active_minus1 + 1
290      */
291     int ref_count[2];// FIXME split for AFF
292     Picture *short_ref[32];
293     Picture *long_ref[32];
294     Picture default_ref_list[2][32];
295     Picture ref_list[2][32]; //FIXME size?
296     Picture field_ref_list[2][32]; //FIXME size?
297     Picture *delayed_pic[16]; //FIXME size?
298     Picture *delayed_output_pic;
299     
300     /**
301      * memory management control operations buffer.
302      */
303     MMCO mmco[MAX_MMCO_COUNT];
304     int mmco_index;
305     
306     int long_ref_count;  ///< number of actual long term references
307     int short_ref_count; ///< number of actual short term references
308     
309     //data partitioning
310     GetBitContext intra_gb;
311     GetBitContext inter_gb;
312     GetBitContext *intra_gb_ptr;
313     GetBitContext *inter_gb_ptr;
314     
315     DCTELEM mb[16*24] __align8;
316
317     /**
318      * Cabac
319      */
320     CABACContext cabac;
321     uint8_t      cabac_state[399];
322     int          cabac_init_idc;
323
324     /* 0x100 -> non null luma_dc, 0x80/0x40 -> non null chroma_dc (cb/cr), 0x?0 -> chroma_cbp(0,1,2), 0x0? luma_cbp */
325     uint16_t     *cbp_table;
326     int top_cbp;
327     int left_cbp;
328     /* chroma_pred_mode for i4x4 or i16x16, else 0 */
329     uint8_t     *chroma_pred_mode_table;
330     int         last_qscale_diff;
331     int16_t     (*mvd_table[2])[2];
332     int16_t     mvd_cache[2][5*8][2] __align8;
333     uint8_t     *direct_table;
334     uint8_t     direct_cache[5*8];
335
336 }H264Context;
337
338 static VLC coeff_token_vlc[4];
339 static VLC chroma_dc_coeff_token_vlc;
340
341 static VLC total_zeros_vlc[15];
342 static VLC chroma_dc_total_zeros_vlc[3];
343
344 static VLC run_vlc[6];
345 static VLC run7_vlc;
346
347 static void svq3_luma_dc_dequant_idct_c(DCTELEM *block, int qp);
348 static void svq3_add_idct_c(uint8_t *dst, DCTELEM *block, int stride, int qp, int dc);
349 static void filter_mb( H264Context *h, int mb_x, int mb_y, uint8_t *img_y, uint8_t *img_cb, uint8_t *img_cr, unsigned int linesize, unsigned int uvlinesize);
350
351 static inline uint32_t pack16to32(int a, int b){
352 #ifdef WORDS_BIGENDIAN
353    return (b&0xFFFF) + (a<<16);
354 #else
355    return (a&0xFFFF) + (b<<16);
356 #endif
357 }
358
359 /**
360  * fill a rectangle.
361  * @param h height of the rectangle, should be a constant
362  * @param w width of the rectangle, should be a constant
363  * @param size the size of val (1 or 4), should be a constant
364  */
365 static inline void fill_rectangle(void *vp, int w, int h, int stride, uint32_t val, int size){ //FIXME ensure this IS inlined
366     uint8_t *p= (uint8_t*)vp;
367     assert(size==1 || size==4);
368     
369     w      *= size;
370     stride *= size;
371     
372     assert((((int)vp)&(FFMIN(w, STRIDE_ALIGN)-1)) == 0);
373 //FIXME check what gcc generates for 64 bit on x86 and possibly write a 32 bit ver of it
374     if(w==2 && h==2){
375         *(uint16_t*)(p + 0)=
376         *(uint16_t*)(p + stride)= size==4 ? val : val*0x0101;
377     }else if(w==2 && h==4){
378         *(uint16_t*)(p + 0*stride)=
379         *(uint16_t*)(p + 1*stride)=
380         *(uint16_t*)(p + 2*stride)=
381         *(uint16_t*)(p + 3*stride)= size==4 ? val : val*0x0101;
382     }else if(w==4 && h==1){
383         *(uint32_t*)(p + 0*stride)= size==4 ? val : val*0x01010101;
384     }else if(w==4 && h==2){
385         *(uint32_t*)(p + 0*stride)=
386         *(uint32_t*)(p + 1*stride)= size==4 ? val : val*0x01010101;
387     }else if(w==4 && h==4){
388         *(uint32_t*)(p + 0*stride)=
389         *(uint32_t*)(p + 1*stride)=
390         *(uint32_t*)(p + 2*stride)=
391         *(uint32_t*)(p + 3*stride)= size==4 ? val : val*0x01010101;
392     }else if(w==8 && h==1){
393         *(uint32_t*)(p + 0)=
394         *(uint32_t*)(p + 4)= size==4 ? val : val*0x01010101;
395     }else if(w==8 && h==2){
396         *(uint32_t*)(p + 0 + 0*stride)=
397         *(uint32_t*)(p + 4 + 0*stride)=
398         *(uint32_t*)(p + 0 + 1*stride)=
399         *(uint32_t*)(p + 4 + 1*stride)=  size==4 ? val : val*0x01010101;
400     }else if(w==8 && h==4){
401         *(uint64_t*)(p + 0*stride)=
402         *(uint64_t*)(p + 1*stride)=
403         *(uint64_t*)(p + 2*stride)=
404         *(uint64_t*)(p + 3*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
405     }else if(w==16 && h==2){
406         *(uint64_t*)(p + 0+0*stride)=
407         *(uint64_t*)(p + 8+0*stride)=
408         *(uint64_t*)(p + 0+1*stride)=
409         *(uint64_t*)(p + 8+1*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
410     }else if(w==16 && h==4){
411         *(uint64_t*)(p + 0+0*stride)=
412         *(uint64_t*)(p + 8+0*stride)=
413         *(uint64_t*)(p + 0+1*stride)=
414         *(uint64_t*)(p + 8+1*stride)=
415         *(uint64_t*)(p + 0+2*stride)=
416         *(uint64_t*)(p + 8+2*stride)=
417         *(uint64_t*)(p + 0+3*stride)=
418         *(uint64_t*)(p + 8+3*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
419     }else
420         assert(0);
421 }
422
423 static inline void fill_caches(H264Context *h, int mb_type, int for_deblock){
424     MpegEncContext * const s = &h->s;
425     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
426     int topleft_xy, top_xy, topright_xy, left_xy[2];
427     int topleft_type, top_type, topright_type, left_type[2];
428     int left_block[8];
429     int i;
430
431     //FIXME deblocking can skip fill_caches much of the time with multiple slices too.
432     // the actual condition is whether we're on the edge of a slice,
433     // and even then the intra and nnz parts are unnecessary.
434     if(for_deblock && h->slice_num == 1)
435         return;
436
437     //wow what a mess, why didn't they simplify the interlacing&intra stuff, i can't imagine that these complex rules are worth it 
438     
439     top_xy     = mb_xy  - s->mb_stride;
440     topleft_xy = top_xy - 1;
441     topright_xy= top_xy + 1;
442     left_xy[1] = left_xy[0] = mb_xy-1;
443     left_block[0]= 0;
444     left_block[1]= 1;
445     left_block[2]= 2;
446     left_block[3]= 3;
447     left_block[4]= 7;
448     left_block[5]= 10;
449     left_block[6]= 8;
450     left_block[7]= 11;
451     if(h->mb_aff_frame){
452         const int pair_xy          = s->mb_x     + (s->mb_y & ~1)*s->mb_stride;
453         const int top_pair_xy      = pair_xy     - s->mb_stride;
454         const int topleft_pair_xy  = top_pair_xy - 1;
455         const int topright_pair_xy = top_pair_xy + 1;
456         const int topleft_mb_frame_flag  = !IS_INTERLACED(s->current_picture.mb_type[topleft_pair_xy]);
457         const int top_mb_frame_flag      = !IS_INTERLACED(s->current_picture.mb_type[top_pair_xy]);
458         const int topright_mb_frame_flag = !IS_INTERLACED(s->current_picture.mb_type[topright_pair_xy]);
459         const int left_mb_frame_flag = !IS_INTERLACED(s->current_picture.mb_type[pair_xy-1]);
460         const int curr_mb_frame_flag = !IS_INTERLACED(mb_type);
461         const int bottom = (s->mb_y & 1);
462         tprintf("fill_caches: curr_mb_frame_flag:%d, left_mb_frame_flag:%d, topleft_mb_frame_flag:%d, top_mb_frame_flag:%d, topright_mb_frame_flag:%d\n", curr_mb_frame_flag, left_mb_frame_flag, topleft_mb_frame_flag, top_mb_frame_flag, topright_mb_frame_flag);
463         if (bottom
464                 ? !curr_mb_frame_flag // bottom macroblock
465                 : (!curr_mb_frame_flag && !top_mb_frame_flag) // top macroblock
466                 ) {
467             top_xy -= s->mb_stride;
468         }
469         if (bottom
470                 ? !curr_mb_frame_flag // bottom macroblock
471                 : (!curr_mb_frame_flag && !topleft_mb_frame_flag) // top macroblock
472                 ) {
473             topleft_xy -= s->mb_stride;
474         }
475         if (bottom
476                 ? !curr_mb_frame_flag // bottom macroblock
477                 : (!curr_mb_frame_flag && !topright_mb_frame_flag) // top macroblock
478                 ) {
479             topright_xy -= s->mb_stride;
480         }
481         if (left_mb_frame_flag != curr_mb_frame_flag) {
482             left_xy[1] = left_xy[0] = pair_xy - 1;
483             if (curr_mb_frame_flag) {
484                 if (bottom) {
485                     left_block[0]= 2;
486                     left_block[1]= 2;
487                     left_block[2]= 3;
488                     left_block[3]= 3;
489                     left_block[4]= 8;
490                     left_block[5]= 11;
491                     left_block[6]= 8;
492                     left_block[7]= 11;
493                 } else {
494                     left_block[0]= 0;
495                     left_block[1]= 0;
496                     left_block[2]= 1;
497                     left_block[3]= 1;
498                     left_block[4]= 7;
499                     left_block[5]= 10;
500                     left_block[6]= 7;
501                     left_block[7]= 10;
502                 }
503             } else {
504                 left_xy[1] += s->mb_stride;
505                 //left_block[0]= 0;
506                 left_block[1]= 2;
507                 left_block[2]= 0;
508                 left_block[3]= 2;
509                 //left_block[4]= 7;
510                 left_block[5]= 10;
511                 left_block[6]= 7;
512                 left_block[7]= 10;
513             }
514         }
515     }
516
517     h->top_mb_xy = top_xy;
518     h->left_mb_xy[0] = left_xy[0];
519     h->left_mb_xy[1] = left_xy[1];
520     if(for_deblock){
521         topleft_type = h->slice_table[topleft_xy ] < 255 ? s->current_picture.mb_type[topleft_xy] : 0;
522         top_type     = h->slice_table[top_xy     ] < 255 ? s->current_picture.mb_type[top_xy]     : 0;
523         topright_type= h->slice_table[topright_xy] < 255 ? s->current_picture.mb_type[topright_xy]: 0;
524         left_type[0] = h->slice_table[left_xy[0] ] < 255 ? s->current_picture.mb_type[left_xy[0]] : 0;
525         left_type[1] = h->slice_table[left_xy[1] ] < 255 ? s->current_picture.mb_type[left_xy[1]] : 0;
526     }else{
527         topleft_type = h->slice_table[topleft_xy ] == h->slice_num ? s->current_picture.mb_type[topleft_xy] : 0;
528         top_type     = h->slice_table[top_xy     ] == h->slice_num ? s->current_picture.mb_type[top_xy]     : 0;
529         topright_type= h->slice_table[topright_xy] == h->slice_num ? s->current_picture.mb_type[topright_xy]: 0;
530         left_type[0] = h->slice_table[left_xy[0] ] == h->slice_num ? s->current_picture.mb_type[left_xy[0]] : 0;
531         left_type[1] = h->slice_table[left_xy[1] ] == h->slice_num ? s->current_picture.mb_type[left_xy[1]] : 0;
532     }
533
534     if(IS_INTRA(mb_type)){
535         h->topleft_samples_available= 
536         h->top_samples_available= 
537         h->left_samples_available= 0xFFFF;
538         h->topright_samples_available= 0xEEEA;
539
540         if(!IS_INTRA(top_type) && (top_type==0 || h->pps.constrained_intra_pred)){
541             h->topleft_samples_available= 0xB3FF;
542             h->top_samples_available= 0x33FF;
543             h->topright_samples_available= 0x26EA;
544         }
545         for(i=0; i<2; i++){
546             if(!IS_INTRA(left_type[i]) && (left_type[i]==0 || h->pps.constrained_intra_pred)){
547                 h->topleft_samples_available&= 0xDF5F;
548                 h->left_samples_available&= 0x5F5F;
549             }
550         }
551         
552         if(!IS_INTRA(topleft_type) && (topleft_type==0 || h->pps.constrained_intra_pred))
553             h->topleft_samples_available&= 0x7FFF;
554         
555         if(!IS_INTRA(topright_type) && (topright_type==0 || h->pps.constrained_intra_pred))
556             h->topright_samples_available&= 0xFBFF;
557     
558         if(IS_INTRA4x4(mb_type)){
559             if(IS_INTRA4x4(top_type)){
560                 h->intra4x4_pred_mode_cache[4+8*0]= h->intra4x4_pred_mode[top_xy][4];
561                 h->intra4x4_pred_mode_cache[5+8*0]= h->intra4x4_pred_mode[top_xy][5];
562                 h->intra4x4_pred_mode_cache[6+8*0]= h->intra4x4_pred_mode[top_xy][6];
563                 h->intra4x4_pred_mode_cache[7+8*0]= h->intra4x4_pred_mode[top_xy][3];
564             }else{
565                 int pred;
566                 if(!top_type || (IS_INTER(top_type) && h->pps.constrained_intra_pred))
567                     pred= -1;
568                 else{
569                     pred= 2;
570                 }
571                 h->intra4x4_pred_mode_cache[4+8*0]=
572                 h->intra4x4_pred_mode_cache[5+8*0]=
573                 h->intra4x4_pred_mode_cache[6+8*0]=
574                 h->intra4x4_pred_mode_cache[7+8*0]= pred;
575             }
576             for(i=0; i<2; i++){
577                 if(IS_INTRA4x4(left_type[i])){
578                     h->intra4x4_pred_mode_cache[3+8*1 + 2*8*i]= h->intra4x4_pred_mode[left_xy[i]][left_block[0+2*i]];
579                     h->intra4x4_pred_mode_cache[3+8*2 + 2*8*i]= h->intra4x4_pred_mode[left_xy[i]][left_block[1+2*i]];
580                 }else{
581                     int pred;
582                     if(!left_type[i] || (IS_INTER(left_type[i]) && h->pps.constrained_intra_pred))
583                         pred= -1;
584                     else{
585                         pred= 2;
586                     }
587                     h->intra4x4_pred_mode_cache[3+8*1 + 2*8*i]=
588                     h->intra4x4_pred_mode_cache[3+8*2 + 2*8*i]= pred;
589                 }
590             }
591         }
592     }
593     
594     
595 /*
596 0 . T T. T T T T 
597 1 L . .L . . . . 
598 2 L . .L . . . . 
599 3 . T TL . . . . 
600 4 L . .L . . . . 
601 5 L . .. . . . . 
602 */
603 //FIXME constraint_intra_pred & partitioning & nnz (lets hope this is just a typo in the spec)
604     if(top_type){
605         h->non_zero_count_cache[4+8*0]= h->non_zero_count[top_xy][4];
606         h->non_zero_count_cache[5+8*0]= h->non_zero_count[top_xy][5];
607         h->non_zero_count_cache[6+8*0]= h->non_zero_count[top_xy][6];
608         h->non_zero_count_cache[7+8*0]= h->non_zero_count[top_xy][3];
609     
610         h->non_zero_count_cache[1+8*0]= h->non_zero_count[top_xy][9];
611         h->non_zero_count_cache[2+8*0]= h->non_zero_count[top_xy][8];
612     
613         h->non_zero_count_cache[1+8*3]= h->non_zero_count[top_xy][12];
614         h->non_zero_count_cache[2+8*3]= h->non_zero_count[top_xy][11];
615         
616     }else{
617         h->non_zero_count_cache[4+8*0]=      
618         h->non_zero_count_cache[5+8*0]=
619         h->non_zero_count_cache[6+8*0]=
620         h->non_zero_count_cache[7+8*0]=
621     
622         h->non_zero_count_cache[1+8*0]=
623         h->non_zero_count_cache[2+8*0]=
624     
625         h->non_zero_count_cache[1+8*3]=
626         h->non_zero_count_cache[2+8*3]= h->pps.cabac && !IS_INTRA(mb_type) ? 0 : 64;
627         
628     }
629
630     for (i=0; i<2; i++) {
631         if(left_type[i]){
632             h->non_zero_count_cache[3+8*1 + 2*8*i]= h->non_zero_count[left_xy[i]][left_block[0+2*i]];
633             h->non_zero_count_cache[3+8*2 + 2*8*i]= h->non_zero_count[left_xy[i]][left_block[1+2*i]];
634             h->non_zero_count_cache[0+8*1 +   8*i]= h->non_zero_count[left_xy[i]][left_block[4+2*i]];
635             h->non_zero_count_cache[0+8*4 +   8*i]= h->non_zero_count[left_xy[i]][left_block[5+2*i]];
636         }else{
637             h->non_zero_count_cache[3+8*1 + 2*8*i]= 
638             h->non_zero_count_cache[3+8*2 + 2*8*i]= 
639             h->non_zero_count_cache[0+8*1 +   8*i]= 
640             h->non_zero_count_cache[0+8*4 +   8*i]= h->pps.cabac && !IS_INTRA(mb_type) ? 0 : 64;
641         }
642     }
643
644     if( h->pps.cabac ) {
645         // top_cbp
646         if(top_type) {
647             h->top_cbp = h->cbp_table[top_xy];
648         } else if(IS_INTRA(mb_type)) {
649             h->top_cbp = 0x1C0;
650         } else {
651             h->top_cbp = 0;
652         }
653         // left_cbp
654         if (left_type[0]) {
655             h->left_cbp = h->cbp_table[left_xy[0]] & 0x1f0;
656         } else if(IS_INTRA(mb_type)) {
657             h->left_cbp = 0x1C0;
658         } else {
659             h->left_cbp = 0;
660         }
661         if (left_type[0]) {
662             h->left_cbp |= ((h->cbp_table[left_xy[0]]>>((left_block[0]&(~1))+1))&0x1) << 1;
663         }
664         if (left_type[1]) {
665             h->left_cbp |= ((h->cbp_table[left_xy[1]]>>((left_block[2]&(~1))+1))&0x1) << 3;
666         }
667     }
668
669 #if 1
670     //FIXME direct mb can skip much of this
671     if(IS_INTER(mb_type) || IS_DIRECT(mb_type)){
672         int list;
673         for(list=0; list<1+(h->slice_type==B_TYPE); list++){
674             if(!USES_LIST(mb_type, list) && !IS_DIRECT(mb_type) && !h->deblocking_filter){
675                 /*if(!h->mv_cache_clean[list]){
676                     memset(h->mv_cache [list],  0, 8*5*2*sizeof(int16_t)); //FIXME clean only input? clean at all?
677                     memset(h->ref_cache[list], PART_NOT_AVAILABLE, 8*5*sizeof(int8_t));
678                     h->mv_cache_clean[list]= 1;
679                 }*/
680                 continue;
681             }
682             h->mv_cache_clean[list]= 0;
683             
684             if(IS_INTER(top_type)){
685                 const int b_xy= h->mb2b_xy[top_xy] + 3*h->b_stride;
686                 const int b8_xy= h->mb2b8_xy[top_xy] + h->b8_stride;
687                 *(uint32_t*)h->mv_cache[list][scan8[0] + 0 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 0];
688                 *(uint32_t*)h->mv_cache[list][scan8[0] + 1 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 1];
689                 *(uint32_t*)h->mv_cache[list][scan8[0] + 2 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 2];
690                 *(uint32_t*)h->mv_cache[list][scan8[0] + 3 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 3];
691                 h->ref_cache[list][scan8[0] + 0 - 1*8]=
692                 h->ref_cache[list][scan8[0] + 1 - 1*8]= s->current_picture.ref_index[list][b8_xy + 0];
693                 h->ref_cache[list][scan8[0] + 2 - 1*8]=
694                 h->ref_cache[list][scan8[0] + 3 - 1*8]= s->current_picture.ref_index[list][b8_xy + 1];
695             }else{
696                 *(uint32_t*)h->mv_cache [list][scan8[0] + 0 - 1*8]= 
697                 *(uint32_t*)h->mv_cache [list][scan8[0] + 1 - 1*8]= 
698                 *(uint32_t*)h->mv_cache [list][scan8[0] + 2 - 1*8]= 
699                 *(uint32_t*)h->mv_cache [list][scan8[0] + 3 - 1*8]= 0;
700                 *(uint32_t*)&h->ref_cache[list][scan8[0] + 0 - 1*8]= ((top_type ? LIST_NOT_USED : PART_NOT_AVAILABLE)&0xFF)*0x01010101;
701             }
702
703             //FIXME unify cleanup or sth
704             if(IS_INTER(left_type[0])){
705                 const int b_xy= h->mb2b_xy[left_xy[0]] + 3;
706                 const int b8_xy= h->mb2b8_xy[left_xy[0]] + 1;
707                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 0*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[0]];
708                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[1]];
709                 h->ref_cache[list][scan8[0] - 1 + 0*8]= 
710                 h->ref_cache[list][scan8[0] - 1 + 1*8]= s->current_picture.ref_index[list][b8_xy + h->b8_stride*(left_block[0]>>1)];
711             }else{
712                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 0*8]=
713                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 1*8]= 0;
714                 h->ref_cache[list][scan8[0] - 1 + 0*8]=
715                 h->ref_cache[list][scan8[0] - 1 + 1*8]= left_type[0] ? LIST_NOT_USED : PART_NOT_AVAILABLE;
716             }
717             
718             if(IS_INTER(left_type[1])){
719                 const int b_xy= h->mb2b_xy[left_xy[1]] + 3;
720                 const int b8_xy= h->mb2b8_xy[left_xy[1]] + 1;
721                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 2*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[2]];
722                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 3*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[3]];
723                 h->ref_cache[list][scan8[0] - 1 + 2*8]= 
724                 h->ref_cache[list][scan8[0] - 1 + 3*8]= s->current_picture.ref_index[list][b8_xy + h->b8_stride*(left_block[2]>>1)];
725             }else{
726                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 2*8]=
727                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 3*8]= 0;
728                 h->ref_cache[list][scan8[0] - 1 + 2*8]=
729                 h->ref_cache[list][scan8[0] - 1 + 3*8]= left_type[0] ? LIST_NOT_USED : PART_NOT_AVAILABLE;
730             }
731
732             if(for_deblock || (IS_DIRECT(mb_type) && !h->direct_spatial_mv_pred))
733                 continue;
734
735             if(IS_INTER(topleft_type)){
736                 const int b_xy = h->mb2b_xy[topleft_xy] + 3 + 3*h->b_stride;
737                 const int b8_xy= h->mb2b8_xy[topleft_xy] + 1 + h->b8_stride;
738                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy];
739                 h->ref_cache[list][scan8[0] - 1 - 1*8]= s->current_picture.ref_index[list][b8_xy];
740             }else{
741                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 - 1*8]= 0;
742                 h->ref_cache[list][scan8[0] - 1 - 1*8]= topleft_type ? LIST_NOT_USED : PART_NOT_AVAILABLE;
743             }
744             
745             if(IS_INTER(topright_type)){
746                 const int b_xy= h->mb2b_xy[topright_xy] + 3*h->b_stride;
747                 const int b8_xy= h->mb2b8_xy[topright_xy] + h->b8_stride;
748                 *(uint32_t*)h->mv_cache[list][scan8[0] + 4 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy];
749                 h->ref_cache[list][scan8[0] + 4 - 1*8]= s->current_picture.ref_index[list][b8_xy];
750             }else{
751                 *(uint32_t*)h->mv_cache [list][scan8[0] + 4 - 1*8]= 0;
752                 h->ref_cache[list][scan8[0] + 4 - 1*8]= topright_type ? LIST_NOT_USED : PART_NOT_AVAILABLE;
753             }
754             
755
756             h->ref_cache[list][scan8[5 ]+1] = 
757             h->ref_cache[list][scan8[7 ]+1] = 
758             h->ref_cache[list][scan8[13]+1] =  //FIXME remove past 3 (init somewhere else)
759             h->ref_cache[list][scan8[4 ]] = 
760             h->ref_cache[list][scan8[12]] = PART_NOT_AVAILABLE;
761             *(uint32_t*)h->mv_cache [list][scan8[5 ]+1]=
762             *(uint32_t*)h->mv_cache [list][scan8[7 ]+1]=
763             *(uint32_t*)h->mv_cache [list][scan8[13]+1]= //FIXME remove past 3 (init somewhere else)
764             *(uint32_t*)h->mv_cache [list][scan8[4 ]]=
765             *(uint32_t*)h->mv_cache [list][scan8[12]]= 0;
766
767             if( h->pps.cabac ) {
768                 /* XXX beurk, Load mvd */
769                 if(IS_INTER(topleft_type)){
770                     const int b_xy = h->mb2b_xy[topleft_xy] + 3 + 3*h->b_stride;
771                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy];
772                 }else{
773                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 - 1*8]= 0;
774                 }
775
776                 if(IS_INTER(top_type)){
777                     const int b_xy= h->mb2b_xy[top_xy] + 3*h->b_stride;
778                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 0 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 0];
779                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 1 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 1];
780                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 2 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 2];
781                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 3 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 3];
782                 }else{
783                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 0 - 1*8]= 
784                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 1 - 1*8]= 
785                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 2 - 1*8]= 
786                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 3 - 1*8]= 0;
787                 }
788                 if(IS_INTER(left_type[0])){
789                     const int b_xy= h->mb2b_xy[left_xy[0]] + 3;
790                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 0*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[0]];
791                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[1]];
792                 }else{
793                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 0*8]=
794                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 1*8]= 0;
795                 }
796                 if(IS_INTER(left_type[1])){
797                     const int b_xy= h->mb2b_xy[left_xy[1]] + 3;
798                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 2*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[2]];
799                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 3*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[3]];
800                 }else{
801                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 2*8]=
802                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 3*8]= 0;
803                 }
804                 *(uint32_t*)h->mvd_cache [list][scan8[5 ]+1]=
805                 *(uint32_t*)h->mvd_cache [list][scan8[7 ]+1]=
806                 *(uint32_t*)h->mvd_cache [list][scan8[13]+1]= //FIXME remove past 3 (init somewhere else)
807                 *(uint32_t*)h->mvd_cache [list][scan8[4 ]]=
808                 *(uint32_t*)h->mvd_cache [list][scan8[12]]= 0;
809
810                 if(h->slice_type == B_TYPE){
811                     fill_rectangle(&h->direct_cache[scan8[0]], 4, 4, 8, 0, 1);
812
813                     if(IS_DIRECT(top_type)){
814                         *(uint32_t*)&h->direct_cache[scan8[0] - 1*8]= 0x01010101;
815                     }else if(IS_8X8(top_type)){
816                         int b8_xy = h->mb2b8_xy[top_xy] + h->b8_stride;
817                         h->direct_cache[scan8[0] + 0 - 1*8]= h->direct_table[b8_xy];
818                         h->direct_cache[scan8[0] + 2 - 1*8]= h->direct_table[b8_xy + 1];
819                     }else{
820                         *(uint32_t*)&h->direct_cache[scan8[0] - 1*8]= 0;
821                     }
822                     
823                     //FIXME interlacing
824                     if(IS_DIRECT(left_type[0])){
825                         h->direct_cache[scan8[0] - 1 + 0*8]=
826                         h->direct_cache[scan8[0] - 1 + 2*8]= 1;
827                     }else if(IS_8X8(left_type[0])){
828                         int b8_xy = h->mb2b8_xy[left_xy[0]] + 1;
829                         h->direct_cache[scan8[0] - 1 + 0*8]= h->direct_table[b8_xy];
830                         h->direct_cache[scan8[0] - 1 + 2*8]= h->direct_table[b8_xy + h->b8_stride];
831                     }else{
832                         h->direct_cache[scan8[0] - 1 + 0*8]=
833                         h->direct_cache[scan8[0] - 1 + 2*8]= 0;
834                     }
835                 }
836             }
837         }
838     }
839 #endif
840 }
841
842 static inline void write_back_intra_pred_mode(H264Context *h){
843     MpegEncContext * const s = &h->s;
844     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
845
846     h->intra4x4_pred_mode[mb_xy][0]= h->intra4x4_pred_mode_cache[7+8*1];
847     h->intra4x4_pred_mode[mb_xy][1]= h->intra4x4_pred_mode_cache[7+8*2];
848     h->intra4x4_pred_mode[mb_xy][2]= h->intra4x4_pred_mode_cache[7+8*3];
849     h->intra4x4_pred_mode[mb_xy][3]= h->intra4x4_pred_mode_cache[7+8*4];
850     h->intra4x4_pred_mode[mb_xy][4]= h->intra4x4_pred_mode_cache[4+8*4];
851     h->intra4x4_pred_mode[mb_xy][5]= h->intra4x4_pred_mode_cache[5+8*4];
852     h->intra4x4_pred_mode[mb_xy][6]= h->intra4x4_pred_mode_cache[6+8*4];
853 }
854
855 /**
856  * checks if the top & left blocks are available if needed & changes the dc mode so it only uses the available blocks.
857  */
858 static inline int check_intra4x4_pred_mode(H264Context *h){
859     MpegEncContext * const s = &h->s;
860     static const int8_t top [12]= {-1, 0,LEFT_DC_PRED,-1,-1,-1,-1,-1, 0};
861     static const int8_t left[12]= { 0,-1, TOP_DC_PRED, 0,-1,-1,-1, 0,-1,DC_128_PRED};
862     int i;
863     
864     if(!(h->top_samples_available&0x8000)){
865         for(i=0; i<4; i++){
866             int status= top[ h->intra4x4_pred_mode_cache[scan8[0] + i] ];
867             if(status<0){
868                 av_log(h->s.avctx, AV_LOG_ERROR, "top block unavailable for requested intra4x4 mode %d at %d %d\n", status, s->mb_x, s->mb_y);
869                 return -1;
870             } else if(status){
871                 h->intra4x4_pred_mode_cache[scan8[0] + i]= status;
872             }
873         }
874     }
875     
876     if(!(h->left_samples_available&0x8000)){
877         for(i=0; i<4; i++){
878             int status= left[ h->intra4x4_pred_mode_cache[scan8[0] + 8*i] ];
879             if(status<0){
880                 av_log(h->s.avctx, AV_LOG_ERROR, "left block unavailable for requested intra4x4 mode %d at %d %d\n", status, s->mb_x, s->mb_y);
881                 return -1;
882             } else if(status){
883                 h->intra4x4_pred_mode_cache[scan8[0] + 8*i]= status;
884             }
885         }
886     }
887
888     return 0;
889 } //FIXME cleanup like next
890
891 /**
892  * checks if the top & left blocks are available if needed & changes the dc mode so it only uses the available blocks.
893  */
894 static inline int check_intra_pred_mode(H264Context *h, int mode){
895     MpegEncContext * const s = &h->s;
896     static const int8_t top [7]= {LEFT_DC_PRED8x8, 1,-1,-1};
897     static const int8_t left[7]= { TOP_DC_PRED8x8,-1, 2,-1,DC_128_PRED8x8};
898     
899     if(mode < 0 || mode > 6) {
900         av_log(h->s.avctx, AV_LOG_ERROR, "out of range intra chroma pred mode at %d %d\n", s->mb_x, s->mb_y);
901         return -1;
902     }
903     
904     if(!(h->top_samples_available&0x8000)){
905         mode= top[ mode ];
906         if(mode<0){
907             av_log(h->s.avctx, AV_LOG_ERROR, "top block unavailable for requested intra mode at %d %d\n", s->mb_x, s->mb_y);
908             return -1;
909         }
910     }
911     
912     if(!(h->left_samples_available&0x8000)){
913         mode= left[ mode ];
914         if(mode<0){
915             av_log(h->s.avctx, AV_LOG_ERROR, "left block unavailable for requested intra mode at %d %d\n", s->mb_x, s->mb_y);
916             return -1;
917         } 
918     }
919
920     return mode;
921 }
922
923 /**
924  * gets the predicted intra4x4 prediction mode.
925  */
926 static inline int pred_intra_mode(H264Context *h, int n){
927     const int index8= scan8[n];
928     const int left= h->intra4x4_pred_mode_cache[index8 - 1];
929     const int top = h->intra4x4_pred_mode_cache[index8 - 8];
930     const int min= FFMIN(left, top);
931
932     tprintf("mode:%d %d min:%d\n", left ,top, min);
933
934     if(min<0) return DC_PRED;
935     else      return min;
936 }
937
938 static inline void write_back_non_zero_count(H264Context *h){
939     MpegEncContext * const s = &h->s;
940     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
941
942     h->non_zero_count[mb_xy][0]= h->non_zero_count_cache[7+8*1];
943     h->non_zero_count[mb_xy][1]= h->non_zero_count_cache[7+8*2];
944     h->non_zero_count[mb_xy][2]= h->non_zero_count_cache[7+8*3];
945     h->non_zero_count[mb_xy][3]= h->non_zero_count_cache[7+8*4];
946     h->non_zero_count[mb_xy][4]= h->non_zero_count_cache[4+8*4];
947     h->non_zero_count[mb_xy][5]= h->non_zero_count_cache[5+8*4];
948     h->non_zero_count[mb_xy][6]= h->non_zero_count_cache[6+8*4];
949     
950     h->non_zero_count[mb_xy][9]= h->non_zero_count_cache[1+8*2];
951     h->non_zero_count[mb_xy][8]= h->non_zero_count_cache[2+8*2];
952     h->non_zero_count[mb_xy][7]= h->non_zero_count_cache[2+8*1];
953
954     h->non_zero_count[mb_xy][12]=h->non_zero_count_cache[1+8*5];
955     h->non_zero_count[mb_xy][11]=h->non_zero_count_cache[2+8*5];
956     h->non_zero_count[mb_xy][10]=h->non_zero_count_cache[2+8*4];
957 }
958
959 /**
960  * gets the predicted number of non zero coefficients.
961  * @param n block index
962  */
963 static inline int pred_non_zero_count(H264Context *h, int n){
964     const int index8= scan8[n];
965     const int left= h->non_zero_count_cache[index8 - 1];
966     const int top = h->non_zero_count_cache[index8 - 8];
967     int i= left + top;
968     
969     if(i<64) i= (i+1)>>1;
970
971     tprintf("pred_nnz L%X T%X n%d s%d P%X\n", left, top, n, scan8[n], i&31);
972
973     return i&31;
974 }
975
976 static inline int fetch_diagonal_mv(H264Context *h, const int16_t **C, int i, int list, int part_width){
977     const int topright_ref= h->ref_cache[list][ i - 8 + part_width ];
978
979     if(topright_ref != PART_NOT_AVAILABLE){
980         *C= h->mv_cache[list][ i - 8 + part_width ];
981         return topright_ref;
982     }else{
983         tprintf("topright MV not available\n");
984
985         *C= h->mv_cache[list][ i - 8 - 1 ];
986         return h->ref_cache[list][ i - 8 - 1 ];
987     }
988 }
989
990 /**
991  * gets the predicted MV.
992  * @param n the block index
993  * @param part_width the width of the partition (4, 8,16) -> (1, 2, 4)
994  * @param mx the x component of the predicted motion vector
995  * @param my the y component of the predicted motion vector
996  */
997 static inline void pred_motion(H264Context * const h, int n, int part_width, int list, int ref, int * const mx, int * const my){
998     const int index8= scan8[n];
999     const int top_ref=      h->ref_cache[list][ index8 - 8 ];
1000     const int left_ref=     h->ref_cache[list][ index8 - 1 ];
1001     const int16_t * const A= h->mv_cache[list][ index8 - 1 ];
1002     const int16_t * const B= h->mv_cache[list][ index8 - 8 ];
1003     const int16_t * C;
1004     int diagonal_ref, match_count;
1005
1006     assert(part_width==1 || part_width==2 || part_width==4);
1007
1008 /* mv_cache
1009   B . . A T T T T 
1010   U . . L . . , .
1011   U . . L . . . .
1012   U . . L . . , .
1013   . . . L . . . .
1014 */
1015
1016     diagonal_ref= fetch_diagonal_mv(h, &C, index8, list, part_width);
1017     match_count= (diagonal_ref==ref) + (top_ref==ref) + (left_ref==ref);
1018     tprintf("pred_motion match_count=%d\n", match_count);
1019     if(match_count > 1){ //most common
1020         *mx= mid_pred(A[0], B[0], C[0]);
1021         *my= mid_pred(A[1], B[1], C[1]);
1022     }else if(match_count==1){
1023         if(left_ref==ref){
1024             *mx= A[0];
1025             *my= A[1];        
1026         }else if(top_ref==ref){
1027             *mx= B[0];
1028             *my= B[1];        
1029         }else{
1030             *mx= C[0];
1031             *my= C[1];        
1032         }
1033     }else{
1034         if(top_ref == PART_NOT_AVAILABLE && diagonal_ref == PART_NOT_AVAILABLE && left_ref != PART_NOT_AVAILABLE){
1035             *mx= A[0];
1036             *my= A[1];        
1037         }else{
1038             *mx= mid_pred(A[0], B[0], C[0]);
1039             *my= mid_pred(A[1], B[1], C[1]);
1040         }
1041     }
1042         
1043     tprintf("pred_motion (%2d %2d %2d) (%2d %2d %2d) (%2d %2d %2d) -> (%2d %2d %2d) at %2d %2d %d list %d\n", top_ref, B[0], B[1],                    diagonal_ref, C[0], C[1], left_ref, A[0], A[1], ref, *mx, *my, h->s.mb_x, h->s.mb_y, n, list);
1044 }
1045
1046 /**
1047  * gets the directionally predicted 16x8 MV.
1048  * @param n the block index
1049  * @param mx the x component of the predicted motion vector
1050  * @param my the y component of the predicted motion vector
1051  */
1052 static inline void pred_16x8_motion(H264Context * const h, int n, int list, int ref, int * const mx, int * const my){
1053     if(n==0){
1054         const int top_ref=      h->ref_cache[list][ scan8[0] - 8 ];
1055         const int16_t * const B= h->mv_cache[list][ scan8[0] - 8 ];
1056
1057         tprintf("pred_16x8: (%2d %2d %2d) at %2d %2d %d list %d\n", top_ref, B[0], B[1], h->s.mb_x, h->s.mb_y, n, list);
1058         
1059         if(top_ref == ref){
1060             *mx= B[0];
1061             *my= B[1];
1062             return;
1063         }
1064     }else{
1065         const int left_ref=     h->ref_cache[list][ scan8[8] - 1 ];
1066         const int16_t * const A= h->mv_cache[list][ scan8[8] - 1 ];
1067         
1068         tprintf("pred_16x8: (%2d %2d %2d) at %2d %2d %d list %d\n", left_ref, A[0], A[1], h->s.mb_x, h->s.mb_y, n, list);
1069
1070         if(left_ref == ref){
1071             *mx= A[0];
1072             *my= A[1];
1073             return;
1074         }
1075     }
1076
1077     //RARE
1078     pred_motion(h, n, 4, list, ref, mx, my);
1079 }
1080
1081 /**
1082  * gets the directionally predicted 8x16 MV.
1083  * @param n the block index
1084  * @param mx the x component of the predicted motion vector
1085  * @param my the y component of the predicted motion vector
1086  */
1087 static inline void pred_8x16_motion(H264Context * const h, int n, int list, int ref, int * const mx, int * const my){
1088     if(n==0){
1089         const int left_ref=      h->ref_cache[list][ scan8[0] - 1 ];
1090         const int16_t * const A=  h->mv_cache[list][ scan8[0] - 1 ];
1091         
1092         tprintf("pred_8x16: (%2d %2d %2d) at %2d %2d %d list %d\n", left_ref, A[0], A[1], h->s.mb_x, h->s.mb_y, n, list);
1093
1094         if(left_ref == ref){
1095             *mx= A[0];
1096             *my= A[1];
1097             return;
1098         }
1099     }else{
1100         const int16_t * C;
1101         int diagonal_ref;
1102
1103         diagonal_ref= fetch_diagonal_mv(h, &C, scan8[4], list, 2);
1104         
1105         tprintf("pred_8x16: (%2d %2d %2d) at %2d %2d %d list %d\n", diagonal_ref, C[0], C[1], h->s.mb_x, h->s.mb_y, n, list);
1106
1107         if(diagonal_ref == ref){ 
1108             *mx= C[0];
1109             *my= C[1];
1110             return;
1111         }
1112     }
1113
1114     //RARE
1115     pred_motion(h, n, 2, list, ref, mx, my);
1116 }
1117
1118 static inline void pred_pskip_motion(H264Context * const h, int * const mx, int * const my){
1119     const int top_ref = h->ref_cache[0][ scan8[0] - 8 ];
1120     const int left_ref= h->ref_cache[0][ scan8[0] - 1 ];
1121
1122     tprintf("pred_pskip: (%d) (%d) at %2d %2d\n", top_ref, left_ref, h->s.mb_x, h->s.mb_y);
1123
1124     if(top_ref == PART_NOT_AVAILABLE || left_ref == PART_NOT_AVAILABLE
1125        || (top_ref == 0  && *(uint32_t*)h->mv_cache[0][ scan8[0] - 8 ] == 0)
1126        || (left_ref == 0 && *(uint32_t*)h->mv_cache[0][ scan8[0] - 1 ] == 0)){
1127        
1128         *mx = *my = 0;
1129         return;
1130     }
1131         
1132     pred_motion(h, 0, 4, 0, 0, mx, my);
1133
1134     return;
1135 }
1136
1137 static inline void direct_dist_scale_factor(H264Context * const h){
1138     const int poc = h->s.current_picture_ptr->poc;
1139     const int poc1 = h->ref_list[1][0].poc;
1140     int i;
1141     for(i=0; i<h->ref_count[0]; i++){
1142         int poc0 = h->ref_list[0][i].poc;
1143         int td = clip(poc1 - poc0, -128, 127);
1144         if(td == 0 /* FIXME || pic0 is a long-term ref */){
1145             h->dist_scale_factor[i] = 256;
1146         }else{
1147             int tb = clip(poc - poc0, -128, 127);
1148             int tx = (16384 + (ABS(td) >> 1)) / td;
1149             h->dist_scale_factor[i] = clip((tb*tx + 32) >> 6, -1024, 1023);
1150         }
1151     }
1152 }
1153 static inline void direct_ref_list_init(H264Context * const h){
1154     MpegEncContext * const s = &h->s;
1155     Picture * const ref1 = &h->ref_list[1][0];
1156     Picture * const cur = s->current_picture_ptr;
1157     int list, i, j;
1158     if(cur->pict_type == I_TYPE)
1159         cur->ref_count[0] = 0;
1160     if(cur->pict_type != B_TYPE)
1161         cur->ref_count[1] = 0;
1162     for(list=0; list<2; list++){
1163         cur->ref_count[list] = h->ref_count[list];
1164         for(j=0; j<h->ref_count[list]; j++)
1165             cur->ref_poc[list][j] = h->ref_list[list][j].poc;
1166     }
1167     if(cur->pict_type != B_TYPE || h->direct_spatial_mv_pred)
1168         return;
1169     for(list=0; list<2; list++){
1170         for(i=0; i<ref1->ref_count[list]; i++){
1171             const int poc = ref1->ref_poc[list][i];
1172             h->map_col_to_list0[list][i] = PART_NOT_AVAILABLE;
1173             for(j=0; j<h->ref_count[list]; j++)
1174                 if(h->ref_list[list][j].poc == poc){
1175                     h->map_col_to_list0[list][i] = j;
1176                     break;
1177                 }
1178         }
1179     }
1180 }
1181
1182 static inline void pred_direct_motion(H264Context * const h, int *mb_type){
1183     MpegEncContext * const s = &h->s;
1184     const int mb_xy =   s->mb_x +   s->mb_y*s->mb_stride;
1185     const int b8_xy = 2*s->mb_x + 2*s->mb_y*h->b8_stride;
1186     const int b4_xy = 4*s->mb_x + 4*s->mb_y*h->b_stride;
1187     const int mb_type_col = h->ref_list[1][0].mb_type[mb_xy];
1188     const int16_t (*l1mv0)[2] = (const int16_t (*)[2]) &h->ref_list[1][0].motion_val[0][b4_xy];
1189     const int8_t *l1ref0 = &h->ref_list[1][0].ref_index[0][b8_xy];
1190     const int8_t *l1ref1 = &h->ref_list[1][0].ref_index[1][b8_xy];
1191     const int is_b8x8 = IS_8X8(*mb_type);
1192     int sub_mb_type;
1193     int i8, i4;
1194
1195     if(IS_8X8(mb_type_col) && !h->sps.direct_8x8_inference_flag){
1196         /* FIXME save sub mb types from previous frames (or derive from MVs)
1197          * so we know exactly what block size to use */
1198         sub_mb_type = MB_TYPE_8x8|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_4x4 */
1199         *mb_type =    MB_TYPE_8x8|MB_TYPE_L0L1;
1200     }else if(!is_b8x8 && (IS_16X16(mb_type_col) || IS_INTRA(mb_type_col))){
1201         sub_mb_type = MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_8x8 */
1202         *mb_type =    MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_16x16 */
1203     }else{
1204         sub_mb_type = MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_8x8 */
1205         *mb_type =    MB_TYPE_8x8|MB_TYPE_L0L1;
1206     }
1207     if(!is_b8x8)
1208         *mb_type |= MB_TYPE_DIRECT2;
1209
1210     tprintf("mb_type = %08x, sub_mb_type = %08x, is_b8x8 = %d, mb_type_col = %08x\n", *mb_type, sub_mb_type, is_b8x8, mb_type_col);
1211     
1212     if(h->direct_spatial_mv_pred){
1213         int ref[2];
1214         int mv[2][2];
1215         int list;
1216
1217         /* ref = min(neighbors) */
1218         for(list=0; list<2; list++){
1219             int refa = h->ref_cache[list][scan8[0] - 1];
1220             int refb = h->ref_cache[list][scan8[0] - 8];
1221             int refc = h->ref_cache[list][scan8[0] - 8 + 4];
1222             if(refc == -2)
1223                 refc = h->ref_cache[list][scan8[0] - 8 - 1];
1224             ref[list] = refa;
1225             if(ref[list] < 0 || (refb < ref[list] && refb >= 0))
1226                 ref[list] = refb;
1227             if(ref[list] < 0 || (refc < ref[list] && refc >= 0))
1228                 ref[list] = refc;
1229             if(ref[list] < 0)
1230                 ref[list] = -1;
1231         }
1232
1233         if(ref[0] < 0 && ref[1] < 0){
1234             ref[0] = ref[1] = 0;
1235             mv[0][0] = mv[0][1] =
1236             mv[1][0] = mv[1][1] = 0;
1237         }else{
1238             for(list=0; list<2; list++){
1239                 if(ref[list] >= 0)
1240                     pred_motion(h, 0, 4, list, ref[list], &mv[list][0], &mv[list][1]);
1241                 else
1242                     mv[list][0] = mv[list][1] = 0;
1243             }
1244         }
1245
1246         if(ref[1] < 0){
1247             *mb_type &= ~MB_TYPE_P0L1;
1248             sub_mb_type &= ~MB_TYPE_P0L1;
1249         }else if(ref[0] < 0){
1250             *mb_type &= ~MB_TYPE_P0L0;
1251             sub_mb_type &= ~MB_TYPE_P0L0;
1252         }
1253
1254         if(IS_16X16(*mb_type)){
1255             fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, ref[0], 1);
1256             fill_rectangle(&h->ref_cache[1][scan8[0]], 4, 4, 8, ref[1], 1);
1257             if(!IS_INTRA(mb_type_col) && l1ref0[0] == 0 &&
1258                 ABS(l1mv0[0][0]) <= 1 && ABS(l1mv0[0][1]) <= 1){
1259                 if(ref[0] > 0)
1260                     fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1261                 else
1262                     fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, 0, 4);
1263                 if(ref[1] > 0)
1264                     fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1265                 else
1266                     fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, 0, 4);
1267             }else{
1268                 fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1269                 fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1270             }
1271         }else{
1272             for(i8=0; i8<4; i8++){
1273                 const int x8 = i8&1;
1274                 const int y8 = i8>>1;
1275     
1276                 if(is_b8x8 && !IS_DIRECT(h->sub_mb_type[i8]))
1277                     continue;
1278                 h->sub_mb_type[i8] = sub_mb_type;
1279     
1280                 fill_rectangle(&h->mv_cache[0][scan8[i8*4]], 2, 2, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1281                 fill_rectangle(&h->mv_cache[1][scan8[i8*4]], 2, 2, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1282                 fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, ref[0], 1);
1283                 fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, ref[1], 1);
1284     
1285                 /* col_zero_flag */
1286                 if(!IS_INTRA(mb_type_col) && l1ref0[x8 + y8*h->b8_stride] == 0){
1287                     for(i4=0; i4<4; i4++){
1288                         const int16_t *mv_col = l1mv0[x8*2 + (i4&1) + (y8*2 + (i4>>1))*h->b_stride];
1289                         if(ABS(mv_col[0]) <= 1 && ABS(mv_col[1]) <= 1){
1290                             if(ref[0] == 0)
1291                                 *(uint32_t*)h->mv_cache[0][scan8[i8*4+i4]] = 0;
1292                             if(ref[1] == 0)
1293                                 *(uint32_t*)h->mv_cache[1][scan8[i8*4+i4]] = 0;
1294                         }
1295                     }
1296                 }
1297             }
1298         }
1299     }else{ /* direct temporal mv pred */
1300         if(IS_16X16(*mb_type)){
1301             fill_rectangle(&h->ref_cache[1][scan8[0]], 4, 4, 8, 0, 1);
1302             if(IS_INTRA(mb_type_col)){
1303                 fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, 0, 1);
1304                 fill_rectangle(&h-> mv_cache[0][scan8[0]], 4, 4, 8, 0, 4);
1305                 fill_rectangle(&h-> mv_cache[1][scan8[0]], 4, 4, 8, 0, 4);
1306             }else{
1307                 const int ref0 = l1ref0[0] >= 0 ? h->map_col_to_list0[0][l1ref0[0]]
1308                                                 : h->map_col_to_list0[1][l1ref1[0]];
1309                 const int dist_scale_factor = h->dist_scale_factor[ref0];
1310                 const int16_t *mv_col = l1mv0[0];
1311                 int mv_l0[2];
1312                 mv_l0[0] = (dist_scale_factor * mv_col[0] + 128) >> 8;
1313                 mv_l0[1] = (dist_scale_factor * mv_col[1] + 128) >> 8;
1314                 fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, ref0, 1);
1315                 fill_rectangle(&h-> mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv_l0[0],mv_l0[1]), 4);
1316                 fill_rectangle(&h-> mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv_l0[0]-mv_col[0],mv_l0[1]-mv_col[1]), 4);
1317             }
1318         }else{
1319             for(i8=0; i8<4; i8++){
1320                 const int x8 = i8&1;
1321                 const int y8 = i8>>1;
1322                 int ref0, dist_scale_factor;
1323     
1324                 if(is_b8x8 && !IS_DIRECT(h->sub_mb_type[i8]))
1325                     continue;
1326                 h->sub_mb_type[i8] = sub_mb_type;
1327                 if(IS_INTRA(mb_type_col)){
1328                     fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, 0, 1);
1329                     fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, 0, 1);
1330                     fill_rectangle(&h-> mv_cache[0][scan8[i8*4]], 2, 2, 8, 0, 4);
1331                     fill_rectangle(&h-> mv_cache[1][scan8[i8*4]], 2, 2, 8, 0, 4);
1332                     continue;
1333                 }
1334     
1335                 ref0 = l1ref0[x8 + y8*h->b8_stride];
1336                 if(ref0 >= 0)
1337                     ref0 = h->map_col_to_list0[0][ref0];
1338                 else
1339                     ref0 = h->map_col_to_list0[1][l1ref1[x8 + y8*h->b8_stride]];
1340                 dist_scale_factor = h->dist_scale_factor[ref0];
1341     
1342                 fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, ref0, 1);
1343                 fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, 0, 1);
1344                 for(i4=0; i4<4; i4++){
1345                     const int16_t *mv_col = l1mv0[x8*2 + (i4&1) + (y8*2 + (i4>>1))*h->b_stride];
1346                     int16_t *mv_l0 = h->mv_cache[0][scan8[i8*4+i4]];
1347                     mv_l0[0] = (dist_scale_factor * mv_col[0] + 128) >> 8;
1348                     mv_l0[1] = (dist_scale_factor * mv_col[1] + 128) >> 8;
1349                     *(uint32_t*)h->mv_cache[1][scan8[i8*4+i4]] =
1350                         pack16to32(mv_l0[0]-mv_col[0],mv_l0[1]-mv_col[1]);
1351                 }
1352             }
1353         }
1354     }
1355 }
1356
1357 static inline void write_back_motion(H264Context *h, int mb_type){
1358     MpegEncContext * const s = &h->s;
1359     const int b_xy = 4*s->mb_x + 4*s->mb_y*h->b_stride;
1360     const int b8_xy= 2*s->mb_x + 2*s->mb_y*h->b8_stride;
1361     int list;
1362
1363     for(list=0; list<2; list++){
1364         int y;
1365         if(!USES_LIST(mb_type, list)){
1366             if(1){ //FIXME skip or never read if mb_type doesn't use it
1367                 for(y=0; y<4; y++){
1368                     *(uint64_t*)s->current_picture.motion_val[list][b_xy + 0 + y*h->b_stride]=
1369                     *(uint64_t*)s->current_picture.motion_val[list][b_xy + 2 + y*h->b_stride]= 0;
1370                 }
1371                 if( h->pps.cabac ) {
1372                     /* FIXME needed ? */
1373                     for(y=0; y<4; y++){
1374                         *(uint64_t*)h->mvd_table[list][b_xy + 0 + y*h->b_stride]=
1375                         *(uint64_t*)h->mvd_table[list][b_xy + 2 + y*h->b_stride]= 0;
1376                     }
1377                 }
1378                 for(y=0; y<2; y++){
1379                     *(uint16_t*)&s->current_picture.ref_index[list][b8_xy + y*h->b8_stride]= (LIST_NOT_USED&0xFF)*0x0101;
1380                 }
1381             }
1382             continue;
1383         }
1384         
1385         for(y=0; y<4; y++){
1386             *(uint64_t*)s->current_picture.motion_val[list][b_xy + 0 + y*h->b_stride]= *(uint64_t*)h->mv_cache[list][scan8[0]+0 + 8*y];
1387             *(uint64_t*)s->current_picture.motion_val[list][b_xy + 2 + y*h->b_stride]= *(uint64_t*)h->mv_cache[list][scan8[0]+2 + 8*y];
1388         }
1389         if( h->pps.cabac ) {
1390             for(y=0; y<4; y++){
1391                 *(uint64_t*)h->mvd_table[list][b_xy + 0 + y*h->b_stride]= *(uint64_t*)h->mvd_cache[list][scan8[0]+0 + 8*y];
1392                 *(uint64_t*)h->mvd_table[list][b_xy + 2 + y*h->b_stride]= *(uint64_t*)h->mvd_cache[list][scan8[0]+2 + 8*y];
1393             }
1394         }
1395         for(y=0; y<2; y++){
1396             s->current_picture.ref_index[list][b8_xy + 0 + y*h->b8_stride]= h->ref_cache[list][scan8[0]+0 + 16*y];
1397             s->current_picture.ref_index[list][b8_xy + 1 + y*h->b8_stride]= h->ref_cache[list][scan8[0]+2 + 16*y];
1398         }
1399     }
1400     
1401     if(h->slice_type == B_TYPE && h->pps.cabac){
1402         if(IS_8X8(mb_type)){
1403             h->direct_table[b8_xy+1+0*h->b8_stride] = IS_DIRECT(h->sub_mb_type[1]) ? 1 : 0;
1404             h->direct_table[b8_xy+0+1*h->b8_stride] = IS_DIRECT(h->sub_mb_type[2]) ? 1 : 0;
1405             h->direct_table[b8_xy+1+1*h->b8_stride] = IS_DIRECT(h->sub_mb_type[3]) ? 1 : 0;
1406         }
1407     }
1408 }
1409
1410 /**
1411  * Decodes a network abstraction layer unit.
1412  * @param consumed is the number of bytes used as input
1413  * @param length is the length of the array
1414  * @param dst_length is the number of decoded bytes FIXME here or a decode rbsp tailing?
1415  * @returns decoded bytes, might be src+1 if no escapes 
1416  */
1417 static uint8_t *decode_nal(H264Context *h, uint8_t *src, int *dst_length, int *consumed, int length){
1418     int i, si, di;
1419     uint8_t *dst;
1420
1421 //    src[0]&0x80;              //forbidden bit
1422     h->nal_ref_idc= src[0]>>5;
1423     h->nal_unit_type= src[0]&0x1F;
1424
1425     src++; length--;
1426 #if 0    
1427     for(i=0; i<length; i++)
1428         printf("%2X ", src[i]);
1429 #endif
1430     for(i=0; i+1<length; i+=2){
1431         if(src[i]) continue;
1432         if(i>0 && src[i-1]==0) i--;
1433         if(i+2<length && src[i+1]==0 && src[i+2]<=3){
1434             if(src[i+2]!=3){
1435                 /* startcode, so we must be past the end */
1436                 length=i;
1437             }
1438             break;
1439         }
1440     }
1441
1442     if(i>=length-1){ //no escaped 0
1443         *dst_length= length;
1444         *consumed= length+1; //+1 for the header
1445         return src; 
1446     }
1447
1448     h->rbsp_buffer= av_fast_realloc(h->rbsp_buffer, &h->rbsp_buffer_size, length);
1449     dst= h->rbsp_buffer;
1450
1451 //printf("decoding esc\n");
1452     si=di=0;
1453     while(si<length){ 
1454         //remove escapes (very rare 1:2^22)
1455         if(si+2<length && src[si]==0 && src[si+1]==0 && src[si+2]<=3){
1456             if(src[si+2]==3){ //escape
1457                 dst[di++]= 0;
1458                 dst[di++]= 0;
1459                 si+=3;
1460                 continue;
1461             }else //next start code
1462                 break;
1463         }
1464
1465         dst[di++]= src[si++];
1466     }
1467
1468     *dst_length= di;
1469     *consumed= si + 1;//+1 for the header
1470 //FIXME store exact number of bits in the getbitcontext (its needed for decoding)
1471     return dst;
1472 }
1473
1474 #if 0
1475 /**
1476  * @param src the data which should be escaped
1477  * @param dst the target buffer, dst+1 == src is allowed as a special case
1478  * @param length the length of the src data
1479  * @param dst_length the length of the dst array
1480  * @returns length of escaped data in bytes or -1 if an error occured
1481  */
1482 static int encode_nal(H264Context *h, uint8_t *dst, uint8_t *src, int length, int dst_length){
1483     int i, escape_count, si, di;
1484     uint8_t *temp;
1485     
1486     assert(length>=0);
1487     assert(dst_length>0);
1488     
1489     dst[0]= (h->nal_ref_idc<<5) + h->nal_unit_type;
1490
1491     if(length==0) return 1;
1492
1493     escape_count= 0;
1494     for(i=0; i<length; i+=2){
1495         if(src[i]) continue;
1496         if(i>0 && src[i-1]==0) 
1497             i--;
1498         if(i+2<length && src[i+1]==0 && src[i+2]<=3){
1499             escape_count++;
1500             i+=2;
1501         }
1502     }
1503     
1504     if(escape_count==0){ 
1505         if(dst+1 != src)
1506             memcpy(dst+1, src, length);
1507         return length + 1;
1508     }
1509     
1510     if(length + escape_count + 1> dst_length)
1511         return -1;
1512
1513     //this should be damn rare (hopefully)
1514
1515     h->rbsp_buffer= av_fast_realloc(h->rbsp_buffer, &h->rbsp_buffer_size, length + escape_count);
1516     temp= h->rbsp_buffer;
1517 //printf("encoding esc\n");
1518     
1519     si= 0;
1520     di= 0;
1521     while(si < length){
1522         if(si+2<length && src[si]==0 && src[si+1]==0 && src[si+2]<=3){
1523             temp[di++]= 0; si++;
1524             temp[di++]= 0; si++;
1525             temp[di++]= 3; 
1526             temp[di++]= src[si++];
1527         }
1528         else
1529             temp[di++]= src[si++];
1530     }
1531     memcpy(dst+1, temp, length+escape_count);
1532     
1533     assert(di == length+escape_count);
1534     
1535     return di + 1;
1536 }
1537
1538 /**
1539  * write 1,10,100,1000,... for alignment, yes its exactly inverse to mpeg4
1540  */
1541 static void encode_rbsp_trailing(PutBitContext *pb){
1542     int length;
1543     put_bits(pb, 1, 1);
1544     length= (-put_bits_count(pb))&7;
1545     if(length) put_bits(pb, length, 0);
1546 }
1547 #endif
1548
1549 /**
1550  * identifies the exact end of the bitstream
1551  * @return the length of the trailing, or 0 if damaged
1552  */
1553 static int decode_rbsp_trailing(uint8_t *src){
1554     int v= *src;
1555     int r;
1556
1557     tprintf("rbsp trailing %X\n", v);
1558
1559     for(r=1; r<9; r++){
1560         if(v&1) return r;
1561         v>>=1;
1562     }
1563     return 0;
1564 }
1565
1566 /**
1567  * idct tranforms the 16 dc values and dequantize them.
1568  * @param qp quantization parameter
1569  */
1570 static void h264_luma_dc_dequant_idct_c(DCTELEM *block, int qp){
1571     const int qmul= dequant_coeff[qp][0];
1572 #define stride 16
1573     int i;
1574     int temp[16]; //FIXME check if this is a good idea
1575     static const int x_offset[4]={0, 1*stride, 4* stride,  5*stride};
1576     static const int y_offset[4]={0, 2*stride, 8* stride, 10*stride};
1577
1578 //memset(block, 64, 2*256);
1579 //return;
1580     for(i=0; i<4; i++){
1581         const int offset= y_offset[i];
1582         const int z0= block[offset+stride*0] + block[offset+stride*4];
1583         const int z1= block[offset+stride*0] - block[offset+stride*4];
1584         const int z2= block[offset+stride*1] - block[offset+stride*5];
1585         const int z3= block[offset+stride*1] + block[offset+stride*5];
1586
1587         temp[4*i+0]= z0+z3;
1588         temp[4*i+1]= z1+z2;
1589         temp[4*i+2]= z1-z2;
1590         temp[4*i+3]= z0-z3;
1591     }
1592
1593     for(i=0; i<4; i++){
1594         const int offset= x_offset[i];
1595         const int z0= temp[4*0+i] + temp[4*2+i];
1596         const int z1= temp[4*0+i] - temp[4*2+i];
1597         const int z2= temp[4*1+i] - temp[4*3+i];
1598         const int z3= temp[4*1+i] + temp[4*3+i];
1599
1600         block[stride*0 +offset]= ((z0 + z3)*qmul + 2)>>2; //FIXME think about merging this into decode_resdual
1601         block[stride*2 +offset]= ((z1 + z2)*qmul + 2)>>2;
1602         block[stride*8 +offset]= ((z1 - z2)*qmul + 2)>>2;
1603         block[stride*10+offset]= ((z0 - z3)*qmul + 2)>>2;
1604     }
1605 }
1606
1607 #if 0
1608 /**
1609  * dct tranforms the 16 dc values.
1610  * @param qp quantization parameter ??? FIXME
1611  */
1612 static void h264_luma_dc_dct_c(DCTELEM *block/*, int qp*/){
1613 //    const int qmul= dequant_coeff[qp][0];
1614     int i;
1615     int temp[16]; //FIXME check if this is a good idea
1616     static const int x_offset[4]={0, 1*stride, 4* stride,  5*stride};
1617     static const int y_offset[4]={0, 2*stride, 8* stride, 10*stride};
1618
1619     for(i=0; i<4; i++){
1620         const int offset= y_offset[i];
1621         const int z0= block[offset+stride*0] + block[offset+stride*4];
1622         const int z1= block[offset+stride*0] - block[offset+stride*4];
1623         const int z2= block[offset+stride*1] - block[offset+stride*5];
1624         const int z3= block[offset+stride*1] + block[offset+stride*5];
1625
1626         temp[4*i+0]= z0+z3;
1627         temp[4*i+1]= z1+z2;
1628         temp[4*i+2]= z1-z2;
1629         temp[4*i+3]= z0-z3;
1630     }
1631
1632     for(i=0; i<4; i++){
1633         const int offset= x_offset[i];
1634         const int z0= temp[4*0+i] + temp[4*2+i];
1635         const int z1= temp[4*0+i] - temp[4*2+i];
1636         const int z2= temp[4*1+i] - temp[4*3+i];
1637         const int z3= temp[4*1+i] + temp[4*3+i];
1638
1639         block[stride*0 +offset]= (z0 + z3)>>1;
1640         block[stride*2 +offset]= (z1 + z2)>>1;
1641         block[stride*8 +offset]= (z1 - z2)>>1;
1642         block[stride*10+offset]= (z0 - z3)>>1;
1643     }
1644 }
1645 #endif
1646
1647 #undef xStride
1648 #undef stride
1649
1650 static void chroma_dc_dequant_idct_c(DCTELEM *block, int qp){
1651     const int qmul= dequant_coeff[qp][0];
1652     const int stride= 16*2;
1653     const int xStride= 16;
1654     int a,b,c,d,e;
1655
1656     a= block[stride*0 + xStride*0];
1657     b= block[stride*0 + xStride*1];
1658     c= block[stride*1 + xStride*0];
1659     d= block[stride*1 + xStride*1];
1660
1661     e= a-b;
1662     a= a+b;
1663     b= c-d;
1664     c= c+d;
1665
1666     block[stride*0 + xStride*0]= ((a+c)*qmul + 0)>>1;
1667     block[stride*0 + xStride*1]= ((e+b)*qmul + 0)>>1;
1668     block[stride*1 + xStride*0]= ((a-c)*qmul + 0)>>1;
1669     block[stride*1 + xStride*1]= ((e-b)*qmul + 0)>>1;
1670 }
1671
1672 #if 0
1673 static void chroma_dc_dct_c(DCTELEM *block){
1674     const int stride= 16*2;
1675     const int xStride= 16;
1676     int a,b,c,d,e;
1677
1678     a= block[stride*0 + xStride*0];
1679     b= block[stride*0 + xStride*1];
1680     c= block[stride*1 + xStride*0];
1681     d= block[stride*1 + xStride*1];
1682
1683     e= a-b;
1684     a= a+b;
1685     b= c-d;
1686     c= c+d;
1687
1688     block[stride*0 + xStride*0]= (a+c);
1689     block[stride*0 + xStride*1]= (e+b);
1690     block[stride*1 + xStride*0]= (a-c);
1691     block[stride*1 + xStride*1]= (e-b);
1692 }
1693 #endif
1694
1695 /**
1696  * gets the chroma qp.
1697  */
1698 static inline int get_chroma_qp(int chroma_qp_index_offset, int qscale){
1699     
1700     return chroma_qp[clip(qscale + chroma_qp_index_offset, 0, 51)];
1701 }
1702
1703
1704 #if 0
1705 static void h264_diff_dct_c(DCTELEM *block, uint8_t *src1, uint8_t *src2, int stride){
1706     int i;
1707     //FIXME try int temp instead of block
1708     
1709     for(i=0; i<4; i++){
1710         const int d0= src1[0 + i*stride] - src2[0 + i*stride];
1711         const int d1= src1[1 + i*stride] - src2[1 + i*stride];
1712         const int d2= src1[2 + i*stride] - src2[2 + i*stride];
1713         const int d3= src1[3 + i*stride] - src2[3 + i*stride];
1714         const int z0= d0 + d3;
1715         const int z3= d0 - d3;
1716         const int z1= d1 + d2;
1717         const int z2= d1 - d2;
1718         
1719         block[0 + 4*i]=   z0 +   z1;
1720         block[1 + 4*i]= 2*z3 +   z2;
1721         block[2 + 4*i]=   z0 -   z1;
1722         block[3 + 4*i]=   z3 - 2*z2;
1723     }    
1724
1725     for(i=0; i<4; i++){
1726         const int z0= block[0*4 + i] + block[3*4 + i];
1727         const int z3= block[0*4 + i] - block[3*4 + i];
1728         const int z1= block[1*4 + i] + block[2*4 + i];
1729         const int z2= block[1*4 + i] - block[2*4 + i];
1730         
1731         block[0*4 + i]=   z0 +   z1;
1732         block[1*4 + i]= 2*z3 +   z2;
1733         block[2*4 + i]=   z0 -   z1;
1734         block[3*4 + i]=   z3 - 2*z2;
1735     }
1736 }
1737 #endif
1738
1739 //FIXME need to check that this doesnt overflow signed 32 bit for low qp, i am not sure, it's very close
1740 //FIXME check that gcc inlines this (and optimizes intra & seperate_dc stuff away)
1741 static inline int quantize_c(DCTELEM *block, uint8_t *scantable, int qscale, int intra, int seperate_dc){
1742     int i;
1743     const int * const quant_table= quant_coeff[qscale];
1744     const int bias= intra ? (1<<QUANT_SHIFT)/3 : (1<<QUANT_SHIFT)/6;
1745     const unsigned int threshold1= (1<<QUANT_SHIFT) - bias - 1;
1746     const unsigned int threshold2= (threshold1<<1);
1747     int last_non_zero;
1748
1749     if(seperate_dc){
1750         if(qscale<=18){
1751             //avoid overflows
1752             const int dc_bias= intra ? (1<<(QUANT_SHIFT-2))/3 : (1<<(QUANT_SHIFT-2))/6;
1753             const unsigned int dc_threshold1= (1<<(QUANT_SHIFT-2)) - dc_bias - 1;
1754             const unsigned int dc_threshold2= (dc_threshold1<<1);
1755
1756             int level= block[0]*quant_coeff[qscale+18][0];
1757             if(((unsigned)(level+dc_threshold1))>dc_threshold2){
1758                 if(level>0){
1759                     level= (dc_bias + level)>>(QUANT_SHIFT-2);
1760                     block[0]= level;
1761                 }else{
1762                     level= (dc_bias - level)>>(QUANT_SHIFT-2);
1763                     block[0]= -level;
1764                 }
1765 //                last_non_zero = i;
1766             }else{
1767                 block[0]=0;
1768             }
1769         }else{
1770             const int dc_bias= intra ? (1<<(QUANT_SHIFT+1))/3 : (1<<(QUANT_SHIFT+1))/6;
1771             const unsigned int dc_threshold1= (1<<(QUANT_SHIFT+1)) - dc_bias - 1;
1772             const unsigned int dc_threshold2= (dc_threshold1<<1);
1773
1774             int level= block[0]*quant_table[0];
1775             if(((unsigned)(level+dc_threshold1))>dc_threshold2){
1776                 if(level>0){
1777                     level= (dc_bias + level)>>(QUANT_SHIFT+1);
1778                     block[0]= level;
1779                 }else{
1780                     level= (dc_bias - level)>>(QUANT_SHIFT+1);
1781                     block[0]= -level;
1782                 }
1783 //                last_non_zero = i;
1784             }else{
1785                 block[0]=0;
1786             }
1787         }
1788         last_non_zero= 0;
1789         i=1;
1790     }else{
1791         last_non_zero= -1;
1792         i=0;
1793     }
1794
1795     for(; i<16; i++){
1796         const int j= scantable[i];
1797         int level= block[j]*quant_table[j];
1798
1799 //        if(   bias+level >= (1<<(QMAT_SHIFT - 3))
1800 //           || bias-level >= (1<<(QMAT_SHIFT - 3))){
1801         if(((unsigned)(level+threshold1))>threshold2){
1802             if(level>0){
1803                 level= (bias + level)>>QUANT_SHIFT;
1804                 block[j]= level;
1805             }else{
1806                 level= (bias - level)>>QUANT_SHIFT;
1807                 block[j]= -level;
1808             }
1809             last_non_zero = i;
1810         }else{
1811             block[j]=0;
1812         }
1813     }
1814
1815     return last_non_zero;
1816 }
1817
1818 static void pred4x4_vertical_c(uint8_t *src, uint8_t *topright, int stride){
1819     const uint32_t a= ((uint32_t*)(src-stride))[0];
1820     ((uint32_t*)(src+0*stride))[0]= a;
1821     ((uint32_t*)(src+1*stride))[0]= a;
1822     ((uint32_t*)(src+2*stride))[0]= a;
1823     ((uint32_t*)(src+3*stride))[0]= a;
1824 }
1825
1826 static void pred4x4_horizontal_c(uint8_t *src, uint8_t *topright, int stride){
1827     ((uint32_t*)(src+0*stride))[0]= src[-1+0*stride]*0x01010101;
1828     ((uint32_t*)(src+1*stride))[0]= src[-1+1*stride]*0x01010101;
1829     ((uint32_t*)(src+2*stride))[0]= src[-1+2*stride]*0x01010101;
1830     ((uint32_t*)(src+3*stride))[0]= src[-1+3*stride]*0x01010101;
1831 }
1832
1833 static void pred4x4_dc_c(uint8_t *src, uint8_t *topright, int stride){
1834     const int dc= (  src[-stride] + src[1-stride] + src[2-stride] + src[3-stride]
1835                    + src[-1+0*stride] + src[-1+1*stride] + src[-1+2*stride] + src[-1+3*stride] + 4) >>3;
1836     
1837     ((uint32_t*)(src+0*stride))[0]= 
1838     ((uint32_t*)(src+1*stride))[0]= 
1839     ((uint32_t*)(src+2*stride))[0]= 
1840     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1841 }
1842
1843 static void pred4x4_left_dc_c(uint8_t *src, uint8_t *topright, int stride){
1844     const int dc= (  src[-1+0*stride] + src[-1+1*stride] + src[-1+2*stride] + src[-1+3*stride] + 2) >>2;
1845     
1846     ((uint32_t*)(src+0*stride))[0]= 
1847     ((uint32_t*)(src+1*stride))[0]= 
1848     ((uint32_t*)(src+2*stride))[0]= 
1849     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1850 }
1851
1852 static void pred4x4_top_dc_c(uint8_t *src, uint8_t *topright, int stride){
1853     const int dc= (  src[-stride] + src[1-stride] + src[2-stride] + src[3-stride] + 2) >>2;
1854     
1855     ((uint32_t*)(src+0*stride))[0]= 
1856     ((uint32_t*)(src+1*stride))[0]= 
1857     ((uint32_t*)(src+2*stride))[0]= 
1858     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1859 }
1860
1861 static void pred4x4_128_dc_c(uint8_t *src, uint8_t *topright, int stride){
1862     ((uint32_t*)(src+0*stride))[0]= 
1863     ((uint32_t*)(src+1*stride))[0]= 
1864     ((uint32_t*)(src+2*stride))[0]= 
1865     ((uint32_t*)(src+3*stride))[0]= 128U*0x01010101U;
1866 }
1867
1868
1869 #define LOAD_TOP_RIGHT_EDGE\
1870     const int t4= topright[0];\
1871     const int t5= topright[1];\
1872     const int t6= topright[2];\
1873     const int t7= topright[3];\
1874
1875 #define LOAD_LEFT_EDGE\
1876     const int l0= src[-1+0*stride];\
1877     const int l1= src[-1+1*stride];\
1878     const int l2= src[-1+2*stride];\
1879     const int l3= src[-1+3*stride];\
1880
1881 #define LOAD_TOP_EDGE\
1882     const int t0= src[ 0-1*stride];\
1883     const int t1= src[ 1-1*stride];\
1884     const int t2= src[ 2-1*stride];\
1885     const int t3= src[ 3-1*stride];\
1886
1887 static void pred4x4_down_right_c(uint8_t *src, uint8_t *topright, int stride){
1888     const int lt= src[-1-1*stride];
1889     LOAD_TOP_EDGE
1890     LOAD_LEFT_EDGE
1891
1892     src[0+3*stride]=(l3 + 2*l2 + l1 + 2)>>2; 
1893     src[0+2*stride]=
1894     src[1+3*stride]=(l2 + 2*l1 + l0 + 2)>>2; 
1895     src[0+1*stride]=
1896     src[1+2*stride]=
1897     src[2+3*stride]=(l1 + 2*l0 + lt + 2)>>2; 
1898     src[0+0*stride]=
1899     src[1+1*stride]=
1900     src[2+2*stride]=
1901     src[3+3*stride]=(l0 + 2*lt + t0 + 2)>>2; 
1902     src[1+0*stride]=
1903     src[2+1*stride]=
1904     src[3+2*stride]=(lt + 2*t0 + t1 + 2)>>2;
1905     src[2+0*stride]=
1906     src[3+1*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1907     src[3+0*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1908 }
1909
1910 static void pred4x4_down_left_c(uint8_t *src, uint8_t *topright, int stride){
1911     LOAD_TOP_EDGE    
1912     LOAD_TOP_RIGHT_EDGE    
1913 //    LOAD_LEFT_EDGE    
1914
1915     src[0+0*stride]=(t0 + t2 + 2*t1 + 2)>>2;
1916     src[1+0*stride]=
1917     src[0+1*stride]=(t1 + t3 + 2*t2 + 2)>>2;
1918     src[2+0*stride]=
1919     src[1+1*stride]=
1920     src[0+2*stride]=(t2 + t4 + 2*t3 + 2)>>2;
1921     src[3+0*stride]=
1922     src[2+1*stride]=
1923     src[1+2*stride]=
1924     src[0+3*stride]=(t3 + t5 + 2*t4 + 2)>>2;
1925     src[3+1*stride]=
1926     src[2+2*stride]=
1927     src[1+3*stride]=(t4 + t6 + 2*t5 + 2)>>2;
1928     src[3+2*stride]=
1929     src[2+3*stride]=(t5 + t7 + 2*t6 + 2)>>2;
1930     src[3+3*stride]=(t6 + 3*t7 + 2)>>2;
1931 }
1932
1933 static void pred4x4_vertical_right_c(uint8_t *src, uint8_t *topright, int stride){
1934     const int lt= src[-1-1*stride];
1935     LOAD_TOP_EDGE    
1936     LOAD_LEFT_EDGE    
1937     const __attribute__((unused)) int unu= l3;
1938
1939     src[0+0*stride]=
1940     src[1+2*stride]=(lt + t0 + 1)>>1;
1941     src[1+0*stride]=
1942     src[2+2*stride]=(t0 + t1 + 1)>>1;
1943     src[2+0*stride]=
1944     src[3+2*stride]=(t1 + t2 + 1)>>1;
1945     src[3+0*stride]=(t2 + t3 + 1)>>1;
1946     src[0+1*stride]=
1947     src[1+3*stride]=(l0 + 2*lt + t0 + 2)>>2;
1948     src[1+1*stride]=
1949     src[2+3*stride]=(lt + 2*t0 + t1 + 2)>>2;
1950     src[2+1*stride]=
1951     src[3+3*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1952     src[3+1*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1953     src[0+2*stride]=(lt + 2*l0 + l1 + 2)>>2;
1954     src[0+3*stride]=(l0 + 2*l1 + l2 + 2)>>2;
1955 }
1956
1957 static void pred4x4_vertical_left_c(uint8_t *src, uint8_t *topright, int stride){
1958     LOAD_TOP_EDGE    
1959     LOAD_TOP_RIGHT_EDGE    
1960     const __attribute__((unused)) int unu= t7;
1961
1962     src[0+0*stride]=(t0 + t1 + 1)>>1;
1963     src[1+0*stride]=
1964     src[0+2*stride]=(t1 + t2 + 1)>>1;
1965     src[2+0*stride]=
1966     src[1+2*stride]=(t2 + t3 + 1)>>1;
1967     src[3+0*stride]=
1968     src[2+2*stride]=(t3 + t4+ 1)>>1;
1969     src[3+2*stride]=(t4 + t5+ 1)>>1;
1970     src[0+1*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1971     src[1+1*stride]=
1972     src[0+3*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1973     src[2+1*stride]=
1974     src[1+3*stride]=(t2 + 2*t3 + t4 + 2)>>2;
1975     src[3+1*stride]=
1976     src[2+3*stride]=(t3 + 2*t4 + t5 + 2)>>2;
1977     src[3+3*stride]=(t4 + 2*t5 + t6 + 2)>>2;
1978 }
1979
1980 static void pred4x4_horizontal_up_c(uint8_t *src, uint8_t *topright, int stride){
1981     LOAD_LEFT_EDGE    
1982
1983     src[0+0*stride]=(l0 + l1 + 1)>>1;
1984     src[1+0*stride]=(l0 + 2*l1 + l2 + 2)>>2;
1985     src[2+0*stride]=
1986     src[0+1*stride]=(l1 + l2 + 1)>>1;
1987     src[3+0*stride]=
1988     src[1+1*stride]=(l1 + 2*l2 + l3 + 2)>>2;
1989     src[2+1*stride]=
1990     src[0+2*stride]=(l2 + l3 + 1)>>1;
1991     src[3+1*stride]=
1992     src[1+2*stride]=(l2 + 2*l3 + l3 + 2)>>2;
1993     src[3+2*stride]=
1994     src[1+3*stride]=
1995     src[0+3*stride]=
1996     src[2+2*stride]=
1997     src[2+3*stride]=
1998     src[3+3*stride]=l3;
1999 }
2000     
2001 static void pred4x4_horizontal_down_c(uint8_t *src, uint8_t *topright, int stride){
2002     const int lt= src[-1-1*stride];
2003     LOAD_TOP_EDGE    
2004     LOAD_LEFT_EDGE    
2005     const __attribute__((unused)) int unu= t3;
2006
2007     src[0+0*stride]=
2008     src[2+1*stride]=(lt + l0 + 1)>>1;
2009     src[1+0*stride]=
2010     src[3+1*stride]=(l0 + 2*lt + t0 + 2)>>2;
2011     src[2+0*stride]=(lt + 2*t0 + t1 + 2)>>2;
2012     src[3+0*stride]=(t0 + 2*t1 + t2 + 2)>>2;
2013     src[0+1*stride]=
2014     src[2+2*stride]=(l0 + l1 + 1)>>1;
2015     src[1+1*stride]=
2016     src[3+2*stride]=(lt + 2*l0 + l1 + 2)>>2;
2017     src[0+2*stride]=
2018     src[2+3*stride]=(l1 + l2+ 1)>>1;
2019     src[1+2*stride]=
2020     src[3+3*stride]=(l0 + 2*l1 + l2 + 2)>>2;
2021     src[0+3*stride]=(l2 + l3 + 1)>>1;
2022     src[1+3*stride]=(l1 + 2*l2 + l3 + 2)>>2;
2023 }
2024
2025 static void pred16x16_vertical_c(uint8_t *src, int stride){
2026     int i;
2027     const uint32_t a= ((uint32_t*)(src-stride))[0];
2028     const uint32_t b= ((uint32_t*)(src-stride))[1];
2029     const uint32_t c= ((uint32_t*)(src-stride))[2];
2030     const uint32_t d= ((uint32_t*)(src-stride))[3];
2031     
2032     for(i=0; i<16; i++){
2033         ((uint32_t*)(src+i*stride))[0]= a;
2034         ((uint32_t*)(src+i*stride))[1]= b;
2035         ((uint32_t*)(src+i*stride))[2]= c;
2036         ((uint32_t*)(src+i*stride))[3]= d;
2037     }
2038 }
2039
2040 static void pred16x16_horizontal_c(uint8_t *src, int stride){
2041     int i;
2042
2043     for(i=0; i<16; i++){
2044         ((uint32_t*)(src+i*stride))[0]=
2045         ((uint32_t*)(src+i*stride))[1]=
2046         ((uint32_t*)(src+i*stride))[2]=
2047         ((uint32_t*)(src+i*stride))[3]= src[-1+i*stride]*0x01010101;
2048     }
2049 }
2050
2051 static void pred16x16_dc_c(uint8_t *src, int stride){
2052     int i, dc=0;
2053
2054     for(i=0;i<16; i++){
2055         dc+= src[-1+i*stride];
2056     }
2057     
2058     for(i=0;i<16; i++){
2059         dc+= src[i-stride];
2060     }
2061
2062     dc= 0x01010101*((dc + 16)>>5);
2063
2064     for(i=0; i<16; i++){
2065         ((uint32_t*)(src+i*stride))[0]=
2066         ((uint32_t*)(src+i*stride))[1]=
2067         ((uint32_t*)(src+i*stride))[2]=
2068         ((uint32_t*)(src+i*stride))[3]= dc;
2069     }
2070 }
2071
2072 static void pred16x16_left_dc_c(uint8_t *src, int stride){
2073     int i, dc=0;
2074
2075     for(i=0;i<16; i++){
2076         dc+= src[-1+i*stride];
2077     }
2078     
2079     dc= 0x01010101*((dc + 8)>>4);
2080
2081     for(i=0; i<16; i++){
2082         ((uint32_t*)(src+i*stride))[0]=
2083         ((uint32_t*)(src+i*stride))[1]=
2084         ((uint32_t*)(src+i*stride))[2]=
2085         ((uint32_t*)(src+i*stride))[3]= dc;
2086     }
2087 }
2088
2089 static void pred16x16_top_dc_c(uint8_t *src, int stride){
2090     int i, dc=0;
2091
2092     for(i=0;i<16; i++){
2093         dc+= src[i-stride];
2094     }
2095     dc= 0x01010101*((dc + 8)>>4);
2096
2097     for(i=0; i<16; i++){
2098         ((uint32_t*)(src+i*stride))[0]=
2099         ((uint32_t*)(src+i*stride))[1]=
2100         ((uint32_t*)(src+i*stride))[2]=
2101         ((uint32_t*)(src+i*stride))[3]= dc;
2102     }
2103 }
2104
2105 static void pred16x16_128_dc_c(uint8_t *src, int stride){
2106     int i;
2107
2108     for(i=0; i<16; i++){
2109         ((uint32_t*)(src+i*stride))[0]=
2110         ((uint32_t*)(src+i*stride))[1]=
2111         ((uint32_t*)(src+i*stride))[2]=
2112         ((uint32_t*)(src+i*stride))[3]= 0x01010101U*128U;
2113     }
2114 }
2115
2116 static inline void pred16x16_plane_compat_c(uint8_t *src, int stride, const int svq3){
2117   int i, j, k;
2118   int a;
2119   uint8_t *cm = cropTbl + MAX_NEG_CROP;
2120   const uint8_t * const src0 = src+7-stride;
2121   const uint8_t *src1 = src+8*stride-1;
2122   const uint8_t *src2 = src1-2*stride;      // == src+6*stride-1;
2123   int H = src0[1] - src0[-1];
2124   int V = src1[0] - src2[ 0];
2125   for(k=2; k<=8; ++k) {
2126     src1 += stride; src2 -= stride;
2127     H += k*(src0[k] - src0[-k]);
2128     V += k*(src1[0] - src2[ 0]);
2129   }
2130   if(svq3){
2131     H = ( 5*(H/4) ) / 16;
2132     V = ( 5*(V/4) ) / 16;
2133
2134     /* required for 100% accuracy */
2135     i = H; H = V; V = i;
2136   }else{
2137     H = ( 5*H+32 ) >> 6;
2138     V = ( 5*V+32 ) >> 6;
2139   }
2140
2141   a = 16*(src1[0] + src2[16] + 1) - 7*(V+H);
2142   for(j=16; j>0; --j) {
2143     int b = a;
2144     a += V;
2145     for(i=-16; i<0; i+=4) {
2146       src[16+i] = cm[ (b    ) >> 5 ];
2147       src[17+i] = cm[ (b+  H) >> 5 ];
2148       src[18+i] = cm[ (b+2*H) >> 5 ];
2149       src[19+i] = cm[ (b+3*H) >> 5 ];
2150       b += 4*H;
2151     }
2152     src += stride;
2153   }
2154 }
2155
2156 static void pred16x16_plane_c(uint8_t *src, int stride){
2157     pred16x16_plane_compat_c(src, stride, 0);
2158 }
2159
2160 static void pred8x8_vertical_c(uint8_t *src, int stride){
2161     int i;
2162     const uint32_t a= ((uint32_t*)(src-stride))[0];
2163     const uint32_t b= ((uint32_t*)(src-stride))[1];
2164     
2165     for(i=0; i<8; i++){
2166         ((uint32_t*)(src+i*stride))[0]= a;
2167         ((uint32_t*)(src+i*stride))[1]= b;
2168     }
2169 }
2170
2171 static void pred8x8_horizontal_c(uint8_t *src, int stride){
2172     int i;
2173
2174     for(i=0; i<8; i++){
2175         ((uint32_t*)(src+i*stride))[0]=
2176         ((uint32_t*)(src+i*stride))[1]= src[-1+i*stride]*0x01010101;
2177     }
2178 }
2179
2180 static void pred8x8_128_dc_c(uint8_t *src, int stride){
2181     int i;
2182
2183     for(i=0; i<4; i++){
2184         ((uint32_t*)(src+i*stride))[0]= 
2185         ((uint32_t*)(src+i*stride))[1]= 0x01010101U*128U;
2186     }
2187     for(i=4; i<8; i++){
2188         ((uint32_t*)(src+i*stride))[0]= 
2189         ((uint32_t*)(src+i*stride))[1]= 0x01010101U*128U;
2190     }
2191 }
2192
2193 static void pred8x8_left_dc_c(uint8_t *src, int stride){
2194     int i;
2195     int dc0, dc2;
2196
2197     dc0=dc2=0;
2198     for(i=0;i<4; i++){
2199         dc0+= src[-1+i*stride];
2200         dc2+= src[-1+(i+4)*stride];
2201     }
2202     dc0= 0x01010101*((dc0 + 2)>>2);
2203     dc2= 0x01010101*((dc2 + 2)>>2);
2204
2205     for(i=0; i<4; i++){
2206         ((uint32_t*)(src+i*stride))[0]=
2207         ((uint32_t*)(src+i*stride))[1]= dc0;
2208     }
2209     for(i=4; i<8; i++){
2210         ((uint32_t*)(src+i*stride))[0]=
2211         ((uint32_t*)(src+i*stride))[1]= dc2;
2212     }
2213 }
2214
2215 static void pred8x8_top_dc_c(uint8_t *src, int stride){
2216     int i;
2217     int dc0, dc1;
2218
2219     dc0=dc1=0;
2220     for(i=0;i<4; i++){
2221         dc0+= src[i-stride];
2222         dc1+= src[4+i-stride];
2223     }
2224     dc0= 0x01010101*((dc0 + 2)>>2);
2225     dc1= 0x01010101*((dc1 + 2)>>2);
2226
2227     for(i=0; i<4; i++){
2228         ((uint32_t*)(src+i*stride))[0]= dc0;
2229         ((uint32_t*)(src+i*stride))[1]= dc1;
2230     }
2231     for(i=4; i<8; i++){
2232         ((uint32_t*)(src+i*stride))[0]= dc0;
2233         ((uint32_t*)(src+i*stride))[1]= dc1;
2234     }
2235 }
2236
2237
2238 static void pred8x8_dc_c(uint8_t *src, int stride){
2239     int i;
2240     int dc0, dc1, dc2, dc3;
2241
2242     dc0=dc1=dc2=0;
2243     for(i=0;i<4; i++){
2244         dc0+= src[-1+i*stride] + src[i-stride];
2245         dc1+= src[4+i-stride];
2246         dc2+= src[-1+(i+4)*stride];
2247     }
2248     dc3= 0x01010101*((dc1 + dc2 + 4)>>3);
2249     dc0= 0x01010101*((dc0 + 4)>>3);
2250     dc1= 0x01010101*((dc1 + 2)>>2);
2251     dc2= 0x01010101*((dc2 + 2)>>2);
2252
2253     for(i=0; i<4; i++){
2254         ((uint32_t*)(src+i*stride))[0]= dc0;
2255         ((uint32_t*)(src+i*stride))[1]= dc1;
2256     }
2257     for(i=4; i<8; i++){
2258         ((uint32_t*)(src+i*stride))[0]= dc2;
2259         ((uint32_t*)(src+i*stride))[1]= dc3;
2260     }
2261 }
2262
2263 static void pred8x8_plane_c(uint8_t *src, int stride){
2264   int j, k;
2265   int a;
2266   uint8_t *cm = cropTbl + MAX_NEG_CROP;
2267   const uint8_t * const src0 = src+3-stride;
2268   const uint8_t *src1 = src+4*stride-1;
2269   const uint8_t *src2 = src1-2*stride;      // == src+2*stride-1;
2270   int H = src0[1] - src0[-1];
2271   int V = src1[0] - src2[ 0];
2272   for(k=2; k<=4; ++k) {
2273     src1 += stride; src2 -= stride;
2274     H += k*(src0[k] - src0[-k]);
2275     V += k*(src1[0] - src2[ 0]);
2276   }
2277   H = ( 17*H+16 ) >> 5;
2278   V = ( 17*V+16 ) >> 5;
2279
2280   a = 16*(src1[0] + src2[8]+1) - 3*(V+H);
2281   for(j=8; j>0; --j) {
2282     int b = a;
2283     a += V;
2284     src[0] = cm[ (b    ) >> 5 ];
2285     src[1] = cm[ (b+  H) >> 5 ];
2286     src[2] = cm[ (b+2*H) >> 5 ];
2287     src[3] = cm[ (b+3*H) >> 5 ];
2288     src[4] = cm[ (b+4*H) >> 5 ];
2289     src[5] = cm[ (b+5*H) >> 5 ];
2290     src[6] = cm[ (b+6*H) >> 5 ];
2291     src[7] = cm[ (b+7*H) >> 5 ];
2292     src += stride;
2293   }
2294 }
2295
2296 static inline void mc_dir_part(H264Context *h, Picture *pic, int n, int square, int chroma_height, int delta, int list,
2297                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2298                            int src_x_offset, int src_y_offset,
2299                            qpel_mc_func *qpix_op, h264_chroma_mc_func chroma_op){
2300     MpegEncContext * const s = &h->s;
2301     const int mx= h->mv_cache[list][ scan8[n] ][0] + src_x_offset*8;
2302     const int my= h->mv_cache[list][ scan8[n] ][1] + src_y_offset*8;
2303     const int luma_xy= (mx&3) + ((my&3)<<2);
2304     uint8_t * src_y = pic->data[0] + (mx>>2) + (my>>2)*s->linesize;
2305     uint8_t * src_cb= pic->data[1] + (mx>>3) + (my>>3)*s->uvlinesize;
2306     uint8_t * src_cr= pic->data[2] + (mx>>3) + (my>>3)*s->uvlinesize;
2307     int extra_width= (s->flags&CODEC_FLAG_EMU_EDGE) ? 0 : 16; //FIXME increase edge?, IMHO not worth it
2308     int extra_height= extra_width;
2309     int emu=0;
2310     const int full_mx= mx>>2;
2311     const int full_my= my>>2;
2312     
2313     assert(pic->data[0]);
2314     
2315     if(mx&7) extra_width -= 3;
2316     if(my&7) extra_height -= 3;
2317     
2318     if(   full_mx < 0-extra_width 
2319        || full_my < 0-extra_height 
2320        || full_mx + 16/*FIXME*/ > s->width + extra_width 
2321        || full_my + 16/*FIXME*/ > s->height + extra_height){
2322         ff_emulated_edge_mc(s->edge_emu_buffer, src_y - 2 - 2*s->linesize, s->linesize, 16+5, 16+5/*FIXME*/, full_mx-2, full_my-2, s->width, s->height);
2323             src_y= s->edge_emu_buffer + 2 + 2*s->linesize;
2324         emu=1;
2325     }
2326     
2327     qpix_op[luma_xy](dest_y, src_y, s->linesize); //FIXME try variable height perhaps?
2328     if(!square){
2329         qpix_op[luma_xy](dest_y + delta, src_y + delta, s->linesize);
2330     }
2331     
2332     if(s->flags&CODEC_FLAG_GRAY) return;
2333     
2334     if(emu){
2335         ff_emulated_edge_mc(s->edge_emu_buffer, src_cb, s->uvlinesize, 9, 9/*FIXME*/, (mx>>3), (my>>3), s->width>>1, s->height>>1);
2336             src_cb= s->edge_emu_buffer;
2337     }
2338     chroma_op(dest_cb, src_cb, s->uvlinesize, chroma_height, mx&7, my&7);
2339
2340     if(emu){
2341         ff_emulated_edge_mc(s->edge_emu_buffer, src_cr, s->uvlinesize, 9, 9/*FIXME*/, (mx>>3), (my>>3), s->width>>1, s->height>>1);
2342             src_cr= s->edge_emu_buffer;
2343     }
2344     chroma_op(dest_cr, src_cr, s->uvlinesize, chroma_height, mx&7, my&7);
2345 }
2346
2347 static inline void mc_part_std(H264Context *h, int n, int square, int chroma_height, int delta,
2348                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2349                            int x_offset, int y_offset,
2350                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2351                            qpel_mc_func *qpix_avg, h264_chroma_mc_func chroma_avg,
2352                            int list0, int list1){
2353     MpegEncContext * const s = &h->s;
2354     qpel_mc_func *qpix_op=  qpix_put;
2355     h264_chroma_mc_func chroma_op= chroma_put;
2356     
2357     dest_y  += 2*x_offset + 2*y_offset*s->  linesize;
2358     dest_cb +=   x_offset +   y_offset*s->uvlinesize;
2359     dest_cr +=   x_offset +   y_offset*s->uvlinesize;
2360     x_offset += 8*s->mb_x;
2361     y_offset += 8*s->mb_y;
2362     
2363     if(list0){
2364         Picture *ref= &h->ref_list[0][ h->ref_cache[0][ scan8[n] ] ];
2365         mc_dir_part(h, ref, n, square, chroma_height, delta, 0,
2366                            dest_y, dest_cb, dest_cr, x_offset, y_offset,
2367                            qpix_op, chroma_op);
2368
2369         qpix_op=  qpix_avg;
2370         chroma_op= chroma_avg;
2371     }
2372
2373     if(list1){
2374         Picture *ref= &h->ref_list[1][ h->ref_cache[1][ scan8[n] ] ];
2375         mc_dir_part(h, ref, n, square, chroma_height, delta, 1,
2376                            dest_y, dest_cb, dest_cr, x_offset, y_offset,
2377                            qpix_op, chroma_op);
2378     }
2379 }
2380
2381 static inline void mc_part_weighted(H264Context *h, int n, int square, int chroma_height, int delta,
2382                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2383                            int x_offset, int y_offset,
2384                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2385                            h264_weight_func luma_weight_op, h264_weight_func chroma_weight_op,
2386                            h264_biweight_func luma_weight_avg, h264_biweight_func chroma_weight_avg,
2387                            int list0, int list1){
2388     MpegEncContext * const s = &h->s;
2389
2390     dest_y  += 2*x_offset + 2*y_offset*s->  linesize;
2391     dest_cb +=   x_offset +   y_offset*s->uvlinesize;
2392     dest_cr +=   x_offset +   y_offset*s->uvlinesize;
2393     x_offset += 8*s->mb_x;
2394     y_offset += 8*s->mb_y;
2395     
2396     if(list0 && list1){
2397         /* don't optimize for luma-only case, since B-frames usually
2398          * use implicit weights => chroma too. */
2399         uint8_t *tmp_cb = s->obmc_scratchpad;
2400         uint8_t *tmp_cr = tmp_cb + 8*s->uvlinesize;
2401         uint8_t *tmp_y  = tmp_cr + 8*s->uvlinesize;
2402         int refn0 = h->ref_cache[0][ scan8[n] ];
2403         int refn1 = h->ref_cache[1][ scan8[n] ];
2404
2405         mc_dir_part(h, &h->ref_list[0][refn0], n, square, chroma_height, delta, 0,
2406                     dest_y, dest_cb, dest_cr,
2407                     x_offset, y_offset, qpix_put, chroma_put);
2408         mc_dir_part(h, &h->ref_list[1][refn1], n, square, chroma_height, delta, 1,
2409                     tmp_y, tmp_cb, tmp_cr,
2410                     x_offset, y_offset, qpix_put, chroma_put);
2411
2412         if(h->use_weight == 2){
2413             int weight0 = h->implicit_weight[refn0][refn1];
2414             int weight1 = 64 - weight0;
2415             luma_weight_avg(  dest_y,  tmp_y,  s->  linesize, 5, weight0, weight1, 0, 0);
2416             chroma_weight_avg(dest_cb, tmp_cb, s->uvlinesize, 5, weight0, weight1, 0, 0);
2417             chroma_weight_avg(dest_cr, tmp_cr, s->uvlinesize, 5, weight0, weight1, 0, 0);
2418         }else{
2419             luma_weight_avg(dest_y, tmp_y, s->linesize, h->luma_log2_weight_denom,
2420                             h->luma_weight[0][refn0], h->luma_weight[1][refn1], 
2421                             h->luma_offset[0][refn0], h->luma_offset[1][refn1]);
2422             chroma_weight_avg(dest_cb, tmp_cb, s->uvlinesize, h->chroma_log2_weight_denom,
2423                             h->chroma_weight[0][refn0][0], h->chroma_weight[1][refn1][0], 
2424                             h->chroma_offset[0][refn0][0], h->chroma_offset[1][refn1][0]);
2425             chroma_weight_avg(dest_cr, tmp_cr, s->uvlinesize, h->chroma_log2_weight_denom,
2426                             h->chroma_weight[0][refn0][1], h->chroma_weight[1][refn1][1], 
2427                             h->chroma_offset[0][refn0][1], h->chroma_offset[1][refn1][1]);
2428         }
2429     }else{
2430         int list = list1 ? 1 : 0;
2431         int refn = h->ref_cache[list][ scan8[n] ];
2432         Picture *ref= &h->ref_list[list][refn];
2433         mc_dir_part(h, ref, n, square, chroma_height, delta, list,
2434                     dest_y, dest_cb, dest_cr, x_offset, y_offset,
2435                     qpix_put, chroma_put);
2436
2437         luma_weight_op(dest_y, s->linesize, h->luma_log2_weight_denom,
2438                        h->luma_weight[list][refn], h->luma_offset[list][refn]);
2439         if(h->use_weight_chroma){
2440             chroma_weight_op(dest_cb, s->uvlinesize, h->chroma_log2_weight_denom,
2441                              h->chroma_weight[list][refn][0], h->chroma_offset[list][refn][0]);
2442             chroma_weight_op(dest_cr, s->uvlinesize, h->chroma_log2_weight_denom,
2443                              h->chroma_weight[list][refn][1], h->chroma_offset[list][refn][1]);
2444         }
2445     }
2446 }
2447
2448 static inline void mc_part(H264Context *h, int n, int square, int chroma_height, int delta,
2449                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2450                            int x_offset, int y_offset,
2451                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2452                            qpel_mc_func *qpix_avg, h264_chroma_mc_func chroma_avg,
2453                            h264_weight_func *weight_op, h264_biweight_func *weight_avg, 
2454                            int list0, int list1){
2455     if((h->use_weight==2 && list0 && list1
2456         && (h->implicit_weight[ h->ref_cache[0][scan8[n]] ][ h->ref_cache[1][scan8[n]] ] != 32))
2457        || h->use_weight==1)
2458         mc_part_weighted(h, n, square, chroma_height, delta, dest_y, dest_cb, dest_cr,
2459                          x_offset, y_offset, qpix_put, chroma_put,
2460                          weight_op[0], weight_op[3], weight_avg[0], weight_avg[3], list0, list1);
2461     else
2462         mc_part_std(h, n, square, chroma_height, delta, dest_y, dest_cb, dest_cr,
2463                     x_offset, y_offset, qpix_put, chroma_put, qpix_avg, chroma_avg, list0, list1);
2464 }
2465
2466 static void hl_motion(H264Context *h, uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2467                       qpel_mc_func (*qpix_put)[16], h264_chroma_mc_func (*chroma_put),
2468                       qpel_mc_func (*qpix_avg)[16], h264_chroma_mc_func (*chroma_avg),
2469                       h264_weight_func *weight_op, h264_biweight_func *weight_avg){
2470     MpegEncContext * const s = &h->s;
2471     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
2472     const int mb_type= s->current_picture.mb_type[mb_xy];
2473     
2474     assert(IS_INTER(mb_type));
2475     
2476     if(IS_16X16(mb_type)){
2477         mc_part(h, 0, 1, 8, 0, dest_y, dest_cb, dest_cr, 0, 0,
2478                 qpix_put[0], chroma_put[0], qpix_avg[0], chroma_avg[0],
2479                 &weight_op[0], &weight_avg[0],
2480                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2481     }else if(IS_16X8(mb_type)){
2482         mc_part(h, 0, 0, 4, 8, dest_y, dest_cb, dest_cr, 0, 0,
2483                 qpix_put[1], chroma_put[0], qpix_avg[1], chroma_avg[0],
2484                 &weight_op[1], &weight_avg[1],
2485                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2486         mc_part(h, 8, 0, 4, 8, dest_y, dest_cb, dest_cr, 0, 4,
2487                 qpix_put[1], chroma_put[0], qpix_avg[1], chroma_avg[0],
2488                 &weight_op[1], &weight_avg[1],
2489                 IS_DIR(mb_type, 1, 0), IS_DIR(mb_type, 1, 1));
2490     }else if(IS_8X16(mb_type)){
2491         mc_part(h, 0, 0, 8, 8*s->linesize, dest_y, dest_cb, dest_cr, 0, 0,
2492                 qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2493                 &weight_op[2], &weight_avg[2],
2494                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2495         mc_part(h, 4, 0, 8, 8*s->linesize, dest_y, dest_cb, dest_cr, 4, 0,
2496                 qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2497                 &weight_op[2], &weight_avg[2],
2498                 IS_DIR(mb_type, 1, 0), IS_DIR(mb_type, 1, 1));
2499     }else{
2500         int i;
2501         
2502         assert(IS_8X8(mb_type));
2503
2504         for(i=0; i<4; i++){
2505             const int sub_mb_type= h->sub_mb_type[i];
2506             const int n= 4*i;
2507             int x_offset= (i&1)<<2;
2508             int y_offset= (i&2)<<1;
2509
2510             if(IS_SUB_8X8(sub_mb_type)){
2511                 mc_part(h, n, 1, 4, 0, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2512                     qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2513                     &weight_op[3], &weight_avg[3],
2514                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2515             }else if(IS_SUB_8X4(sub_mb_type)){
2516                 mc_part(h, n  , 0, 2, 4, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2517                     qpix_put[2], chroma_put[1], qpix_avg[2], chroma_avg[1],
2518                     &weight_op[4], &weight_avg[4],
2519                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2520                 mc_part(h, n+2, 0, 2, 4, dest_y, dest_cb, dest_cr, x_offset, y_offset+2,
2521                     qpix_put[2], chroma_put[1], qpix_avg[2], chroma_avg[1],
2522                     &weight_op[4], &weight_avg[4],
2523                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2524             }else if(IS_SUB_4X8(sub_mb_type)){
2525                 mc_part(h, n  , 0, 4, 4*s->linesize, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2526                     qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2527                     &weight_op[5], &weight_avg[5],
2528                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2529                 mc_part(h, n+1, 0, 4, 4*s->linesize, dest_y, dest_cb, dest_cr, x_offset+2, y_offset,
2530                     qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2531                     &weight_op[5], &weight_avg[5],
2532                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2533             }else{
2534                 int j;
2535                 assert(IS_SUB_4X4(sub_mb_type));
2536                 for(j=0; j<4; j++){
2537                     int sub_x_offset= x_offset + 2*(j&1);
2538                     int sub_y_offset= y_offset +   (j&2);
2539                     mc_part(h, n+j, 1, 2, 0, dest_y, dest_cb, dest_cr, sub_x_offset, sub_y_offset,
2540                         qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2541                         &weight_op[6], &weight_avg[6],
2542                         IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2543                 }
2544             }
2545         }
2546     }
2547 }
2548
2549 static void decode_init_vlc(H264Context *h){
2550     static int done = 0;
2551
2552     if (!done) {
2553         int i;
2554         done = 1;
2555
2556         init_vlc(&chroma_dc_coeff_token_vlc, CHROMA_DC_COEFF_TOKEN_VLC_BITS, 4*5, 
2557                  &chroma_dc_coeff_token_len [0], 1, 1,
2558                  &chroma_dc_coeff_token_bits[0], 1, 1, 1);
2559
2560         for(i=0; i<4; i++){
2561             init_vlc(&coeff_token_vlc[i], COEFF_TOKEN_VLC_BITS, 4*17, 
2562                      &coeff_token_len [i][0], 1, 1,
2563                      &coeff_token_bits[i][0], 1, 1, 1);
2564         }
2565
2566         for(i=0; i<3; i++){
2567             init_vlc(&chroma_dc_total_zeros_vlc[i], CHROMA_DC_TOTAL_ZEROS_VLC_BITS, 4,
2568                      &chroma_dc_total_zeros_len [i][0], 1, 1,
2569                      &chroma_dc_total_zeros_bits[i][0], 1, 1, 1);
2570         }
2571         for(i=0; i<15; i++){
2572             init_vlc(&total_zeros_vlc[i], TOTAL_ZEROS_VLC_BITS, 16, 
2573                      &total_zeros_len [i][0], 1, 1,
2574                      &total_zeros_bits[i][0], 1, 1, 1);
2575         }
2576
2577         for(i=0; i<6; i++){
2578             init_vlc(&run_vlc[i], RUN_VLC_BITS, 7, 
2579                      &run_len [i][0], 1, 1,
2580                      &run_bits[i][0], 1, 1, 1);
2581         }
2582         init_vlc(&run7_vlc, RUN7_VLC_BITS, 16, 
2583                  &run_len [6][0], 1, 1,
2584                  &run_bits[6][0], 1, 1, 1);
2585     }
2586 }
2587
2588 /**
2589  * Sets the intra prediction function pointers.
2590  */
2591 static void init_pred_ptrs(H264Context *h){
2592 //    MpegEncContext * const s = &h->s;
2593
2594     h->pred4x4[VERT_PRED           ]= pred4x4_vertical_c;
2595     h->pred4x4[HOR_PRED            ]= pred4x4_horizontal_c;
2596     h->pred4x4[DC_PRED             ]= pred4x4_dc_c;
2597     h->pred4x4[DIAG_DOWN_LEFT_PRED ]= pred4x4_down_left_c;
2598     h->pred4x4[DIAG_DOWN_RIGHT_PRED]= pred4x4_down_right_c;
2599     h->pred4x4[VERT_RIGHT_PRED     ]= pred4x4_vertical_right_c;
2600     h->pred4x4[HOR_DOWN_PRED       ]= pred4x4_horizontal_down_c;
2601     h->pred4x4[VERT_LEFT_PRED      ]= pred4x4_vertical_left_c;
2602     h->pred4x4[HOR_UP_PRED         ]= pred4x4_horizontal_up_c;
2603     h->pred4x4[LEFT_DC_PRED        ]= pred4x4_left_dc_c;
2604     h->pred4x4[TOP_DC_PRED         ]= pred4x4_top_dc_c;
2605     h->pred4x4[DC_128_PRED         ]= pred4x4_128_dc_c;
2606
2607     h->pred8x8[DC_PRED8x8     ]= pred8x8_dc_c;
2608     h->pred8x8[VERT_PRED8x8   ]= pred8x8_vertical_c;
2609     h->pred8x8[HOR_PRED8x8    ]= pred8x8_horizontal_c;
2610     h->pred8x8[PLANE_PRED8x8  ]= pred8x8_plane_c;
2611     h->pred8x8[LEFT_DC_PRED8x8]= pred8x8_left_dc_c;
2612     h->pred8x8[TOP_DC_PRED8x8 ]= pred8x8_top_dc_c;
2613     h->pred8x8[DC_128_PRED8x8 ]= pred8x8_128_dc_c;
2614
2615     h->pred16x16[DC_PRED8x8     ]= pred16x16_dc_c;
2616     h->pred16x16[VERT_PRED8x8   ]= pred16x16_vertical_c;
2617     h->pred16x16[HOR_PRED8x8    ]= pred16x16_horizontal_c;
2618     h->pred16x16[PLANE_PRED8x8  ]= pred16x16_plane_c;
2619     h->pred16x16[LEFT_DC_PRED8x8]= pred16x16_left_dc_c;
2620     h->pred16x16[TOP_DC_PRED8x8 ]= pred16x16_top_dc_c;
2621     h->pred16x16[DC_128_PRED8x8 ]= pred16x16_128_dc_c;
2622 }
2623
2624 static void free_tables(H264Context *h){
2625     av_freep(&h->intra4x4_pred_mode);
2626     av_freep(&h->chroma_pred_mode_table);
2627     av_freep(&h->cbp_table);
2628     av_freep(&h->mvd_table[0]);
2629     av_freep(&h->mvd_table[1]);
2630     av_freep(&h->direct_table);
2631     av_freep(&h->non_zero_count);
2632     av_freep(&h->slice_table_base);
2633     av_freep(&h->top_borders[1]);
2634     av_freep(&h->top_borders[0]);
2635     h->slice_table= NULL;
2636
2637     av_freep(&h->mb2b_xy);
2638     av_freep(&h->mb2b8_xy);
2639
2640     av_freep(&h->s.obmc_scratchpad);
2641 }
2642
2643 /**
2644  * allocates tables.
2645  * needs width/height
2646  */
2647 static int alloc_tables(H264Context *h){
2648     MpegEncContext * const s = &h->s;
2649     const int big_mb_num= s->mb_stride * (s->mb_height+1);
2650     int x,y;
2651
2652     CHECKED_ALLOCZ(h->intra4x4_pred_mode, big_mb_num * 8  * sizeof(uint8_t))
2653
2654     CHECKED_ALLOCZ(h->non_zero_count    , big_mb_num * 16 * sizeof(uint8_t))
2655     CHECKED_ALLOCZ(h->slice_table_base  , big_mb_num * sizeof(uint8_t))
2656     CHECKED_ALLOCZ(h->top_borders[0]    , s->mb_width * (16+8+8) * sizeof(uint8_t))
2657     CHECKED_ALLOCZ(h->top_borders[1]    , s->mb_width * (16+8+8) * sizeof(uint8_t))
2658     CHECKED_ALLOCZ(h->cbp_table, big_mb_num * sizeof(uint16_t))
2659
2660     if( h->pps.cabac ) {
2661         CHECKED_ALLOCZ(h->chroma_pred_mode_table, big_mb_num * sizeof(uint8_t))
2662         CHECKED_ALLOCZ(h->mvd_table[0], 32*big_mb_num * sizeof(uint16_t));
2663         CHECKED_ALLOCZ(h->mvd_table[1], 32*big_mb_num * sizeof(uint16_t));
2664         CHECKED_ALLOCZ(h->direct_table, 32*big_mb_num * sizeof(uint8_t));
2665     }
2666
2667     memset(h->slice_table_base, -1, big_mb_num  * sizeof(uint8_t));
2668     h->slice_table= h->slice_table_base + s->mb_stride + 1;
2669
2670     CHECKED_ALLOCZ(h->mb2b_xy  , big_mb_num * sizeof(uint32_t));
2671     CHECKED_ALLOCZ(h->mb2b8_xy , big_mb_num * sizeof(uint32_t));
2672     for(y=0; y<s->mb_height; y++){
2673         for(x=0; x<s->mb_width; x++){
2674             const int mb_xy= x + y*s->mb_stride;
2675             const int b_xy = 4*x + 4*y*h->b_stride;
2676             const int b8_xy= 2*x + 2*y*h->b8_stride;
2677         
2678             h->mb2b_xy [mb_xy]= b_xy;
2679             h->mb2b8_xy[mb_xy]= b8_xy;
2680         }
2681     }
2682
2683     s->obmc_scratchpad = NULL;
2684
2685     return 0;
2686 fail:
2687     free_tables(h);
2688     return -1;
2689 }
2690
2691 static void common_init(H264Context *h){
2692     MpegEncContext * const s = &h->s;
2693
2694     s->width = s->avctx->width;
2695     s->height = s->avctx->height;
2696     s->codec_id= s->avctx->codec->id;
2697     
2698     init_pred_ptrs(h);
2699
2700     s->unrestricted_mv=1;
2701     s->decode=1; //FIXME
2702 }
2703
2704 static int decode_init(AVCodecContext *avctx){
2705     H264Context *h= avctx->priv_data;
2706     MpegEncContext * const s = &h->s;
2707
2708     MPV_decode_defaults(s);
2709     
2710     s->avctx = avctx;
2711     common_init(h);
2712
2713     s->out_format = FMT_H264;
2714     s->workaround_bugs= avctx->workaround_bugs;
2715
2716     // set defaults
2717 //    s->decode_mb= ff_h263_decode_mb;
2718     s->low_delay= 1;
2719     avctx->pix_fmt= PIX_FMT_YUV420P;
2720
2721     decode_init_vlc(h);
2722     
2723     if(avctx->extradata_size > 0 && avctx->extradata &&
2724        *(char *)avctx->extradata == 1){
2725         h->is_avc = 1;
2726         h->got_avcC = 0;
2727     } else {
2728         h->is_avc = 0;
2729     }
2730
2731     return 0;
2732 }
2733
2734 static void frame_start(H264Context *h){
2735     MpegEncContext * const s = &h->s;
2736     int i;
2737
2738     MPV_frame_start(s, s->avctx);
2739     ff_er_frame_start(s);
2740
2741     assert(s->linesize && s->uvlinesize);
2742
2743     for(i=0; i<16; i++){
2744         h->block_offset[i]= 4*((scan8[i] - scan8[0])&7) + 4*s->linesize*((scan8[i] - scan8[0])>>3);
2745         h->block_offset[24+i]= 4*((scan8[i] - scan8[0])&7) + 8*s->linesize*((scan8[i] - scan8[0])>>3);
2746     }
2747     for(i=0; i<4; i++){
2748         h->block_offset[16+i]=
2749         h->block_offset[20+i]= 4*((scan8[i] - scan8[0])&7) + 4*s->uvlinesize*((scan8[i] - scan8[0])>>3);
2750         h->block_offset[24+16+i]=
2751         h->block_offset[24+20+i]= 4*((scan8[i] - scan8[0])&7) + 8*s->uvlinesize*((scan8[i] - scan8[0])>>3);
2752     }
2753
2754     /* can't be in alloc_tables because linesize isn't known there.
2755      * FIXME: redo bipred weight to not require extra buffer? */
2756     if(!s->obmc_scratchpad)
2757         s->obmc_scratchpad = av_malloc(16*s->linesize + 2*8*s->uvlinesize);
2758
2759 //    s->decode= (s->flags&CODEC_FLAG_PSNR) || !s->encoding || s->current_picture.reference /*|| h->contains_intra*/ || 1;
2760 }
2761
2762 static inline void backup_mb_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize){
2763     MpegEncContext * const s = &h->s;
2764     int i;
2765     
2766     src_y  -=   linesize;
2767     src_cb -= uvlinesize;
2768     src_cr -= uvlinesize;
2769
2770     // There are two lines saved, the line above the the top macroblock of a pair,
2771     // and the line above the bottom macroblock
2772     h->left_border[0]= h->top_borders[0][s->mb_x][15];
2773     for(i=1; i<17; i++){
2774         h->left_border[i]= src_y[15+i*  linesize];
2775     }
2776     
2777     *(uint64_t*)(h->top_borders[0][s->mb_x]+0)= *(uint64_t*)(src_y +  16*linesize);
2778     *(uint64_t*)(h->top_borders[0][s->mb_x]+8)= *(uint64_t*)(src_y +8+16*linesize);
2779
2780     if(!(s->flags&CODEC_FLAG_GRAY)){
2781         h->left_border[17  ]= h->top_borders[0][s->mb_x][16+7];
2782         h->left_border[17+9]= h->top_borders[0][s->mb_x][24+7];
2783         for(i=1; i<9; i++){
2784             h->left_border[i+17  ]= src_cb[7+i*uvlinesize];
2785             h->left_border[i+17+9]= src_cr[7+i*uvlinesize];
2786         }
2787         *(uint64_t*)(h->top_borders[0][s->mb_x]+16)= *(uint64_t*)(src_cb+8*uvlinesize);
2788         *(uint64_t*)(h->top_borders[0][s->mb_x]+24)= *(uint64_t*)(src_cr+8*uvlinesize);
2789     }
2790 }
2791
2792 static inline void xchg_mb_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize, int xchg){
2793     MpegEncContext * const s = &h->s;
2794     int temp8, i;
2795     uint64_t temp64;
2796     int deblock_left = (s->mb_x > 0);
2797     int deblock_top  = (s->mb_y > 0);
2798
2799     src_y  -=   linesize + 1;
2800     src_cb -= uvlinesize + 1;
2801     src_cr -= uvlinesize + 1;
2802
2803 #define XCHG(a,b,t,xchg)\
2804 t= a;\
2805 if(xchg)\
2806     a= b;\
2807 b= t;
2808
2809     if(deblock_left){
2810         for(i = !deblock_top; i<17; i++){
2811             XCHG(h->left_border[i     ], src_y [i*  linesize], temp8, xchg);
2812         }
2813     }
2814
2815     if(deblock_top){
2816         XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+0), *(uint64_t*)(src_y +1), temp64, xchg);
2817         XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+8), *(uint64_t*)(src_y +9), temp64, 1);
2818     }
2819
2820     if(!(s->flags&CODEC_FLAG_GRAY)){
2821         if(deblock_left){
2822             for(i = !deblock_top; i<9; i++){
2823                 XCHG(h->left_border[i+17  ], src_cb[i*uvlinesize], temp8, xchg);
2824                 XCHG(h->left_border[i+17+9], src_cr[i*uvlinesize], temp8, xchg);
2825             }
2826         }
2827         if(deblock_top){
2828             XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+16), *(uint64_t*)(src_cb+1), temp64, 1);
2829             XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+24), *(uint64_t*)(src_cr+1), temp64, 1);
2830         }
2831     }
2832 }
2833
2834 static inline void backup_pair_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize){
2835     MpegEncContext * const s = &h->s;
2836     int i;
2837     
2838     src_y  -= 2 *   linesize;
2839     src_cb -= 2 * uvlinesize;
2840     src_cr -= 2 * uvlinesize;
2841
2842     // There are two lines saved, the line above the the top macroblock of a pair,
2843     // and the line above the bottom macroblock
2844     h->left_border[0]= h->top_borders[0][s->mb_x][15];
2845     h->left_border[1]= h->top_borders[1][s->mb_x][15];
2846     for(i=2; i<34; i++){
2847         h->left_border[i]= src_y[15+i*  linesize];
2848     }
2849     
2850     *(uint64_t*)(h->top_borders[0][s->mb_x]+0)= *(uint64_t*)(src_y +  32*linesize);
2851     *(uint64_t*)(h->top_borders[0][s->mb_x]+8)= *(uint64_t*)(src_y +8+32*linesize);
2852     *(uint64_t*)(h->top_borders[1][s->mb_x]+0)= *(uint64_t*)(src_y +  33*linesize);
2853     *(uint64_t*)(h->top_borders[1][s->mb_x]+8)= *(uint64_t*)(src_y +8+33*linesize);
2854
2855     if(!(s->flags&CODEC_FLAG_GRAY)){
2856         h->left_border[34     ]= h->top_borders[0][s->mb_x][16+7];
2857         h->left_border[34+   1]= h->top_borders[1][s->mb_x][16+7];
2858         h->left_border[34+18  ]= h->top_borders[0][s->mb_x][24+7];
2859         h->left_border[34+18+1]= h->top_borders[1][s->mb_x][24+7];
2860         for(i=2; i<18; i++){
2861             h->left_border[i+34   ]= src_cb[7+i*uvlinesize];
2862             h->left_border[i+34+18]= src_cr[7+i*uvlinesize];
2863         }
2864         *(uint64_t*)(h->top_borders[0][s->mb_x]+16)= *(uint64_t*)(src_cb+16*uvlinesize);
2865         *(uint64_t*)(h->top_borders[0][s->mb_x]+24)= *(uint64_t*)(src_cr+16*uvlinesize);
2866         *(uint64_t*)(h->top_borders[1][s->mb_x]+16)= *(uint64_t*)(src_cb+17*uvlinesize);
2867         *(uint64_t*)(h->top_borders[1][s->mb_x]+24)= *(uint64_t*)(src_cr+17*uvlinesize);
2868     }
2869 }
2870
2871 static inline void xchg_pair_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize, int xchg){
2872     MpegEncContext * const s = &h->s;
2873     int temp8, i;
2874     uint64_t temp64;
2875     int deblock_left = (s->mb_x > 0);
2876     int deblock_top  = (s->mb_y > 0);
2877
2878     tprintf("xchg_pair_border: src_y:%p src_cb:%p src_cr:%p ls:%d uvls:%d\n", src_y, src_cb, src_cr, linesize, uvlinesize);
2879
2880     src_y  -= 2 *   linesize + 1;
2881     src_cb -= 2 * uvlinesize + 1;
2882     src_cr -= 2 * uvlinesize + 1;
2883
2884 #define XCHG(a,b,t,xchg)\
2885 t= a;\
2886 if(xchg)\
2887     a= b;\
2888 b= t;
2889
2890     if(deblock_left){
2891         for(i = (!deblock_top)<<1; i<34; i++){
2892             XCHG(h->left_border[i     ], src_y [i*  linesize], temp8, xchg);
2893         }
2894     }
2895
2896     if(deblock_top){
2897         XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+0), *(uint64_t*)(src_y +1), temp64, xchg);
2898         XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+8), *(uint64_t*)(src_y +9), temp64, 1);
2899         XCHG(*(uint64_t*)(h->top_borders[1][s->mb_x]+0), *(uint64_t*)(src_y +1 +linesize), temp64, xchg);
2900         XCHG(*(uint64_t*)(h->top_borders[1][s->mb_x]+8), *(uint64_t*)(src_y +9 +linesize), temp64, 1);
2901     }
2902
2903     if(!(s->flags&CODEC_FLAG_GRAY)){
2904         if(deblock_left){
2905             for(i = (!deblock_top) << 1; i<18; i++){
2906                 XCHG(h->left_border[i+34   ], src_cb[i*uvlinesize], temp8, xchg);
2907                 XCHG(h->left_border[i+34+18], src_cr[i*uvlinesize], temp8, xchg);
2908             }
2909         }
2910         if(deblock_top){
2911             XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+16), *(uint64_t*)(src_cb+1), temp64, 1);
2912             XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+24), *(uint64_t*)(src_cr+1), temp64, 1);
2913             XCHG(*(uint64_t*)(h->top_borders[1][s->mb_x]+16), *(uint64_t*)(src_cb+1 +uvlinesize), temp64, 1);
2914             XCHG(*(uint64_t*)(h->top_borders[1][s->mb_x]+24), *(uint64_t*)(src_cr+1 +uvlinesize), temp64, 1);
2915         }
2916     }
2917 }
2918
2919 static void hl_decode_mb(H264Context *h){
2920     MpegEncContext * const s = &h->s;
2921     const int mb_x= s->mb_x;
2922     const int mb_y= s->mb_y;
2923     const int mb_xy= mb_x + mb_y*s->mb_stride;
2924     const int mb_type= s->current_picture.mb_type[mb_xy];
2925     uint8_t  *dest_y, *dest_cb, *dest_cr;
2926     int linesize, uvlinesize /*dct_offset*/;
2927     int i;
2928     int *block_offset = &h->block_offset[0];
2929     const unsigned int bottom = mb_y & 1;
2930
2931     if(!s->decode)
2932         return;
2933
2934     dest_y  = s->current_picture.data[0] + (mb_y * 16* s->linesize  ) + mb_x * 16;
2935     dest_cb = s->current_picture.data[1] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
2936     dest_cr = s->current_picture.data[2] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
2937
2938     if (h->mb_field_decoding_flag) {
2939         linesize = s->linesize * 2;
2940         uvlinesize = s->uvlinesize * 2;
2941         block_offset = &h->block_offset[24];
2942         if(mb_y&1){ //FIXME move out of this func?
2943             dest_y -= s->linesize*15;
2944             dest_cb-= s->uvlinesize*7;
2945             dest_cr-= s->uvlinesize*7;
2946         }
2947     } else {
2948         linesize = s->linesize;
2949         uvlinesize = s->uvlinesize;
2950 //        dct_offset = s->linesize * 16;
2951     }
2952
2953     if (IS_INTRA_PCM(mb_type)) {
2954         unsigned int x, y;
2955
2956         // The pixels are stored in h->mb array in the same order as levels,
2957         // copy them in output in the correct order.
2958         for(i=0; i<16; i++) {
2959             for (y=0; y<4; y++) {
2960                 for (x=0; x<4; x++) {
2961                     *(dest_y + block_offset[i] + y*linesize + x) = h->mb[i*16+y*4+x];
2962                 }
2963             }
2964         }
2965         for(i=16; i<16+4; i++) {
2966             for (y=0; y<4; y++) {
2967                 for (x=0; x<4; x++) {
2968                     *(dest_cb + block_offset[i] + y*uvlinesize + x) = h->mb[i*16+y*4+x];
2969                 }
2970             }
2971         }
2972         for(i=20; i<20+4; i++) {
2973             for (y=0; y<4; y++) {
2974                 for (x=0; x<4; x++) {
2975                     *(dest_cr + block_offset[i] + y*uvlinesize + x) = h->mb[i*16+y*4+x];
2976                 }
2977             }
2978         }
2979     } else {
2980         if(IS_INTRA(mb_type)){
2981             if(h->deblocking_filter) {
2982                 if (h->mb_aff_frame) {
2983                     if (!bottom)
2984                         xchg_pair_border(h, dest_y, dest_cb, dest_cr, s->linesize, s->uvlinesize, 1);
2985                 } else {
2986                     xchg_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize, 1);
2987                 }
2988             }
2989
2990             if(!(s->flags&CODEC_FLAG_GRAY)){
2991                 h->pred8x8[ h->chroma_pred_mode ](dest_cb, uvlinesize);
2992                 h->pred8x8[ h->chroma_pred_mode ](dest_cr, uvlinesize);
2993             }
2994
2995             if(IS_INTRA4x4(mb_type)){
2996                 if(!s->encoding){
2997                     for(i=0; i<16; i++){
2998                         uint8_t * const ptr= dest_y + block_offset[i];
2999                         uint8_t *topright;
3000                         const int dir= h->intra4x4_pred_mode_cache[ scan8[i] ];
3001                         int tr;
3002
3003                         if(dir == DIAG_DOWN_LEFT_PRED || dir == VERT_LEFT_PRED){
3004                             const int topright_avail= (h->topright_samples_available<<i)&0x8000;
3005                             assert(mb_y || linesize <= block_offset[i]);
3006                             if(!topright_avail){
3007                                 tr= ptr[3 - linesize]*0x01010101;
3008                                 topright= (uint8_t*) &tr;
3009                             }else if(i==5 && h->deblocking_filter){
3010                                 tr= *(uint32_t*)h->top_borders[h->mb_aff_frame ? IS_INTERLACED(mb_type) ? bottom : 1 : 0][mb_x+1];
3011                                 topright= (uint8_t*) &tr;
3012                             }else
3013                                 topright= ptr + 4 - linesize;
3014                         }else
3015                             topright= NULL;
3016
3017                         h->pred4x4[ dir ](ptr, topright, linesize);
3018                         if(h->non_zero_count_cache[ scan8[i] ]){
3019                             if(s->codec_id == CODEC_ID_H264)
3020                                 s->dsp.h264_idct_add(ptr, h->mb + i*16, linesize);
3021                             else
3022                                 svq3_add_idct_c(ptr, h->mb + i*16, linesize, s->qscale, 0);
3023                         }
3024                     }
3025                 }
3026             }else{
3027                 h->pred16x16[ h->intra16x16_pred_mode ](dest_y , linesize);
3028                 if(s->codec_id == CODEC_ID_H264)
3029                     h264_luma_dc_dequant_idct_c(h->mb, s->qscale);
3030                 else
3031                     svq3_luma_dc_dequant_idct_c(h->mb, s->qscale);
3032             }
3033             if(h->deblocking_filter) {
3034                 if (h->mb_aff_frame) {
3035                     if (bottom) {
3036                         uint8_t *pair_dest_y  = s->current_picture.data[0] + ((mb_y-1) * 16* s->linesize  ) + mb_x * 16;
3037                         uint8_t *pair_dest_cb = s->current_picture.data[1] + ((mb_y-1) * 8 * s->uvlinesize) + mb_x * 8;
3038                         uint8_t *pair_dest_cr = s->current_picture.data[2] + ((mb_y-1) * 8 * s->uvlinesize) + mb_x * 8;
3039                         s->mb_y--;
3040                         xchg_pair_border(h, pair_dest_y, pair_dest_cb, pair_dest_cr, s->linesize, s->uvlinesize, 0);
3041                         s->mb_y++;
3042                     }
3043                 } else {
3044                     xchg_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize, 0);
3045                 }
3046             }
3047         }else if(s->codec_id == CODEC_ID_H264){
3048             hl_motion(h, dest_y, dest_cb, dest_cr,
3049                       s->dsp.put_h264_qpel_pixels_tab, s->dsp.put_h264_chroma_pixels_tab, 
3050                       s->dsp.avg_h264_qpel_pixels_tab, s->dsp.avg_h264_chroma_pixels_tab,
3051                       s->dsp.weight_h264_pixels_tab, s->dsp.biweight_h264_pixels_tab);
3052         }
3053
3054
3055         if(!IS_INTRA4x4(mb_type)){
3056             if(s->codec_id == CODEC_ID_H264){
3057                 for(i=0; i<16; i++){
3058                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){ //FIXME benchmark weird rule, & below
3059                         uint8_t * const ptr= dest_y + block_offset[i];
3060                         s->dsp.h264_idct_add(ptr, h->mb + i*16, linesize);
3061                     }
3062                 }
3063             }else{
3064                 for(i=0; i<16; i++){
3065                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){ //FIXME benchmark weird rule, & below
3066                         uint8_t * const ptr= dest_y + block_offset[i];
3067                         svq3_add_idct_c(ptr, h->mb + i*16, linesize, s->qscale, IS_INTRA(mb_type) ? 1 : 0);
3068                     }
3069                 }
3070             }
3071         }
3072
3073         if(!(s->flags&CODEC_FLAG_GRAY)){
3074             chroma_dc_dequant_idct_c(h->mb + 16*16, h->chroma_qp);
3075             chroma_dc_dequant_idct_c(h->mb + 16*16+4*16, h->chroma_qp);
3076             if(s->codec_id == CODEC_ID_H264){
3077                 for(i=16; i<16+4; i++){
3078                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
3079                         uint8_t * const ptr= dest_cb + block_offset[i];
3080                         s->dsp.h264_idct_add(ptr, h->mb + i*16, uvlinesize);
3081                     }
3082                 }
3083                 for(i=20; i<20+4; i++){
3084                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
3085                         uint8_t * const ptr= dest_cr + block_offset[i];
3086                         s->dsp.h264_idct_add(ptr, h->mb + i*16, uvlinesize);
3087                     }
3088                 }
3089             }else{
3090                 for(i=16; i<16+4; i++){
3091                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
3092                         uint8_t * const ptr= dest_cb + block_offset[i];
3093                         svq3_add_idct_c(ptr, h->mb + i*16, uvlinesize, chroma_qp[s->qscale + 12] - 12, 2);
3094                     }
3095                 }
3096                 for(i=20; i<20+4; i++){
3097                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
3098                         uint8_t * const ptr= dest_cr + block_offset[i];
3099                         svq3_add_idct_c(ptr, h->mb + i*16, uvlinesize, chroma_qp[s->qscale + 12] - 12, 2);
3100                     }
3101                 }
3102             }
3103         }
3104     }
3105     if(h->deblocking_filter) {
3106         if (h->mb_aff_frame) {
3107             const int mb_y = s->mb_y - 1;
3108             uint8_t  *pair_dest_y, *pair_dest_cb, *pair_dest_cr;
3109             const int mb_xy= mb_x + mb_y*s->mb_stride;
3110             const int mb_type_top   = s->current_picture.mb_type[mb_xy];
3111             const int mb_type_bottom= s->current_picture.mb_type[mb_xy+s->mb_stride];
3112             uint8_t tmp = s->current_picture.data[1][384];
3113             if (!bottom) return;
3114             pair_dest_y  = s->current_picture.data[0] + (mb_y * 16* s->linesize  ) + mb_x * 16;
3115             pair_dest_cb = s->current_picture.data[1] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
3116             pair_dest_cr = s->current_picture.data[2] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
3117
3118             backup_pair_border(h, pair_dest_y, pair_dest_cb, pair_dest_cr, s->linesize, s->uvlinesize);
3119             // TODO deblock a pair
3120             // top 
3121             s->mb_y--;
3122             tprintf("call mbaff filter_mb mb_x:%d mb_y:%d pair_dest_y = %p, dest_y = %p\n", mb_x, mb_y, pair_dest_y, dest_y);
3123             fill_caches(h, mb_type_top, 1); //FIXME don't fill stuff which isn't used by filter_mb
3124             filter_mb(h, mb_x, mb_y, pair_dest_y, pair_dest_cb, pair_dest_cr, linesize, uvlinesize);
3125             if (tmp != s->current_picture.data[1][384]) {
3126                 tprintf("modified pixel 8,1 (1)\n");
3127             }
3128             // bottom
3129             s->mb_y++;
3130             tprintf("call mbaff filter_mb\n");
3131             fill_caches(h, mb_type_bottom, 1); //FIXME don't fill stuff which isn't used by filter_mb
3132             filter_mb(h, mb_x, mb_y+1, dest_y, dest_cb, dest_cr, linesize, uvlinesize);
3133             if (tmp != s->current_picture.data[1][384]) {
3134                 tprintf("modified pixel 8,1 (2)\n");
3135             }
3136         } else {
3137             tprintf("call filter_mb\n");
3138             backup_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize);
3139             fill_caches(h, mb_type, 1); //FIXME don't fill stuff which isn't used by filter_mb
3140             filter_mb(h, mb_x, mb_y, dest_y, dest_cb, dest_cr, linesize, uvlinesize);
3141         }
3142     }
3143 }
3144
3145 /**
3146  * fills the default_ref_list.
3147  */
3148 static int fill_default_ref_list(H264Context *h){
3149     MpegEncContext * const s = &h->s;
3150     int i;
3151     int smallest_poc_greater_than_current = -1;
3152     Picture sorted_short_ref[32];
3153     
3154     if(h->slice_type==B_TYPE){
3155         int out_i;
3156         int limit= -1;
3157
3158         /* sort frame according to poc in B slice */
3159         for(out_i=0; out_i<h->short_ref_count; out_i++){
3160             int best_i=-1;
3161             int best_poc=INT_MAX;
3162
3163             for(i=0; i<h->short_ref_count; i++){
3164                 const int poc= h->short_ref[i]->poc;
3165                 if(poc > limit && poc < best_poc){
3166                     best_poc= poc;
3167                     best_i= i;
3168                 }
3169             }
3170             
3171             assert(best_i != -1);
3172             
3173             limit= best_poc;
3174             sorted_short_ref[out_i]= *h->short_ref[best_i];
3175             tprintf("sorted poc: %d->%d poc:%d fn:%d\n", best_i, out_i, sorted_short_ref[out_i].poc, sorted_short_ref[out_i].frame_num);
3176             if (-1 == smallest_poc_greater_than_current) {
3177                 if (h->short_ref[best_i]->poc >= s->current_picture_ptr->poc) {
3178                     smallest_poc_greater_than_current = out_i;
3179                 }
3180             }
3181         }
3182     }
3183
3184     if(s->picture_structure == PICT_FRAME){
3185         if(h->slice_type==B_TYPE){
3186             int list;
3187             tprintf("current poc: %d, smallest_poc_greater_than_current: %d\n", s->current_picture_ptr->poc, smallest_poc_greater_than_current);
3188
3189             // find the largest poc
3190             for(list=0; list<2; list++){
3191                 int index = 0;
3192                 int j= -99;
3193                 int step= list ? -1 : 1;
3194
3195                 for(i=0; i<h->short_ref_count && index < h->ref_count[list]; i++, j+=step) {
3196                     while(j<0 || j>= h->short_ref_count){
3197                         step = -step;
3198                         j= smallest_poc_greater_than_current + (step>>1);
3199                     }
3200                     if(sorted_short_ref[j].reference != 3) continue;
3201                     h->default_ref_list[list][index  ]= sorted_short_ref[j];
3202                     h->default_ref_list[list][index++].pic_id= sorted_short_ref[j].frame_num;
3203                 }
3204
3205                 for(i = 0; i < 16 && index < h->ref_count[ list ]; i++){
3206                     if(h->long_ref[i] == NULL) continue;
3207                     if(h->long_ref[i]->reference != 3) continue;
3208
3209                     h->default_ref_list[ list ][index  ]= *h->long_ref[i];
3210                     h->default_ref_list[ list ][index++].pic_id= i;;
3211                 }
3212                 
3213                 if(list && (smallest_poc_greater_than_current<=0 || smallest_poc_greater_than_current>=h->short_ref_count) && (1 < index)){
3214                     // swap the two first elements of L1 when
3215                     // L0 and L1 are identical
3216                     Picture temp= h->default_ref_list[1][0];
3217                     h->default_ref_list[1][0] = h->default_ref_list[1][1];
3218                     h->default_ref_list[1][0] = temp;
3219                 }
3220
3221                 if(index < h->ref_count[ list ])
3222                     memset(&h->default_ref_list[list][index], 0, sizeof(Picture)*(h->ref_count[ list ] - index));
3223             }
3224         }else{
3225             int index=0;
3226             for(i=0; i<h->short_ref_count; i++){
3227                 if(h->short_ref[i]->reference != 3) continue; //FIXME refernce field shit
3228                 h->default_ref_list[0][index  ]= *h->short_ref[i];
3229                 h->default_ref_list[0][index++].pic_id= h->short_ref[i]->frame_num;
3230             }
3231             for(i = 0; i < 16; i++){
3232                 if(h->long_ref[i] == NULL) continue;
3233                 if(h->long_ref[i]->reference != 3) continue;
3234                 h->default_ref_list[0][index  ]= *h->long_ref[i];
3235                 h->default_ref_list[0][index++].pic_id= i;;
3236             }
3237             if(index < h->ref_count[0])
3238                 memset(&h->default_ref_list[0][index], 0, sizeof(Picture)*(h->ref_count[0] - index));
3239         }
3240     }else{ //FIELD
3241         if(h->slice_type==B_TYPE){
3242         }else{
3243             //FIXME second field balh
3244         }
3245     }
3246 #ifdef TRACE
3247     for (i=0; i<h->ref_count[0]; i++) {
3248         tprintf("List0: %s fn:%d 0x%p\n", (h->default_ref_list[0][i].long_ref ? "LT" : "ST"), h->default_ref_list[0][i].pic_id, h->default_ref_list[0][i].data[0]);
3249     }
3250     if(h->slice_type==B_TYPE){
3251         for (i=0; i<h->ref_count[1]; i++) {
3252             tprintf("List1: %s fn:%d 0x%p\n", (h->default_ref_list[1][i].long_ref ? "LT" : "ST"), h->default_ref_list[1][i].pic_id, h->default_ref_list[0][i].data[0]);
3253         }
3254     }
3255 #endif
3256     return 0;
3257 }
3258
3259 static void print_short_term(H264Context *h);
3260 static void print_long_term(H264Context *h);
3261
3262 static int decode_ref_pic_list_reordering(H264Context *h){
3263     MpegEncContext * const s = &h->s;
3264     int list;
3265     
3266     print_short_term(h);
3267     print_long_term(h);
3268     if(h->slice_type==I_TYPE || h->slice_type==SI_TYPE) return 0; //FIXME move before func
3269     
3270     for(list=0; list<2; list++){
3271         memcpy(h->ref_list[list], h->default_ref_list[list], sizeof(Picture)*h->ref_count[list]);
3272
3273         if(get_bits1(&s->gb)){
3274             int pred= h->curr_pic_num;
3275             int index;
3276
3277             for(index=0; ; index++){
3278                 int reordering_of_pic_nums_idc= get_ue_golomb(&s->gb);
3279                 int pic_id;
3280                 int i;
3281                 Picture *ref = NULL;
3282                 
3283                 if(reordering_of_pic_nums_idc==3) 
3284                     break;
3285                 
3286                 if(index >= h->ref_count[list]){
3287                     av_log(h->s.avctx, AV_LOG_ERROR, "reference count overflow\n");
3288                     return -1;
3289                 }
3290                 
3291                 if(reordering_of_pic_nums_idc<3){
3292                     if(reordering_of_pic_nums_idc<2){
3293                         const int abs_diff_pic_num= get_ue_golomb(&s->gb) + 1;
3294
3295                         if(abs_diff_pic_num >= h->max_pic_num){
3296                             av_log(h->s.avctx, AV_LOG_ERROR, "abs_diff_pic_num overflow\n");
3297                             return -1;
3298                         }
3299
3300                         if(reordering_of_pic_nums_idc == 0) pred-= abs_diff_pic_num;
3301                         else                                pred+= abs_diff_pic_num;
3302                         pred &= h->max_pic_num - 1;
3303                     
3304                         for(i= h->short_ref_count-1; i>=0; i--){
3305                             ref = h->short_ref[i];
3306                             if(ref->data[0] != NULL && ref->frame_num == pred && ref->long_ref == 0) // ignore non existing pictures by testing data[0] pointer
3307                                 break;
3308                         }
3309                     }else{
3310                         pic_id= get_ue_golomb(&s->gb); //long_term_pic_idx
3311                         ref = h->long_ref[pic_id];
3312                     }
3313
3314                     if (i < 0) {
3315                         av_log(h->s.avctx, AV_LOG_ERROR, "reference picture missing during reorder\n");
3316                         memset(&h->ref_list[list][index], 0, sizeof(Picture)); //FIXME
3317                     } else {
3318                         h->ref_list[list][index]= *ref;
3319                     }
3320                 }else{
3321                     av_log(h->s.avctx, AV_LOG_ERROR, "illegal reordering_of_pic_nums_idc\n");
3322                     return -1;
3323                 }
3324             }
3325         }
3326
3327         if(h->slice_type!=B_TYPE) break;
3328     }
3329     
3330     if(h->slice_type==B_TYPE && !h->direct_spatial_mv_pred)
3331         direct_dist_scale_factor(h);
3332     direct_ref_list_init(h);
3333     return 0;    
3334 }
3335
3336 static int pred_weight_table(H264Context *h){
3337     MpegEncContext * const s = &h->s;
3338     int list, i;
3339     int luma_def, chroma_def;
3340     
3341     h->use_weight= 0;
3342     h->use_weight_chroma= 0;
3343     h->luma_log2_weight_denom= get_ue_golomb(&s->gb);
3344     h->chroma_log2_weight_denom= get_ue_golomb(&s->gb);
3345     luma_def = 1<<h->luma_log2_weight_denom;
3346     chroma_def = 1<<h->chroma_log2_weight_denom;
3347
3348     for(list=0; list<2; list++){
3349         for(i=0; i<h->ref_count[list]; i++){
3350             int luma_weight_flag, chroma_weight_flag;
3351             
3352             luma_weight_flag= get_bits1(&s->gb);
3353             if(luma_weight_flag){
3354                 h->luma_weight[list][i]= get_se_golomb(&s->gb);
3355                 h->luma_offset[list][i]= get_se_golomb(&s->gb);
3356                 if(   h->luma_weight[list][i] != luma_def
3357                    || h->luma_offset[list][i] != 0)
3358                     h->use_weight= 1;
3359             }else{
3360                 h->luma_weight[list][i]= luma_def;
3361                 h->luma_offset[list][i]= 0;
3362             }
3363
3364             chroma_weight_flag= get_bits1(&s->gb);
3365             if(chroma_weight_flag){
3366                 int j;
3367                 for(j=0; j<2; j++){
3368                     h->chroma_weight[list][i][j]= get_se_golomb(&s->gb);
3369                     h->chroma_offset[list][i][j]= get_se_golomb(&s->gb);
3370                     if(   h->chroma_weight[list][i][j] != chroma_def
3371                        || h->chroma_offset[list][i][j] != 0)
3372                         h->use_weight_chroma= 1;
3373                 }
3374             }else{
3375                 int j;
3376                 for(j=0; j<2; j++){
3377                     h->chroma_weight[list][i][j]= chroma_def;
3378                     h->chroma_offset[list][i][j]= 0;
3379                 }
3380             }
3381         }
3382         if(h->slice_type != B_TYPE) break;
3383     }
3384     h->use_weight= h->use_weight || h->use_weight_chroma;
3385     return 0;
3386 }
3387
3388 static void implicit_weight_table(H264Context *h){
3389     MpegEncContext * const s = &h->s;
3390     int ref0, ref1;
3391     int cur_poc = s->current_picture_ptr->poc;
3392
3393     if(   h->ref_count[0] == 1 && h->ref_count[1] == 1
3394        && h->ref_list[0][0].poc + h->ref_list[1][0].poc == 2*cur_poc){
3395         h->use_weight= 0;
3396         h->use_weight_chroma= 0;
3397         return;
3398     }
3399
3400     h->use_weight= 2;
3401     h->use_weight_chroma= 2;
3402     h->luma_log2_weight_denom= 5;
3403     h->chroma_log2_weight_denom= 5;
3404
3405     /* FIXME: MBAFF */
3406     for(ref0=0; ref0 < h->ref_count[0]; ref0++){
3407         int poc0 = h->ref_list[0][ref0].poc;
3408         for(ref1=0; ref1 < h->ref_count[1]; ref1++){
3409             int poc1 = h->ref_list[1][ref1].poc;
3410             int td = clip(poc1 - poc0, -128, 127);
3411             if(td){
3412                 int tb = clip(cur_poc - poc0, -128, 127);
3413                 int tx = (16384 + (ABS(td) >> 1)) / td;
3414                 int dist_scale_factor = clip((tb*tx + 32) >> 6, -1024, 1023) >> 2;
3415                 if(dist_scale_factor < -64 || dist_scale_factor > 128)
3416                     h->implicit_weight[ref0][ref1] = 32;
3417                 else
3418                     h->implicit_weight[ref0][ref1] = 64 - dist_scale_factor;
3419             }else
3420                 h->implicit_weight[ref0][ref1] = 32;
3421         }
3422     }
3423 }
3424
3425 static inline void unreference_pic(H264Context *h, Picture *pic){
3426     int i;
3427     pic->reference=0;
3428     if(pic == h->delayed_output_pic)
3429         pic->reference=1;
3430     else{
3431         for(i = 0; h->delayed_pic[i]; i++)
3432             if(pic == h->delayed_pic[i]){
3433                 pic->reference=1;
3434                 break;
3435             }
3436     }
3437 }
3438
3439 /**
3440  * instantaneous decoder refresh.
3441  */
3442 static void idr(H264Context *h){
3443     int i;
3444
3445     for(i=0; i<16; i++){
3446         if (h->long_ref[i] != NULL) {
3447             unreference_pic(h, h->long_ref[i]);
3448             h->long_ref[i]= NULL;
3449         }
3450     }
3451     h->long_ref_count=0;
3452
3453     for(i=0; i<h->short_ref_count; i++){
3454         unreference_pic(h, h->short_ref[i]);
3455         h->short_ref[i]= NULL;
3456     }
3457     h->short_ref_count=0;
3458 }
3459
3460 /* forget old pics after a seek */
3461 static void flush_dpb(AVCodecContext *avctx){
3462     H264Context *h= avctx->priv_data;
3463     int i;
3464     for(i=0; i<16; i++)
3465         h->delayed_pic[i]= NULL;
3466     h->delayed_output_pic= NULL;
3467     idr(h);
3468 }
3469
3470 /**
3471  *
3472  * @return the removed picture or NULL if an error occurs
3473  */
3474 static Picture * remove_short(H264Context *h, int frame_num){
3475     MpegEncContext * const s = &h->s;
3476     int i;
3477     
3478     if(s->avctx->debug&FF_DEBUG_MMCO)
3479         av_log(h->s.avctx, AV_LOG_DEBUG, "remove short %d count %d\n", frame_num, h->short_ref_count);
3480     
3481     for(i=0; i<h->short_ref_count; i++){
3482         Picture *pic= h->short_ref[i];
3483         if(s->avctx->debug&FF_DEBUG_MMCO)
3484             av_log(h->s.avctx, AV_LOG_DEBUG, "%d %d %p\n", i, pic->frame_num, pic);
3485         if(pic->frame_num == frame_num){
3486             h->short_ref[i]= NULL;
3487             memmove(&h->short_ref[i], &h->short_ref[i+1], (h->short_ref_count - i - 1)*sizeof(Picture*));
3488             h->short_ref_count--;
3489             return pic;
3490         }
3491     }
3492     return NULL;
3493 }
3494
3495 /**
3496  *
3497  * @return the removed picture or NULL if an error occurs
3498  */
3499 static Picture * remove_long(H264Context *h, int i){
3500     Picture *pic;
3501
3502     pic= h->long_ref[i];
3503     h->long_ref[i]= NULL;
3504     if(pic) h->long_ref_count--;
3505
3506     return pic;
3507 }
3508
3509 /**
3510  * print short term list
3511  */
3512 static void print_short_term(H264Context *h) {
3513     uint32_t i;
3514     if(h->s.avctx->debug&FF_DEBUG_MMCO) {
3515         av_log(h->s.avctx, AV_LOG_DEBUG, "short term list:\n");
3516         for(i=0; i<h->short_ref_count; i++){
3517             Picture *pic= h->short_ref[i];
3518             av_log(h->s.avctx, AV_LOG_DEBUG, "%d fn:%d poc:%d %p\n", i, pic->frame_num, pic->poc, pic->data[0]);
3519         }
3520     }
3521 }
3522
3523 /**
3524  * print long term list
3525  */
3526 static void print_long_term(H264Context *h) {
3527     uint32_t i;
3528     if(h->s.avctx->debug&FF_DEBUG_MMCO) {
3529         av_log(h->s.avctx, AV_LOG_DEBUG, "long term list:\n");
3530         for(i = 0; i < 16; i++){
3531             Picture *pic= h->long_ref[i];
3532             if (pic) {
3533                 av_log(h->s.avctx, AV_LOG_DEBUG, "%d fn:%d poc:%d %p\n", i, pic->frame_num, pic->poc, pic->data[0]);
3534             }
3535         }
3536     }
3537 }
3538
3539 /**
3540  * Executes the reference picture marking (memory management control operations).
3541  */
3542 static int execute_ref_pic_marking(H264Context *h, MMCO *mmco, int mmco_count){
3543     MpegEncContext * const s = &h->s;
3544     int i, j;
3545     int current_is_long=0;
3546     Picture *pic;
3547     
3548     if((s->avctx->debug&FF_DEBUG_MMCO) && mmco_count==0)
3549         av_log(h->s.avctx, AV_LOG_DEBUG, "no mmco here\n");
3550         
3551     for(i=0; i<mmco_count; i++){
3552         if(s->avctx->debug&FF_DEBUG_MMCO)
3553             av_log(h->s.avctx, AV_LOG_DEBUG, "mmco:%d %d %d\n", h->mmco[i].opcode, h->mmco[i].short_frame_num, h->mmco[i].long_index);
3554
3555         switch(mmco[i].opcode){
3556         case MMCO_SHORT2UNUSED:
3557             pic= remove_short(h, mmco[i].short_frame_num);
3558             if(pic==NULL) return -1;
3559             unreference_pic(h, pic);
3560             break;
3561         case MMCO_SHORT2LONG:
3562             pic= remove_long(h, mmco[i].long_index);
3563             if(pic) unreference_pic(h, pic);
3564             
3565             h->long_ref[ mmco[i].long_index ]= remove_short(h, mmco[i].short_frame_num);
3566             h->long_ref[ mmco[i].long_index ]->long_ref=1;
3567             h->long_ref_count++;
3568             break;
3569         case MMCO_LONG2UNUSED:
3570             pic= remove_long(h, mmco[i].long_index);
3571             if(pic==NULL) return -1;
3572             unreference_pic(h, pic);
3573             break;
3574         case MMCO_LONG:
3575             pic= remove_long(h, mmco[i].long_index);
3576             if(pic) unreference_pic(h, pic);
3577             
3578             h->long_ref[ mmco[i].long_index ]= s->current_picture_ptr;
3579             h->long_ref[ mmco[i].long_index ]->long_ref=1;
3580             h->long_ref_count++;
3581             
3582             current_is_long=1;
3583             break;
3584         case MMCO_SET_MAX_LONG:
3585             assert(mmco[i].long_index <= 16);
3586             // just remove the long term which index is greater than new max
3587             for(j = mmco[i].long_index; j<16; j++){
3588                 pic = remove_long(h, j);
3589                 if (pic) unreference_pic(h, pic);
3590             }
3591             break;
3592         case MMCO_RESET:
3593             while(h->short_ref_count){
3594                 pic= remove_short(h, h->short_ref[0]->frame_num);
3595                 unreference_pic(h, pic);
3596             }
3597             for(j = 0; j < 16; j++) {
3598                 pic= remove_long(h, j);
3599                 if(pic) unreference_pic(h, pic);
3600             }
3601             break;
3602         default: assert(0);
3603         }
3604     }
3605     
3606     if(!current_is_long){
3607         pic= remove_short(h, s->current_picture_ptr->frame_num);
3608         if(pic){
3609             unreference_pic(h, pic);
3610             av_log(h->s.avctx, AV_LOG_ERROR, "illegal short term buffer state detected\n");
3611         }
3612         
3613         if(h->short_ref_count)
3614             memmove(&h->short_ref[1], &h->short_ref[0], h->short_ref_count*sizeof(Picture*));
3615
3616         h->short_ref[0]= s->current_picture_ptr;
3617         h->short_ref[0]->long_ref=0;
3618         h->short_ref_count++;
3619     }
3620     
3621     print_short_term(h);
3622     print_long_term(h);
3623     return 0; 
3624 }
3625
3626 static int decode_ref_pic_marking(H264Context *h){
3627     MpegEncContext * const s = &h->s;
3628     int i;
3629     
3630     if(h->nal_unit_type == NAL_IDR_SLICE){ //FIXME fields
3631         s->broken_link= get_bits1(&s->gb) -1;
3632         h->mmco[0].long_index= get_bits1(&s->gb) - 1; // current_long_term_idx
3633         if(h->mmco[0].long_index == -1)
3634             h->mmco_index= 0;
3635         else{
3636             h->mmco[0].opcode= MMCO_LONG;
3637             h->mmco_index= 1;
3638         } 
3639     }else{
3640         if(get_bits1(&s->gb)){ // adaptive_ref_pic_marking_mode_flag
3641             for(i= 0; i<MAX_MMCO_COUNT; i++) { 
3642                 MMCOOpcode opcode= get_ue_golomb(&s->gb);;
3643
3644                 h->mmco[i].opcode= opcode;
3645                 if(opcode==MMCO_SHORT2UNUSED || opcode==MMCO_SHORT2LONG){
3646                     h->mmco[i].short_frame_num= (h->frame_num - get_ue_golomb(&s->gb) - 1) & ((1<<h->sps.log2_max_frame_num)-1); //FIXME fields
3647 /*                    if(h->mmco[i].short_frame_num >= h->short_ref_count || h->short_ref[ h->mmco[i].short_frame_num ] == NULL){
3648                         fprintf(stderr, "illegal short ref in memory management control operation %d\n", mmco);
3649                         return -1;
3650                     }*/
3651                 }
3652                 if(opcode==MMCO_SHORT2LONG || opcode==MMCO_LONG2UNUSED || opcode==MMCO_LONG || opcode==MMCO_SET_MAX_LONG){
3653                     h->mmco[i].long_index= get_ue_golomb(&s->gb);
3654                     if(/*h->mmco[i].long_index >= h->long_ref_count || h->long_ref[ h->mmco[i].long_index ] == NULL*/ h->mmco[i].long_index >= 16){
3655                         av_log(h->s.avctx, AV_LOG_ERROR, "illegal long ref in memory management control operation %d\n", opcode);
3656                         return -1;
3657                     }
3658                 }
3659                     
3660                 if(opcode > MMCO_LONG){
3661                     av_log(h->s.avctx, AV_LOG_ERROR, "illegal memory management control operation %d\n", opcode);
3662                     return -1;
3663                 }
3664                 if(opcode == MMCO_END)
3665                     break;
3666             }
3667             h->mmco_index= i;
3668         }else{
3669             assert(h->long_ref_count + h->short_ref_count <= h->sps.ref_frame_count);
3670
3671             if(h->long_ref_count + h->short_ref_count == h->sps.ref_frame_count){ //FIXME fields
3672                 h->mmco[0].opcode= MMCO_SHORT2UNUSED;
3673                 h->mmco[0].short_frame_num= h->short_ref[ h->short_ref_count - 1 ]->frame_num;
3674                 h->mmco_index= 1;
3675             }else
3676                 h->mmco_index= 0;
3677         }
3678     }
3679     
3680     return 0; 
3681 }
3682
3683 static int init_poc(H264Context *h){
3684     MpegEncContext * const s = &h->s;
3685     const int max_frame_num= 1<<h->sps.log2_max_frame_num;
3686     int field_poc[2];
3687
3688     if(h->nal_unit_type == NAL_IDR_SLICE){
3689         h->frame_num_offset= 0;
3690     }else{
3691         if(h->frame_num < h->prev_frame_num)
3692             h->frame_num_offset= h->prev_frame_num_offset + max_frame_num;
3693         else
3694             h->frame_num_offset= h->prev_frame_num_offset;
3695     }
3696
3697     if(h->sps.poc_type==0){
3698         const int max_poc_lsb= 1<<h->sps.log2_max_poc_lsb;
3699
3700         if     (h->poc_lsb < h->prev_poc_lsb && h->prev_poc_lsb - h->poc_lsb >= max_poc_lsb/2)
3701             h->poc_msb = h->prev_poc_msb + max_poc_lsb;
3702         else if(h->poc_lsb > h->prev_poc_lsb && h->prev_poc_lsb - h->poc_lsb < -max_poc_lsb/2)
3703             h->poc_msb = h->prev_poc_msb - max_poc_lsb;
3704         else
3705             h->poc_msb = h->prev_poc_msb;
3706 //printf("poc: %d %d\n", h->poc_msb, h->poc_lsb);
3707         field_poc[0] = 
3708         field_poc[1] = h->poc_msb + h->poc_lsb;
3709         if(s->picture_structure == PICT_FRAME) 
3710             field_poc[1] += h->delta_poc_bottom;
3711     }else if(h->sps.poc_type==1){
3712         int abs_frame_num, expected_delta_per_poc_cycle, expectedpoc;
3713         int i;
3714
3715         if(h->sps.poc_cycle_length != 0)
3716             abs_frame_num = h->frame_num_offset + h->frame_num;
3717         else
3718             abs_frame_num = 0;
3719
3720         if(h->nal_ref_idc==0 && abs_frame_num > 0)
3721             abs_frame_num--;
3722             
3723         expected_delta_per_poc_cycle = 0;
3724         for(i=0; i < h->sps.poc_cycle_length; i++)
3725             expected_delta_per_poc_cycle += h->sps.offset_for_ref_frame[ i ]; //FIXME integrate during sps parse
3726
3727         if(abs_frame_num > 0){
3728             int poc_cycle_cnt          = (abs_frame_num - 1) / h->sps.poc_cycle_length;
3729             int frame_num_in_poc_cycle = (abs_frame_num - 1) % h->sps.poc_cycle_length;
3730
3731             expectedpoc = poc_cycle_cnt * expected_delta_per_poc_cycle;
3732             for(i = 0; i <= frame_num_in_poc_cycle; i++)
3733                 expectedpoc = expectedpoc + h->sps.offset_for_ref_frame[ i ];
3734         } else
3735             expectedpoc = 0;
3736
3737         if(h->nal_ref_idc == 0) 
3738             expectedpoc = expectedpoc + h->sps.offset_for_non_ref_pic;
3739         
3740         field_poc[0] = expectedpoc + h->delta_poc[0];
3741         field_poc[1] = field_poc[0] + h->sps.offset_for_top_to_bottom_field;
3742
3743         if(s->picture_structure == PICT_FRAME)
3744             field_poc[1] += h->delta_poc[1];
3745     }else{
3746         int poc;
3747         if(h->nal_unit_type == NAL_IDR_SLICE){
3748             poc= 0;
3749         }else{
3750             if(h->nal_ref_idc) poc= 2*(h->frame_num_offset + h->frame_num);
3751             else               poc= 2*(h->frame_num_offset + h->frame_num) - 1;
3752         }
3753         field_poc[0]= poc;
3754         field_poc[1]= poc;
3755     }
3756     
3757     if(s->picture_structure != PICT_BOTTOM_FIELD)
3758         s->current_picture_ptr->field_poc[0]= field_poc[0];
3759     if(s->picture_structure != PICT_TOP_FIELD)
3760         s->current_picture_ptr->field_poc[1]= field_poc[1];
3761     if(s->picture_structure == PICT_FRAME) // FIXME field pix?
3762         s->current_picture_ptr->poc= FFMIN(field_poc[0], field_poc[1]);
3763
3764     return 0;
3765 }
3766
3767 /**
3768  * decodes a slice header.
3769  * this will allso call MPV_common_init() and frame_start() as needed
3770  */
3771 static int decode_slice_header(H264Context *h){
3772     MpegEncContext * const s = &h->s;
3773     int first_mb_in_slice, pps_id;
3774     int num_ref_idx_active_override_flag;
3775     static const uint8_t slice_type_map[5]= {P_TYPE, B_TYPE, I_TYPE, SP_TYPE, SI_TYPE};
3776     int slice_type;
3777     int default_ref_list_done = 0;
3778
3779     s->current_picture.reference= h->nal_ref_idc != 0;
3780     s->dropable= h->nal_ref_idc == 0;
3781
3782     first_mb_in_slice= get_ue_golomb(&s->gb);
3783
3784     slice_type= get_ue_golomb(&s->gb);
3785     if(slice_type > 9){
3786         av_log(h->s.avctx, AV_LOG_ERROR, "slice type too large (%d) at %d %d\n", h->slice_type, s->mb_x, s->mb_y);
3787         return -1;
3788     }
3789     if(slice_type > 4){
3790         slice_type -= 5;
3791         h->slice_type_fixed=1;
3792     }else
3793         h->slice_type_fixed=0;
3794     
3795     slice_type= slice_type_map[ slice_type ];
3796     if (slice_type == I_TYPE
3797         || (h->slice_num != 0 && slice_type == h->slice_type) ) {
3798         default_ref_list_done = 1;
3799     }
3800     h->slice_type= slice_type;
3801
3802     s->pict_type= h->slice_type; // to make a few old func happy, it's wrong though
3803         
3804     pps_id= get_ue_golomb(&s->gb);
3805     if(pps_id>255){
3806         av_log(h->s.avctx, AV_LOG_ERROR, "pps_id out of range\n");
3807         return -1;
3808     }
3809     h->pps= h->pps_buffer[pps_id];
3810     if(h->pps.slice_group_count == 0){
3811         av_log(h->s.avctx, AV_LOG_ERROR, "non existing PPS referenced\n");
3812         return -1;
3813     }
3814
3815     h->sps= h->sps_buffer[ h->pps.sps_id ];
3816     if(h->sps.log2_max_frame_num == 0){
3817         av_log(h->s.avctx, AV_LOG_ERROR, "non existing SPS referenced\n");
3818         return -1;
3819     }
3820     
3821     s->mb_width= h->sps.mb_width;
3822     s->mb_height= h->sps.mb_height * (2 - h->sps.frame_mbs_only_flag);
3823     
3824     h->b_stride=  s->mb_width*4 + 1;
3825     h->b8_stride= s->mb_width*2 + 1;
3826
3827     s->width = 16*s->mb_width - 2*(h->sps.crop_left + h->sps.crop_right );
3828     if(h->sps.frame_mbs_only_flag)
3829         s->height= 16*s->mb_height - 2*(h->sps.crop_top  + h->sps.crop_bottom);
3830     else
3831         s->height= 16*s->mb_height - 4*(h->sps.crop_top  + h->sps.crop_bottom); //FIXME recheck
3832     
3833     if (s->context_initialized 
3834         && (   s->width != s->avctx->width || s->height != s->avctx->height)) {
3835         free_tables(h);
3836         MPV_common_end(s);
3837     }
3838     if (!s->context_initialized) {
3839         if (MPV_common_init(s) < 0)
3840             return -1;
3841
3842         alloc_tables(h);
3843
3844         s->avctx->width = s->width;
3845         s->avctx->height = s->height;
3846         s->avctx->sample_aspect_ratio= h->sps.sar;
3847         if(!s->avctx->sample_aspect_ratio.den)
3848             s->avctx->sample_aspect_ratio.den = 1;
3849
3850         if(h->sps.timing_info_present_flag && h->sps.fixed_frame_rate_flag){
3851             s->avctx->time_base= (AVRational){h->sps.num_units_in_tick, h->sps.time_scale};
3852         }
3853     }
3854
3855     if(h->slice_num == 0){
3856         frame_start(h);
3857     }
3858
3859     s->current_picture_ptr->frame_num= //FIXME frame_num cleanup
3860     h->frame_num= get_bits(&s->gb, h->sps.log2_max_frame_num);
3861
3862     h->mb_aff_frame = 0;
3863     if(h->sps.frame_mbs_only_flag){
3864         s->picture_structure= PICT_FRAME;
3865     }else{
3866         if(get_bits1(&s->gb)) { //field_pic_flag
3867             s->picture_structure= PICT_TOP_FIELD + get_bits1(&s->gb); //bottom_field_flag
3868         } else {
3869             s->picture_structure= PICT_FRAME;
3870             first_mb_in_slice <<= 1;
3871             h->mb_aff_frame = h->sps.mb_aff;
3872         }
3873     }
3874
3875     s->resync_mb_x = s->mb_x = first_mb_in_slice % s->mb_width;
3876     s->resync_mb_y = s->mb_y = first_mb_in_slice / s->mb_width;
3877     
3878     if(s->picture_structure==PICT_FRAME){
3879         h->curr_pic_num=   h->frame_num;
3880         h->max_pic_num= 1<< h->sps.log2_max_frame_num;
3881     }else{
3882         h->curr_pic_num= 2*h->frame_num;
3883         h->max_pic_num= 1<<(h->sps.log2_max_frame_num + 1);
3884     }
3885         
3886     if(h->nal_unit_type == NAL_IDR_SLICE){
3887         get_ue_golomb(&s->gb); /* idr_pic_id */
3888     }
3889    
3890     if(h->sps.poc_type==0){
3891         h->poc_lsb= get_bits(&s->gb, h->sps.log2_max_poc_lsb);
3892         
3893         if(h->pps.pic_order_present==1 && s->picture_structure==PICT_FRAME){
3894             h->delta_poc_bottom= get_se_golomb(&s->gb);
3895         }
3896     }
3897     
3898     if(h->sps.poc_type==1 && !h->sps.delta_pic_order_always_zero_flag){
3899         h->delta_poc[0]= get_se_golomb(&s->gb);
3900         
3901         if(h->pps.pic_order_present==1 && s->picture_structure==PICT_FRAME)
3902             h->delta_poc[1]= get_se_golomb(&s->gb);
3903     }
3904     
3905     init_poc(h);
3906     
3907     if(h->pps.redundant_pic_cnt_present){
3908         h->redundant_pic_count= get_ue_golomb(&s->gb);
3909     }
3910
3911     //set defaults, might be overriden a few line later
3912     h->ref_count[0]= h->pps.ref_count[0];
3913     h->ref_count[1]= h->pps.ref_count[1];
3914
3915     if(h->slice_type == P_TYPE || h->slice_type == SP_TYPE || h->slice_type == B_TYPE){
3916         if(h->slice_type == B_TYPE){
3917             h->direct_spatial_mv_pred= get_bits1(&s->gb);
3918         }
3919         num_ref_idx_active_override_flag= get_bits1(&s->gb);
3920     
3921         if(num_ref_idx_active_override_flag){
3922             h->ref_count[0]= get_ue_golomb(&s->gb) + 1;
3923             if(h->slice_type==B_TYPE)
3924                 h->ref_count[1]= get_ue_golomb(&s->gb) + 1;
3925
3926             if(h->ref_count[0] > 32 || h->ref_count[1] > 32){
3927                 av_log(h->s.avctx, AV_LOG_ERROR, "reference overflow\n");
3928                 return -1;
3929             }
3930         }
3931     }
3932
3933     if(!default_ref_list_done){
3934         fill_default_ref_list(h);
3935     }
3936
3937     decode_ref_pic_list_reordering(h);
3938
3939     if(   (h->pps.weighted_pred          && (h->slice_type == P_TYPE || h->slice_type == SP_TYPE )) 
3940        || (h->pps.weighted_bipred_idc==1 && h->slice_type==B_TYPE ) )
3941         pred_weight_table(h);
3942     else if(h->pps.weighted_bipred_idc==2 && h->slice_type==B_TYPE)
3943         implicit_weight_table(h);
3944     else
3945         h->use_weight = 0;
3946     
3947     if(s->current_picture.reference)
3948         decode_ref_pic_marking(h);
3949
3950     if( h->slice_type != I_TYPE && h->slice_type != SI_TYPE && h->pps.cabac )
3951         h->cabac_init_idc = get_ue_golomb(&s->gb);
3952
3953     h->last_qscale_diff = 0;
3954     s->qscale = h->pps.init_qp + get_se_golomb(&s->gb);
3955     if(s->qscale<0 || s->qscale>51){
3956         av_log(s->avctx, AV_LOG_ERROR, "QP %d out of range\n", s->qscale);
3957         return -1;
3958     }
3959     h->chroma_qp = get_chroma_qp(h->pps.chroma_qp_index_offset, s->qscale);
3960     //FIXME qscale / qp ... stuff
3961     if(h->slice_type == SP_TYPE){
3962         get_bits1(&s->gb); /* sp_for_switch_flag */
3963     }
3964     if(h->slice_type==SP_TYPE || h->slice_type == SI_TYPE){
3965         get_se_golomb(&s->gb); /* slice_qs_delta */
3966     }
3967
3968     h->deblocking_filter = 1;
3969     h->slice_alpha_c0_offset = 0;
3970     h->slice_beta_offset = 0;
3971     if( h->pps.deblocking_filter_parameters_present ) {
3972         h->deblocking_filter= get_ue_golomb(&s->gb);
3973         if(h->deblocking_filter < 2) 
3974             h->deblocking_filter^= 1; // 1<->0
3975
3976         if( h->deblocking_filter ) {
3977             h->slice_alpha_c0_offset = get_se_golomb(&s->gb) << 1;
3978             h->slice_beta_offset = get_se_golomb(&s->gb) << 1;
3979         }
3980     }
3981
3982 #if 0 //FMO
3983     if( h->pps.num_slice_groups > 1  && h->pps.mb_slice_group_map_type >= 3 && h->pps.mb_slice_group_map_type <= 5)
3984         slice_group_change_cycle= get_bits(&s->gb, ?);
3985 #endif
3986
3987     h->slice_num++;
3988
3989     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
3990         av_log(h->s.avctx, AV_LOG_DEBUG, "slice:%d %s mb:%d %c pps:%d frame:%d poc:%d/%d ref:%d/%d qp:%d loop:%d:%d:%d weight:%d%s\n", 
3991                h->slice_num,
3992                (s->picture_structure==PICT_FRAME ? "F" : s->picture_structure==PICT_TOP_FIELD ? "T" : "B"),
3993                first_mb_in_slice, 
3994                av_get_pict_type_char(h->slice_type),
3995                pps_id, h->frame_num,
3996                s->current_picture_ptr->field_poc[0], s->current_picture_ptr->field_poc[1],
3997                h->ref_count[0], h->ref_count[1],
3998                s->qscale,
3999                h->deblocking_filter, h->slice_alpha_c0_offset/2, h->slice_beta_offset/2,
4000                h->use_weight,
4001                h->use_weight==1 && h->use_weight_chroma ? "c" : ""
4002                );
4003     }
4004
4005     return 0;
4006 }
4007
4008 /**
4009  *
4010  */
4011 static inline int get_level_prefix(GetBitContext *gb){
4012     unsigned int buf;
4013     int log;
4014     
4015     OPEN_READER(re, gb);
4016     UPDATE_CACHE(re, gb);
4017     buf=GET_CACHE(re, gb);
4018     
4019     log= 32 - av_log2(buf);
4020 #ifdef TRACE
4021     print_bin(buf>>(32-log), log);
4022     av_log(NULL, AV_LOG_DEBUG, "%5d %2d %3d lpr @%5d in %s get_level_prefix\n", buf>>(32-log), log, log-1, get_bits_count(gb), __FILE__);
4023 #endif
4024
4025     LAST_SKIP_BITS(re, gb, log);
4026     CLOSE_READER(re, gb);
4027
4028     return log-1;
4029 }
4030
4031 /**
4032  * decodes a residual block.
4033  * @param n block index
4034  * @param scantable scantable
4035  * @param max_coeff number of coefficients in the block
4036  * @return <0 if an error occured
4037  */
4038 static int decode_residual(H264Context *h, GetBitContext *gb, DCTELEM *block, int n, const uint8_t *scantable, int qp, int max_coeff){
4039     MpegEncContext * const s = &h->s;
4040     const uint16_t *qmul= dequant_coeff[qp];
4041     static const int coeff_token_table_index[17]= {0, 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3};
4042     int level[16], run[16];
4043     int suffix_length, zeros_left, coeff_num, coeff_token, total_coeff, i, trailing_ones;
4044
4045     //FIXME put trailing_onex into the context
4046
4047     if(n == CHROMA_DC_BLOCK_INDEX){
4048         coeff_token= get_vlc2(gb, chroma_dc_coeff_token_vlc.table, CHROMA_DC_COEFF_TOKEN_VLC_BITS, 1);
4049         total_coeff= coeff_token>>2;
4050     }else{    
4051         if(n == LUMA_DC_BLOCK_INDEX){
4052             total_coeff= pred_non_zero_count(h, 0);
4053             coeff_token= get_vlc2(gb, coeff_token_vlc[ coeff_token_table_index[total_coeff] ].table, COEFF_TOKEN_VLC_BITS, 2);
4054             total_coeff= coeff_token>>2;
4055         }else{
4056             total_coeff= pred_non_zero_count(h, n);
4057             coeff_token= get_vlc2(gb, coeff_token_vlc[ coeff_token_table_index[total_coeff] ].table, COEFF_TOKEN_VLC_BITS, 2);
4058             total_coeff= coeff_token>>2;
4059             h->non_zero_count_cache[ scan8[n] ]= total_coeff;
4060         }
4061     }
4062
4063     //FIXME set last_non_zero?
4064
4065     if(total_coeff==0)
4066         return 0;
4067         
4068     trailing_ones= coeff_token&3;
4069     tprintf("trailing:%d, total:%d\n", trailing_ones, total_coeff);
4070     assert(total_coeff<=16);
4071     
4072     for(i=0; i<trailing_ones; i++){
4073         level[i]= 1 - 2*get_bits1(gb);
4074     }
4075
4076     suffix_length= total_coeff > 10 && trailing_ones < 3;
4077
4078     for(; i<total_coeff; i++){
4079         const int prefix= get_level_prefix(gb);
4080         int level_code, mask;
4081
4082         if(prefix<14){ //FIXME try to build a large unified VLC table for all this
4083             if(suffix_length)
4084                 level_code= (prefix<<suffix_length) + get_bits(gb, suffix_length); //part
4085             else
4086                 level_code= (prefix<<suffix_length); //part
4087         }else if(prefix==14){
4088             if(suffix_length)
4089                 level_code= (prefix<<suffix_length) + get_bits(gb, suffix_length); //part
4090             else
4091                 level_code= prefix + get_bits(gb, 4); //part
4092         }else if(prefix==15){
4093             level_code= (prefix<<suffix_length) + get_bits(gb, 12); //part
4094             if(suffix_length==0) level_code+=15; //FIXME doesn't make (much)sense
4095         }else{
4096             av_log(h->s.avctx, AV_LOG_ERROR, "prefix too large at %d %d\n", s->mb_x, s->mb_y);
4097             return -1;
4098         }
4099
4100         if(i==trailing_ones && i<3) level_code+= 2; //FIXME split first iteration
4101
4102         mask= -(level_code&1);
4103         level[i]= (((2+level_code)>>1) ^ mask) - mask;
4104
4105         if(suffix_length==0) suffix_length=1; //FIXME split first iteration
4106
4107 #if 1
4108         if(ABS(level[i]) > (3<<(suffix_length-1)) && suffix_length<6) suffix_length++;
4109 #else        
4110         if((2+level_code)>>1) > (3<<(suffix_length-1)) && suffix_length<6) suffix_length++;
4111         /* ? == prefix > 2 or sth */
4112 #endif
4113         tprintf("level: %d suffix_length:%d\n", level[i], suffix_length);
4114     }
4115
4116     if(total_coeff == max_coeff)
4117         zeros_left=0;
4118     else{
4119         if(n == CHROMA_DC_BLOCK_INDEX)
4120             zeros_left= get_vlc2(gb, chroma_dc_total_zeros_vlc[ total_coeff-1 ].table, CHROMA_DC_TOTAL_ZEROS_VLC_BITS, 1);
4121         else
4122             zeros_left= get_vlc2(gb, total_zeros_vlc[ total_coeff-1 ].table, TOTAL_ZEROS_VLC_BITS, 1);
4123     }
4124     
4125     for(i=0; i<total_coeff-1; i++){
4126         if(zeros_left <=0)
4127             break;
4128         else if(zeros_left < 7){
4129             run[i]= get_vlc2(gb, run_vlc[zeros_left-1].table, RUN_VLC_BITS, 1);
4130         }else{
4131             run[i]= get_vlc2(gb, run7_vlc.table, RUN7_VLC_BITS, 2);
4132         }
4133         zeros_left -= run[i];
4134     }
4135
4136     if(zeros_left<0){
4137         av_log(h->s.avctx, AV_LOG_ERROR, "negative number of zero coeffs at %d %d\n", s->mb_x, s->mb_y);
4138         return -1;
4139     }
4140     
4141     for(; i<total_coeff-1; i++){
4142         run[i]= 0;
4143     }
4144
4145     run[i]= zeros_left;
4146
4147     coeff_num=-1;
4148     if(n > 24){
4149         for(i=total_coeff-1; i>=0; i--){ //FIXME merge into rundecode?
4150             int j;
4151
4152             coeff_num += run[i] + 1; //FIXME add 1 earlier ?
4153             j= scantable[ coeff_num ];
4154
4155             block[j]= level[i];
4156         }
4157     }else{
4158         for(i=total_coeff-1; i>=0; i--){ //FIXME merge into  rundecode?
4159             int j;
4160
4161             coeff_num += run[i] + 1; //FIXME add 1 earlier ?
4162             j= scantable[ coeff_num ];
4163
4164             block[j]= level[i] * qmul[j];
4165 //            printf("%d %d  ", block[j], qmul[j]);
4166         }
4167     }
4168     return 0;
4169 }
4170
4171 /**
4172  * decodes a P_SKIP or B_SKIP macroblock
4173  */
4174 static void decode_mb_skip(H264Context *h){
4175     MpegEncContext * const s = &h->s;
4176     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
4177     int mb_type;
4178     
4179     memset(h->non_zero_count[mb_xy], 0, 16);
4180     memset(h->non_zero_count_cache + 8, 0, 8*5); //FIXME ugly, remove pfui
4181
4182     if(h->mb_aff_frame && s->mb_skip_run==0 && (s->mb_y&1)==0){
4183         h->mb_field_decoding_flag= get_bits1(&s->gb);
4184     }
4185     if(h->mb_field_decoding_flag)
4186         mb_type|= MB_TYPE_INTERLACED;
4187         
4188     if( h->slice_type == B_TYPE )
4189     {
4190         // just for fill_caches. pred_direct_motion will set the real mb_type
4191         mb_type= MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2|MB_TYPE_SKIP;
4192
4193         fill_caches(h, mb_type, 0); //FIXME check what is needed and what not ...
4194         pred_direct_motion(h, &mb_type);
4195         if(h->pps.cabac){
4196             fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
4197             fill_rectangle(h->mvd_cache[1][scan8[0]], 4, 4, 8, 0, 4);
4198         }
4199     }
4200     else
4201     {
4202         int mx, my;
4203         mb_type= MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P1L0|MB_TYPE_SKIP;
4204
4205         fill_caches(h, mb_type, 0); //FIXME check what is needed and what not ...
4206         pred_pskip_motion(h, &mx, &my);
4207         fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, 0, 1);
4208         fill_rectangle(  h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mx,my), 4);
4209         if(h->pps.cabac)
4210             fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
4211     }
4212
4213     write_back_motion(h, mb_type);
4214     s->current_picture.mb_type[mb_xy]= mb_type|MB_TYPE_SKIP;
4215     s->current_picture.qscale_table[mb_xy]= s->qscale;
4216     h->slice_table[ mb_xy ]= h->slice_num;
4217     h->prev_mb_skipped= 1;
4218 }
4219
4220 /**
4221  * decodes a macroblock
4222  * @returns 0 if ok, AC_ERROR / DC_ERROR / MV_ERROR if an error is noticed
4223  */
4224 static int decode_mb_cavlc(H264Context *h){
4225     MpegEncContext * const s = &h->s;
4226     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
4227     int mb_type, partition_count, cbp;
4228
4229     s->dsp.clear_blocks(h->mb); //FIXME avoid if already clear (move after skip handlong?    
4230
4231     tprintf("pic:%d mb:%d/%d\n", h->frame_num, s->mb_x, s->mb_y);
4232     cbp = 0; /* avoid warning. FIXME: find a solution without slowing
4233                 down the code */
4234     if(h->slice_type != I_TYPE && h->slice_type != SI_TYPE){
4235         if(s->mb_skip_run==-1)
4236             s->mb_skip_run= get_ue_golomb(&s->gb);
4237         
4238         if (s->mb_skip_run--) {
4239             decode_mb_skip(h);
4240             return 0;
4241         }
4242     }
4243     if(h->mb_aff_frame){
4244         if ( ((s->mb_y&1) == 0) || h->prev_mb_skipped)
4245             h->mb_field_decoding_flag = get_bits1(&s->gb);
4246     }else
4247         h->mb_field_decoding_flag= (s->picture_structure!=PICT_FRAME);
4248     
4249     h->prev_mb_skipped= 0;
4250     
4251     mb_type= get_ue_golomb(&s->gb);
4252     if(h->slice_type == B_TYPE){
4253         if(mb_type < 23){
4254             partition_count= b_mb_type_info[mb_type].partition_count;
4255             mb_type=         b_mb_type_info[mb_type].type;
4256         }else{
4257             mb_type -= 23;
4258             goto decode_intra_mb;
4259         }
4260     }else if(h->slice_type == P_TYPE /*|| h->slice_type == SP_TYPE */){
4261         if(mb_type < 5){
4262             partition_count= p_mb_type_info[mb_type].partition_count;
4263             mb_type=         p_mb_type_info[mb_type].type;
4264         }else{
4265             mb_type -= 5;
4266             goto decode_intra_mb;
4267         }
4268     }else{
4269        assert(h->slice_type == I_TYPE);
4270 decode_intra_mb:
4271         if(mb_type > 25){
4272             av_log(h->s.avctx, AV_LOG_ERROR, "mb_type %d in %c slice to large at %d %d\n", mb_type, av_get_pict_type_char(h->slice_type), s->mb_x, s->mb_y);
4273             return -1;
4274         }
4275         partition_count=0;
4276         cbp= i_mb_type_info[mb_type].cbp;
4277         h->intra16x16_pred_mode= i_mb_type_info[mb_type].pred_mode;
4278         mb_type= i_mb_type_info[mb_type].type;
4279     }
4280
4281     if(h->mb_field_decoding_flag)
4282         mb_type |= MB_TYPE_INTERLACED;
4283
4284     s->current_picture.mb_type[mb_xy]= mb_type;
4285     h->slice_table[ mb_xy ]= h->slice_num;
4286     
4287     if(IS_INTRA_PCM(mb_type)){
4288         unsigned int x, y;
4289         
4290         // we assume these blocks are very rare so we dont optimize it
4291         align_get_bits(&s->gb);
4292         
4293         // The pixels are stored in the same order as levels in h->mb array.
4294         for(y=0; y<16; y++){
4295             const int index= 4*(y&3) + 32*((y>>2)&1) + 128*(y>>3);
4296             for(x=0; x<16; x++){
4297                 tprintf("LUMA ICPM LEVEL (%3d)\n", show_bits(&s->gb, 8));
4298                 h->mb[index + (x&3) + 16*((x>>2)&1) + 64*(x>>3)]= get_bits(&s->gb, 8);
4299             }
4300         }
4301         for(y=0; y<8; y++){
4302             const int index= 256 + 4*(y&3) + 32*(y>>2);
4303             for(x=0; x<8; x++){
4304                 tprintf("CHROMA U ICPM LEVEL (%3d)\n", show_bits(&s->gb, 8));
4305                 h->mb[index + (x&3) + 16*(x>>2)]= get_bits(&s->gb, 8);
4306             }
4307         }
4308         for(y=0; y<8; y++){
4309             const int index= 256 + 64 + 4*(y&3) + 32*(y>>2);
4310             for(x=0; x<8; x++){
4311                 tprintf("CHROMA V ICPM LEVEL (%3d)\n", show_bits(&s->gb, 8));
4312                 h->mb[index + (x&3) + 16*(x>>2)]= get_bits(&s->gb, 8);
4313             }
4314         }
4315     
4316         // In deblocking, the quantizer is 0
4317         s->current_picture.qscale_table[mb_xy]= 0;
4318         h->chroma_qp = get_chroma_qp(h->pps.chroma_qp_index_offset, 0);
4319         // All coeffs are present
4320         memset(h->non_zero_count[mb_xy], 16, 16);
4321         
4322         return 0;
4323     }
4324         
4325     fill_caches(h, mb_type, 0);
4326
4327     //mb_pred
4328     if(IS_INTRA(mb_type)){
4329 //            init_top_left_availability(h);
4330             if(IS_INTRA4x4(mb_type)){
4331                 int i;
4332
4333 //                fill_intra4x4_pred_table(h);
4334                 for(i=0; i<16; i++){
4335                     const int mode_coded= !get_bits1(&s->gb);
4336                     const int predicted_mode=  pred_intra_mode(h, i);
4337                     int mode;
4338
4339                     if(mode_coded){
4340                         const int rem_mode= get_bits(&s->gb, 3);
4341                         if(rem_mode<predicted_mode)
4342                             mode= rem_mode;
4343                         else
4344                             mode= rem_mode + 1;
4345                     }else{
4346                         mode= predicted_mode;
4347                     }
4348                     
4349                     h->intra4x4_pred_mode_cache[ scan8[i] ] = mode;
4350                 }
4351                 write_back_intra_pred_mode(h);
4352                 if( check_intra4x4_pred_mode(h) < 0)
4353                     return -1;
4354             }else{
4355                 h->intra16x16_pred_mode= check_intra_pred_mode(h, h->intra16x16_pred_mode);
4356                 if(h->intra16x16_pred_mode < 0)
4357                     return -1;
4358             }
4359             h->chroma_pred_mode= get_ue_golomb(&s->gb);
4360
4361             h->chroma_pred_mode= check_intra_pred_mode(h, h->chroma_pred_mode);
4362             if(h->chroma_pred_mode < 0)
4363                 return -1;
4364     }else if(partition_count==4){
4365         int i, j, sub_partition_count[4], list, ref[2][4];
4366         
4367         if(h->slice_type == B_TYPE){
4368             for(i=0; i<4; i++){
4369                 h->sub_mb_type[i]= get_ue_golomb(&s->gb);
4370                 if(h->sub_mb_type[i] >=13){
4371                     av_log(h->s.avctx, AV_LOG_ERROR, "B sub_mb_type %d out of range at %d %d\n", h->sub_mb_type[i], s->mb_x, s->mb_y);
4372                     return -1;
4373                 }
4374                 sub_partition_count[i]= b_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
4375                 h->sub_mb_type[i]=      b_sub_mb_type_info[ h->sub_mb_type[i] ].type;
4376             }
4377             if(   IS_DIRECT(h->sub_mb_type[0]) || IS_DIRECT(h->sub_mb_type[1])
4378                || IS_DIRECT(h->sub_mb_type[2]) || IS_DIRECT(h->sub_mb_type[3]))
4379                 pred_direct_motion(h, &mb_type);
4380         }else{
4381             assert(h->slice_type == P_TYPE || h->slice_type == SP_TYPE); //FIXME SP correct ?
4382             for(i=0; i<4; i++){
4383                 h->sub_mb_type[i]= get_ue_golomb(&s->gb);
4384                 if(h->sub_mb_type[i] >=4){
4385                     av_log(h->s.avctx, AV_LOG_ERROR, "P sub_mb_type %d out of range at %d %d\n", h->sub_mb_type[i], s->mb_x, s->mb_y);
4386                     return -1;
4387                 }
4388                 sub_partition_count[i]= p_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
4389                 h->sub_mb_type[i]=      p_sub_mb_type_info[ h->sub_mb_type[i] ].type;
4390             }
4391         }
4392         
4393         for(list=0; list<2; list++){
4394             int ref_count= IS_REF0(mb_type) ? 1 : h->ref_count[list];
4395             if(ref_count == 0) continue;
4396             if (h->mb_aff_frame && h->mb_field_decoding_flag) {
4397                 ref_count <<= 1;
4398             }
4399             for(i=0; i<4; i++){
4400                 if(IS_DIRECT(h->sub_mb_type[i])) continue;
4401                 if(IS_DIR(h->sub_mb_type[i], 0, list)){
4402                     ref[list][i] = get_te0_golomb(&s->gb, ref_count); //FIXME init to 0 before and skip?
4403                 }else{
4404                  //FIXME
4405                     ref[list][i] = -1;
4406                 }
4407             }
4408         }
4409         
4410         for(list=0; list<2; list++){
4411             const int ref_count= IS_REF0(mb_type) ? 1 : h->ref_count[list];
4412             if(ref_count == 0) continue;
4413
4414             for(i=0; i<4; i++){
4415                 if(IS_DIRECT(h->sub_mb_type[i])) continue;
4416                 h->ref_cache[list][ scan8[4*i]   ]=h->ref_cache[list][ scan8[4*i]+1 ]=
4417                 h->ref_cache[list][ scan8[4*i]+8 ]=h->ref_cache[list][ scan8[4*i]+9 ]= ref[list][i];
4418
4419                 if(IS_DIR(h->sub_mb_type[i], 0, list)){
4420                     const int sub_mb_type= h->sub_mb_type[i];
4421                     const int block_width= (sub_mb_type & (MB_TYPE_16x16|MB_TYPE_16x8)) ? 2 : 1;
4422                     for(j=0; j<sub_partition_count[i]; j++){
4423                         int mx, my;
4424                         const int index= 4*i + block_width*j;
4425                         int16_t (* mv_cache)[2]= &h->mv_cache[list][ scan8[index] ];
4426                         pred_motion(h, index, block_width, list, h->ref_cache[list][ scan8[index] ], &mx, &my);
4427                         mx += get_se_golomb(&s->gb);
4428                         my += get_se_golomb(&s->gb);
4429                         tprintf("final mv:%d %d\n", mx, my);
4430
4431                         if(IS_SUB_8X8(sub_mb_type)){
4432                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= 
4433                             mv_cache[ 8 ][0]= mv_cache[ 9 ][0]= mx;
4434                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= 
4435                             mv_cache[ 8 ][1]= mv_cache[ 9 ][1]= my;
4436                         }else if(IS_SUB_8X4(sub_mb_type)){
4437                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= mx;
4438                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= my;
4439                         }else if(IS_SUB_4X8(sub_mb_type)){
4440                             mv_cache[ 0 ][0]= mv_cache[ 8 ][0]= mx;
4441                             mv_cache[ 0 ][1]= mv_cache[ 8 ][1]= my;
4442                         }else{
4443                             assert(IS_SUB_4X4(sub_mb_type));
4444                             mv_cache[ 0 ][0]= mx;
4445                             mv_cache[ 0 ][1]= my;
4446                         }
4447                     }
4448                 }else{
4449                     uint32_t *p= (uint32_t *)&h->mv_cache[list][ scan8[4*i] ][0];
4450                     p[0] = p[1]=
4451                     p[8] = p[9]= 0;
4452                 }
4453             }
4454         }
4455     }else if(IS_DIRECT(mb_type)){
4456         pred_direct_motion(h, &mb_type);
4457         s->current_picture.mb_type[mb_xy]= mb_type;
4458     }else{
4459         int list, mx, my, i;
4460          //FIXME we should set ref_idx_l? to 0 if we use that later ...
4461         if(IS_16X16(mb_type)){
4462             for(list=0; list<2; list++){
4463                 if(h->ref_count[list]>0){
4464                     if(IS_DIR(mb_type, 0, list)){
4465                         const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4466                         fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, val, 1);
4467                     }else
4468                         fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, (LIST_NOT_USED&0xFF), 1);
4469                 }
4470             }
4471             for(list=0; list<2; list++){
4472                 if(IS_DIR(mb_type, 0, list)){
4473                     pred_motion(h, 0, 4, list, h->ref_cache[list][ scan8[0] ], &mx, &my);
4474                     mx += get_se_golomb(&s->gb);
4475                     my += get_se_golomb(&s->gb);
4476                     tprintf("final mv:%d %d\n", mx, my);
4477
4478                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx,my), 4);
4479                 }else
4480                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, 0, 4);
4481             }
4482         }
4483         else if(IS_16X8(mb_type)){
4484             for(list=0; list<2; list++){
4485                 if(h->ref_count[list]>0){
4486                     for(i=0; i<2; i++){
4487                         if(IS_DIR(mb_type, i, list)){
4488                             const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4489                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, val, 1);
4490                         }else
4491                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, (LIST_NOT_USED&0xFF), 1);
4492                     }
4493                 }
4494             }
4495             for(list=0; list<2; list++){
4496                 for(i=0; i<2; i++){
4497                     if(IS_DIR(mb_type, i, list)){
4498                         pred_16x8_motion(h, 8*i, list, h->ref_cache[list][scan8[0] + 16*i], &mx, &my);
4499                         mx += get_se_golomb(&s->gb);
4500                         my += get_se_golomb(&s->gb);
4501                         tprintf("final mv:%d %d\n", mx, my);
4502
4503                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx,my), 4);
4504                     }else
4505                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
4506                 }
4507             }
4508         }else{
4509             assert(IS_8X16(mb_type));
4510             for(list=0; list<2; list++){
4511                 if(h->ref_count[list]>0){
4512                     for(i=0; i<2; i++){
4513                         if(IS_DIR(mb_type, i, list)){ //FIXME optimize
4514                             const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4515                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, val, 1);
4516                         }else
4517                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, (LIST_NOT_USED&0xFF), 1);
4518                     }
4519                 }
4520             }
4521             for(list=0; list<2; list++){
4522                 for(i=0; i<2; i++){
4523                     if(IS_DIR(mb_type, i, list)){
4524                         pred_8x16_motion(h, i*4, list, h->ref_cache[list][ scan8[0] + 2*i ], &mx, &my);
4525                         mx += get_se_golomb(&s->gb);
4526                         my += get_se_golomb(&s->gb);
4527                         tprintf("final mv:%d %d\n", mx, my);
4528
4529                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx,my), 4);
4530                     }else
4531                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
4532                 }
4533             }
4534         }
4535     }
4536     
4537     if(IS_INTER(mb_type))
4538         write_back_motion(h, mb_type);
4539     
4540     if(!IS_INTRA16x16(mb_type)){
4541         cbp= get_ue_golomb(&s->gb);
4542         if(cbp > 47){
4543             av_log(h->s.avctx, AV_LOG_ERROR, "cbp too large (%d) at %d %d\n", cbp, s->mb_x, s->mb_y);
4544             return -1;
4545         }
4546         
4547         if(IS_INTRA4x4(mb_type))
4548             cbp= golomb_to_intra4x4_cbp[cbp];
4549         else
4550             cbp= golomb_to_inter_cbp[cbp];
4551     }
4552
4553     if(cbp || IS_INTRA16x16(mb_type)){
4554         int i8x8, i4x4, chroma_idx;
4555         int chroma_qp, dquant;
4556         GetBitContext *gb= IS_INTRA(mb_type) ? h->intra_gb_ptr : h->inter_gb_ptr;
4557         const uint8_t *scan, *dc_scan;
4558         
4559 //        fill_non_zero_count_cache(h);
4560
4561         if(IS_INTERLACED(mb_type)){
4562             scan= field_scan;
4563             dc_scan= luma_dc_field_scan;
4564         }else{
4565             scan= zigzag_scan;
4566             dc_scan= luma_dc_zigzag_scan;
4567         }
4568
4569         dquant= get_se_golomb(&s->gb);
4570
4571         if( dquant > 25 || dquant < -26 ){
4572             av_log(h->s.avctx, AV_LOG_ERROR, "dquant out of range (%d) at %d %d\n", dquant, s->mb_x, s->mb_y);
4573             return -1;
4574         }
4575         
4576         s->qscale += dquant;
4577         if(((unsigned)s->qscale) > 51){
4578             if(s->qscale<0) s->qscale+= 52;
4579             else            s->qscale-= 52;
4580         }
4581         
4582         h->chroma_qp= chroma_qp= get_chroma_qp(h->pps.chroma_qp_index_offset, s->qscale);
4583         if(IS_INTRA16x16(mb_type)){
4584             if( decode_residual(h, h->intra_gb_ptr, h->mb, LUMA_DC_BLOCK_INDEX, dc_scan, s->qscale, 16) < 0){
4585                 return -1; //FIXME continue if partitioned and other return -1 too
4586             }
4587
4588             assert((cbp&15) == 0 || (cbp&15) == 15);
4589
4590             if(cbp&15){
4591                 for(i8x8=0; i8x8<4; i8x8++){
4592                     for(i4x4=0; i4x4<4; i4x4++){
4593                         const int index= i4x4 + 4*i8x8;
4594                         if( decode_residual(h, h->intra_gb_ptr, h->mb + 16*index, index, scan + 1, s->qscale, 15) < 0 ){
4595                             return -1;
4596                         }
4597                     }
4598                 }
4599             }else{
4600                 fill_rectangle(&h->non_zero_count_cache[scan8[0]], 4, 4, 8, 0, 1);
4601             }
4602         }else{
4603             for(i8x8=0; i8x8<4; i8x8++){
4604                 if(cbp & (1<<i8x8)){
4605                     for(i4x4=0; i4x4<4; i4x4++){
4606                         const int index= i4x4 + 4*i8x8;
4607                         
4608                         if( decode_residual(h, gb, h->mb + 16*index, index, scan, s->qscale, 16) <0 ){
4609                             return -1;
4610                         }
4611                     }
4612                 }else{
4613                     uint8_t * const nnz= &h->non_zero_count_cache[ scan8[4*i8x8] ];
4614                     nnz[0] = nnz[1] = nnz[8] = nnz[9] = 0;
4615                 }
4616             }
4617         }
4618         
4619         if(cbp&0x30){
4620             for(chroma_idx=0; chroma_idx<2; chroma_idx++)
4621                 if( decode_residual(h, gb, h->mb + 256 + 16*4*chroma_idx, CHROMA_DC_BLOCK_INDEX, chroma_dc_scan, chroma_qp, 4) < 0){
4622                     return -1;
4623                 }
4624         }
4625
4626         if(cbp&0x20){
4627             for(chroma_idx=0; chroma_idx<2; chroma_idx++){
4628                 for(i4x4=0; i4x4<4; i4x4++){
4629                     const int index= 16 + 4*chroma_idx + i4x4;
4630                     if( decode_residual(h, gb, h->mb + 16*index, index, scan + 1, chroma_qp, 15) < 0){
4631                         return -1;
4632                     }
4633                 }
4634             }
4635         }else{
4636             uint8_t * const nnz= &h->non_zero_count_cache[0];
4637             nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
4638             nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
4639         }
4640     }else{
4641         uint8_t * const nnz= &h->non_zero_count_cache[0];
4642         fill_rectangle(&nnz[scan8[0]], 4, 4, 8, 0, 1);
4643         nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
4644         nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
4645     }
4646     s->current_picture.qscale_table[mb_xy]= s->qscale;
4647     write_back_non_zero_count(h);
4648
4649     return 0;
4650 }
4651
4652 static int decode_cabac_field_decoding_flag(H264Context *h) {
4653     MpegEncContext * const s = &h->s;
4654     const int mb_x = s->mb_x;
4655     const int mb_y = s->mb_y & ~1;
4656     const int mba_xy = mb_x - 1 +  mb_y   *s->mb_stride;
4657     const int mbb_xy = mb_x     + (mb_y-2)*s->mb_stride;
4658
4659     unsigned int ctx = 0;
4660     
4661     if( h->slice_table[mba_xy] == h->slice_num && IS_INTERLACED( s->current_picture.mb_type[mba_xy] ) ) {
4662         ctx += 1;
4663     }
4664     if( h->slice_table[mbb_xy] == h->slice_num && IS_INTERLACED( s->current_picture.mb_type[mbb_xy] ) ) {
4665         ctx += 1;
4666     }
4667
4668     return get_cabac( &h->cabac, &h->cabac_state[70 + ctx] );
4669 }
4670
4671 static int decode_cabac_intra_mb_type(H264Context *h, int ctx_base, int intra_slice) {
4672     uint8_t *state= &h->cabac_state[ctx_base];
4673     int mb_type;
4674     
4675     if(intra_slice){
4676         MpegEncContext * const s = &h->s;
4677         const int mba_xy = h->left_mb_xy[0];
4678         const int mbb_xy = h->top_mb_xy;
4679         int ctx=0;
4680         if( h->slice_table[mba_xy] == h->slice_num && !IS_INTRA4x4( s->current_picture.mb_type[mba_xy] ) )
4681             ctx++;
4682         if( h->slice_table[mbb_xy] == h->slice_num && !IS_INTRA4x4( s->current_picture.mb_type[mbb_xy] ) )
4683             ctx++;
4684         if( get_cabac( &h->cabac, &state[ctx] ) == 0 )
4685             return 0;   /* I4x4 */
4686         state += 2;
4687     }else{
4688         if( get_cabac( &h->cabac, &state[0] ) == 0 )
4689             return 0;   /* I4x4 */
4690     }
4691
4692     if( get_cabac_terminate( &h->cabac ) )
4693         return 25;  /* PCM */
4694
4695     mb_type = 1; /* I16x16 */
4696     if( get_cabac( &h->cabac, &state[1] ) )
4697         mb_type += 12;  /* cbp_luma != 0 */
4698
4699     if( get_cabac( &h->cabac, &state[2] ) ) {
4700         if( get_cabac( &h->cabac, &state[2+intra_slice] ) )
4701             mb_type += 4 * 2;   /* cbp_chroma == 2 */
4702         else
4703             mb_type += 4 * 1;   /* cbp_chroma == 1 */
4704     }
4705     if( get_cabac( &h->cabac, &state[3+intra_slice] ) )
4706         mb_type += 2;
4707     if( get_cabac( &h->cabac, &state[3+2*intra_slice] ) )
4708         mb_type += 1;
4709     return mb_type;
4710 }
4711
4712 static int decode_cabac_mb_type( H264Context *h ) {
4713     MpegEncContext * const s = &h->s;
4714
4715     if( h->slice_type == I_TYPE ) {
4716         return decode_cabac_intra_mb_type(h, 3, 1);
4717     } else if( h->slice_type == P_TYPE ) {
4718         if( get_cabac( &h->cabac, &h->cabac_state[14] ) == 0 ) {
4719             /* P-type */
4720             if( get_cabac( &h->cabac, &h->cabac_state[15] ) == 0 ) {
4721                 if( get_cabac( &h->cabac, &h->cabac_state[16] ) == 0 )
4722                     return 0; /* P_L0_D16x16; */
4723                 else
4724                     return 3; /* P_8x8; */
4725             } else {
4726                 if( get_cabac( &h->cabac, &h->cabac_state[17] ) == 0 )
4727                     return 2; /* P_L0_D8x16; */
4728                 else
4729                     return 1; /* P_L0_D16x8; */
4730             }
4731         } else {
4732             return decode_cabac_intra_mb_type(h, 17, 0) + 5;
4733         }
4734     } else if( h->slice_type == B_TYPE ) {
4735         const int mba_xy = h->left_mb_xy[0];
4736         const int mbb_xy = h->top_mb_xy;
4737         int ctx = 0;
4738         int bits;
4739
4740         if( h->slice_table[mba_xy] == h->slice_num && !IS_SKIP( s->current_picture.mb_type[mba_xy] )
4741                       && !IS_DIRECT( s->current_picture.mb_type[mba_xy] ) )
4742             ctx++;
4743         if( h->slice_table[mbb_xy] == h->slice_num && !IS_SKIP( s->current_picture.mb_type[mbb_xy] )
4744                       && !IS_DIRECT( s->current_picture.mb_type[mbb_xy] ) )
4745             ctx++;
4746
4747         if( !get_cabac( &h->cabac, &h->cabac_state[27+ctx] ) )
4748             return 0; /* B_Direct_16x16 */
4749
4750         if( !get_cabac( &h->cabac, &h->cabac_state[27+3] ) ) {
4751             return 1 + get_cabac( &h->cabac, &h->cabac_state[27+5] ); /* B_L[01]_16x16 */
4752         }
4753
4754         bits = get_cabac( &h->cabac, &h->cabac_state[27+4] ) << 3;
4755         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] ) << 2;
4756         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] ) << 1;
4757         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] );
4758         if( bits < 8 )
4759             return bits + 3; /* B_Bi_16x16 through B_L1_L0_16x8 */
4760         else if( bits == 13 ) {
4761             return decode_cabac_intra_mb_type(h, 32, 0) + 23;
4762         } else if( bits == 14 )
4763             return 11; /* B_L1_L0_8x16 */
4764         else if( bits == 15 )
4765             return 22; /* B_8x8 */
4766
4767         bits= ( bits<<1 ) | get_cabac( &h->cabac, &h->cabac_state[27+5] );
4768         return bits - 4; /* B_L0_Bi_* through B_Bi_Bi_* */
4769     } else {
4770         /* TODO SI/SP frames? */
4771         return -1;
4772     }
4773 }
4774
4775 static int decode_cabac_mb_skip( H264Context *h) {
4776     MpegEncContext * const s = &h->s;
4777     const int mb_xy = s->mb_x + s->mb_y*s->mb_stride;
4778     const int mba_xy = mb_xy - 1;
4779     const int mbb_xy = mb_xy - s->mb_stride;
4780     int ctx = 0;
4781
4782     if( h->slice_table[mba_xy] == h->slice_num && !IS_SKIP( s->current_picture.mb_type[mba_xy] ))
4783         ctx++;
4784     if( h->slice_table[mbb_xy] == h->slice_num && !IS_SKIP( s->current_picture.mb_type[mbb_xy] ))
4785         ctx++;
4786
4787     if( h->slice_type == P_TYPE || h->slice_type == SP_TYPE)
4788         return get_cabac( &h->cabac, &h->cabac_state[11+ctx] );
4789     else /* B-frame */
4790         return get_cabac( &h->cabac, &h->cabac_state[24+ctx] );
4791 }
4792
4793 static int decode_cabac_mb_intra4x4_pred_mode( H264Context *h, int pred_mode ) {
4794     int mode = 0;
4795
4796     if( get_cabac( &h->cabac, &h->cabac_state[68] ) )
4797         return pred_mode;
4798
4799     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4800         mode += 1;
4801     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4802         mode += 2;
4803     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4804         mode += 4;
4805     if( mode >= pred_mode )
4806         return mode + 1;
4807     else
4808         return mode;
4809 }
4810
4811 static int decode_cabac_mb_chroma_pre_mode( H264Context *h) {
4812     const int mba_xy = h->left_mb_xy[0];
4813     const int mbb_xy = h->top_mb_xy;
4814
4815     int ctx = 0;
4816
4817     /* No need to test for IS_INTRA4x4 and IS_INTRA16x16, as we set chroma_pred_mode_table to 0 */
4818     if( h->slice_table[mba_xy] == h->slice_num && h->chroma_pred_mode_table[mba_xy] != 0 )
4819         ctx++;
4820
4821     if( h->slice_table[mbb_xy] == h->slice_num && h->chroma_pred_mode_table[mbb_xy] != 0 )
4822         ctx++;
4823
4824     if( get_cabac( &h->cabac, &h->cabac_state[64+ctx] ) == 0 )
4825         return 0;
4826
4827     if( get_cabac( &h->cabac, &h->cabac_state[64+3] ) == 0 )
4828         return 1;
4829     if( get_cabac( &h->cabac, &h->cabac_state[64+3] ) == 0 )
4830         return 2;
4831     else
4832         return 3;
4833 }
4834
4835 static const uint8_t block_idx_x[16] = {
4836     0, 1, 0, 1, 2, 3, 2, 3, 0, 1, 0, 1, 2, 3, 2, 3
4837 };
4838 static const uint8_t block_idx_y[16] = {
4839     0, 0, 1, 1, 0, 0, 1, 1, 2, 2, 3, 3, 2, 2, 3, 3
4840 };
4841 static const uint8_t block_idx_xy[4][4] = {
4842     { 0, 2, 8,  10},
4843     { 1, 3, 9,  11},
4844     { 4, 6, 12, 14},
4845     { 5, 7, 13, 15}
4846 };
4847
4848 static int decode_cabac_mb_cbp_luma( H264Context *h) {
4849     MpegEncContext * const s = &h->s;
4850
4851     int cbp = 0;
4852     int i8x8;
4853
4854     for( i8x8 = 0; i8x8 < 4; i8x8++ ) {
4855         int cbp_a = -1;
4856         int cbp_b = -1;
4857         int x, y;
4858         int ctx = 0;
4859
4860         x = block_idx_x[4*i8x8];
4861         y = block_idx_y[4*i8x8];
4862
4863         if( x > 0 )
4864             cbp_a = cbp;
4865         else if( s->mb_x > 0 && (h->slice_table[h->left_mb_xy[0]] == h->slice_num)) {
4866             cbp_a = h->left_cbp;
4867             tprintf("cbp_a = left_cbp = %x\n", cbp_a);
4868         }
4869
4870         if( y > 0 )
4871             cbp_b = cbp;
4872         else if( s->mb_y > 0 && (h->slice_table[h->top_mb_xy] == h->slice_num)) {
4873             cbp_b = h->top_cbp;
4874             tprintf("cbp_b = top_cbp = %x\n", cbp_b);
4875         }
4876
4877         /* No need to test for skip as we put 0 for skip block */
4878         /* No need to test for IPCM as we put 1 for IPCM block */
4879         if( cbp_a >= 0 ) {
4880             int i8x8a = block_idx_xy[(x-1)&0x03][y]/4;
4881             if( ((cbp_a >> i8x8a)&0x01) == 0 )
4882                 ctx++;
4883         }
4884
4885         if( cbp_b >= 0 ) {
4886             int i8x8b = block_idx_xy[x][(y-1)&0x03]/4;
4887             if( ((cbp_b >> i8x8b)&0x01) == 0 )
4888                 ctx += 2;
4889         }
4890
4891         if( get_cabac( &h->cabac, &h->cabac_state[73 + ctx] ) ) {
4892             cbp |= 1 << i8x8;
4893         }
4894     }
4895     return cbp;
4896 }
4897 static int decode_cabac_mb_cbp_chroma( H264Context *h) {
4898     int ctx;
4899     int cbp_a, cbp_b;
4900
4901     cbp_a = (h->left_cbp>>4)&0x03;
4902     cbp_b = (h-> top_cbp>>4)&0x03;
4903
4904     ctx = 0;
4905     if( cbp_a > 0 ) ctx++;
4906     if( cbp_b > 0 ) ctx += 2;
4907     if( get_cabac( &h->cabac, &h->cabac_state[77 + ctx] ) == 0 )
4908         return 0;
4909
4910     ctx = 4;
4911     if( cbp_a == 2 ) ctx++;
4912     if( cbp_b == 2 ) ctx += 2;
4913     return 1 + get_cabac( &h->cabac, &h->cabac_state[77 + ctx] );
4914 }
4915 static int decode_cabac_mb_dqp( H264Context *h) {
4916     MpegEncContext * const s = &h->s;
4917     int mbn_xy;
4918     int   ctx = 0;
4919     int   val = 0;
4920
4921     if( s->mb_x > 0 )
4922         mbn_xy = s->mb_x + s->mb_y*s->mb_stride - 1;
4923     else
4924         mbn_xy = s->mb_width - 1 + (s->mb_y-1)*s->mb_stride;
4925
4926     if( h->last_qscale_diff != 0 && ( IS_INTRA16x16(s->current_picture.mb_type[mbn_xy] ) || (h->cbp_table[mbn_xy]&0x3f) ) )
4927         ctx++;
4928
4929     while( get_cabac( &h->cabac, &h->cabac_state[60 + ctx] ) ) {
4930         if( ctx < 2 )
4931             ctx = 2;
4932         else
4933             ctx = 3;
4934         val++;
4935     }
4936
4937     if( val&0x01 )
4938         return (val + 1)/2;
4939     else
4940         return -(val + 1)/2;
4941 }
4942 static int decode_cabac_p_mb_sub_type( H264Context *h ) {
4943     if( get_cabac( &h->cabac, &h->cabac_state[21] ) )
4944         return 0;   /* 8x8 */
4945     if( !get_cabac( &h->cabac, &h->cabac_state[22] ) )
4946         return 1;   /* 8x4 */
4947     if( get_cabac( &h->cabac, &h->cabac_state[23] ) )
4948         return 2;   /* 4x8 */
4949     return 3;       /* 4x4 */
4950 }
4951 static int decode_cabac_b_mb_sub_type( H264Context *h ) {
4952     int type;
4953     if( !get_cabac( &h->cabac, &h->cabac_state[36] ) )
4954         return 0;   /* B_Direct_8x8 */
4955     if( !get_cabac( &h->cabac, &h->cabac_state[37] ) )
4956         return 1 + get_cabac( &h->cabac, &h->cabac_state[39] ); /* B_L0_8x8, B_L1_8x8 */
4957     type = 3;
4958     if( get_cabac( &h->cabac, &h->cabac_state[38] ) ) {
4959         if( get_cabac( &h->cabac, &h->cabac_state[39] ) )
4960             return 11 + get_cabac( &h->cabac, &h->cabac_state[39] ); /* B_L1_4x4, B_Bi_4x4 */
4961         type += 4;
4962     }
4963     type += 2*get_cabac( &h->cabac, &h->cabac_state[39] );
4964     type +=   get_cabac( &h->cabac, &h->cabac_state[39] );
4965     return type;
4966 }
4967
4968 static int decode_cabac_mb_ref( H264Context *h, int list, int n ) {
4969     int refa = h->ref_cache[list][scan8[n] - 1];
4970     int refb = h->ref_cache[list][scan8[n] - 8];
4971     int ref  = 0;
4972     int ctx  = 0;
4973
4974     if( h->slice_type == B_TYPE) {
4975         if( refa > 0 && !h->direct_cache[scan8[n] - 1] )
4976             ctx++;
4977         if( refb > 0 && !h->direct_cache[scan8[n] - 8] )
4978             ctx += 2;
4979     } else {
4980         if( refa > 0 )
4981             ctx++;
4982         if( refb > 0 )
4983             ctx += 2;
4984     }
4985
4986     while( get_cabac( &h->cabac, &h->cabac_state[54+ctx] ) ) {
4987         ref++;
4988         if( ctx < 4 )
4989             ctx = 4;
4990         else
4991             ctx = 5;
4992     }
4993     return ref;
4994 }
4995
4996 static int decode_cabac_mb_mvd( H264Context *h, int list, int n, int l ) {
4997     int amvd = abs( h->mvd_cache[list][scan8[n] - 1][l] ) +
4998                abs( h->mvd_cache[list][scan8[n] - 8][l] );
4999     int ctxbase = (l == 0) ? 40 : 47;
5000     int ctx, mvd;
5001
5002     if( amvd < 3 )
5003         ctx = 0;
5004     else if( amvd > 32 )
5005         ctx = 2;
5006     else
5007         ctx = 1;
5008
5009     if(!get_cabac(&h->cabac, &h->cabac_state[ctxbase+ctx]))
5010         return 0;
5011
5012     mvd= 1;
5013     ctx= 3;
5014     while( mvd < 9 && get_cabac( &h->cabac, &h->cabac_state[ctxbase+ctx] ) ) {
5015         mvd++;
5016         if( ctx < 6 )
5017             ctx++;
5018     }
5019
5020     if( mvd >= 9 ) {
5021         int k = 3;
5022         while( get_cabac_bypass( &h->cabac ) ) {
5023             mvd += 1 << k;
5024             k++;
5025         }
5026         while( k-- ) {
5027             if( get_cabac_bypass( &h->cabac ) )
5028                 mvd += 1 << k;
5029         }
5030     }
5031     if( get_cabac_bypass( &h->cabac ) )  return -mvd;
5032     else                                 return  mvd;
5033 }
5034
5035 static int inline get_cabac_cbf_ctx( H264Context *h, int cat, int idx ) {
5036     int nza, nzb;
5037     int ctx = 0;
5038
5039     if( cat == 0 ) {
5040         nza = h->left_cbp&0x100;
5041         nzb = h-> top_cbp&0x100;
5042     } else if( cat == 1 || cat == 2 ) {
5043         nza = h->non_zero_count_cache[scan8[idx] - 1];
5044         nzb = h->non_zero_count_cache[scan8[idx] - 8];
5045     } else if( cat == 3 ) {
5046         nza = (h->left_cbp>>(6+idx))&0x01;
5047         nzb = (h-> top_cbp>>(6+idx))&0x01;
5048     } else {
5049         assert(cat == 4);
5050         nza = h->non_zero_count_cache[scan8[16+idx] - 1];
5051         nzb = h->non_zero_count_cache[scan8[16+idx] - 8];
5052     }
5053
5054     if( nza > 0 )
5055         ctx++;
5056
5057     if( nzb > 0 )
5058         ctx += 2;
5059
5060     return ctx + 4 * cat;
5061 }
5062
5063 static int inline decode_cabac_residual( H264Context *h, DCTELEM *block, int cat, int n, const uint8_t *scantable, int qp, int max_coeff) {
5064     const int mb_xy  = h->s.mb_x + h->s.mb_y*h->s.mb_stride;
5065     const uint16_t *qmul= dequant_coeff[qp];
5066     static const int significant_coeff_flag_field_offset[2] = { 105, 277 };
5067     static const int last_significant_coeff_flag_field_offset[2] = { 166, 338 };
5068     static const int significant_coeff_flag_offset[5] = { 0, 15, 29, 44, 47 };
5069     static const int coeff_abs_level_m1_offset[5] = {227+ 0, 227+10, 227+20, 227+30, 227+39 };
5070
5071     int index[16];
5072
5073     int i, last;
5074     int coeff_count = 0;
5075
5076     int abslevel1 = 1;
5077     int abslevelgt1 = 0;
5078
5079     /* cat: 0-> DC 16x16  n = 0
5080      *      1-> AC 16x16  n = luma4x4idx
5081      *      2-> Luma4x4   n = luma4x4idx
5082      *      3-> DC Chroma n = iCbCr
5083      *      4-> AC Chroma n = 4 * iCbCr + chroma4x4idx
5084      */
5085
5086     /* read coded block flag */
5087     if( get_cabac( &h->cabac, &h->cabac_state[85 + get_cabac_cbf_ctx( h, cat, n ) ] ) == 0 ) {
5088         if( cat == 1 || cat == 2 )
5089             h->non_zero_count_cache[scan8[n]] = 0;
5090         else if( cat == 4 )
5091             h->non_zero_count_cache[scan8[16+n]] = 0;
5092
5093         return 0;
5094     }
5095
5096     for(last= 0; last < max_coeff - 1; last++) {
5097         if( get_cabac( &h->cabac, &h->cabac_state[significant_coeff_flag_field_offset[h->mb_field_decoding_flag]+significant_coeff_flag_offset[cat]+last] )) {
5098             index[coeff_count++] = last;
5099             if( get_cabac( &h->cabac, &h->cabac_state[last_significant_coeff_flag_field_offset[h->mb_field_decoding_flag]+significant_coeff_flag_offset[cat]+last] ) ) {
5100                 last= max_coeff;
5101                 break;
5102             }
5103         }
5104     }
5105     if( last == max_coeff -1 ) {
5106         index[coeff_count++] = last;
5107     }
5108     assert(coeff_count > 0);
5109
5110     if( cat == 0 )
5111         h->cbp_table[mb_xy] |= 0x100;
5112     else if( cat == 1 || cat == 2 )
5113         h->non_zero_count_cache[scan8[n]] = coeff_count;
5114     else if( cat == 3 )
5115         h->cbp_table[mb_xy] |= 0x40 << n;
5116     else {
5117         assert( cat == 4 );
5118         h->non_zero_count_cache[scan8[16+n]] = coeff_count;
5119     }
5120
5121     for( i = coeff_count - 1; i >= 0; i-- ) {
5122         int ctx = (abslevelgt1 != 0 ? 0 : FFMIN( 4, abslevel1 )) + coeff_abs_level_m1_offset[cat];
5123         int j= scantable[index[i]];
5124
5125         if( get_cabac( &h->cabac, &h->cabac_state[ctx] ) == 0 ) {
5126             if( cat == 0 || cat == 3 ) {
5127                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -1;
5128                 else                                block[j] =  1;
5129             }else{
5130                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -qmul[j];
5131                 else                                block[j] =  qmul[j];
5132             }
5133     
5134             abslevel1++;
5135         } else {
5136             int coeff_abs = 2;
5137             ctx = 5 + FFMIN( 4, abslevelgt1 ) + coeff_abs_level_m1_offset[cat];
5138             while( coeff_abs < 15 && get_cabac( &h->cabac, &h->cabac_state[ctx] ) ) {
5139                 coeff_abs++;
5140             }
5141
5142             if( coeff_abs >= 15 ) {
5143                 int j = 0;
5144                 while( get_cabac_bypass( &h->cabac ) ) {
5145                     coeff_abs += 1 << j;
5146                     j++;
5147                 }
5148     
5149                 while( j-- ) {
5150                     if( get_cabac_bypass( &h->cabac ) )
5151                         coeff_abs += 1 << j ;
5152                 }
5153             }
5154
5155             if( cat == 0 || cat == 3 ) {
5156                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -coeff_abs;
5157                 else                                block[j] =  coeff_abs;
5158             }else{
5159                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -coeff_abs * qmul[j];
5160                 else                                block[j] =  coeff_abs * qmul[j];
5161             }
5162     
5163             abslevelgt1++;
5164         }
5165     }
5166     return 0;
5167 }
5168
5169 void inline compute_mb_neighboors(H264Context *h)
5170 {
5171     MpegEncContext * const s = &h->s;
5172     const int mb_xy  = s->mb_x + s->mb_y*s->mb_stride;
5173     h->top_mb_xy     = mb_xy - s->mb_stride;
5174     h->left_mb_xy[0] = mb_xy - 1;
5175     if(h->mb_aff_frame){
5176         const int pair_xy          = s->mb_x     + (s->mb_y & ~1)*s->mb_stride;
5177         const int top_pair_xy      = pair_xy     - s->mb_stride;
5178         const int top_mb_frame_flag      = !IS_INTERLACED(s->current_picture.mb_type[top_pair_xy]);
5179         const int left_mb_frame_flag = !IS_INTERLACED(s->current_picture.mb_type[pair_xy-1]);
5180         const int curr_mb_frame_flag = !h->mb_field_decoding_flag;
5181         const int bottom = (s->mb_y & 1);
5182         if (bottom
5183                 ? !curr_mb_frame_flag // bottom macroblock
5184                 : (!curr_mb_frame_flag && !top_mb_frame_flag) // top macroblock
5185                 ) {
5186             h->top_mb_xy -= s->mb_stride;
5187         }
5188         if (left_mb_frame_flag != curr_mb_frame_flag) {
5189             h->left_mb_xy[0] = pair_xy - 1;
5190         }
5191     }
5192     return;
5193 }
5194
5195 /**
5196  * decodes a macroblock
5197  * @returns 0 if ok, AC_ERROR / DC_ERROR / MV_ERROR if an error is noticed
5198  */
5199 static int decode_mb_cabac(H264Context *h) {
5200     MpegEncContext * const s = &h->s;
5201     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
5202     int mb_type, partition_count, cbp = 0;
5203
5204     s->dsp.clear_blocks(h->mb); //FIXME avoid if already clear (move after skip handlong?)
5205
5206     tprintf("pic:%d mb:%d/%d\n", h->frame_num, s->mb_x, s->mb_y);
5207     if( h->slice_type != I_TYPE && h->slice_type != SI_TYPE ) {
5208         /* read skip flags */
5209         if( decode_cabac_mb_skip( h ) ) {
5210             decode_mb_skip(h);
5211
5212             h->cbp_table[mb_xy] = 0;
5213             h->chroma_pred_mode_table[mb_xy] = 0;
5214             h->last_qscale_diff = 0;
5215
5216             return 0;
5217
5218         }
5219     }
5220     if(h->mb_aff_frame){
5221         if ( ((s->mb_y&1) == 0) || h->prev_mb_skipped)
5222             h->mb_field_decoding_flag = decode_cabac_field_decoding_flag(h);
5223     }else
5224         h->mb_field_decoding_flag= (s->picture_structure!=PICT_FRAME);
5225
5226     h->prev_mb_skipped = 0;
5227
5228     compute_mb_neighboors(h);
5229     if( ( mb_type = decode_cabac_mb_type( h ) ) < 0 ) {
5230         av_log( h->s.avctx, AV_LOG_ERROR, "decode_cabac_mb_type failed\n" );
5231         return -1;
5232     }
5233
5234     if( h->slice_type == B_TYPE ) {
5235         if( mb_type < 23 ){
5236             partition_count= b_mb_type_info[mb_type].partition_count;
5237             mb_type=         b_mb_type_info[mb_type].type;
5238         }else{
5239             mb_type -= 23;
5240             goto decode_intra_mb;
5241         }
5242     } else if( h->slice_type == P_TYPE ) {
5243         if( mb_type < 5) {
5244             partition_count= p_mb_type_info[mb_type].partition_count;
5245             mb_type=         p_mb_type_info[mb_type].type;
5246         } else {
5247             mb_type -= 5;
5248             goto decode_intra_mb;
5249         }
5250     } else {
5251        assert(h->slice_type == I_TYPE);
5252 decode_intra_mb:
5253         partition_count = 0;
5254         cbp= i_mb_type_info[mb_type].cbp;
5255         h->intra16x16_pred_mode= i_mb_type_info[mb_type].pred_mode;
5256         mb_type= i_mb_type_info[mb_type].type;
5257     }
5258     if(h->mb_field_decoding_flag)
5259         mb_type |= MB_TYPE_INTERLACED;
5260
5261     s->current_picture.mb_type[mb_xy]= mb_type;
5262     h->slice_table[ mb_xy ]= h->slice_num;
5263
5264     if(IS_INTRA_PCM(mb_type)) {
5265         const uint8_t *ptr;
5266         unsigned int x, y;
5267         
5268         // We assume these blocks are very rare so we dont optimize it.
5269         // FIXME The two following lines get the bitstream position in the cabac
5270         // decode, I think it should be done by a function in cabac.h (or cabac.c).
5271         ptr= h->cabac.bytestream;
5272         if (h->cabac.low&0x1) ptr-=CABAC_BITS/8;
5273
5274         // The pixels are stored in the same order as levels in h->mb array.
5275         for(y=0; y<16; y++){
5276             const int index= 4*(y&3) + 32*((y>>2)&1) + 128*(y>>3);
5277             for(x=0; x<16; x++){
5278                 tprintf("LUMA ICPM LEVEL (%3d)\n", *ptr);
5279                 h->mb[index + (x&3) + 16*((x>>2)&1) + 64*(x>>3)]= *ptr++;
5280             }
5281         }
5282         for(y=0; y<8; y++){
5283             const int index= 256 + 4*(y&3) + 32*(y>>2);
5284             for(x=0; x<8; x++){
5285                 tprintf("CHROMA U ICPM LEVEL (%3d)\n", *ptr);
5286                 h->mb[index + (x&3) + 16*(x>>2)]= *ptr++;
5287             }
5288         }
5289         for(y=0; y<8; y++){
5290             const int index= 256 + 64 + 4*(y&3) + 32*(y>>2);
5291             for(x=0; x<8; x++){
5292                 tprintf("CHROMA V ICPM LEVEL (%3d)\n", *ptr);
5293                 h->mb[index + (x&3) + 16*(x>>2)]= *ptr++;
5294             }
5295         }
5296
5297         ff_init_cabac_decoder(&h->cabac, ptr, h->cabac.bytestream_end - ptr);
5298
5299         // All blocks are present
5300         h->cbp_table[mb_xy] = 0x1ef;
5301         h->chroma_pred_mode_table[mb_xy] = 0;
5302         // In deblocking, the quantizer is 0
5303         s->current_picture.qscale_table[mb_xy]= 0;
5304         h->chroma_qp = get_chroma_qp(h->pps.chroma_qp_index_offset, 0);
5305         // All coeffs are present
5306         memset(h->non_zero_count[mb_xy], 16, 16);
5307         return 0;
5308     }
5309
5310     fill_caches(h, mb_type, 0);
5311
5312     if( IS_INTRA( mb_type ) ) {
5313         if( IS_INTRA4x4( mb_type ) ) {
5314             int i;
5315             for( i = 0; i < 16; i++ ) {
5316                 int pred = pred_intra_mode( h, i );
5317                 h->intra4x4_pred_mode_cache[ scan8[i] ] = decode_cabac_mb_intra4x4_pred_mode( h, pred );
5318
5319                 //av_log( s->avctx, AV_LOG_ERROR, "i4x4 pred=%d mode=%d\n", pred, h->intra4x4_pred_mode_cache[ scan8[i] ] );
5320             }
5321             write_back_intra_pred_mode(h);
5322             if( check_intra4x4_pred_mode(h) < 0 ) return -1;
5323         } else {
5324             h->intra16x16_pred_mode= check_intra_pred_mode( h, h->intra16x16_pred_mode );
5325             if( h->intra16x16_pred_mode < 0 ) return -1;
5326         }
5327         h->chroma_pred_mode_table[mb_xy] =
5328             h->chroma_pred_mode          = decode_cabac_mb_chroma_pre_mode( h );
5329
5330         h->chroma_pred_mode= check_intra_pred_mode( h, h->chroma_pred_mode );
5331         if( h->chroma_pred_mode < 0 ) return -1;
5332     } else if( partition_count == 4 ) {
5333         int i, j, sub_partition_count[4], list, ref[2][4];
5334
5335         if( h->slice_type == B_TYPE ) {
5336             for( i = 0; i < 4; i++ ) {
5337                 h->sub_mb_type[i] = decode_cabac_b_mb_sub_type( h );
5338                 sub_partition_count[i]= b_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
5339                 h->sub_mb_type[i]=      b_sub_mb_type_info[ h->sub_mb_type[i] ].type;
5340             }
5341             if(   IS_DIRECT(h->sub_mb_type[0]) || IS_DIRECT(h->sub_mb_type[1])
5342                || IS_DIRECT(h->sub_mb_type[2]) || IS_DIRECT(h->sub_mb_type[3])) {
5343                 pred_direct_motion(h, &mb_type);
5344                 if( h->ref_count[0] > 1 || h->ref_count[1] > 1 ) {
5345                     for( i = 0; i < 4; i++ )
5346                         if( IS_DIRECT(h->sub_mb_type[i]) )
5347                             fill_rectangle( &h->direct_cache[scan8[4*i]], 2, 2, 8, 1, 1 );
5348                 }
5349             }
5350         } else {
5351             for( i = 0; i < 4; i++ ) {
5352                 h->sub_mb_type[i] = decode_cabac_p_mb_sub_type( h );
5353                 sub_partition_count[i]= p_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
5354                 h->sub_mb_type[i]=      p_sub_mb_type_info[ h->sub_mb_type[i] ].type;
5355             }
5356         }
5357
5358         for( list = 0; list < 2; list++ ) {
5359             if( h->ref_count[list] > 0 ) {
5360                 for( i = 0; i < 4; i++ ) {
5361                     if(IS_DIRECT(h->sub_mb_type[i])) continue;
5362                     if(IS_DIR(h->sub_mb_type[i], 0, list)){
5363                         if( h->ref_count[list] > 1 )
5364                             ref[list][i] = decode_cabac_mb_ref( h, list, 4*i );
5365                         else
5366                             ref[list][i] = 0;
5367                     } else {
5368                         ref[list][i] = -1;
5369                     }
5370                                                        h->ref_cache[list][ scan8[4*i]+1 ]=
5371                     h->ref_cache[list][ scan8[4*i]+8 ]=h->ref_cache[list][ scan8[4*i]+9 ]= ref[list][i];
5372                 }
5373             }
5374         }
5375
5376         for(list=0; list<2; list++){
5377             for(i=0; i<4; i++){
5378                 if(IS_DIRECT(h->sub_mb_type[i])){
5379                     fill_rectangle(h->mvd_cache[list][scan8[4*i]], 2, 2, 8, 0, 4);
5380                     continue;
5381                 }
5382                 h->ref_cache[list][ scan8[4*i]   ]=h->ref_cache[list][ scan8[4*i]+1 ];
5383
5384                 if(IS_DIR(h->sub_mb_type[i], 0, list) && !IS_DIRECT(h->sub_mb_type[i])){
5385                     const int sub_mb_type= h->sub_mb_type[i];
5386                     const int block_width= (sub_mb_type & (MB_TYPE_16x16|MB_TYPE_16x8)) ? 2 : 1;
5387                     for(j=0; j<sub_partition_count[i]; j++){
5388                         int mpx, mpy;
5389                         int mx, my;
5390                         const int index= 4*i + block_width*j;
5391                         int16_t (* mv_cache)[2]= &h->mv_cache[list][ scan8[index] ];
5392                         int16_t (* mvd_cache)[2]= &h->mvd_cache[list][ scan8[index] ];
5393                         pred_motion(h, index, block_width, list, h->ref_cache[list][ scan8[index] ], &mpx, &mpy);
5394
5395                         mx = mpx + decode_cabac_mb_mvd( h, list, index, 0 );
5396                         my = mpy + decode_cabac_mb_mvd( h, list, index, 1 );
5397                         tprintf("final mv:%d %d\n", mx, my);
5398
5399                         if(IS_SUB_8X8(sub_mb_type)){
5400                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]=
5401                             mv_cache[ 8 ][0]= mv_cache[ 9 ][0]= mx;
5402                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]=
5403                             mv_cache[ 8 ][1]= mv_cache[ 9 ][1]= my;
5404
5405                             mvd_cache[ 0 ][0]= mvd_cache[ 1 ][0]=
5406                             mvd_cache[ 8 ][0]= mvd_cache[ 9 ][0]= mx - mpx;
5407                             mvd_cache[ 0 ][1]= mvd_cache[ 1 ][1]=
5408                             mvd_cache[ 8 ][1]= mvd_cache[ 9 ][1]= my - mpy;
5409                         }else if(IS_SUB_8X4(sub_mb_type)){
5410                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= mx;
5411                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= my;
5412
5413                             mvd_cache[ 0 ][0]= mvd_cache[ 1 ][0]= mx- mpx;
5414                             mvd_cache[ 0 ][1]= mvd_cache[ 1 ][1]= my - mpy;
5415                         }else if(IS_SUB_4X8(sub_mb_type)){
5416                             mv_cache[ 0 ][0]= mv_cache[ 8 ][0]= mx;
5417                             mv_cache[ 0 ][1]= mv_cache[ 8 ][1]= my;
5418
5419                             mvd_cache[ 0 ][0]= mvd_cache[ 8 ][0]= mx - mpx;
5420                             mvd_cache[ 0 ][1]= mvd_cache[ 8 ][1]= my - mpy;
5421                         }else{
5422                             assert(IS_SUB_4X4(sub_mb_type));
5423                             mv_cache[ 0 ][0]= mx;
5424                             mv_cache[ 0 ][1]= my;
5425
5426                             mvd_cache[ 0 ][0]= mx - mpx;
5427                             mvd_cache[ 0 ][1]= my - mpy;
5428                         }
5429                     }
5430                 }else{
5431                     uint32_t *p= (uint32_t *)&h->mv_cache[list][ scan8[4*i] ][0];
5432                     uint32_t *pd= (uint32_t *)&h->mvd_cache[list][ scan8[4*i] ][0];
5433                     p[0] = p[1] = p[8] = p[9] = 0;
5434                     pd[0]= pd[1]= pd[8]= pd[9]= 0;
5435                 }
5436             }
5437         }
5438     } else if( IS_DIRECT(mb_type) ) {
5439         pred_direct_motion(h, &mb_type);
5440         s->current_picture.mb_type[mb_xy]= mb_type;
5441         fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
5442         fill_rectangle(h->mvd_cache[1][scan8[0]], 4, 4, 8, 0, 4);
5443     } else {
5444         int list, mx, my, i, mpx, mpy;
5445         if(IS_16X16(mb_type)){
5446             for(list=0; list<2; list++){
5447                 if(IS_DIR(mb_type, 0, list)){
5448                     if(h->ref_count[list] > 0 ){
5449                         const int ref = h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 0 ) : 0;
5450                         fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, ref, 1);
5451                     }
5452                 }else
5453                     fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, (uint8_t)LIST_NOT_USED, 1);
5454             }
5455             for(list=0; list<2; list++){
5456                 if(IS_DIR(mb_type, 0, list)){
5457                     pred_motion(h, 0, 4, list, h->ref_cache[list][ scan8[0] ], &mpx, &mpy);
5458
5459                     mx = mpx + decode_cabac_mb_mvd( h, list, 0, 0 );
5460                     my = mpy + decode_cabac_mb_mvd( h, list, 0, 1 );
5461                     tprintf("final mv:%d %d\n", mx, my);
5462
5463                     fill_rectangle(h->mvd_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx-mpx,my-mpy), 4);
5464                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx,my), 4);
5465                 }else
5466                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, 0, 4);
5467             }
5468         }
5469         else if(IS_16X8(mb_type)){
5470             for(list=0; list<2; list++){
5471                 if(h->ref_count[list]>0){
5472                     for(i=0; i<2; i++){
5473                         if(IS_DIR(mb_type, i, list)){
5474                             const int ref= h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 8*i ) : 0;
5475                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, ref, 1);
5476                         }else
5477                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, (LIST_NOT_USED&0xFF), 1);
5478                     }
5479                 }
5480             }
5481             for(list=0; list<2; list++){
5482                 for(i=0; i<2; i++){
5483                     if(IS_DIR(mb_type, i, list)){
5484                         pred_16x8_motion(h, 8*i, list, h->ref_cache[list][scan8[0] + 16*i], &mpx, &mpy);
5485                         mx = mpx + decode_cabac_mb_mvd( h, list, 8*i, 0 );
5486                         my = mpy + decode_cabac_mb_mvd( h, list, 8*i, 1 );
5487                         tprintf("final mv:%d %d\n", mx, my);
5488
5489                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx-mpx,my-mpy), 4);
5490                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx,my), 4);
5491                     }else{
5492                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
5493                         fill_rectangle(h-> mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
5494                     }
5495                 }
5496             }
5497         }else{
5498             assert(IS_8X16(mb_type));
5499             for(list=0; list<2; list++){
5500                 if(h->ref_count[list]>0){
5501                     for(i=0; i<2; i++){
5502                         if(IS_DIR(mb_type, i, list)){ //FIXME optimize
5503                             const int ref= h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 4*i ) : 0;
5504                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, ref, 1);
5505                         }else
5506                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, (LIST_NOT_USED&0xFF), 1);
5507                     }
5508                 }
5509             }
5510             for(list=0; list<2; list++){
5511                 for(i=0; i<2; i++){
5512                     if(IS_DIR(mb_type, i, list)){
5513                         pred_8x16_motion(h, i*4, list, h->ref_cache[list][ scan8[0] + 2*i ], &mpx, &mpy);
5514                         mx = mpx + decode_cabac_mb_mvd( h, list, 4*i, 0 );
5515                         my = mpy + decode_cabac_mb_mvd( h, list, 4*i, 1 );
5516
5517                         tprintf("final mv:%d %d\n", mx, my);
5518                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx-mpx,my-mpy), 4);
5519                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx,my), 4);
5520                     }else{
5521                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
5522                         fill_rectangle(h-> mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
5523                     }
5524                 }
5525             }
5526         }
5527     }
5528
5529    if( IS_INTER( mb_type ) ) {
5530         h->chroma_pred_mode_table[mb_xy] = 0;
5531         write_back_motion( h, mb_type );
5532    }
5533
5534     if( !IS_INTRA16x16( mb_type ) ) {
5535         cbp  = decode_cabac_mb_cbp_luma( h );
5536         cbp |= decode_cabac_mb_cbp_chroma( h ) << 4;
5537     }
5538
5539     h->cbp_table[mb_xy] = cbp;
5540
5541     if( cbp || IS_INTRA16x16( mb_type ) ) {
5542         const uint8_t *scan, *dc_scan;
5543         int dqp;
5544
5545         if(IS_INTERLACED(mb_type)){
5546             scan= field_scan;
5547             dc_scan= luma_dc_field_scan;
5548         }else{
5549             scan= zigzag_scan;
5550             dc_scan= luma_dc_zigzag_scan;
5551         }
5552
5553         h->last_qscale_diff = dqp = decode_cabac_mb_dqp( h );
5554         s->qscale += dqp;
5555         if(((unsigned)s->qscale) > 51){
5556             if(s->qscale<0) s->qscale+= 52;
5557             else            s->qscale-= 52;
5558         }
5559         h->chroma_qp = get_chroma_qp(h->pps.chroma_qp_index_offset, s->qscale);
5560
5561         if( IS_INTRA16x16( mb_type ) ) {
5562             int i;
5563             //av_log( s->avctx, AV_LOG_ERROR, "INTRA16x16 DC\n" );
5564             if( decode_cabac_residual( h, h->mb, 0, 0, dc_scan, s->qscale, 16) < 0)
5565                 return -1;
5566             if( cbp&15 ) {
5567                 for( i = 0; i < 16; i++ ) {
5568                     //av_log( s->avctx, AV_LOG_ERROR, "INTRA16x16 AC:%d\n", i );
5569                     if( decode_cabac_residual(h, h->mb + 16*i, 1, i, scan + 1, s->qscale, 15) < 0 )
5570                         return -1;
5571                 }
5572             } else {
5573                 fill_rectangle(&h->non_zero_count_cache[scan8[0]], 4, 4, 8, 0, 1);
5574             }
5575         } else {
5576             int i8x8, i4x4;
5577             for( i8x8 = 0; i8x8 < 4; i8x8++ ) {
5578                 if( cbp & (1<<i8x8) ) {
5579                     for( i4x4 = 0; i4x4 < 4; i4x4++ ) {
5580                         const int index = 4*i8x8 + i4x4;
5581                         //av_log( s->avctx, AV_LOG_ERROR, "Luma4x4: %d\n", index );
5582                         if( decode_cabac_residual(h, h->mb + 16*index, 2, index, scan, s->qscale, 16) < 0 )
5583                             return -1;
5584                     }
5585                 } else {
5586                     uint8_t * const nnz= &h->non_zero_count_cache[ scan8[4*i8x8] ];
5587                     nnz[0] = nnz[1] = nnz[8] = nnz[9] = 0;
5588                 }
5589             }
5590         }
5591
5592         if( cbp&0x30 ){
5593             int c;
5594             for( c = 0; c < 2; c++ ) {
5595                 //av_log( s->avctx, AV_LOG_ERROR, "INTRA C%d-DC\n",c );
5596                 if( decode_cabac_residual(h, h->mb + 256 + 16*4*c, 3, c, chroma_dc_scan, h->chroma_qp, 4) < 0)
5597                     return -1;
5598             }
5599         }
5600
5601         if( cbp&0x20 ) {
5602             int c, i;
5603             for( c = 0; c < 2; c++ ) {
5604                 for( i = 0; i < 4; i++ ) {
5605                     const int index = 16 + 4 * c + i;
5606                     //av_log( s->avctx, AV_LOG_ERROR, "INTRA C%d-AC %d\n",c, index - 16 );
5607                     if( decode_cabac_residual(h, h->mb + 16*index, 4, index - 16, scan + 1, h->chroma_qp, 15) < 0)
5608                         return -1;
5609                 }
5610             }
5611         } else {
5612             uint8_t * const nnz= &h->non_zero_count_cache[0];
5613             nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
5614             nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
5615         }
5616     } else {
5617         uint8_t * const nnz= &h->non_zero_count_cache[0];
5618         fill_rectangle(&nnz[scan8[0]], 4, 4, 8, 0, 1);
5619         nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
5620         nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
5621     }
5622
5623     s->current_picture.qscale_table[mb_xy]= s->qscale;
5624     write_back_non_zero_count(h);
5625
5626     return 0;
5627 }
5628
5629
5630 static void filter_mb_edgev( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5631     int i, d;
5632     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5633     const int alpha = alpha_table[index_a];
5634     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5635
5636     if( bS[0] < 4 ) {
5637         int tc[4];
5638         for(i=0; i<4; i++)
5639             tc[i] = bS[i] ? tc0_table[index_a][bS[i] - 1] : -1;
5640         h->s.dsp.h264_h_loop_filter_luma(pix, stride, alpha, beta, tc);
5641     } else {
5642         /* 16px edge length, because bS=4 is triggered by being at
5643          * the edge of an intra MB, so all 4 bS are the same */
5644             for( d = 0; d < 16; d++ ) {
5645                 const int p0 = pix[-1];
5646                 const int p1 = pix[-2];
5647                 const int p2 = pix[-3];
5648
5649                 const int q0 = pix[0];
5650                 const int q1 = pix[1];
5651                 const int q2 = pix[2];
5652
5653                 if( ABS( p0 - q0 ) < alpha &&
5654                     ABS( p1 - p0 ) < beta &&
5655                     ABS( q1 - q0 ) < beta ) {
5656
5657                     if(ABS( p0 - q0 ) < (( alpha >> 2 ) + 2 )){
5658                         if( ABS( p2 - p0 ) < beta)
5659                         {
5660                             const int p3 = pix[-4];
5661                             /* p0', p1', p2' */
5662                             pix[-1] = ( p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4 ) >> 3;
5663                             pix[-2] = ( p2 + p1 + p0 + q0 + 2 ) >> 2;
5664                             pix[-3] = ( 2*p3 + 3*p2 + p1 + p0 + q0 + 4 ) >> 3;
5665                         } else {
5666                             /* p0' */
5667                             pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5668                         }
5669                         if( ABS( q2 - q0 ) < beta)
5670                         {
5671                             const int q3 = pix[3];
5672                             /* q0', q1', q2' */
5673                             pix[0] = ( p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4 ) >> 3;
5674                             pix[1] = ( p0 + q0 + q1 + q2 + 2 ) >> 2;
5675                             pix[2] = ( 2*q3 + 3*q2 + q1 + q0 + p0 + 4 ) >> 3;
5676                         } else {
5677                             /* q0' */
5678                             pix[0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5679                         }
5680                     }else{
5681                         /* p0', q0' */
5682                         pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5683                         pix[ 0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5684                     }
5685                     tprintf("filter_mb_edgev i:%d d:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, p2, p1, p0, q0, q1, q2, pix[-2], pix[-1], pix[0], pix[1]);
5686                 }
5687                 pix += stride;
5688             }
5689     }
5690 }
5691 static void filter_mb_edgecv( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5692     int i, d;
5693     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5694     const int alpha = alpha_table[index_a];
5695     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5696
5697     if( bS[0] < 4 ) {
5698         int tc[4];
5699         for(i=0; i<4; i++)
5700             tc[i] = bS[i] ? tc0_table[index_a][bS[i] - 1] + 1 : 0;
5701         h->s.dsp.h264_h_loop_filter_chroma(pix, stride, alpha, beta, tc);
5702     } else {
5703         /* 8px edge length, see filter_mb_edgev */
5704             for( d = 0; d < 8; d++ ){
5705                 const int p0 = pix[-1];
5706                 const int p1 = pix[-2];
5707                 const int q0 = pix[0];
5708                 const int q1 = pix[1];
5709
5710                 if( ABS( p0 - q0 ) < alpha &&
5711                     ABS( p1 - p0 ) < beta &&
5712                     ABS( q1 - q0 ) < beta ) {
5713
5714                     pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;   /* p0' */
5715                     pix[0]  = ( 2*q1 + q0 + p1 + 2 ) >> 2;   /* q0' */
5716                     tprintf("filter_mb_edgecv i:%d d:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5717                 }
5718                 pix += stride;
5719             }
5720     }
5721 }
5722
5723 static void filter_mb_mbaff_edgev( H264Context *h, uint8_t *pix, int stride, int bS[8], int qp[2] ) {
5724     int i;
5725     for( i = 0; i < 16; i++, pix += stride) {
5726         int index_a;
5727         int alpha;
5728         int beta;
5729     
5730         int qp_index;
5731         int bS_index = (i >> 1);
5732         if (h->mb_field_decoding_flag) {
5733             bS_index &= ~1;
5734             bS_index |= (i & 1);
5735         }
5736
5737         if( bS[bS_index] == 0 ) {
5738             continue;
5739         }
5740
5741         qp_index = h->mb_field_decoding_flag ? (i & 1) : (i >> 3);
5742         index_a = clip( qp[qp_index] + h->slice_alpha_c0_offset, 0, 51 );
5743         alpha = alpha_table[index_a];
5744         beta  = beta_table[clip( qp[qp_index] + h->slice_beta_offset, 0, 51 )];
5745
5746
5747         if( bS[bS_index] < 4 ) {
5748             const int tc0 = tc0_table[index_a][bS[bS_index] - 1];
5749             /* 4px edge length */
5750             const int p0 = pix[-1];
5751             const int p1 = pix[-2];
5752             const int p2 = pix[-3];
5753             const int q0 = pix[0];
5754             const int q1 = pix[1];
5755             const int q2 = pix[2];
5756
5757             if( ABS( p0 - q0 ) < alpha &&
5758                 ABS( p1 - p0 ) < beta &&
5759                 ABS( q1 - q0 ) < beta ) {
5760                 int tc = tc0;
5761                 int i_delta;
5762
5763                 if( ABS( p2 - p0 ) < beta ) {
5764                     pix[-2] = p1 + clip( ( p2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( p1 << 1 ) ) >> 1, -tc0, tc0 );
5765                     tc++;
5766                 }
5767                 if( ABS( q2 - q0 ) < beta ) {
5768                     pix[1] = q1 + clip( ( q2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( q1 << 1 ) ) >> 1, -tc0, tc0 );
5769                     tc++;
5770                 }
5771
5772                 i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5773                 pix[-1] = clip_uint8( p0 + i_delta );    /* p0' */
5774                 pix[0]  = clip_uint8( q0 - i_delta );    /* q0' */
5775                 tprintf("filter_mb_mbaff_edgev i:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, qp[qp_index], index_a, alpha, beta, tc, bS[bS_index], pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5776             }
5777         }else{
5778             /* 4px edge length */
5779             const int p0 = pix[-1];
5780             const int p1 = pix[-2];
5781             const int p2 = pix[-3];
5782
5783             const int q0 = pix[0];
5784             const int q1 = pix[1];
5785             const int q2 = pix[2];
5786
5787             if( ABS( p0 - q0 ) < alpha &&
5788                 ABS( p1 - p0 ) < beta &&
5789                 ABS( q1 - q0 ) < beta ) {
5790
5791                 if(ABS( p0 - q0 ) < (( alpha >> 2 ) + 2 )){
5792                     if( ABS( p2 - p0 ) < beta)
5793                     {
5794                         const int p3 = pix[-4];
5795                         /* p0', p1', p2' */
5796                         pix[-1] = ( p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4 ) >> 3;
5797                         pix[-2] = ( p2 + p1 + p0 + q0 + 2 ) >> 2;
5798                         pix[-3] = ( 2*p3 + 3*p2 + p1 + p0 + q0 + 4 ) >> 3;
5799                     } else {
5800                         /* p0' */
5801                         pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5802                     }
5803                     if( ABS( q2 - q0 ) < beta)
5804                     {
5805                         const int q3 = pix[3];
5806                         /* q0', q1', q2' */
5807                         pix[0] = ( p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4 ) >> 3;
5808                         pix[1] = ( p0 + q0 + q1 + q2 + 2 ) >> 2;
5809                         pix[2] = ( 2*q3 + 3*q2 + q1 + q0 + p0 + 4 ) >> 3;
5810                     } else {
5811                         /* q0' */
5812                         pix[0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5813                     }
5814                 }else{
5815                     /* p0', q0' */
5816                     pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5817                     pix[ 0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5818                 }
5819                 tprintf("filter_mb_mbaff_edgev i:%d, qp:%d, indexA:%d, alpha:%d, beta:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x, %02x, %02x]\n", i, qp[qp_index], index_a, alpha, beta, p2, p1, p0, q0, q1, q2, pix[-3], pix[-2], pix[-1], pix[0], pix[1], pix[2]);
5820             }
5821         }
5822     }
5823 }
5824 static void filter_mb_mbaff_edgecv( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp[2] ) {
5825     int i;
5826     for( i = 0; i < 8; i++, pix += stride) {
5827         int index_a;
5828         int alpha;
5829         int beta;
5830
5831         int qp_index;
5832         int bS_index = i;
5833
5834         if( bS[bS_index] == 0 ) {
5835             continue;
5836         }
5837
5838         qp_index = h->mb_field_decoding_flag ? (i & 1) : (i >> 3);
5839         index_a = clip( qp[qp_index] + h->slice_alpha_c0_offset, 0, 51 );
5840         alpha = alpha_table[index_a];
5841         beta  = beta_table[clip( qp[qp_index] + h->slice_beta_offset, 0, 51 )];
5842         if( bS[bS_index] < 4 ) {
5843             const int tc = tc0_table[index_a][bS[bS_index] - 1] + 1;
5844             /* 2px edge length (because we use same bS than the one for luma) */
5845             const int p0 = pix[-1];
5846             const int p1 = pix[-2];
5847             const int q0 = pix[0];
5848             const int q1 = pix[1];
5849
5850             if( ABS( p0 - q0 ) < alpha &&
5851                 ABS( p1 - p0 ) < beta &&
5852                 ABS( q1 - q0 ) < beta ) {
5853                 const int i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5854
5855                 pix[-1] = clip_uint8( p0 + i_delta );    /* p0' */
5856                 pix[0]  = clip_uint8( q0 - i_delta );    /* q0' */
5857                 tprintf("filter_mb_mbaff_edgecv i:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, qp[qp_index], index_a, alpha, beta, tc, bS[bS_index], pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5858             }
5859         }else{
5860             const int p0 = pix[-1];
5861             const int p1 = pix[-2];
5862             const int q0 = pix[0];
5863             const int q1 = pix[1];
5864
5865             if( ABS( p0 - q0 ) < alpha &&
5866                 ABS( p1 - p0 ) < beta &&
5867                 ABS( q1 - q0 ) < beta ) {
5868
5869                 pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;   /* p0' */
5870                 pix[0]  = ( 2*q1 + q0 + p1 + 2 ) >> 2;   /* q0' */
5871                 tprintf("filter_mb_mbaff_edgecv i:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x, %02x, %02x]\n", i, pix[-3], p1, p0, q0, q1, pix[2], pix[-3], pix[-2], pix[-1], pix[0], pix[1], pix[2]);
5872             }
5873         }
5874     }
5875 }
5876
5877 static void filter_mb_edgeh( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5878     int i, d;
5879     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5880     const int alpha = alpha_table[index_a];
5881     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5882     const int pix_next  = stride;
5883
5884     if( bS[0] < 4 ) {
5885         int tc[4];
5886         for(i=0; i<4; i++)
5887             tc[i] = bS[i] ? tc0_table[index_a][bS[i] - 1] : -1;
5888         h->s.dsp.h264_v_loop_filter_luma(pix, stride, alpha, beta, tc);
5889     } else {
5890         /* 16px edge length, see filter_mb_edgev */
5891             for( d = 0; d < 16; d++ ) {
5892                 const int p0 = pix[-1*pix_next];
5893                 const int p1 = pix[-2*pix_next];
5894                 const int p2 = pix[-3*pix_next];
5895                 const int q0 = pix[0];
5896                 const int q1 = pix[1*pix_next];
5897                 const int q2 = pix[2*pix_next];
5898
5899                 if( ABS( p0 - q0 ) < alpha &&
5900                     ABS( p1 - p0 ) < beta &&
5901                     ABS( q1 - q0 ) < beta ) {
5902
5903                     const int p3 = pix[-4*pix_next];
5904                     const int q3 = pix[ 3*pix_next];
5905
5906                     if(ABS( p0 - q0 ) < (( alpha >> 2 ) + 2 )){
5907                         if( ABS( p2 - p0 ) < beta) {
5908                             /* p0', p1', p2' */
5909                             pix[-1*pix_next] = ( p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4 ) >> 3;
5910                             pix[-2*pix_next] = ( p2 + p1 + p0 + q0 + 2 ) >> 2;
5911                             pix[-3*pix_next] = ( 2*p3 + 3*p2 + p1 + p0 + q0 + 4 ) >> 3;
5912                         } else {
5913                             /* p0' */
5914                             pix[-1*pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5915                         }
5916                         if( ABS( q2 - q0 ) < beta) {
5917                             /* q0', q1', q2' */
5918                             pix[0*pix_next] = ( p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4 ) >> 3;
5919                             pix[1*pix_next] = ( p0 + q0 + q1 + q2 + 2 ) >> 2;
5920                             pix[2*pix_next] = ( 2*q3 + 3*q2 + q1 + q0 + p0 + 4 ) >> 3;
5921                         } else {
5922                             /* q0' */
5923                             pix[0*pix_next] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5924                         }
5925                     }else{
5926                         /* p0', q0' */
5927                         pix[-1*pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5928                         pix[ 0*pix_next] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5929                     }
5930                     tprintf("filter_mb_edgeh i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, bS[i], p2, p1, p0, q0, q1, q2, pix[-2*pix_next], pix[-pix_next], pix[0], pix[pix_next]);
5931                 }
5932                 pix++;
5933             }
5934     }
5935 }
5936
5937 static void filter_mb_edgech( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5938     int i, d;
5939     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5940     const int alpha = alpha_table[index_a];
5941     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5942     const int pix_next  = stride;
5943
5944     if( bS[0] < 4 ) {
5945         int tc[4];
5946         for(i=0; i<4; i++)
5947             tc[i] = bS[i] ? tc0_table[index_a][bS[i] - 1] + 1 : 0;
5948         h->s.dsp.h264_v_loop_filter_chroma(pix, stride, alpha, beta, tc);
5949     } else {
5950         /* 8px edge length, see filter_mb_edgev */
5951             for( d = 0; d < 8; d++ ) {
5952                 const int p0 = pix[-1*pix_next];
5953                 const int p1 = pix[-2*pix_next];
5954                 const int q0 = pix[0];
5955                 const int q1 = pix[1*pix_next];
5956
5957                 if( ABS( p0 - q0 ) < alpha &&
5958                     ABS( p1 - p0 ) < beta &&
5959                     ABS( q1 - q0 ) < beta ) {
5960
5961                     pix[-pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;   /* p0' */
5962                     pix[0]         = ( 2*q1 + q0 + p1 + 2 ) >> 2;   /* q0' */
5963                     tprintf("filter_mb_edgech i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, bS[i], pix[-3*pix_next], p1, p0, q0, q1, pix[2*pix_next], pix[-2*pix_next], pix[-pix_next], pix[0], pix[pix_next]);
5964                 }
5965                 pix++;
5966             }
5967     }
5968 }
5969
5970 static void filter_mb( H264Context *h, int mb_x, int mb_y, uint8_t *img_y, uint8_t *img_cb, uint8_t *img_cr, unsigned int linesize, unsigned int uvlinesize) {
5971     MpegEncContext * const s = &h->s;
5972     const int mb_xy= mb_x + mb_y*s->mb_stride;
5973     int first_vertical_edge_done = 0;
5974     int dir;
5975     /* FIXME: A given frame may occupy more than one position in
5976      * the reference list. So ref2frm should be populated with
5977      * frame numbers, not indices. */
5978     static const int ref2frm[18] = {-1,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15};
5979
5980     if (h->mb_aff_frame
5981             // left mb is in picture
5982             && h->slice_table[mb_xy-1] != 255
5983             // and current and left pair do not have the same interlaced type
5984             && (IS_INTERLACED(s->current_picture.mb_type[mb_xy]) != IS_INTERLACED(s->current_picture.mb_type[mb_xy-1]))
5985             // and left mb is in the same slice if deblocking_filter == 2
5986             && (h->deblocking_filter!=2 || h->slice_table[mb_xy-1] == h->slice_table[mb_xy])) {
5987         /* First vertical edge is different in MBAFF frames
5988          * There are 8 different bS to compute and 2 different Qp
5989          */
5990         int bS[8];
5991         int qp[2];
5992         int chroma_qp[2];
5993
5994         int i;
5995         first_vertical_edge_done = 1;
5996         for( i = 0; i < 8; i++ ) {
5997             int y = i>>1;
5998             int b_idx= 8 + 4 + 8*y;
5999             int bn_idx= b_idx - 1;
6000
6001             int mbn_xy = h->mb_field_decoding_flag ? h->left_mb_xy[i>>2] : h->left_mb_xy[i&1];
6002
6003             if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
6004                 IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
6005                 bS[i] = 4;
6006             } else if( h->non_zero_count_cache[b_idx] != 0 ||
6007                 h->non_zero_count_cache[bn_idx] != 0 ) {
6008                 bS[i] = 2;
6009             } else {
6010                 int l;
6011                 bS[i] = 0;
6012                 for( l = 0; l < 1 + (h->slice_type == B_TYPE); l++ ) {
6013                     if( ref2frm[h->ref_cache[l][b_idx]+2] != ref2frm[h->ref_cache[l][bn_idx]+2] ||
6014                         ABS( h->mv_cache[l][b_idx][0] - h->mv_cache[l][bn_idx][0] ) >= 4 ||
6015                         ABS( h->mv_cache[l][b_idx][1] - h->mv_cache[l][bn_idx][1] ) >= 4 ) {
6016                         bS[i] = 1;
6017                         break;
6018                     }
6019                 }
6020             }
6021         }
6022         if(bS[0]+bS[1]+bS[2]+bS[3] != 0) {
6023             // Do not use s->qscale as luma quantizer because it has not the same
6024             // value in IPCM macroblocks.
6025             qp[0] = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[h->left_mb_xy[0]] + 1 ) >> 1;
6026             chroma_qp[0] = ( get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mb_xy] ) +
6027                              get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[h->left_mb_xy[0]] ) + 1 ) >> 1;
6028             qp[1] = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[h->left_mb_xy[1]] + 1 ) >> 1;
6029             chroma_qp[1] = ( get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mb_xy] ) +
6030                              get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[h->left_mb_xy[1]] ) + 1 ) >> 1;
6031
6032             /* Filter edge */
6033             tprintf("filter mb:%d/%d MBAFF, QPy:%d/%d, QPc:%d/%d ls:%d uvls:%d", mb_x, mb_y, qp[0], qp[1], chroma_qp[0], chroma_qp[1], linesize, uvlinesize);
6034             { int i; for (i = 0; i < 8; i++) tprintf(" bS[%d]:%d", i, bS[i]); tprintf("\n"); }
6035             filter_mb_mbaff_edgev ( h, &img_y [0], linesize,   bS, qp );
6036             filter_mb_mbaff_edgecv( h, &img_cb[0], uvlinesize, bS, chroma_qp );
6037             filter_mb_mbaff_edgecv( h, &img_cr[0], uvlinesize, bS, chroma_qp );
6038         }
6039     }
6040     /* dir : 0 -> vertical edge, 1 -> horizontal edge */
6041     for( dir = 0; dir < 2; dir++ )
6042     {
6043         int edge;
6044         const int mbm_xy = dir == 0 ? mb_xy -1 : h->top_mb_xy;
6045         int start = h->slice_table[mbm_xy] == 255 ? 1 : 0;
6046
6047         if (first_vertical_edge_done) {
6048             start = 1;
6049             first_vertical_edge_done = 0;
6050         }
6051
6052         if (h->deblocking_filter==2 && h->slice_table[mbm_xy] != h->slice_table[mb_xy])
6053             start = 1;
6054
6055         /* Calculate bS */
6056         for( edge = start; edge < 4; edge++ ) {
6057             /* mbn_xy: neighbor macroblock */
6058             int mbn_xy = edge > 0 ? mb_xy : mbm_xy;
6059             int bS[4];
6060             int qp;
6061
6062             if (h->mb_aff_frame && (dir == 1) && (edge == 0) && ((mb_y & 1) == 0)
6063                 && !IS_INTERLACED(s->current_picture.mb_type[mb_xy])
6064                 && IS_INTERLACED(s->current_picture.mb_type[mbn_xy])
6065                 ) {
6066                 // This is a special case in the norm where the filtering must
6067                 // be done twice (one each of the field) even if we are in a
6068                 // frame macroblock.
6069                 //
6070                 unsigned int tmp_linesize   = 2 *   linesize;
6071                 unsigned int tmp_uvlinesize = 2 * uvlinesize;
6072                 int mbn_xy = mb_xy - 2 * s->mb_stride;
6073                 int qp, chroma_qp;
6074
6075                 // first filtering
6076                 if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
6077                     IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
6078                     bS[0] = bS[1] = bS[2] = bS[3] = 3;
6079                 } else {
6080                     // TODO
6081                     assert(0);
6082                 }
6083                 /* Filter edge */
6084                 // Do not use s->qscale as luma quantizer because it has not the same
6085                 // value in IPCM macroblocks.
6086                 qp = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[mbn_xy] + 1 ) >> 1;
6087                 tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d ls:%d uvls:%d", mb_x, mb_y, dir, edge, qp, tmp_linesize, tmp_uvlinesize);
6088                 { int i; for (i = 0; i < 4; i++) tprintf(" bS[%d]:%d", i, bS[i]); tprintf("\n"); }
6089                 filter_mb_edgeh( h, &img_y[0], tmp_linesize, bS, qp );
6090                 chroma_qp = ( h->chroma_qp +
6091                               get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
6092                 filter_mb_edgech( h, &img_cb[0], tmp_uvlinesize, bS, chroma_qp );
6093                 filter_mb_edgech( h, &img_cr[0], tmp_uvlinesize, bS, chroma_qp );
6094
6095                 // second filtering
6096                 mbn_xy += s->mb_stride;
6097                 if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
6098                     IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
6099                     bS[0] = bS[1] = bS[2] = bS[3] = 3;
6100                 } else {
6101                     // TODO
6102                     assert(0);
6103                 }
6104                 /* Filter edge */
6105                 // Do not use s->qscale as luma quantizer because it has not the same
6106                 // value in IPCM macroblocks.
6107                 qp = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[mbn_xy] + 1 ) >> 1;
6108                 tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d ls:%d uvls:%d", mb_x, mb_y, dir, edge, qp, tmp_linesize, tmp_uvlinesize);
6109                 { int i; for (i = 0; i < 4; i++) tprintf(" bS[%d]:%d", i, bS[i]); tprintf("\n"); }
6110                 filter_mb_edgeh( h, &img_y[linesize], tmp_linesize, bS, qp );
6111                 chroma_qp = ( h->chroma_qp +
6112                               get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
6113                 filter_mb_edgech( h, &img_cb[uvlinesize], tmp_uvlinesize, bS, chroma_qp );
6114                 filter_mb_edgech( h, &img_cr[uvlinesize], tmp_uvlinesize, bS, chroma_qp );
6115                 continue;
6116             }
6117             if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
6118                 IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
6119                 int value;
6120                 if (edge == 0) {
6121                     if (   (!IS_INTERLACED(s->current_picture.mb_type[mb_xy]) && !IS_INTERLACED(s->current_picture.mb_type[mbm_xy]))
6122                         || ((h->mb_aff_frame || (s->picture_structure != PICT_FRAME)) && (dir == 0))
6123                     ) {
6124                         value = 4;
6125                     } else {
6126                         value = 3;
6127                     }
6128                 } else {
6129                     value = 3;
6130                 }
6131                 bS[0] = bS[1] = bS[2] = bS[3] = value;
6132             } else {
6133                 int i;
6134                 for( i = 0; i < 4; i++ ) {
6135                     int x = dir == 0 ? edge : i;
6136                     int y = dir == 0 ? i    : edge;
6137                     int b_idx= 8 + 4 + x + 8*y;
6138                     int bn_idx= b_idx - (dir ? 8:1);
6139
6140                     if( h->non_zero_count_cache[b_idx] != 0 ||
6141                         h->non_zero_count_cache[bn_idx] != 0 ) {
6142                         bS[i] = 2;
6143                     }
6144                     else
6145                     {
6146                         int l;
6147                         bS[i] = 0;
6148                         for( l = 0; l < 1 + (h->slice_type == B_TYPE); l++ ) {
6149                             if( ref2frm[h->ref_cache[l][b_idx]+2] != ref2frm[h->ref_cache[l][bn_idx]+2] ||
6150                                 ABS( h->mv_cache[l][b_idx][0] - h->mv_cache[l][bn_idx][0] ) >= 4 ||
6151                                 ABS( h->mv_cache[l][b_idx][1] - h->mv_cache[l][bn_idx][1] ) >= 4 ) {
6152                                 bS[i] = 1;
6153                                 break;
6154                             }
6155                         }
6156                     }
6157                 }
6158
6159                 if(bS[0]+bS[1]+bS[2]+bS[3] == 0)
6160                     continue;
6161             }
6162
6163             /* Filter edge */
6164             // Do not use s->qscale as luma quantizer because it has not the same
6165             // value in IPCM macroblocks.
6166             qp = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[mbn_xy] + 1 ) >> 1;
6167             //tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d, QPc:%d, QPcn:%d\n", mb_x, mb_y, dir, edge, qp, h->chroma_qp, s->current_picture.qscale_table[mbn_xy]);
6168             tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d ls:%d uvls:%d", mb_x, mb_y, dir, edge, qp, linesize, uvlinesize);
6169             { int i; for (i = 0; i < 4; i++) tprintf(" bS[%d]:%d", i, bS[i]); tprintf("\n"); }
6170             if( dir == 0 ) {
6171                 filter_mb_edgev( h, &img_y[4*edge], linesize, bS, qp );
6172                 if( (edge&1) == 0 ) {
6173                     int chroma_qp = ( h->chroma_qp +
6174                                       get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
6175                     filter_mb_edgecv( h, &img_cb[2*edge], uvlinesize, bS, chroma_qp );
6176                     filter_mb_edgecv( h, &img_cr[2*edge], uvlinesize, bS, chroma_qp );
6177                 }
6178             } else {
6179                 filter_mb_edgeh( h, &img_y[4*edge*linesize], linesize, bS, qp );
6180                 if( (edge&1) == 0 ) {
6181                     int chroma_qp = ( h->chroma_qp +
6182                                       get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
6183                     filter_mb_edgech( h, &img_cb[2*edge*uvlinesize], uvlinesize, bS, chroma_qp );
6184                     filter_mb_edgech( h, &img_cr[2*edge*uvlinesize], uvlinesize, bS, chroma_qp );
6185                 }
6186             }
6187         }
6188     }
6189 }
6190
6191 static int decode_slice(H264Context *h){
6192     MpegEncContext * const s = &h->s;
6193     const int part_mask= s->partitioned_frame ? (AC_END|AC_ERROR) : 0x7F;
6194
6195     s->mb_skip_run= -1;
6196
6197     if( h->pps.cabac ) {
6198         int i;
6199
6200         /* realign */
6201         align_get_bits( &s->gb );
6202
6203         /* init cabac */
6204         ff_init_cabac_states( &h->cabac, ff_h264_lps_range, ff_h264_mps_state, ff_h264_lps_state, 64 );
6205         ff_init_cabac_decoder( &h->cabac,
6206                                s->gb.buffer + get_bits_count(&s->gb)/8,
6207                                ( s->gb.size_in_bits - get_bits_count(&s->gb) + 7)/8);
6208         /* calculate pre-state */
6209         for( i= 0; i < 399; i++ ) {
6210             int pre;
6211             if( h->slice_type == I_TYPE )
6212                 pre = clip( ((cabac_context_init_I[i][0] * s->qscale) >>4 ) + cabac_context_init_I[i][1], 1, 126 );
6213             else
6214                 pre = clip( ((cabac_context_init_PB[h->cabac_init_idc][i][0] * s->qscale) >>4 ) + cabac_context_init_PB[h->cabac_init_idc][i][1], 1, 126 );
6215
6216             if( pre <= 63 )
6217                 h->cabac_state[i] = 2 * ( 63 - pre ) + 0;
6218             else
6219                 h->cabac_state[i] = 2 * ( pre - 64 ) + 1;
6220         }
6221
6222         for(;;){
6223             int ret = decode_mb_cabac(h);
6224             int eos;
6225
6226             if(ret>=0) hl_decode_mb(h);
6227
6228             /* XXX: useless as decode_mb_cabac it doesn't support that ... */
6229             if( ret >= 0 && h->mb_aff_frame ) { //FIXME optimal? or let mb_decode decode 16x32 ?
6230                 s->mb_y++;
6231
6232                 if(ret>=0) ret = decode_mb_cabac(h);
6233
6234                 hl_decode_mb(h);
6235                 s->mb_y--;
6236             }
6237             eos = get_cabac_terminate( &h->cabac );
6238
6239             if( ret < 0 || h->cabac.bytestream > h->cabac.bytestream_end + 1) {
6240                 av_log(h->s.avctx, AV_LOG_ERROR, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
6241                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6242                 return -1;
6243             }
6244
6245             if( ++s->mb_x >= s->mb_width ) {
6246                 s->mb_x = 0;
6247                 ff_draw_horiz_band(s, 16*s->mb_y, 16);
6248                 ++s->mb_y;
6249                 if(h->mb_aff_frame) {
6250                     ++s->mb_y;
6251                 }
6252             }
6253
6254             if( eos || s->mb_y >= s->mb_height ) {
6255                 tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
6256                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6257                 return 0;
6258             }
6259         }
6260
6261     } else {
6262         for(;;){
6263             int ret = decode_mb_cavlc(h);
6264
6265             if(ret>=0) hl_decode_mb(h);
6266
6267             if(ret>=0 && h->mb_aff_frame){ //FIXME optimal? or let mb_decode decode 16x32 ?
6268                 s->mb_y++;
6269                 ret = decode_mb_cavlc(h);
6270
6271                 if(ret>=0) hl_decode_mb(h);
6272                 s->mb_y--;
6273             }
6274
6275             if(ret<0){
6276                 av_log(h->s.avctx, AV_LOG_ERROR, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
6277                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6278
6279                 return -1;
6280             }
6281
6282             if(++s->mb_x >= s->mb_width){
6283                 s->mb_x=0;
6284                 ff_draw_horiz_band(s, 16*s->mb_y, 16);
6285                 ++s->mb_y;
6286                 if(h->mb_aff_frame) {
6287                     ++s->mb_y;
6288                 }
6289                 if(s->mb_y >= s->mb_height){
6290                     tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
6291
6292                     if(get_bits_count(&s->gb) == s->gb.size_in_bits ) {
6293                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6294
6295                         return 0;
6296                     }else{
6297                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6298
6299                         return -1;
6300                     }
6301                 }
6302             }
6303
6304             if(get_bits_count(&s->gb) >= s->gb.size_in_bits && s->mb_skip_run<=0){
6305                 tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
6306                 if(get_bits_count(&s->gb) == s->gb.size_in_bits ){
6307                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6308
6309                     return 0;
6310                 }else{
6311                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6312
6313                     return -1;
6314                 }
6315             }
6316         }
6317     }
6318
6319 #if 0
6320     for(;s->mb_y < s->mb_height; s->mb_y++){
6321         for(;s->mb_x < s->mb_width; s->mb_x++){
6322             int ret= decode_mb(h);
6323             
6324             hl_decode_mb(h);
6325
6326             if(ret<0){
6327                 fprintf(stderr, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
6328                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6329
6330                 return -1;
6331             }
6332         
6333             if(++s->mb_x >= s->mb_width){
6334                 s->mb_x=0;
6335                 if(++s->mb_y >= s->mb_height){
6336                     if(get_bits_count(s->gb) == s->gb.size_in_bits){
6337                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6338
6339                         return 0;
6340                     }else{
6341                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6342
6343                         return -1;
6344                     }
6345                 }
6346             }
6347         
6348             if(get_bits_count(s->?gb) >= s->gb?.size_in_bits){
6349                 if(get_bits_count(s->gb) == s->gb.size_in_bits){
6350                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6351
6352                     return 0;
6353                 }else{
6354                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6355
6356                     return -1;
6357                 }
6358             }
6359         }
6360         s->mb_x=0;
6361         ff_draw_horiz_band(s, 16*s->mb_y, 16);
6362     }
6363 #endif
6364     return -1; //not reached
6365 }
6366
6367 static inline void decode_hrd_parameters(H264Context *h, SPS *sps){
6368     MpegEncContext * const s = &h->s;
6369     int cpb_count, i;
6370     cpb_count = get_ue_golomb(&s->gb) + 1;
6371     get_bits(&s->gb, 4); /* bit_rate_scale */
6372     get_bits(&s->gb, 4); /* cpb_size_scale */
6373     for(i=0; i<cpb_count; i++){
6374         get_ue_golomb(&s->gb); /* bit_rate_value_minus1 */
6375         get_ue_golomb(&s->gb); /* cpb_size_value_minus1 */
6376         get_bits1(&s->gb);     /* cbr_flag */
6377     }
6378     get_bits(&s->gb, 5); /* initial_cpb_removal_delay_length_minus1 */
6379     get_bits(&s->gb, 5); /* cpb_removal_delay_length_minus1 */
6380     get_bits(&s->gb, 5); /* dpb_output_delay_length_minus1 */
6381     get_bits(&s->gb, 5); /* time_offset_length */
6382 }
6383
6384 static inline int decode_vui_parameters(H264Context *h, SPS *sps){
6385     MpegEncContext * const s = &h->s;
6386     int aspect_ratio_info_present_flag, aspect_ratio_idc;
6387     int nal_hrd_parameters_present_flag, vcl_hrd_parameters_present_flag;
6388
6389     aspect_ratio_info_present_flag= get_bits1(&s->gb);
6390     
6391     if( aspect_ratio_info_present_flag ) {
6392         aspect_ratio_idc= get_bits(&s->gb, 8);
6393         if( aspect_ratio_idc == EXTENDED_SAR ) {
6394             sps->sar.num= get_bits(&s->gb, 16);
6395             sps->sar.den= get_bits(&s->gb, 16);
6396         }else if(aspect_ratio_idc < 16){
6397             sps->sar=  pixel_aspect[aspect_ratio_idc];
6398         }else{
6399             av_log(h->s.avctx, AV_LOG_ERROR, "illegal aspect ratio\n");
6400             return -1;
6401         }
6402     }else{
6403         sps->sar.num= 
6404         sps->sar.den= 0;
6405     }
6406 //            s->avctx->aspect_ratio= sar_width*s->width / (float)(s->height*sar_height);
6407
6408     if(get_bits1(&s->gb)){      /* overscan_info_present_flag */
6409         get_bits1(&s->gb);      /* overscan_appropriate_flag */
6410     }
6411
6412     if(get_bits1(&s->gb)){      /* video_signal_type_present_flag */
6413         get_bits(&s->gb, 3);    /* video_format */
6414         get_bits1(&s->gb);      /* video_full_range_flag */
6415         if(get_bits1(&s->gb)){  /* colour_description_present_flag */
6416             get_bits(&s->gb, 8); /* colour_primaries */
6417             get_bits(&s->gb, 8); /* transfer_characteristics */
6418             get_bits(&s->gb, 8); /* matrix_coefficients */
6419         }
6420     }
6421
6422     if(get_bits1(&s->gb)){      /* chroma_location_info_present_flag */
6423         get_ue_golomb(&s->gb);  /* chroma_sample_location_type_top_field */
6424         get_ue_golomb(&s->gb);  /* chroma_sample_location_type_bottom_field */
6425     }
6426
6427     sps->timing_info_present_flag = get_bits1(&s->gb);
6428     if(sps->timing_info_present_flag){
6429         sps->num_units_in_tick = get_bits_long(&s->gb, 32);
6430         sps->time_scale = get_bits_long(&s->gb, 32);
6431         sps->fixed_frame_rate_flag = get_bits1(&s->gb);
6432     }
6433
6434     nal_hrd_parameters_present_flag = get_bits1(&s->gb);
6435     if(nal_hrd_parameters_present_flag)
6436         decode_hrd_parameters(h, sps);
6437     vcl_hrd_parameters_present_flag = get_bits1(&s->gb);
6438     if(vcl_hrd_parameters_present_flag)
6439         decode_hrd_parameters(h, sps);
6440     if(nal_hrd_parameters_present_flag || vcl_hrd_parameters_present_flag)
6441         get_bits1(&s->gb);     /* low_delay_hrd_flag */
6442     get_bits1(&s->gb);         /* pic_struct_present_flag */
6443
6444     sps->bitstream_restriction_flag = get_bits1(&s->gb);
6445     if(sps->bitstream_restriction_flag){
6446         get_bits1(&s->gb);     /* motion_vectors_over_pic_boundaries_flag */
6447         get_ue_golomb(&s->gb); /* max_bytes_per_pic_denom */
6448         get_ue_golomb(&s->gb); /* max_bits_per_mb_denom */
6449         get_ue_golomb(&s->gb); /* log2_max_mv_length_horizontal */
6450         get_ue_golomb(&s->gb); /* log2_max_mv_length_vertical */
6451         sps->num_reorder_frames = get_ue_golomb(&s->gb);
6452         get_ue_golomb(&s->gb); /* max_dec_frame_buffering */
6453     }
6454
6455     return 0;
6456 }
6457
6458 static inline int decode_seq_parameter_set(H264Context *h){
6459     MpegEncContext * const s = &h->s;
6460     int profile_idc, level_idc;
6461     int sps_id, i;
6462     SPS *sps;
6463     
6464     profile_idc= get_bits(&s->gb, 8);
6465     get_bits1(&s->gb);   //constraint_set0_flag
6466     get_bits1(&s->gb);   //constraint_set1_flag
6467     get_bits1(&s->gb);   //constraint_set2_flag
6468     get_bits1(&s->gb);   //constraint_set3_flag
6469     get_bits(&s->gb, 4); // reserved
6470     level_idc= get_bits(&s->gb, 8);
6471     sps_id= get_ue_golomb(&s->gb);
6472     
6473     sps= &h->sps_buffer[ sps_id ];
6474     sps->profile_idc= profile_idc;
6475     sps->level_idc= level_idc;
6476
6477     sps->log2_max_frame_num= get_ue_golomb(&s->gb) + 4;
6478     sps->poc_type= get_ue_golomb(&s->gb);
6479     
6480     if(sps->poc_type == 0){ //FIXME #define
6481         sps->log2_max_poc_lsb= get_ue_golomb(&s->gb) + 4;
6482     } else if(sps->poc_type == 1){//FIXME #define
6483         sps->delta_pic_order_always_zero_flag= get_bits1(&s->gb);
6484         sps->offset_for_non_ref_pic= get_se_golomb(&s->gb);
6485         sps->offset_for_top_to_bottom_field= get_se_golomb(&s->gb);
6486         sps->poc_cycle_length= get_ue_golomb(&s->gb);
6487         
6488         for(i=0; i<sps->poc_cycle_length; i++)
6489             sps->offset_for_ref_frame[i]= get_se_golomb(&s->gb);
6490     }
6491     if(sps->poc_type > 2){
6492         av_log(h->s.avctx, AV_LOG_ERROR, "illegal POC type %d\n", sps->poc_type);
6493         return -1;
6494     }
6495
6496     sps->ref_frame_count= get_ue_golomb(&s->gb);
6497     if(sps->ref_frame_count > MAX_PICTURE_COUNT-2){
6498         av_log(h->s.avctx, AV_LOG_ERROR, "too many reference frames\n");
6499     }
6500     sps->gaps_in_frame_num_allowed_flag= get_bits1(&s->gb);
6501     sps->mb_width= get_ue_golomb(&s->gb) + 1;
6502     sps->mb_height= get_ue_golomb(&s->gb) + 1;
6503     if((unsigned)sps->mb_width >= INT_MAX/16 || (unsigned)sps->mb_height >= INT_MAX/16 || 
6504        avcodec_check_dimensions(NULL, 16*sps->mb_width, 16*sps->mb_height))
6505         return -1;
6506
6507     sps->frame_mbs_only_flag= get_bits1(&s->gb);
6508     if(!sps->frame_mbs_only_flag)
6509         sps->mb_aff= get_bits1(&s->gb);
6510     else
6511         sps->mb_aff= 0;
6512
6513     sps->direct_8x8_inference_flag= get_bits1(&s->gb);
6514
6515     sps->crop= get_bits1(&s->gb);
6516     if(sps->crop){
6517         sps->crop_left  = get_ue_golomb(&s->gb);
6518         sps->crop_right = get_ue_golomb(&s->gb);
6519         sps->crop_top   = get_ue_golomb(&s->gb);
6520         sps->crop_bottom= get_ue_golomb(&s->gb);
6521         if(sps->crop_left || sps->crop_top){
6522             av_log(h->s.avctx, AV_LOG_ERROR, "insane cropping not completely supported, this could look slightly wrong ...\n");
6523         }
6524     }else{
6525         sps->crop_left  = 
6526         sps->crop_right = 
6527         sps->crop_top   = 
6528         sps->crop_bottom= 0;
6529     }
6530
6531     sps->vui_parameters_present_flag= get_bits1(&s->gb);
6532     if( sps->vui_parameters_present_flag )
6533         decode_vui_parameters(h, sps);
6534     
6535     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
6536         av_log(h->s.avctx, AV_LOG_DEBUG, "sps:%d profile:%d/%d poc:%d ref:%d %dx%d %s %s crop:%d/%d/%d/%d %s\n", 
6537                sps_id, sps->profile_idc, sps->level_idc,
6538                sps->poc_type,
6539                sps->ref_frame_count,
6540                sps->mb_width, sps->mb_height,
6541                sps->frame_mbs_only_flag ? "FRM" : (sps->mb_aff ? "MB-AFF" : "PIC-AFF"),
6542                sps->direct_8x8_inference_flag ? "8B8" : "",
6543                sps->crop_left, sps->crop_right, 
6544                sps->crop_top, sps->crop_bottom, 
6545                sps->vui_parameters_present_flag ? "VUI" : ""
6546                );
6547     }
6548     return 0;
6549 }
6550
6551 static inline int decode_picture_parameter_set(H264Context *h){
6552     MpegEncContext * const s = &h->s;
6553     int pps_id= get_ue_golomb(&s->gb);
6554     PPS *pps= &h->pps_buffer[pps_id];
6555     
6556     pps->sps_id= get_ue_golomb(&s->gb);
6557     pps->cabac= get_bits1(&s->gb);
6558     pps->pic_order_present= get_bits1(&s->gb);
6559     pps->slice_group_count= get_ue_golomb(&s->gb) + 1;
6560     if(pps->slice_group_count > 1 ){
6561         pps->mb_slice_group_map_type= get_ue_golomb(&s->gb);
6562         av_log(h->s.avctx, AV_LOG_ERROR, "FMO not supported\n");
6563         switch(pps->mb_slice_group_map_type){
6564         case 0:
6565 #if 0
6566 |   for( i = 0; i <= num_slice_groups_minus1; i++ ) |   |        |
6567 |    run_length[ i ]                                |1  |ue(v)   |
6568 #endif
6569             break;
6570         case 2:
6571 #if 0
6572 |   for( i = 0; i < num_slice_groups_minus1; i++ )  |   |        |
6573 |{                                                  |   |        |
6574 |    top_left_mb[ i ]                               |1  |ue(v)   |
6575 |    bottom_right_mb[ i ]                           |1  |ue(v)   |
6576 |   }                                               |   |        |
6577 #endif
6578             break;
6579         case 3:
6580         case 4:
6581         case 5:
6582 #if 0
6583 |   slice_group_change_direction_flag               |1  |u(1)    |
6584 |   slice_group_change_rate_minus1                  |1  |ue(v)   |
6585 #endif
6586             break;
6587         case 6:
6588 #if 0
6589 |   slice_group_id_cnt_minus1                       |1  |ue(v)   |
6590 |   for( i = 0; i <= slice_group_id_cnt_minus1; i++ |   |        |
6591 |)                                                  |   |        |
6592 |    slice_group_id[ i ]                            |1  |u(v)    |
6593 #endif
6594             break;
6595         }
6596     }
6597     pps->ref_count[0]= get_ue_golomb(&s->gb) + 1;
6598     pps->ref_count[1]= get_ue_golomb(&s->gb) + 1;
6599     if(pps->ref_count[0] > 32 || pps->ref_count[1] > 32){
6600         av_log(h->s.avctx, AV_LOG_ERROR, "reference overflow (pps)\n");
6601         return -1;
6602     }
6603     
6604     pps->weighted_pred= get_bits1(&s->gb);
6605     pps->weighted_bipred_idc= get_bits(&s->gb, 2);
6606     pps->init_qp= get_se_golomb(&s->gb) + 26;
6607     pps->init_qs= get_se_golomb(&s->gb) + 26;
6608     pps->chroma_qp_index_offset= get_se_golomb(&s->gb);
6609     pps->deblocking_filter_parameters_present= get_bits1(&s->gb);
6610     pps->constrained_intra_pred= get_bits1(&s->gb);
6611     pps->redundant_pic_cnt_present = get_bits1(&s->gb);
6612     
6613     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
6614         av_log(h->s.avctx, AV_LOG_DEBUG, "pps:%d sps:%d %s slice_groups:%d ref:%d/%d %s qp:%d/%d/%d %s %s %s\n", 
6615                pps_id, pps->sps_id,
6616                pps->cabac ? "CABAC" : "CAVLC",
6617                pps->slice_group_count,
6618                pps->ref_count[0], pps->ref_count[1],
6619                pps->weighted_pred ? "weighted" : "",
6620                pps->init_qp, pps->init_qs, pps->chroma_qp_index_offset,
6621                pps->deblocking_filter_parameters_present ? "LPAR" : "",
6622                pps->constrained_intra_pred ? "CONSTR" : "",
6623                pps->redundant_pic_cnt_present ? "REDU" : ""
6624                );
6625     }
6626     
6627     return 0;
6628 }
6629
6630 /**
6631  * finds the end of the current frame in the bitstream.
6632  * @return the position of the first byte of the next frame, or -1
6633  */
6634 static int find_frame_end(H264Context *h, const uint8_t *buf, int buf_size){
6635     int i;
6636     uint32_t state;
6637     ParseContext *pc = &(h->s.parse_context);
6638 //printf("first %02X%02X%02X%02X\n", buf[0], buf[1],buf[2],buf[3]);
6639 //    mb_addr= pc->mb_addr - 1;
6640     state= pc->state;
6641     for(i=0; i<=buf_size; i++){
6642         if((state&0xFFFFFF1F) == 0x101 || (state&0xFFFFFF1F) == 0x102 || (state&0xFFFFFF1F) == 0x105){
6643             tprintf("find_frame_end new startcode = %08x, frame_start_found = %d, pos = %d\n", state, pc->frame_start_found, i);
6644             if(pc->frame_start_found){
6645                 // If there isn't one more byte in the buffer
6646                 // the test on first_mb_in_slice cannot be done yet
6647                 // do it at next call.
6648                 if (i >= buf_size) break;
6649                 if (buf[i] & 0x80) {
6650                     // first_mb_in_slice is 0, probably the first nal of a new
6651                     // slice
6652                     tprintf("find_frame_end frame_end_found, state = %08x, pos = %d\n", state, i);
6653                     pc->state=-1; 
6654                     pc->frame_start_found= 0;
6655                     return i-4;
6656                 }
6657             }
6658             pc->frame_start_found = 1;
6659         }
6660         if (i<buf_size)
6661             state= (state<<8) | buf[i];
6662     }
6663     
6664     pc->state= state;
6665     return END_NOT_FOUND;
6666 }
6667
6668 static int h264_parse(AVCodecParserContext *s,
6669                       AVCodecContext *avctx,
6670                       uint8_t **poutbuf, int *poutbuf_size, 
6671                       const uint8_t *buf, int buf_size)
6672 {
6673     H264Context *h = s->priv_data;
6674     ParseContext *pc = &h->s.parse_context;
6675     int next;
6676     
6677     next= find_frame_end(h, buf, buf_size);
6678
6679     if (ff_combine_frame(pc, next, (uint8_t **)&buf, &buf_size) < 0) {
6680         *poutbuf = NULL;
6681         *poutbuf_size = 0;
6682         return buf_size;
6683     }
6684
6685     *poutbuf = (uint8_t *)buf;
6686     *poutbuf_size = buf_size;
6687     return next;
6688 }
6689
6690 static int decode_nal_units(H264Context *h, uint8_t *buf, int buf_size){
6691     MpegEncContext * const s = &h->s;
6692     AVCodecContext * const avctx= s->avctx;
6693     int buf_index=0;
6694 #if 0
6695     int i;
6696     for(i=0; i<32; i++){
6697         printf("%X ", buf[i]);
6698     }
6699 #endif
6700     h->slice_num = 0;
6701     for(;;){
6702         int consumed;
6703         int dst_length;
6704         int bit_length;
6705         uint8_t *ptr;
6706         int i, nalsize = 0;
6707         
6708       if(h->is_avc) {
6709         if(buf_index >= buf_size) break;
6710         nalsize = 0;
6711         for(i = 0; i < h->nal_length_size; i++)
6712             nalsize = (nalsize << 8) | buf[buf_index++];
6713       } else {
6714         // start code prefix search
6715         for(; buf_index + 3 < buf_size; buf_index++){
6716             // this should allways succeed in the first iteration
6717             if(buf[buf_index] == 0 && buf[buf_index+1] == 0 && buf[buf_index+2] == 1)
6718                 break;
6719         }
6720         
6721         if(buf_index+3 >= buf_size) break;
6722         
6723         buf_index+=3;
6724       }  
6725         
6726         ptr= decode_nal(h, buf + buf_index, &dst_length, &consumed, h->is_avc ? nalsize : buf_size - buf_index);
6727         if(ptr[dst_length - 1] == 0) dst_length--;
6728         bit_length= 8*dst_length - decode_rbsp_trailing(ptr + dst_length - 1);
6729
6730         if(s->avctx->debug&FF_DEBUG_STARTCODE){
6731             av_log(h->s.avctx, AV_LOG_DEBUG, "NAL %d at %d/%d length %d\n", h->nal_unit_type, buf_index, buf_size, dst_length);
6732         }
6733         
6734         if (h->is_avc && (nalsize != consumed))
6735             av_log(h->s.avctx, AV_LOG_ERROR, "AVC: Consumed only %d bytes instead of %d\n", consumed, nalsize);
6736
6737         buf_index += consumed;
6738
6739         if( s->hurry_up == 1 && h->nal_ref_idc  == 0 )
6740             continue;
6741         
6742         switch(h->nal_unit_type){
6743         case NAL_IDR_SLICE:
6744             idr(h); //FIXME ensure we don't loose some frames if there is reordering
6745         case NAL_SLICE:
6746             init_get_bits(&s->gb, ptr, bit_length);
6747             h->intra_gb_ptr=
6748             h->inter_gb_ptr= &s->gb;
6749             s->data_partitioning = 0;
6750             
6751             if(decode_slice_header(h) < 0) return -1;
6752             if(h->redundant_pic_count==0 && s->hurry_up < 5 )
6753                 decode_slice(h);
6754             break;
6755         case NAL_DPA:
6756             init_get_bits(&s->gb, ptr, bit_length);
6757             h->intra_gb_ptr=
6758             h->inter_gb_ptr= NULL;
6759             s->data_partitioning = 1;
6760             
6761             if(decode_slice_header(h) < 0) return -1;
6762             break;
6763         case NAL_DPB:
6764             init_get_bits(&h->intra_gb, ptr, bit_length);
6765             h->intra_gb_ptr= &h->intra_gb;
6766             break;
6767         case NAL_DPC:
6768             init_get_bits(&h->inter_gb, ptr, bit_length);
6769             h->inter_gb_ptr= &h->inter_gb;
6770
6771             if(h->redundant_pic_count==0 && h->intra_gb_ptr && s->data_partitioning && s->hurry_up < 5 )
6772                 decode_slice(h);
6773             break;
6774         case NAL_SEI:
6775             break;
6776         case NAL_SPS:
6777             init_get_bits(&s->gb, ptr, bit_length);
6778             decode_seq_parameter_set(h);
6779             
6780             if(s->flags& CODEC_FLAG_LOW_DELAY)
6781                 s->low_delay=1;
6782       
6783             if(avctx->has_b_frames < 2)
6784                 avctx->has_b_frames= !s->low_delay;
6785             break;
6786         case NAL_PPS:
6787             init_get_bits(&s->gb, ptr, bit_length);
6788             
6789             decode_picture_parameter_set(h);
6790
6791             break;
6792         case NAL_PICTURE_DELIMITER:
6793             break;
6794         case NAL_FILTER_DATA:
6795             break;
6796         default:
6797             av_log(avctx, AV_LOG_ERROR, "Unknown NAL code: %d\n", h->nal_unit_type);
6798         }        
6799     }
6800     
6801     if(!s->current_picture_ptr) return buf_index; //no frame
6802
6803     s->current_picture_ptr->pict_type= s->pict_type;
6804     s->current_picture_ptr->key_frame= s->pict_type == I_TYPE && h->nal_unit_type == NAL_IDR_SLICE;
6805     
6806     h->prev_frame_num_offset= h->frame_num_offset;
6807     h->prev_frame_num= h->frame_num;
6808     if(s->current_picture_ptr->reference){
6809         h->prev_poc_msb= h->poc_msb;
6810         h->prev_poc_lsb= h->poc_lsb;
6811     }
6812     if(s->current_picture_ptr->reference)
6813         execute_ref_pic_marking(h, h->mmco, h->mmco_index);
6814
6815     ff_er_frame_end(s);
6816
6817     MPV_frame_end(s);
6818
6819     return buf_index;
6820 }
6821
6822 /**
6823  * returns the number of bytes consumed for building the current frame
6824  */
6825 static int get_consumed_bytes(MpegEncContext *s, int pos, int buf_size){
6826     if(s->flags&CODEC_FLAG_TRUNCATED){
6827         pos -= s->parse_context.last_index;
6828         if(pos<0) pos=0; // FIXME remove (unneeded?)
6829         
6830         return pos;
6831     }else{
6832         if(pos==0) pos=1; //avoid infinite loops (i doubt thats needed but ...)
6833         if(pos+10>buf_size) pos=buf_size; // oops ;)
6834
6835         return pos;
6836     }
6837 }
6838
6839 static int decode_frame(AVCodecContext *avctx, 
6840                              void *data, int *data_size,
6841                              uint8_t *buf, int buf_size)
6842 {
6843     H264Context *h = avctx->priv_data;
6844     MpegEncContext *s = &h->s;
6845     AVFrame *pict = data; 
6846     int buf_index;
6847     
6848     s->flags= avctx->flags;
6849     s->flags2= avctx->flags2;
6850
6851    /* no supplementary picture */
6852     if (buf_size == 0) {
6853         return 0;
6854     }
6855     
6856     if(s->flags&CODEC_FLAG_TRUNCATED){
6857         int next= find_frame_end(h, buf, buf_size);
6858         
6859         if( ff_combine_frame(&s->parse_context, next, &buf, &buf_size) < 0 )
6860             return buf_size;
6861 //printf("next:%d buf_size:%d last_index:%d\n", next, buf_size, s->parse_context.last_index);
6862     }
6863
6864     if(h->is_avc && !h->got_avcC) {
6865         int i, cnt, nalsize;
6866         unsigned char *p = avctx->extradata;
6867         if(avctx->extradata_size < 7) {
6868             av_log(avctx, AV_LOG_ERROR, "avcC too short\n");
6869             return -1;
6870         }
6871         if(*p != 1) {
6872             av_log(avctx, AV_LOG_ERROR, "Unknown avcC version %d\n", *p);
6873             return -1;
6874         }
6875         /* sps and pps in the avcC always have length coded with 2 bytes,
6876            so put a fake nal_length_size = 2 while parsing them */
6877         h->nal_length_size = 2;
6878         // Decode sps from avcC
6879         cnt = *(p+5) & 0x1f; // Number of sps
6880         p += 6;
6881         for (i = 0; i < cnt; i++) {
6882             nalsize = BE_16(p) + 2;
6883             if(decode_nal_units(h, p, nalsize) != nalsize) {
6884                 av_log(avctx, AV_LOG_ERROR, "Decoding sps %d from avcC failed\n", i);
6885                 return -1;
6886             }
6887             p += nalsize;
6888         }        
6889         // Decode pps from avcC
6890         cnt = *(p++); // Number of pps
6891         for (i = 0; i < cnt; i++) {
6892             nalsize = BE_16(p) + 2;
6893             if(decode_nal_units(h, p, nalsize)  != nalsize) {
6894                 av_log(avctx, AV_LOG_ERROR, "Decoding pps %d from avcC failed\n", i);
6895                 return -1;
6896             }
6897             p += nalsize;
6898         }        
6899         // Now store right nal length size, that will be use to parse all other nals
6900         h->nal_length_size = ((*(((char*)(avctx->extradata))+4))&0x03)+1;
6901         // Do not reparse avcC
6902         h->got_avcC = 1;
6903     }
6904
6905     if(!h->is_avc && s->avctx->extradata_size && s->picture_number==0){
6906         if(0 < decode_nal_units(h, s->avctx->extradata, s->avctx->extradata_size) ) 
6907             return -1;
6908     }
6909
6910     buf_index=decode_nal_units(h, buf, buf_size);
6911     if(buf_index < 0) 
6912         return -1;
6913
6914     //FIXME do something with unavailable reference frames    
6915  
6916 //    if(ret==FRAME_SKIPPED) return get_consumed_bytes(s, buf_index, buf_size);
6917     if(!s->current_picture_ptr){
6918         av_log(h->s.avctx, AV_LOG_DEBUG, "error, NO frame\n");
6919         return -1;
6920     }
6921
6922     {
6923         Picture *out = s->current_picture_ptr;
6924 #if 0 //decode order
6925         *data_size = sizeof(AVFrame);
6926 #else
6927         /* Sort B-frames into display order */
6928         Picture *cur = s->current_picture_ptr;
6929         Picture *prev = h->delayed_output_pic;
6930         int out_idx = 0;
6931         int pics = 0;
6932         int out_of_order;
6933         int cross_idr = 0;
6934         int dropped_frame = 0;
6935         int i;
6936
6937         if(h->sps.bitstream_restriction_flag
6938            && s->avctx->has_b_frames < h->sps.num_reorder_frames){
6939             s->avctx->has_b_frames = h->sps.num_reorder_frames;
6940             s->low_delay = 0;
6941         }
6942
6943         while(h->delayed_pic[pics]) pics++;
6944         h->delayed_pic[pics++] = cur;
6945         if(cur->reference == 0)
6946             cur->reference = 1;
6947
6948         for(i=0; h->delayed_pic[i]; i++)
6949             if(h->delayed_pic[i]->key_frame)
6950                 cross_idr = 1;
6951
6952         out = h->delayed_pic[0];
6953         for(i=1; h->delayed_pic[i] && !h->delayed_pic[i]->key_frame; i++)
6954             if(h->delayed_pic[i]->poc < out->poc){
6955                 out = h->delayed_pic[i];
6956                 out_idx = i;
6957             }
6958
6959         out_of_order = !cross_idr && prev && out->poc < prev->poc;
6960         if(prev && pics <= s->avctx->has_b_frames)
6961             out = prev;
6962         else if((out_of_order && pics-1 == s->avctx->has_b_frames)
6963            || (s->low_delay && 
6964             ((!cross_idr && prev && out->poc > prev->poc + 2)
6965              || cur->pict_type == B_TYPE)))
6966         {
6967             s->low_delay = 0;
6968             s->avctx->has_b_frames++;
6969             out = prev;
6970         }
6971         else if(out_of_order)
6972             out = prev;
6973
6974         if(out_of_order || pics > s->avctx->has_b_frames){
6975             dropped_frame = (out != h->delayed_pic[out_idx]);
6976             for(i=out_idx; h->delayed_pic[i]; i++)
6977                 h->delayed_pic[i] = h->delayed_pic[i+1];
6978         }
6979
6980         if(prev == out && !dropped_frame)
6981             *data_size = 0;
6982         else
6983             *data_size = sizeof(AVFrame);
6984         if(prev && prev != out && prev->reference == 1)
6985             prev->reference = 0;
6986         h->delayed_output_pic = out;
6987 #endif
6988
6989         *pict= *(AVFrame*)out;
6990     }
6991
6992     assert(pict->data[0]);
6993     ff_print_debug_info(s, pict);
6994 //printf("out %d\n", (int)pict->data[0]);
6995 #if 0 //?
6996
6997     /* Return the Picture timestamp as the frame number */
6998     /* we substract 1 because it is added on utils.c    */
6999     avctx->frame_number = s->picture_number - 1;
7000 #endif
7001     return get_consumed_bytes(s, buf_index, buf_size);
7002 }
7003 #if 0
7004 static inline void fill_mb_avail(H264Context *h){
7005     MpegEncContext * const s = &h->s;
7006     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
7007
7008     if(s->mb_y){
7009         h->mb_avail[0]= s->mb_x                 && h->slice_table[mb_xy - s->mb_stride - 1] == h->slice_num;
7010         h->mb_avail[1]=                            h->slice_table[mb_xy - s->mb_stride    ] == h->slice_num;
7011         h->mb_avail[2]= s->mb_x+1 < s->mb_width && h->slice_table[mb_xy - s->mb_stride + 1] == h->slice_num;
7012     }else{
7013         h->mb_avail[0]=
7014         h->mb_avail[1]=
7015         h->mb_avail[2]= 0;
7016     }
7017     h->mb_avail[3]= s->mb_x && h->slice_table[mb_xy - 1] == h->slice_num;
7018     h->mb_avail[4]= 1; //FIXME move out
7019     h->mb_avail[5]= 0; //FIXME move out
7020 }
7021 #endif
7022
7023 #if 0 //selftest
7024 #define COUNT 8000
7025 #define SIZE (COUNT*40)
7026 int main(){
7027     int i;
7028     uint8_t temp[SIZE];
7029     PutBitContext pb;
7030     GetBitContext gb;
7031 //    int int_temp[10000];
7032     DSPContext dsp;
7033     AVCodecContext avctx;
7034     
7035     dsputil_init(&dsp, &avctx);
7036
7037     init_put_bits(&pb, temp, SIZE);
7038     printf("testing unsigned exp golomb\n");
7039     for(i=0; i<COUNT; i++){
7040         START_TIMER
7041         set_ue_golomb(&pb, i);
7042         STOP_TIMER("set_ue_golomb");
7043     }
7044     flush_put_bits(&pb);
7045     
7046     init_get_bits(&gb, temp, 8*SIZE);
7047     for(i=0; i<COUNT; i++){
7048         int j, s;
7049         
7050         s= show_bits(&gb, 24);
7051         
7052         START_TIMER
7053         j= get_ue_golomb(&gb);
7054         if(j != i){
7055             printf("missmatch! at %d (%d should be %d) bits:%6X\n", i, j, i, s);
7056 //            return -1;
7057         }
7058         STOP_TIMER("get_ue_golomb");
7059     }
7060     
7061     
7062     init_put_bits(&pb, temp, SIZE);
7063     printf("testing signed exp golomb\n");
7064     for(i=0; i<COUNT; i++){
7065         START_TIMER
7066         set_se_golomb(&pb, i - COUNT/2);
7067         STOP_TIMER("set_se_golomb");
7068     }
7069     flush_put_bits(&pb);
7070     
7071     init_get_bits(&gb, temp, 8*SIZE);
7072     for(i=0; i<COUNT; i++){
7073         int j, s;
7074         
7075         s= show_bits(&gb, 24);
7076         
7077         START_TIMER
7078         j= get_se_golomb(&gb);
7079         if(j != i - COUNT/2){
7080             printf("missmatch! at %d (%d should be %d) bits:%6X\n", i, j, i, s);
7081 //            return -1;
7082         }
7083         STOP_TIMER("get_se_golomb");
7084     }
7085
7086     printf("testing 4x4 (I)DCT\n");
7087     
7088     DCTELEM block[16];
7089     uint8_t src[16], ref[16];
7090     uint64_t error= 0, max_error=0;
7091
7092     for(i=0; i<COUNT; i++){
7093         int j;
7094 //        printf("%d %d %d\n", r1, r2, (r2-r1)*16);
7095         for(j=0; j<16; j++){
7096             ref[j]= random()%255;
7097             src[j]= random()%255;
7098         }
7099
7100         h264_diff_dct_c(block, src, ref, 4);
7101         
7102         //normalize
7103         for(j=0; j<16; j++){
7104 //            printf("%d ", block[j]);
7105             block[j]= block[j]*4;
7106             if(j&1) block[j]= (block[j]*4 + 2)/5;
7107             if(j&4) block[j]= (block[j]*4 + 2)/5;
7108         }
7109 //        printf("\n");
7110         
7111         s->dsp.h264_idct_add(ref, block, 4);
7112 /*        for(j=0; j<16; j++){
7113             printf("%d ", ref[j]);
7114         }
7115         printf("\n");*/
7116             
7117         for(j=0; j<16; j++){
7118             int diff= ABS(src[j] - ref[j]);
7119             
7120             error+= diff*diff;
7121             max_error= FFMAX(max_error, diff);
7122         }
7123     }
7124     printf("error=%f max_error=%d\n", ((float)error)/COUNT/16, (int)max_error );
7125 #if 0
7126     printf("testing quantizer\n");
7127     for(qp=0; qp<52; qp++){
7128         for(i=0; i<16; i++)
7129             src1_block[i]= src2_block[i]= random()%255;
7130         
7131     }
7132 #endif
7133     printf("Testing NAL layer\n");
7134     
7135     uint8_t bitstream[COUNT];
7136     uint8_t nal[COUNT*2];
7137     H264Context h;
7138     memset(&h, 0, sizeof(H264Context));
7139     
7140     for(i=0; i<COUNT; i++){
7141         int zeros= i;
7142         int nal_length;
7143         int consumed;
7144         int out_length;
7145         uint8_t *out;
7146         int j;
7147         
7148         for(j=0; j<COUNT; j++){
7149             bitstream[j]= (random() % 255) + 1;
7150         }
7151         
7152         for(j=0; j<zeros; j++){
7153             int pos= random() % COUNT;
7154             while(bitstream[pos] == 0){
7155                 pos++;
7156                 pos %= COUNT;
7157             }
7158             bitstream[pos]=0;
7159         }
7160         
7161         START_TIMER
7162         
7163         nal_length= encode_nal(&h, nal, bitstream, COUNT, COUNT*2);
7164         if(nal_length<0){
7165             printf("encoding failed\n");
7166             return -1;
7167         }
7168         
7169         out= decode_nal(&h, nal, &out_length, &consumed, nal_length);
7170
7171         STOP_TIMER("NAL")
7172         
7173         if(out_length != COUNT){
7174             printf("incorrect length %d %d\n", out_length, COUNT);
7175             return -1;
7176         }
7177         
7178         if(consumed != nal_length){
7179             printf("incorrect consumed length %d %d\n", nal_length, consumed);
7180             return -1;
7181         }
7182         
7183         if(memcmp(bitstream, out, COUNT)){
7184             printf("missmatch\n");
7185             return -1;
7186         }
7187     }
7188     
7189     printf("Testing RBSP\n");
7190     
7191     
7192     return 0;
7193 }
7194 #endif
7195
7196
7197 static int decode_end(AVCodecContext *avctx)
7198 {
7199     H264Context *h = avctx->priv_data;
7200     MpegEncContext *s = &h->s;
7201     
7202     free_tables(h); //FIXME cleanup init stuff perhaps
7203     MPV_common_end(s);
7204
7205 //    memset(h, 0, sizeof(H264Context));
7206         
7207     return 0;
7208 }
7209
7210
7211 AVCodec h264_decoder = {
7212     "h264",
7213     CODEC_TYPE_VIDEO,
7214     CODEC_ID_H264,
7215     sizeof(H264Context),
7216     decode_init,
7217     NULL,
7218     decode_end,
7219     decode_frame,
7220     /*CODEC_CAP_DRAW_HORIZ_BAND |*/ CODEC_CAP_DR1 | CODEC_CAP_TRUNCATED | CODEC_CAP_DELAY,
7221     .flush= flush_dpb,
7222 };
7223
7224 AVCodecParser h264_parser = {
7225     { CODEC_ID_H264 },
7226     sizeof(H264Context),
7227     NULL,
7228     h264_parse,
7229     ff_parse_close,
7230 };
7231
7232 #include "svq3.c"