]> git.sesse.net Git - ffmpeg/blob - libavcodec/h264.c
Ministry of English Composition, reporting for duty (and the word is "skipped", not...
[ffmpeg] / libavcodec / h264.c
1 /*
2  * H.26L/H.264/AVC/JVT/14496-10/... encoder/decoder
3  * Copyright (c) 2003 Michael Niedermayer <michaelni@gmx.at>
4  *
5  * This library is free software; you can redistribute it and/or
6  * modify it under the terms of the GNU Lesser General Public
7  * License as published by the Free Software Foundation; either
8  * version 2 of the License, or (at your option) any later version.
9  *
10  * This library is distributed in the hope that it will be useful,
11  * but WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * Lesser General Public License for more details.
14  *
15  * You should have received a copy of the GNU Lesser General Public
16  * License along with this library; if not, write to the Free Software
17  * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
18  *
19  */
20  
21 /**
22  * @file h264.c
23  * H.264 / AVC / MPEG4 part10 codec.
24  * @author Michael Niedermayer <michaelni@gmx.at>
25  */
26
27 #include "common.h"
28 #include "dsputil.h"
29 #include "avcodec.h"
30 #include "mpegvideo.h"
31 #include "h264data.h"
32 #include "golomb.h"
33
34 #include "cabac.h"
35
36 #undef NDEBUG
37 #include <assert.h>
38
39 #define interlaced_dct interlaced_dct_is_a_bad_name
40 #define mb_intra mb_intra_isnt_initalized_see_mb_type
41
42 #define LUMA_DC_BLOCK_INDEX   25
43 #define CHROMA_DC_BLOCK_INDEX 26
44
45 #define CHROMA_DC_COEFF_TOKEN_VLC_BITS 8
46 #define COEFF_TOKEN_VLC_BITS           8
47 #define TOTAL_ZEROS_VLC_BITS           9
48 #define CHROMA_DC_TOTAL_ZEROS_VLC_BITS 3
49 #define RUN_VLC_BITS                   3
50 #define RUN7_VLC_BITS                  6
51
52 #define MAX_SPS_COUNT 32
53 #define MAX_PPS_COUNT 256
54
55 #define MAX_MMCO_COUNT 66
56
57 /**
58  * Sequence parameter set
59  */
60 typedef struct SPS{
61     
62     int profile_idc;
63     int level_idc;
64     int log2_max_frame_num;            ///< log2_max_frame_num_minus4 + 4
65     int poc_type;                      ///< pic_order_cnt_type
66     int log2_max_poc_lsb;              ///< log2_max_pic_order_cnt_lsb_minus4
67     int delta_pic_order_always_zero_flag;
68     int offset_for_non_ref_pic;
69     int offset_for_top_to_bottom_field;
70     int poc_cycle_length;              ///< num_ref_frames_in_pic_order_cnt_cycle
71     int ref_frame_count;               ///< num_ref_frames
72     int gaps_in_frame_num_allowed_flag;
73     int mb_width;                      ///< frame_width_in_mbs_minus1 + 1
74     int mb_height;                     ///< frame_height_in_mbs_minus1 + 1
75     int frame_mbs_only_flag;
76     int mb_aff;                        ///<mb_adaptive_frame_field_flag
77     int direct_8x8_inference_flag;
78     int crop;                   ///< frame_cropping_flag
79     int crop_left;              ///< frame_cropping_rect_left_offset
80     int crop_right;             ///< frame_cropping_rect_right_offset
81     int crop_top;               ///< frame_cropping_rect_top_offset
82     int crop_bottom;            ///< frame_cropping_rect_bottom_offset
83     int vui_parameters_present_flag;
84     AVRational sar;
85     int timing_info_present_flag;
86     uint32_t num_units_in_tick;
87     uint32_t time_scale;
88     int fixed_frame_rate_flag;
89     short offset_for_ref_frame[256]; //FIXME dyn aloc?
90     int bitstream_restriction_flag;
91     int num_reorder_frames;
92 }SPS;
93
94 /**
95  * Picture parameter set
96  */
97 typedef struct PPS{
98     int sps_id;
99     int cabac;                  ///< entropy_coding_mode_flag
100     int pic_order_present;      ///< pic_order_present_flag
101     int slice_group_count;      ///< num_slice_groups_minus1 + 1
102     int mb_slice_group_map_type;
103     int ref_count[2];           ///< num_ref_idx_l0/1_active_minus1 + 1
104     int weighted_pred;          ///< weighted_pred_flag
105     int weighted_bipred_idc;
106     int init_qp;                ///< pic_init_qp_minus26 + 26
107     int init_qs;                ///< pic_init_qs_minus26 + 26
108     int chroma_qp_index_offset;
109     int deblocking_filter_parameters_present; ///< deblocking_filter_parameters_present_flag
110     int constrained_intra_pred; ///< constrained_intra_pred_flag
111     int redundant_pic_cnt_present; ///< redundant_pic_cnt_present_flag
112 }PPS;
113
114 /**
115  * Memory management control operation opcode.
116  */
117 typedef enum MMCOOpcode{
118     MMCO_END=0,
119     MMCO_SHORT2UNUSED,
120     MMCO_LONG2UNUSED,
121     MMCO_SHORT2LONG,
122     MMCO_SET_MAX_LONG,
123     MMCO_RESET, 
124     MMCO_LONG,
125 } MMCOOpcode;
126
127 /**
128  * Memory management control operation.
129  */
130 typedef struct MMCO{
131     MMCOOpcode opcode;
132     int short_frame_num;
133     int long_index;
134 } MMCO;
135
136 /**
137  * H264Context
138  */
139 typedef struct H264Context{
140     MpegEncContext s;
141     int nal_ref_idc;    
142     int nal_unit_type;
143 #define NAL_SLICE               1
144 #define NAL_DPA                 2
145 #define NAL_DPB                 3
146 #define NAL_DPC                 4
147 #define NAL_IDR_SLICE           5
148 #define NAL_SEI                 6
149 #define NAL_SPS                 7
150 #define NAL_PPS                 8
151 #define NAL_PICTURE_DELIMITER   9
152 #define NAL_FILTER_DATA         10
153     uint8_t *rbsp_buffer;
154     int rbsp_buffer_size;
155
156     /**
157       * Used to parse AVC variant of h264
158       */
159     int is_avc; ///< this flag is != 0 if codec is avc1
160     int got_avcC; ///< flag used to parse avcC data only once
161     int nal_length_size; ///< Number of bytes used for nal length (1, 2 or 4)
162
163     int chroma_qp; //QPc
164
165     int prev_mb_skipped; //FIXME remove (IMHO not used)
166
167     //prediction stuff
168     int chroma_pred_mode;
169     int intra16x16_pred_mode;
170
171     int top_mb_xy;
172     int left_mb_xy[2];
173     
174     int8_t intra4x4_pred_mode_cache[5*8];
175     int8_t (*intra4x4_pred_mode)[8];
176     void (*pred4x4  [9+3])(uint8_t *src, uint8_t *topright, int stride);//FIXME move to dsp?
177     void (*pred8x8  [4+3])(uint8_t *src, int stride);
178     void (*pred16x16[4+3])(uint8_t *src, int stride);
179     unsigned int topleft_samples_available;
180     unsigned int top_samples_available;
181     unsigned int topright_samples_available;
182     unsigned int left_samples_available;
183     uint8_t (*top_borders[2])[16+2*8];
184     uint8_t left_border[2*(17+2*9)];
185
186     /**
187      * non zero coeff count cache.
188      * is 64 if not available.
189      */
190     uint8_t non_zero_count_cache[6*8] __align8;
191     uint8_t (*non_zero_count)[16];
192
193     /**
194      * Motion vector cache.
195      */
196     int16_t mv_cache[2][5*8][2] __align8;
197     int8_t ref_cache[2][5*8] __align8;
198 #define LIST_NOT_USED -1 //FIXME rename?
199 #define PART_NOT_AVAILABLE -2
200     
201     /**
202      * is 1 if the specific list MV&references are set to 0,0,-2.
203      */
204     int mv_cache_clean[2];
205
206     /**
207      * block_offset[ 0..23] for frame macroblocks
208      * block_offset[24..47] for field macroblocks
209      */
210     int block_offset[2*(16+8)];
211     
212     uint16_t *mb2b_xy; //FIXME are these 4 a good idea?
213     uint16_t *mb2b8_xy;
214     int b_stride; //FIXME use s->b4_stride
215     int b8_stride;
216
217     int halfpel_flag;
218     int thirdpel_flag;
219
220     int unknown_svq3_flag;
221     int next_slice_index;
222
223     SPS sps_buffer[MAX_SPS_COUNT];
224     SPS sps; ///< current sps
225     
226     PPS pps_buffer[MAX_PPS_COUNT];
227     /**
228      * current pps
229      */
230     PPS pps; //FIXME move tp Picture perhaps? (->no) do we need that?
231
232     int slice_num;
233     uint8_t *slice_table_base;
234     uint8_t *slice_table;      ///< slice_table_base + mb_stride + 1
235     int slice_type;
236     int slice_type_fixed;
237     
238     //interlacing specific flags
239     int mb_aff_frame;
240     int mb_field_decoding_flag;
241     
242     int sub_mb_type[4];
243     
244     //POC stuff
245     int poc_lsb;
246     int poc_msb;
247     int delta_poc_bottom;
248     int delta_poc[2];
249     int frame_num;
250     int prev_poc_msb;             ///< poc_msb of the last reference pic for POC type 0
251     int prev_poc_lsb;             ///< poc_lsb of the last reference pic for POC type 0
252     int frame_num_offset;         ///< for POC type 2
253     int prev_frame_num_offset;    ///< for POC type 2
254     int prev_frame_num;           ///< frame_num of the last pic for POC type 1/2
255
256     /**
257      * frame_num for frames or 2*frame_num for field pics.
258      */
259     int curr_pic_num;
260     
261     /**
262      * max_frame_num or 2*max_frame_num for field pics.
263      */
264     int max_pic_num;
265
266     //Weighted pred stuff
267     int use_weight;
268     int use_weight_chroma;
269     int luma_log2_weight_denom;
270     int chroma_log2_weight_denom;
271     int luma_weight[2][16];
272     int luma_offset[2][16];
273     int chroma_weight[2][16][2];
274     int chroma_offset[2][16][2];
275     int implicit_weight[16][16];
276    
277     //deblock
278     int deblocking_filter;         ///< disable_deblocking_filter_idc with 1<->0 
279     int slice_alpha_c0_offset;
280     int slice_beta_offset;
281      
282     int redundant_pic_count;
283     
284     int direct_spatial_mv_pred;
285     int dist_scale_factor[16];
286     int map_col_to_list0[2][16];
287
288     /**
289      * num_ref_idx_l0/1_active_minus1 + 1
290      */
291     int ref_count[2];// FIXME split for AFF
292     Picture *short_ref[32];
293     Picture *long_ref[32];
294     Picture default_ref_list[2][32];
295     Picture ref_list[2][32]; //FIXME size?
296     Picture field_ref_list[2][32]; //FIXME size?
297     Picture *delayed_pic[16]; //FIXME size?
298     Picture *delayed_output_pic;
299     
300     /**
301      * memory management control operations buffer.
302      */
303     MMCO mmco[MAX_MMCO_COUNT];
304     int mmco_index;
305     
306     int long_ref_count;  ///< number of actual long term references
307     int short_ref_count; ///< number of actual short term references
308     
309     //data partitioning
310     GetBitContext intra_gb;
311     GetBitContext inter_gb;
312     GetBitContext *intra_gb_ptr;
313     GetBitContext *inter_gb_ptr;
314     
315     DCTELEM mb[16*24] __align8;
316
317     /**
318      * Cabac
319      */
320     CABACContext cabac;
321     uint8_t      cabac_state[399];
322     int          cabac_init_idc;
323
324     /* 0x100 -> non null luma_dc, 0x80/0x40 -> non null chroma_dc (cb/cr), 0x?0 -> chroma_cbp(0,1,2), 0x0? luma_cbp */
325     uint16_t     *cbp_table;
326     int top_cbp;
327     int left_cbp;
328     /* chroma_pred_mode for i4x4 or i16x16, else 0 */
329     uint8_t     *chroma_pred_mode_table;
330     int         last_qscale_diff;
331     int16_t     (*mvd_table[2])[2];
332     int16_t     mvd_cache[2][5*8][2] __align8;
333     uint8_t     *direct_table;
334     uint8_t     direct_cache[5*8];
335
336 }H264Context;
337
338 static VLC coeff_token_vlc[4];
339 static VLC chroma_dc_coeff_token_vlc;
340
341 static VLC total_zeros_vlc[15];
342 static VLC chroma_dc_total_zeros_vlc[3];
343
344 static VLC run_vlc[6];
345 static VLC run7_vlc;
346
347 static void svq3_luma_dc_dequant_idct_c(DCTELEM *block, int qp);
348 static void svq3_add_idct_c(uint8_t *dst, DCTELEM *block, int stride, int qp, int dc);
349 static void filter_mb( H264Context *h, int mb_x, int mb_y, uint8_t *img_y, uint8_t *img_cb, uint8_t *img_cr, unsigned int linesize, unsigned int uvlinesize);
350
351 static inline uint32_t pack16to32(int a, int b){
352 #ifdef WORDS_BIGENDIAN
353    return (b&0xFFFF) + (a<<16);
354 #else
355    return (a&0xFFFF) + (b<<16);
356 #endif
357 }
358
359 /**
360  * fill a rectangle.
361  * @param h height of the rectangle, should be a constant
362  * @param w width of the rectangle, should be a constant
363  * @param size the size of val (1 or 4), should be a constant
364  */
365 static inline void fill_rectangle(void *vp, int w, int h, int stride, uint32_t val, int size){ //FIXME ensure this IS inlined
366     uint8_t *p= (uint8_t*)vp;
367     assert(size==1 || size==4);
368     
369     w      *= size;
370     stride *= size;
371     
372     assert((((int)vp)&(FFMIN(w, STRIDE_ALIGN)-1)) == 0);
373 //FIXME check what gcc generates for 64 bit on x86 and possible write a 32 bit ver of it
374     if(w==2 && h==2){
375         *(uint16_t*)(p + 0)=
376         *(uint16_t*)(p + stride)= size==4 ? val : val*0x0101;
377     }else if(w==2 && h==4){
378         *(uint16_t*)(p + 0*stride)=
379         *(uint16_t*)(p + 1*stride)=
380         *(uint16_t*)(p + 2*stride)=
381         *(uint16_t*)(p + 3*stride)= size==4 ? val : val*0x0101;
382     }else if(w==4 && h==1){
383         *(uint32_t*)(p + 0*stride)= size==4 ? val : val*0x01010101;
384     }else if(w==4 && h==2){
385         *(uint32_t*)(p + 0*stride)=
386         *(uint32_t*)(p + 1*stride)= size==4 ? val : val*0x01010101;
387     }else if(w==4 && h==4){
388         *(uint32_t*)(p + 0*stride)=
389         *(uint32_t*)(p + 1*stride)=
390         *(uint32_t*)(p + 2*stride)=
391         *(uint32_t*)(p + 3*stride)= size==4 ? val : val*0x01010101;
392     }else if(w==8 && h==1){
393         *(uint32_t*)(p + 0)=
394         *(uint32_t*)(p + 4)= size==4 ? val : val*0x01010101;
395     }else if(w==8 && h==2){
396         *(uint32_t*)(p + 0 + 0*stride)=
397         *(uint32_t*)(p + 4 + 0*stride)=
398         *(uint32_t*)(p + 0 + 1*stride)=
399         *(uint32_t*)(p + 4 + 1*stride)=  size==4 ? val : val*0x01010101;
400     }else if(w==8 && h==4){
401         *(uint64_t*)(p + 0*stride)=
402         *(uint64_t*)(p + 1*stride)=
403         *(uint64_t*)(p + 2*stride)=
404         *(uint64_t*)(p + 3*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
405     }else if(w==16 && h==2){
406         *(uint64_t*)(p + 0+0*stride)=
407         *(uint64_t*)(p + 8+0*stride)=
408         *(uint64_t*)(p + 0+1*stride)=
409         *(uint64_t*)(p + 8+1*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
410     }else if(w==16 && h==4){
411         *(uint64_t*)(p + 0+0*stride)=
412         *(uint64_t*)(p + 8+0*stride)=
413         *(uint64_t*)(p + 0+1*stride)=
414         *(uint64_t*)(p + 8+1*stride)=
415         *(uint64_t*)(p + 0+2*stride)=
416         *(uint64_t*)(p + 8+2*stride)=
417         *(uint64_t*)(p + 0+3*stride)=
418         *(uint64_t*)(p + 8+3*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
419     }else
420         assert(0);
421 }
422
423 static inline void fill_caches(H264Context *h, int mb_type, int for_deblock){
424     MpegEncContext * const s = &h->s;
425     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
426     int topleft_xy, top_xy, topright_xy, left_xy[2];
427     int topleft_type, top_type, topright_type, left_type[2];
428     int left_block[8];
429     int i;
430
431     //FIXME deblocking can skip fill_caches much of the time with multiple slices too.
432     // the actual condition is whether we're on the edge of a slice,
433     // and even then the intra and nnz parts are unnecessary.
434     if(for_deblock && h->slice_num == 1)
435         return;
436
437     //wow what a mess, why didnt they simplify the interlacing&intra stuff, i cant imagine that these complex rules are worth it 
438     
439     top_xy     = mb_xy  - s->mb_stride;
440     topleft_xy = top_xy - 1;
441     topright_xy= top_xy + 1;
442     left_xy[1] = left_xy[0] = mb_xy-1;
443     left_block[0]= 0;
444     left_block[1]= 1;
445     left_block[2]= 2;
446     left_block[3]= 3;
447     left_block[4]= 7;
448     left_block[5]= 10;
449     left_block[6]= 8;
450     left_block[7]= 11;
451     if(h->mb_aff_frame){
452         const int pair_xy          = s->mb_x     + (s->mb_y & ~1)*s->mb_stride;
453         const int top_pair_xy      = pair_xy     - s->mb_stride;
454         const int topleft_pair_xy  = top_pair_xy - 1;
455         const int topright_pair_xy = top_pair_xy + 1;
456         const int topleft_mb_frame_flag  = !IS_INTERLACED(s->current_picture.mb_type[topleft_pair_xy]);
457         const int top_mb_frame_flag      = !IS_INTERLACED(s->current_picture.mb_type[top_pair_xy]);
458         const int topright_mb_frame_flag = !IS_INTERLACED(s->current_picture.mb_type[topright_pair_xy]);
459         const int left_mb_frame_flag = !IS_INTERLACED(s->current_picture.mb_type[pair_xy-1]);
460         const int curr_mb_frame_flag = !IS_INTERLACED(mb_type);
461         const int bottom = (s->mb_y & 1);
462         tprintf("fill_caches: curr_mb_frame_flag:%d, left_mb_frame_flag:%d, topleft_mb_frame_flag:%d, top_mb_frame_flag:%d, topright_mb_frame_flag:%d\n", curr_mb_frame_flag, left_mb_frame_flag, topleft_mb_frame_flag, top_mb_frame_flag, topright_mb_frame_flag);
463         if (bottom
464                 ? !curr_mb_frame_flag // bottom macroblock
465                 : (!curr_mb_frame_flag && !top_mb_frame_flag) // top macroblock
466                 ) {
467             top_xy -= s->mb_stride;
468         }
469         if (bottom
470                 ? !curr_mb_frame_flag // bottom macroblock
471                 : (!curr_mb_frame_flag && !topleft_mb_frame_flag) // top macroblock
472                 ) {
473             topleft_xy -= s->mb_stride;
474         }
475         if (bottom
476                 ? !curr_mb_frame_flag // bottom macroblock
477                 : (!curr_mb_frame_flag && !topright_mb_frame_flag) // top macroblock
478                 ) {
479             topright_xy -= s->mb_stride;
480         }
481         if (left_mb_frame_flag != curr_mb_frame_flag) {
482             left_xy[1] = left_xy[0] = pair_xy - 1;
483             if (curr_mb_frame_flag) {
484                 if (bottom) {
485                     left_block[0]= 2;
486                     left_block[1]= 2;
487                     left_block[2]= 3;
488                     left_block[3]= 3;
489                     left_block[4]= 8;
490                     left_block[5]= 11;
491                     left_block[6]= 8;
492                     left_block[7]= 11;
493                 } else {
494                     left_block[0]= 0;
495                     left_block[1]= 0;
496                     left_block[2]= 1;
497                     left_block[3]= 1;
498                     left_block[4]= 7;
499                     left_block[5]= 10;
500                     left_block[6]= 7;
501                     left_block[7]= 10;
502                 }
503             } else {
504                 left_xy[1] += s->mb_stride;
505                 //left_block[0]= 0;
506                 left_block[1]= 2;
507                 left_block[2]= 0;
508                 left_block[3]= 2;
509                 //left_block[4]= 7;
510                 left_block[5]= 10;
511                 left_block[6]= 7;
512                 left_block[7]= 10;
513             }
514         }
515     }
516
517     h->top_mb_xy = top_xy;
518     h->left_mb_xy[0] = left_xy[0];
519     h->left_mb_xy[1] = left_xy[1];
520     if(for_deblock){
521         topleft_type = h->slice_table[topleft_xy ] < 255 ? s->current_picture.mb_type[topleft_xy] : 0;
522         top_type     = h->slice_table[top_xy     ] < 255 ? s->current_picture.mb_type[top_xy]     : 0;
523         topright_type= h->slice_table[topright_xy] < 255 ? s->current_picture.mb_type[topright_xy]: 0;
524         left_type[0] = h->slice_table[left_xy[0] ] < 255 ? s->current_picture.mb_type[left_xy[0]] : 0;
525         left_type[1] = h->slice_table[left_xy[1] ] < 255 ? s->current_picture.mb_type[left_xy[1]] : 0;
526     }else{
527         topleft_type = h->slice_table[topleft_xy ] == h->slice_num ? s->current_picture.mb_type[topleft_xy] : 0;
528         top_type     = h->slice_table[top_xy     ] == h->slice_num ? s->current_picture.mb_type[top_xy]     : 0;
529         topright_type= h->slice_table[topright_xy] == h->slice_num ? s->current_picture.mb_type[topright_xy]: 0;
530         left_type[0] = h->slice_table[left_xy[0] ] == h->slice_num ? s->current_picture.mb_type[left_xy[0]] : 0;
531         left_type[1] = h->slice_table[left_xy[1] ] == h->slice_num ? s->current_picture.mb_type[left_xy[1]] : 0;
532     }
533
534     if(IS_INTRA(mb_type)){
535         h->topleft_samples_available= 
536         h->top_samples_available= 
537         h->left_samples_available= 0xFFFF;
538         h->topright_samples_available= 0xEEEA;
539
540         if(!IS_INTRA(top_type) && (top_type==0 || h->pps.constrained_intra_pred)){
541             h->topleft_samples_available= 0xB3FF;
542             h->top_samples_available= 0x33FF;
543             h->topright_samples_available= 0x26EA;
544         }
545         for(i=0; i<2; i++){
546             if(!IS_INTRA(left_type[i]) && (left_type[i]==0 || h->pps.constrained_intra_pred)){
547                 h->topleft_samples_available&= 0xDF5F;
548                 h->left_samples_available&= 0x5F5F;
549             }
550         }
551         
552         if(!IS_INTRA(topleft_type) && (topleft_type==0 || h->pps.constrained_intra_pred))
553             h->topleft_samples_available&= 0x7FFF;
554         
555         if(!IS_INTRA(topright_type) && (topright_type==0 || h->pps.constrained_intra_pred))
556             h->topright_samples_available&= 0xFBFF;
557     
558         if(IS_INTRA4x4(mb_type)){
559             if(IS_INTRA4x4(top_type)){
560                 h->intra4x4_pred_mode_cache[4+8*0]= h->intra4x4_pred_mode[top_xy][4];
561                 h->intra4x4_pred_mode_cache[5+8*0]= h->intra4x4_pred_mode[top_xy][5];
562                 h->intra4x4_pred_mode_cache[6+8*0]= h->intra4x4_pred_mode[top_xy][6];
563                 h->intra4x4_pred_mode_cache[7+8*0]= h->intra4x4_pred_mode[top_xy][3];
564             }else{
565                 int pred;
566                 if(!top_type || (IS_INTER(top_type) && h->pps.constrained_intra_pred))
567                     pred= -1;
568                 else{
569                     pred= 2;
570                 }
571                 h->intra4x4_pred_mode_cache[4+8*0]=
572                 h->intra4x4_pred_mode_cache[5+8*0]=
573                 h->intra4x4_pred_mode_cache[6+8*0]=
574                 h->intra4x4_pred_mode_cache[7+8*0]= pred;
575             }
576             for(i=0; i<2; i++){
577                 if(IS_INTRA4x4(left_type[i])){
578                     h->intra4x4_pred_mode_cache[3+8*1 + 2*8*i]= h->intra4x4_pred_mode[left_xy[i]][left_block[0+2*i]];
579                     h->intra4x4_pred_mode_cache[3+8*2 + 2*8*i]= h->intra4x4_pred_mode[left_xy[i]][left_block[1+2*i]];
580                 }else{
581                     int pred;
582                     if(!left_type[i] || (IS_INTER(left_type[i]) && h->pps.constrained_intra_pred))
583                         pred= -1;
584                     else{
585                         pred= 2;
586                     }
587                     h->intra4x4_pred_mode_cache[3+8*1 + 2*8*i]=
588                     h->intra4x4_pred_mode_cache[3+8*2 + 2*8*i]= pred;
589                 }
590             }
591         }
592     }
593     
594     
595 /*
596 0 . T T. T T T T 
597 1 L . .L . . . . 
598 2 L . .L . . . . 
599 3 . T TL . . . . 
600 4 L . .L . . . . 
601 5 L . .. . . . . 
602 */
603 //FIXME constraint_intra_pred & partitioning & nnz (lets hope this is just a typo in the spec)
604     if(top_type){
605         h->non_zero_count_cache[4+8*0]= h->non_zero_count[top_xy][4];
606         h->non_zero_count_cache[5+8*0]= h->non_zero_count[top_xy][5];
607         h->non_zero_count_cache[6+8*0]= h->non_zero_count[top_xy][6];
608         h->non_zero_count_cache[7+8*0]= h->non_zero_count[top_xy][3];
609     
610         h->non_zero_count_cache[1+8*0]= h->non_zero_count[top_xy][9];
611         h->non_zero_count_cache[2+8*0]= h->non_zero_count[top_xy][8];
612     
613         h->non_zero_count_cache[1+8*3]= h->non_zero_count[top_xy][12];
614         h->non_zero_count_cache[2+8*3]= h->non_zero_count[top_xy][11];
615         
616     }else{
617         h->non_zero_count_cache[4+8*0]=      
618         h->non_zero_count_cache[5+8*0]=
619         h->non_zero_count_cache[6+8*0]=
620         h->non_zero_count_cache[7+8*0]=
621     
622         h->non_zero_count_cache[1+8*0]=
623         h->non_zero_count_cache[2+8*0]=
624     
625         h->non_zero_count_cache[1+8*3]=
626         h->non_zero_count_cache[2+8*3]= h->pps.cabac && !IS_INTRA(mb_type) ? 0 : 64;
627         
628     }
629
630     for (i=0; i<2; i++) {
631         if(left_type[i]){
632             h->non_zero_count_cache[3+8*1 + 2*8*i]= h->non_zero_count[left_xy[i]][left_block[0+2*i]];
633             h->non_zero_count_cache[3+8*2 + 2*8*i]= h->non_zero_count[left_xy[i]][left_block[1+2*i]];
634             h->non_zero_count_cache[0+8*1 +   8*i]= h->non_zero_count[left_xy[i]][left_block[4+2*i]];
635             h->non_zero_count_cache[0+8*4 +   8*i]= h->non_zero_count[left_xy[i]][left_block[5+2*i]];
636         }else{
637             h->non_zero_count_cache[3+8*1 + 2*8*i]= 
638             h->non_zero_count_cache[3+8*2 + 2*8*i]= 
639             h->non_zero_count_cache[0+8*1 +   8*i]= 
640             h->non_zero_count_cache[0+8*4 +   8*i]= h->pps.cabac && !IS_INTRA(mb_type) ? 0 : 64;
641         }
642     }
643
644     if( h->pps.cabac ) {
645         // top_cbp
646         if(top_type) {
647             h->top_cbp = h->cbp_table[top_xy];
648         } else if(IS_INTRA(mb_type)) {
649             h->top_cbp = 0x1C0;
650         } else {
651             h->top_cbp = 0;
652         }
653         // left_cbp
654         if (left_type[0]) {
655             h->left_cbp = h->cbp_table[left_xy[0]] & 0x1f0;
656         } else if(IS_INTRA(mb_type)) {
657             h->left_cbp = 0x1C0;
658         } else {
659             h->left_cbp = 0;
660         }
661         if (left_type[0]) {
662             h->left_cbp |= ((h->cbp_table[left_xy[0]]>>((left_block[0]&(~1))+1))&0x1) << 1;
663         }
664         if (left_type[1]) {
665             h->left_cbp |= ((h->cbp_table[left_xy[1]]>>((left_block[2]&(~1))+1))&0x1) << 3;
666         }
667     }
668
669 #if 1
670     //FIXME direct mb can skip much of this
671     if(IS_INTER(mb_type) || IS_DIRECT(mb_type)){
672         int list;
673         for(list=0; list<1+(h->slice_type==B_TYPE); list++){
674             if(!USES_LIST(mb_type, list) && !IS_DIRECT(mb_type) && !h->deblocking_filter){
675                 /*if(!h->mv_cache_clean[list]){
676                     memset(h->mv_cache [list],  0, 8*5*2*sizeof(int16_t)); //FIXME clean only input? clean at all?
677                     memset(h->ref_cache[list], PART_NOT_AVAILABLE, 8*5*sizeof(int8_t));
678                     h->mv_cache_clean[list]= 1;
679                 }*/
680                 continue;
681             }
682             h->mv_cache_clean[list]= 0;
683             
684             if(IS_INTER(top_type)){
685                 const int b_xy= h->mb2b_xy[top_xy] + 3*h->b_stride;
686                 const int b8_xy= h->mb2b8_xy[top_xy] + h->b8_stride;
687                 *(uint32_t*)h->mv_cache[list][scan8[0] + 0 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 0];
688                 *(uint32_t*)h->mv_cache[list][scan8[0] + 1 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 1];
689                 *(uint32_t*)h->mv_cache[list][scan8[0] + 2 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 2];
690                 *(uint32_t*)h->mv_cache[list][scan8[0] + 3 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 3];
691                 h->ref_cache[list][scan8[0] + 0 - 1*8]=
692                 h->ref_cache[list][scan8[0] + 1 - 1*8]= s->current_picture.ref_index[list][b8_xy + 0];
693                 h->ref_cache[list][scan8[0] + 2 - 1*8]=
694                 h->ref_cache[list][scan8[0] + 3 - 1*8]= s->current_picture.ref_index[list][b8_xy + 1];
695             }else{
696                 *(uint32_t*)h->mv_cache [list][scan8[0] + 0 - 1*8]= 
697                 *(uint32_t*)h->mv_cache [list][scan8[0] + 1 - 1*8]= 
698                 *(uint32_t*)h->mv_cache [list][scan8[0] + 2 - 1*8]= 
699                 *(uint32_t*)h->mv_cache [list][scan8[0] + 3 - 1*8]= 0;
700                 *(uint32_t*)&h->ref_cache[list][scan8[0] + 0 - 1*8]= ((top_type ? LIST_NOT_USED : PART_NOT_AVAILABLE)&0xFF)*0x01010101;
701             }
702
703             //FIXME unify cleanup or sth
704             if(IS_INTER(left_type[0])){
705                 const int b_xy= h->mb2b_xy[left_xy[0]] + 3;
706                 const int b8_xy= h->mb2b8_xy[left_xy[0]] + 1;
707                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 0*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[0]];
708                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[1]];
709                 h->ref_cache[list][scan8[0] - 1 + 0*8]= 
710                 h->ref_cache[list][scan8[0] - 1 + 1*8]= s->current_picture.ref_index[list][b8_xy + h->b8_stride*(left_block[0]>>1)];
711             }else{
712                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 0*8]=
713                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 1*8]= 0;
714                 h->ref_cache[list][scan8[0] - 1 + 0*8]=
715                 h->ref_cache[list][scan8[0] - 1 + 1*8]= left_type[0] ? LIST_NOT_USED : PART_NOT_AVAILABLE;
716             }
717             
718             if(IS_INTER(left_type[1])){
719                 const int b_xy= h->mb2b_xy[left_xy[1]] + 3;
720                 const int b8_xy= h->mb2b8_xy[left_xy[1]] + 1;
721                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 2*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[2]];
722                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 3*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[3]];
723                 h->ref_cache[list][scan8[0] - 1 + 2*8]= 
724                 h->ref_cache[list][scan8[0] - 1 + 3*8]= s->current_picture.ref_index[list][b8_xy + h->b8_stride*(left_block[2]>>1)];
725             }else{
726                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 2*8]=
727                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 3*8]= 0;
728                 h->ref_cache[list][scan8[0] - 1 + 2*8]=
729                 h->ref_cache[list][scan8[0] - 1 + 3*8]= left_type[0] ? LIST_NOT_USED : PART_NOT_AVAILABLE;
730             }
731
732             if(for_deblock || (IS_DIRECT(mb_type) && !h->direct_spatial_mv_pred))
733                 continue;
734
735             if(IS_INTER(topleft_type)){
736                 const int b_xy = h->mb2b_xy[topleft_xy] + 3 + 3*h->b_stride;
737                 const int b8_xy= h->mb2b8_xy[topleft_xy] + 1 + h->b8_stride;
738                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy];
739                 h->ref_cache[list][scan8[0] - 1 - 1*8]= s->current_picture.ref_index[list][b8_xy];
740             }else{
741                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 - 1*8]= 0;
742                 h->ref_cache[list][scan8[0] - 1 - 1*8]= topleft_type ? LIST_NOT_USED : PART_NOT_AVAILABLE;
743             }
744             
745             if(IS_INTER(topright_type)){
746                 const int b_xy= h->mb2b_xy[topright_xy] + 3*h->b_stride;
747                 const int b8_xy= h->mb2b8_xy[topright_xy] + h->b8_stride;
748                 *(uint32_t*)h->mv_cache[list][scan8[0] + 4 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy];
749                 h->ref_cache[list][scan8[0] + 4 - 1*8]= s->current_picture.ref_index[list][b8_xy];
750             }else{
751                 *(uint32_t*)h->mv_cache [list][scan8[0] + 4 - 1*8]= 0;
752                 h->ref_cache[list][scan8[0] + 4 - 1*8]= topright_type ? LIST_NOT_USED : PART_NOT_AVAILABLE;
753             }
754             
755
756             h->ref_cache[list][scan8[5 ]+1] = 
757             h->ref_cache[list][scan8[7 ]+1] = 
758             h->ref_cache[list][scan8[13]+1] =  //FIXME remove past 3 (init somewher else)
759             h->ref_cache[list][scan8[4 ]] = 
760             h->ref_cache[list][scan8[12]] = PART_NOT_AVAILABLE;
761             *(uint32_t*)h->mv_cache [list][scan8[5 ]+1]=
762             *(uint32_t*)h->mv_cache [list][scan8[7 ]+1]=
763             *(uint32_t*)h->mv_cache [list][scan8[13]+1]= //FIXME remove past 3 (init somewher else)
764             *(uint32_t*)h->mv_cache [list][scan8[4 ]]=
765             *(uint32_t*)h->mv_cache [list][scan8[12]]= 0;
766
767             if( h->pps.cabac ) {
768                 /* XXX beurk, Load mvd */
769                 if(IS_INTER(topleft_type)){
770                     const int b_xy = h->mb2b_xy[topleft_xy] + 3 + 3*h->b_stride;
771                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy];
772                 }else{
773                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 - 1*8]= 0;
774                 }
775
776                 if(IS_INTER(top_type)){
777                     const int b_xy= h->mb2b_xy[top_xy] + 3*h->b_stride;
778                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 0 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 0];
779                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 1 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 1];
780                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 2 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 2];
781                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 3 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 3];
782                 }else{
783                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 0 - 1*8]= 
784                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 1 - 1*8]= 
785                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 2 - 1*8]= 
786                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 3 - 1*8]= 0;
787                 }
788                 if(IS_INTER(left_type[0])){
789                     const int b_xy= h->mb2b_xy[left_xy[0]] + 3;
790                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 0*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[0]];
791                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[1]];
792                 }else{
793                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 0*8]=
794                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 1*8]= 0;
795                 }
796                 if(IS_INTER(left_type[1])){
797                     const int b_xy= h->mb2b_xy[left_xy[1]] + 3;
798                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 2*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[2]];
799                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 3*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[3]];
800                 }else{
801                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 2*8]=
802                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 3*8]= 0;
803                 }
804                 *(uint32_t*)h->mvd_cache [list][scan8[5 ]+1]=
805                 *(uint32_t*)h->mvd_cache [list][scan8[7 ]+1]=
806                 *(uint32_t*)h->mvd_cache [list][scan8[13]+1]= //FIXME remove past 3 (init somewher else)
807                 *(uint32_t*)h->mvd_cache [list][scan8[4 ]]=
808                 *(uint32_t*)h->mvd_cache [list][scan8[12]]= 0;
809
810                 if(h->slice_type == B_TYPE){
811                     fill_rectangle(&h->direct_cache[scan8[0]], 4, 4, 8, 0, 1);
812
813                     if(IS_DIRECT(top_type)){
814                         *(uint32_t*)&h->direct_cache[scan8[0] - 1*8]= 0x01010101;
815                     }else if(IS_8X8(top_type)){
816                         int b8_xy = h->mb2b8_xy[top_xy] + h->b8_stride;
817                         h->direct_cache[scan8[0] + 0 - 1*8]= h->direct_table[b8_xy];
818                         h->direct_cache[scan8[0] + 2 - 1*8]= h->direct_table[b8_xy + 1];
819                     }else{
820                         *(uint32_t*)&h->direct_cache[scan8[0] - 1*8]= 0;
821                     }
822                     
823                     //FIXME interlacing
824                     if(IS_DIRECT(left_type[0])){
825                         h->direct_cache[scan8[0] - 1 + 0*8]=
826                         h->direct_cache[scan8[0] - 1 + 2*8]= 1;
827                     }else if(IS_8X8(left_type[0])){
828                         int b8_xy = h->mb2b8_xy[left_xy[0]] + 1;
829                         h->direct_cache[scan8[0] - 1 + 0*8]= h->direct_table[b8_xy];
830                         h->direct_cache[scan8[0] - 1 + 2*8]= h->direct_table[b8_xy + h->b8_stride];
831                     }else{
832                         h->direct_cache[scan8[0] - 1 + 0*8]=
833                         h->direct_cache[scan8[0] - 1 + 2*8]= 0;
834                     }
835                 }
836             }
837         }
838     }
839 #endif
840 }
841
842 static inline void write_back_intra_pred_mode(H264Context *h){
843     MpegEncContext * const s = &h->s;
844     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
845
846     h->intra4x4_pred_mode[mb_xy][0]= h->intra4x4_pred_mode_cache[7+8*1];
847     h->intra4x4_pred_mode[mb_xy][1]= h->intra4x4_pred_mode_cache[7+8*2];
848     h->intra4x4_pred_mode[mb_xy][2]= h->intra4x4_pred_mode_cache[7+8*3];
849     h->intra4x4_pred_mode[mb_xy][3]= h->intra4x4_pred_mode_cache[7+8*4];
850     h->intra4x4_pred_mode[mb_xy][4]= h->intra4x4_pred_mode_cache[4+8*4];
851     h->intra4x4_pred_mode[mb_xy][5]= h->intra4x4_pred_mode_cache[5+8*4];
852     h->intra4x4_pred_mode[mb_xy][6]= h->intra4x4_pred_mode_cache[6+8*4];
853 }
854
855 /**
856  * checks if the top & left blocks are available if needed & changes the dc mode so it only uses the available blocks.
857  */
858 static inline int check_intra4x4_pred_mode(H264Context *h){
859     MpegEncContext * const s = &h->s;
860     static const int8_t top [12]= {-1, 0,LEFT_DC_PRED,-1,-1,-1,-1,-1, 0};
861     static const int8_t left[12]= { 0,-1, TOP_DC_PRED, 0,-1,-1,-1, 0,-1,DC_128_PRED};
862     int i;
863     
864     if(!(h->top_samples_available&0x8000)){
865         for(i=0; i<4; i++){
866             int status= top[ h->intra4x4_pred_mode_cache[scan8[0] + i] ];
867             if(status<0){
868                 av_log(h->s.avctx, AV_LOG_ERROR, "top block unavailable for requested intra4x4 mode %d at %d %d\n", status, s->mb_x, s->mb_y);
869                 return -1;
870             } else if(status){
871                 h->intra4x4_pred_mode_cache[scan8[0] + i]= status;
872             }
873         }
874     }
875     
876     if(!(h->left_samples_available&0x8000)){
877         for(i=0; i<4; i++){
878             int status= left[ h->intra4x4_pred_mode_cache[scan8[0] + 8*i] ];
879             if(status<0){
880                 av_log(h->s.avctx, AV_LOG_ERROR, "left block unavailable for requested intra4x4 mode %d at %d %d\n", status, s->mb_x, s->mb_y);
881                 return -1;
882             } else if(status){
883                 h->intra4x4_pred_mode_cache[scan8[0] + 8*i]= status;
884             }
885         }
886     }
887
888     return 0;
889 } //FIXME cleanup like next
890
891 /**
892  * checks if the top & left blocks are available if needed & changes the dc mode so it only uses the available blocks.
893  */
894 static inline int check_intra_pred_mode(H264Context *h, int mode){
895     MpegEncContext * const s = &h->s;
896     static const int8_t top [7]= {LEFT_DC_PRED8x8, 1,-1,-1};
897     static const int8_t left[7]= { TOP_DC_PRED8x8,-1, 2,-1,DC_128_PRED8x8};
898     
899     if(mode < 0 || mode > 6) {
900         av_log(h->s.avctx, AV_LOG_ERROR, "out of range intra chroma pred mode at %d %d\n", s->mb_x, s->mb_y);
901         return -1;
902     }
903     
904     if(!(h->top_samples_available&0x8000)){
905         mode= top[ mode ];
906         if(mode<0){
907             av_log(h->s.avctx, AV_LOG_ERROR, "top block unavailable for requested intra mode at %d %d\n", s->mb_x, s->mb_y);
908             return -1;
909         }
910     }
911     
912     if(!(h->left_samples_available&0x8000)){
913         mode= left[ mode ];
914         if(mode<0){
915             av_log(h->s.avctx, AV_LOG_ERROR, "left block unavailable for requested intra mode at %d %d\n", s->mb_x, s->mb_y);
916             return -1;
917         } 
918     }
919
920     return mode;
921 }
922
923 /**
924  * gets the predicted intra4x4 prediction mode.
925  */
926 static inline int pred_intra_mode(H264Context *h, int n){
927     const int index8= scan8[n];
928     const int left= h->intra4x4_pred_mode_cache[index8 - 1];
929     const int top = h->intra4x4_pred_mode_cache[index8 - 8];
930     const int min= FFMIN(left, top);
931
932     tprintf("mode:%d %d min:%d\n", left ,top, min);
933
934     if(min<0) return DC_PRED;
935     else      return min;
936 }
937
938 static inline void write_back_non_zero_count(H264Context *h){
939     MpegEncContext * const s = &h->s;
940     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
941
942     h->non_zero_count[mb_xy][0]= h->non_zero_count_cache[7+8*1];
943     h->non_zero_count[mb_xy][1]= h->non_zero_count_cache[7+8*2];
944     h->non_zero_count[mb_xy][2]= h->non_zero_count_cache[7+8*3];
945     h->non_zero_count[mb_xy][3]= h->non_zero_count_cache[7+8*4];
946     h->non_zero_count[mb_xy][4]= h->non_zero_count_cache[4+8*4];
947     h->non_zero_count[mb_xy][5]= h->non_zero_count_cache[5+8*4];
948     h->non_zero_count[mb_xy][6]= h->non_zero_count_cache[6+8*4];
949     
950     h->non_zero_count[mb_xy][9]= h->non_zero_count_cache[1+8*2];
951     h->non_zero_count[mb_xy][8]= h->non_zero_count_cache[2+8*2];
952     h->non_zero_count[mb_xy][7]= h->non_zero_count_cache[2+8*1];
953
954     h->non_zero_count[mb_xy][12]=h->non_zero_count_cache[1+8*5];
955     h->non_zero_count[mb_xy][11]=h->non_zero_count_cache[2+8*5];
956     h->non_zero_count[mb_xy][10]=h->non_zero_count_cache[2+8*4];
957 }
958
959 /**
960  * gets the predicted number of non zero coefficients.
961  * @param n block index
962  */
963 static inline int pred_non_zero_count(H264Context *h, int n){
964     const int index8= scan8[n];
965     const int left= h->non_zero_count_cache[index8 - 1];
966     const int top = h->non_zero_count_cache[index8 - 8];
967     int i= left + top;
968     
969     if(i<64) i= (i+1)>>1;
970
971     tprintf("pred_nnz L%X T%X n%d s%d P%X\n", left, top, n, scan8[n], i&31);
972
973     return i&31;
974 }
975
976 static inline int fetch_diagonal_mv(H264Context *h, const int16_t **C, int i, int list, int part_width){
977     const int topright_ref= h->ref_cache[list][ i - 8 + part_width ];
978
979     if(topright_ref != PART_NOT_AVAILABLE){
980         *C= h->mv_cache[list][ i - 8 + part_width ];
981         return topright_ref;
982     }else{
983         tprintf("topright MV not available\n");
984
985         *C= h->mv_cache[list][ i - 8 - 1 ];
986         return h->ref_cache[list][ i - 8 - 1 ];
987     }
988 }
989
990 /**
991  * gets the predicted MV.
992  * @param n the block index
993  * @param part_width the width of the partition (4, 8,16) -> (1, 2, 4)
994  * @param mx the x component of the predicted motion vector
995  * @param my the y component of the predicted motion vector
996  */
997 static inline void pred_motion(H264Context * const h, int n, int part_width, int list, int ref, int * const mx, int * const my){
998     const int index8= scan8[n];
999     const int top_ref=      h->ref_cache[list][ index8 - 8 ];
1000     const int left_ref=     h->ref_cache[list][ index8 - 1 ];
1001     const int16_t * const A= h->mv_cache[list][ index8 - 1 ];
1002     const int16_t * const B= h->mv_cache[list][ index8 - 8 ];
1003     const int16_t * C;
1004     int diagonal_ref, match_count;
1005
1006     assert(part_width==1 || part_width==2 || part_width==4);
1007
1008 /* mv_cache
1009   B . . A T T T T 
1010   U . . L . . , .
1011   U . . L . . . .
1012   U . . L . . , .
1013   . . . L . . . .
1014 */
1015
1016     diagonal_ref= fetch_diagonal_mv(h, &C, index8, list, part_width);
1017     match_count= (diagonal_ref==ref) + (top_ref==ref) + (left_ref==ref);
1018     tprintf("pred_motion match_count=%d\n", match_count);
1019     if(match_count > 1){ //most common
1020         *mx= mid_pred(A[0], B[0], C[0]);
1021         *my= mid_pred(A[1], B[1], C[1]);
1022     }else if(match_count==1){
1023         if(left_ref==ref){
1024             *mx= A[0];
1025             *my= A[1];        
1026         }else if(top_ref==ref){
1027             *mx= B[0];
1028             *my= B[1];        
1029         }else{
1030             *mx= C[0];
1031             *my= C[1];        
1032         }
1033     }else{
1034         if(top_ref == PART_NOT_AVAILABLE && diagonal_ref == PART_NOT_AVAILABLE && left_ref != PART_NOT_AVAILABLE){
1035             *mx= A[0];
1036             *my= A[1];        
1037         }else{
1038             *mx= mid_pred(A[0], B[0], C[0]);
1039             *my= mid_pred(A[1], B[1], C[1]);
1040         }
1041     }
1042         
1043     tprintf("pred_motion (%2d %2d %2d) (%2d %2d %2d) (%2d %2d %2d) -> (%2d %2d %2d) at %2d %2d %d list %d\n", top_ref, B[0], B[1],                    diagonal_ref, C[0], C[1], left_ref, A[0], A[1], ref, *mx, *my, h->s.mb_x, h->s.mb_y, n, list);
1044 }
1045
1046 /**
1047  * gets the directionally predicted 16x8 MV.
1048  * @param n the block index
1049  * @param mx the x component of the predicted motion vector
1050  * @param my the y component of the predicted motion vector
1051  */
1052 static inline void pred_16x8_motion(H264Context * const h, int n, int list, int ref, int * const mx, int * const my){
1053     if(n==0){
1054         const int top_ref=      h->ref_cache[list][ scan8[0] - 8 ];
1055         const int16_t * const B= h->mv_cache[list][ scan8[0] - 8 ];
1056
1057         tprintf("pred_16x8: (%2d %2d %2d) at %2d %2d %d list %d\n", top_ref, B[0], B[1], h->s.mb_x, h->s.mb_y, n, list);
1058         
1059         if(top_ref == ref){
1060             *mx= B[0];
1061             *my= B[1];
1062             return;
1063         }
1064     }else{
1065         const int left_ref=     h->ref_cache[list][ scan8[8] - 1 ];
1066         const int16_t * const A= h->mv_cache[list][ scan8[8] - 1 ];
1067         
1068         tprintf("pred_16x8: (%2d %2d %2d) at %2d %2d %d list %d\n", left_ref, A[0], A[1], h->s.mb_x, h->s.mb_y, n, list);
1069
1070         if(left_ref == ref){
1071             *mx= A[0];
1072             *my= A[1];
1073             return;
1074         }
1075     }
1076
1077     //RARE
1078     pred_motion(h, n, 4, list, ref, mx, my);
1079 }
1080
1081 /**
1082  * gets the directionally predicted 8x16 MV.
1083  * @param n the block index
1084  * @param mx the x component of the predicted motion vector
1085  * @param my the y component of the predicted motion vector
1086  */
1087 static inline void pred_8x16_motion(H264Context * const h, int n, int list, int ref, int * const mx, int * const my){
1088     if(n==0){
1089         const int left_ref=      h->ref_cache[list][ scan8[0] - 1 ];
1090         const int16_t * const A=  h->mv_cache[list][ scan8[0] - 1 ];
1091         
1092         tprintf("pred_8x16: (%2d %2d %2d) at %2d %2d %d list %d\n", left_ref, A[0], A[1], h->s.mb_x, h->s.mb_y, n, list);
1093
1094         if(left_ref == ref){
1095             *mx= A[0];
1096             *my= A[1];
1097             return;
1098         }
1099     }else{
1100         const int16_t * C;
1101         int diagonal_ref;
1102
1103         diagonal_ref= fetch_diagonal_mv(h, &C, scan8[4], list, 2);
1104         
1105         tprintf("pred_8x16: (%2d %2d %2d) at %2d %2d %d list %d\n", diagonal_ref, C[0], C[1], h->s.mb_x, h->s.mb_y, n, list);
1106
1107         if(diagonal_ref == ref){ 
1108             *mx= C[0];
1109             *my= C[1];
1110             return;
1111         }
1112     }
1113
1114     //RARE
1115     pred_motion(h, n, 2, list, ref, mx, my);
1116 }
1117
1118 static inline void pred_pskip_motion(H264Context * const h, int * const mx, int * const my){
1119     const int top_ref = h->ref_cache[0][ scan8[0] - 8 ];
1120     const int left_ref= h->ref_cache[0][ scan8[0] - 1 ];
1121
1122     tprintf("pred_pskip: (%d) (%d) at %2d %2d\n", top_ref, left_ref, h->s.mb_x, h->s.mb_y);
1123
1124     if(top_ref == PART_NOT_AVAILABLE || left_ref == PART_NOT_AVAILABLE
1125        || (top_ref == 0  && *(uint32_t*)h->mv_cache[0][ scan8[0] - 8 ] == 0)
1126        || (left_ref == 0 && *(uint32_t*)h->mv_cache[0][ scan8[0] - 1 ] == 0)){
1127        
1128         *mx = *my = 0;
1129         return;
1130     }
1131         
1132     pred_motion(h, 0, 4, 0, 0, mx, my);
1133
1134     return;
1135 }
1136
1137 static inline void direct_dist_scale_factor(H264Context * const h){
1138     const int poc = h->s.current_picture_ptr->poc;
1139     const int poc1 = h->ref_list[1][0].poc;
1140     int i;
1141     for(i=0; i<h->ref_count[0]; i++){
1142         int poc0 = h->ref_list[0][i].poc;
1143         int td = clip(poc1 - poc0, -128, 127);
1144         if(td == 0 /* FIXME || pic0 is a long-term ref */){
1145             h->dist_scale_factor[i] = 256;
1146         }else{
1147             int tb = clip(poc - poc0, -128, 127);
1148             int tx = (16384 + (ABS(td) >> 1)) / td;
1149             h->dist_scale_factor[i] = clip((tb*tx + 32) >> 6, -1024, 1023);
1150         }
1151     }
1152 }
1153 static inline void direct_ref_list_init(H264Context * const h){
1154     MpegEncContext * const s = &h->s;
1155     Picture * const ref1 = &h->ref_list[1][0];
1156     Picture * const cur = s->current_picture_ptr;
1157     int list, i, j;
1158     if(cur->pict_type == I_TYPE)
1159         cur->ref_count[0] = 0;
1160     if(cur->pict_type != B_TYPE)
1161         cur->ref_count[1] = 0;
1162     for(list=0; list<2; list++){
1163         cur->ref_count[list] = h->ref_count[list];
1164         for(j=0; j<h->ref_count[list]; j++)
1165             cur->ref_poc[list][j] = h->ref_list[list][j].poc;
1166     }
1167     if(cur->pict_type != B_TYPE || h->direct_spatial_mv_pred)
1168         return;
1169     for(list=0; list<2; list++){
1170         for(i=0; i<ref1->ref_count[list]; i++){
1171             const int poc = ref1->ref_poc[list][i];
1172             h->map_col_to_list0[list][i] = PART_NOT_AVAILABLE;
1173             for(j=0; j<h->ref_count[list]; j++)
1174                 if(h->ref_list[list][j].poc == poc){
1175                     h->map_col_to_list0[list][i] = j;
1176                     break;
1177                 }
1178         }
1179     }
1180 }
1181
1182 static inline void pred_direct_motion(H264Context * const h, int *mb_type){
1183     MpegEncContext * const s = &h->s;
1184     const int mb_xy =   s->mb_x +   s->mb_y*s->mb_stride;
1185     const int b8_xy = 2*s->mb_x + 2*s->mb_y*h->b8_stride;
1186     const int b4_xy = 4*s->mb_x + 4*s->mb_y*h->b_stride;
1187     const int mb_type_col = h->ref_list[1][0].mb_type[mb_xy];
1188     const int16_t (*l1mv0)[2] = (const int16_t (*)[2]) &h->ref_list[1][0].motion_val[0][b4_xy];
1189     const int8_t *l1ref0 = &h->ref_list[1][0].ref_index[0][b8_xy];
1190     const int8_t *l1ref1 = &h->ref_list[1][0].ref_index[1][b8_xy];
1191     const int is_b8x8 = IS_8X8(*mb_type);
1192     int sub_mb_type;
1193     int i8, i4;
1194
1195     if(IS_8X8(mb_type_col) && !h->sps.direct_8x8_inference_flag){
1196         /* FIXME save sub mb types from previous frames (or derive from MVs)
1197          * so we know exactly what block size to use */
1198         sub_mb_type = MB_TYPE_8x8|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_4x4 */
1199         *mb_type =    MB_TYPE_8x8|MB_TYPE_L0L1;
1200     }else if(!is_b8x8 && (IS_16X16(mb_type_col) || IS_INTRA(mb_type_col))){
1201         sub_mb_type = MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_8x8 */
1202         *mb_type =    MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_16x16 */
1203     }else{
1204         sub_mb_type = MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_8x8 */
1205         *mb_type =    MB_TYPE_8x8|MB_TYPE_L0L1;
1206     }
1207     if(!is_b8x8)
1208         *mb_type |= MB_TYPE_DIRECT2;
1209
1210     tprintf("mb_type = %08x, sub_mb_type = %08x, is_b8x8 = %d, mb_type_col = %08x\n", *mb_type, sub_mb_type, is_b8x8, mb_type_col);
1211     
1212     if(h->direct_spatial_mv_pred){
1213         int ref[2];
1214         int mv[2][2];
1215         int list;
1216
1217         /* ref = min(neighbors) */
1218         for(list=0; list<2; list++){
1219             int refa = h->ref_cache[list][scan8[0] - 1];
1220             int refb = h->ref_cache[list][scan8[0] - 8];
1221             int refc = h->ref_cache[list][scan8[0] - 8 + 4];
1222             if(refc == -2)
1223                 refc = h->ref_cache[list][scan8[0] - 8 - 1];
1224             ref[list] = refa;
1225             if(ref[list] < 0 || (refb < ref[list] && refb >= 0))
1226                 ref[list] = refb;
1227             if(ref[list] < 0 || (refc < ref[list] && refc >= 0))
1228                 ref[list] = refc;
1229             if(ref[list] < 0)
1230                 ref[list] = -1;
1231         }
1232
1233         if(ref[0] < 0 && ref[1] < 0){
1234             ref[0] = ref[1] = 0;
1235             mv[0][0] = mv[0][1] =
1236             mv[1][0] = mv[1][1] = 0;
1237         }else{
1238             for(list=0; list<2; list++){
1239                 if(ref[list] >= 0)
1240                     pred_motion(h, 0, 4, list, ref[list], &mv[list][0], &mv[list][1]);
1241                 else
1242                     mv[list][0] = mv[list][1] = 0;
1243             }
1244         }
1245
1246         if(ref[1] < 0){
1247             *mb_type &= ~MB_TYPE_P0L1;
1248             sub_mb_type &= ~MB_TYPE_P0L1;
1249         }else if(ref[0] < 0){
1250             *mb_type &= ~MB_TYPE_P0L0;
1251             sub_mb_type &= ~MB_TYPE_P0L0;
1252         }
1253
1254         if(IS_16X16(*mb_type)){
1255             fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, ref[0], 1);
1256             fill_rectangle(&h->ref_cache[1][scan8[0]], 4, 4, 8, ref[1], 1);
1257             if(!IS_INTRA(mb_type_col) && l1ref0[0] == 0 &&
1258                 ABS(l1mv0[0][0]) <= 1 && ABS(l1mv0[0][1]) <= 1){
1259                 if(ref[0] > 0)
1260                     fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1261                 else
1262                     fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, 0, 4);
1263                 if(ref[1] > 0)
1264                     fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1265                 else
1266                     fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, 0, 4);
1267             }else{
1268                 fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1269                 fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1270             }
1271         }else{
1272             for(i8=0; i8<4; i8++){
1273                 const int x8 = i8&1;
1274                 const int y8 = i8>>1;
1275     
1276                 if(is_b8x8 && !IS_DIRECT(h->sub_mb_type[i8]))
1277                     continue;
1278                 h->sub_mb_type[i8] = sub_mb_type;
1279     
1280                 fill_rectangle(&h->mv_cache[0][scan8[i8*4]], 2, 2, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1281                 fill_rectangle(&h->mv_cache[1][scan8[i8*4]], 2, 2, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1282                 fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, ref[0], 1);
1283                 fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, ref[1], 1);
1284     
1285                 /* col_zero_flag */
1286                 if(!IS_INTRA(mb_type_col) && l1ref0[x8 + y8*h->b8_stride] == 0){
1287                     for(i4=0; i4<4; i4++){
1288                         const int16_t *mv_col = l1mv0[x8*2 + (i4&1) + (y8*2 + (i4>>1))*h->b_stride];
1289                         if(ABS(mv_col[0]) <= 1 && ABS(mv_col[1]) <= 1){
1290                             if(ref[0] == 0)
1291                                 *(uint32_t*)h->mv_cache[0][scan8[i8*4+i4]] = 0;
1292                             if(ref[1] == 0)
1293                                 *(uint32_t*)h->mv_cache[1][scan8[i8*4+i4]] = 0;
1294                         }
1295                     }
1296                 }
1297             }
1298         }
1299     }else{ /* direct temporal mv pred */
1300         if(IS_16X16(*mb_type)){
1301             fill_rectangle(&h->ref_cache[1][scan8[0]], 4, 4, 8, 0, 1);
1302             if(IS_INTRA(mb_type_col)){
1303                 fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, 0, 1);
1304                 fill_rectangle(&h-> mv_cache[0][scan8[0]], 4, 4, 8, 0, 4);
1305                 fill_rectangle(&h-> mv_cache[1][scan8[0]], 4, 4, 8, 0, 4);
1306             }else{
1307                 const int ref0 = l1ref0[0] >= 0 ? h->map_col_to_list0[0][l1ref0[0]]
1308                                                 : h->map_col_to_list0[1][l1ref1[0]];
1309                 const int dist_scale_factor = h->dist_scale_factor[ref0];
1310                 const int16_t *mv_col = l1mv0[0];
1311                 int mv_l0[2];
1312                 mv_l0[0] = (dist_scale_factor * mv_col[0] + 128) >> 8;
1313                 mv_l0[1] = (dist_scale_factor * mv_col[1] + 128) >> 8;
1314                 fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, ref0, 1);
1315                 fill_rectangle(&h-> mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv_l0[0],mv_l0[1]), 4);
1316                 fill_rectangle(&h-> mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv_l0[0]-mv_col[0],mv_l0[1]-mv_col[1]), 4);
1317             }
1318         }else{
1319             for(i8=0; i8<4; i8++){
1320                 const int x8 = i8&1;
1321                 const int y8 = i8>>1;
1322                 int ref0, dist_scale_factor;
1323     
1324                 if(is_b8x8 && !IS_DIRECT(h->sub_mb_type[i8]))
1325                     continue;
1326                 h->sub_mb_type[i8] = sub_mb_type;
1327                 if(IS_INTRA(mb_type_col)){
1328                     fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, 0, 1);
1329                     fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, 0, 1);
1330                     fill_rectangle(&h-> mv_cache[0][scan8[i8*4]], 2, 2, 8, 0, 4);
1331                     fill_rectangle(&h-> mv_cache[1][scan8[i8*4]], 2, 2, 8, 0, 4);
1332                     continue;
1333                 }
1334     
1335                 ref0 = l1ref0[x8 + y8*h->b8_stride];
1336                 if(ref0 >= 0)
1337                     ref0 = h->map_col_to_list0[0][ref0];
1338                 else
1339                     ref0 = h->map_col_to_list0[1][l1ref1[x8 + y8*h->b8_stride]];
1340                 dist_scale_factor = h->dist_scale_factor[ref0];
1341     
1342                 fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, ref0, 1);
1343                 fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, 0, 1);
1344                 for(i4=0; i4<4; i4++){
1345                     const int16_t *mv_col = l1mv0[x8*2 + (i4&1) + (y8*2 + (i4>>1))*h->b_stride];
1346                     int16_t *mv_l0 = h->mv_cache[0][scan8[i8*4+i4]];
1347                     mv_l0[0] = (dist_scale_factor * mv_col[0] + 128) >> 8;
1348                     mv_l0[1] = (dist_scale_factor * mv_col[1] + 128) >> 8;
1349                     *(uint32_t*)h->mv_cache[1][scan8[i8*4+i4]] =
1350                         pack16to32(mv_l0[0]-mv_col[0],mv_l0[1]-mv_col[1]);
1351                 }
1352             }
1353         }
1354     }
1355 }
1356
1357 static inline void write_back_motion(H264Context *h, int mb_type){
1358     MpegEncContext * const s = &h->s;
1359     const int b_xy = 4*s->mb_x + 4*s->mb_y*h->b_stride;
1360     const int b8_xy= 2*s->mb_x + 2*s->mb_y*h->b8_stride;
1361     int list;
1362
1363     for(list=0; list<2; list++){
1364         int y;
1365         if(!USES_LIST(mb_type, list)){
1366             if(1){ //FIXME skip or never read if mb_type doesnt use it
1367                 for(y=0; y<4; y++){
1368                     *(uint64_t*)s->current_picture.motion_val[list][b_xy + 0 + y*h->b_stride]=
1369                     *(uint64_t*)s->current_picture.motion_val[list][b_xy + 2 + y*h->b_stride]= 0;
1370                 }
1371                 if( h->pps.cabac ) {
1372                     /* FIXME needed ? */
1373                     for(y=0; y<4; y++){
1374                         *(uint64_t*)h->mvd_table[list][b_xy + 0 + y*h->b_stride]=
1375                         *(uint64_t*)h->mvd_table[list][b_xy + 2 + y*h->b_stride]= 0;
1376                     }
1377                 }
1378                 for(y=0; y<2; y++){
1379                     *(uint16_t*)&s->current_picture.ref_index[list][b8_xy + y*h->b8_stride]= (LIST_NOT_USED&0xFF)*0x0101;
1380                 }
1381             }
1382             continue;
1383         }
1384         
1385         for(y=0; y<4; y++){
1386             *(uint64_t*)s->current_picture.motion_val[list][b_xy + 0 + y*h->b_stride]= *(uint64_t*)h->mv_cache[list][scan8[0]+0 + 8*y];
1387             *(uint64_t*)s->current_picture.motion_val[list][b_xy + 2 + y*h->b_stride]= *(uint64_t*)h->mv_cache[list][scan8[0]+2 + 8*y];
1388         }
1389         if( h->pps.cabac ) {
1390             for(y=0; y<4; y++){
1391                 *(uint64_t*)h->mvd_table[list][b_xy + 0 + y*h->b_stride]= *(uint64_t*)h->mvd_cache[list][scan8[0]+0 + 8*y];
1392                 *(uint64_t*)h->mvd_table[list][b_xy + 2 + y*h->b_stride]= *(uint64_t*)h->mvd_cache[list][scan8[0]+2 + 8*y];
1393             }
1394         }
1395         for(y=0; y<2; y++){
1396             s->current_picture.ref_index[list][b8_xy + 0 + y*h->b8_stride]= h->ref_cache[list][scan8[0]+0 + 16*y];
1397             s->current_picture.ref_index[list][b8_xy + 1 + y*h->b8_stride]= h->ref_cache[list][scan8[0]+2 + 16*y];
1398         }
1399     }
1400     
1401     if(h->slice_type == B_TYPE && h->pps.cabac){
1402         if(IS_8X8(mb_type)){
1403             h->direct_table[b8_xy+1+0*h->b8_stride] = IS_DIRECT(h->sub_mb_type[1]) ? 1 : 0;
1404             h->direct_table[b8_xy+0+1*h->b8_stride] = IS_DIRECT(h->sub_mb_type[2]) ? 1 : 0;
1405             h->direct_table[b8_xy+1+1*h->b8_stride] = IS_DIRECT(h->sub_mb_type[3]) ? 1 : 0;
1406         }
1407     }
1408 }
1409
1410 /**
1411  * Decodes a network abstraction layer unit.
1412  * @param consumed is the number of bytes used as input
1413  * @param length is the length of the array
1414  * @param dst_length is the number of decoded bytes FIXME here or a decode rbsp ttailing?
1415  * @returns decoded bytes, might be src+1 if no escapes 
1416  */
1417 static uint8_t *decode_nal(H264Context *h, uint8_t *src, int *dst_length, int *consumed, int length){
1418     int i, si, di;
1419     uint8_t *dst;
1420
1421 //    src[0]&0x80;              //forbidden bit
1422     h->nal_ref_idc= src[0]>>5;
1423     h->nal_unit_type= src[0]&0x1F;
1424
1425     src++; length--;
1426 #if 0    
1427     for(i=0; i<length; i++)
1428         printf("%2X ", src[i]);
1429 #endif
1430     for(i=0; i+1<length; i+=2){
1431         if(src[i]) continue;
1432         if(i>0 && src[i-1]==0) i--;
1433         if(i+2<length && src[i+1]==0 && src[i+2]<=3){
1434             if(src[i+2]!=3){
1435                 /* startcode, so we must be past the end */
1436                 length=i;
1437             }
1438             break;
1439         }
1440     }
1441
1442     if(i>=length-1){ //no escaped 0
1443         *dst_length= length;
1444         *consumed= length+1; //+1 for the header
1445         return src; 
1446     }
1447
1448     h->rbsp_buffer= av_fast_realloc(h->rbsp_buffer, &h->rbsp_buffer_size, length);
1449     dst= h->rbsp_buffer;
1450
1451 //printf("deoding esc\n");
1452     si=di=0;
1453     while(si<length){ 
1454         //remove escapes (very rare 1:2^22)
1455         if(si+2<length && src[si]==0 && src[si+1]==0 && src[si+2]<=3){
1456             if(src[si+2]==3){ //escape
1457                 dst[di++]= 0;
1458                 dst[di++]= 0;
1459                 si+=3;
1460                 continue;
1461             }else //next start code
1462                 break;
1463         }
1464
1465         dst[di++]= src[si++];
1466     }
1467
1468     *dst_length= di;
1469     *consumed= si + 1;//+1 for the header
1470 //FIXME store exact number of bits in the getbitcontext (its needed for decoding)
1471     return dst;
1472 }
1473
1474 #if 0
1475 /**
1476  * @param src the data which should be escaped
1477  * @param dst the target buffer, dst+1 == src is allowed as a special case
1478  * @param length the length of the src data
1479  * @param dst_length the length of the dst array
1480  * @returns length of escaped data in bytes or -1 if an error occured
1481  */
1482 static int encode_nal(H264Context *h, uint8_t *dst, uint8_t *src, int length, int dst_length){
1483     int i, escape_count, si, di;
1484     uint8_t *temp;
1485     
1486     assert(length>=0);
1487     assert(dst_length>0);
1488     
1489     dst[0]= (h->nal_ref_idc<<5) + h->nal_unit_type;
1490
1491     if(length==0) return 1;
1492
1493     escape_count= 0;
1494     for(i=0; i<length; i+=2){
1495         if(src[i]) continue;
1496         if(i>0 && src[i-1]==0) 
1497             i--;
1498         if(i+2<length && src[i+1]==0 && src[i+2]<=3){
1499             escape_count++;
1500             i+=2;
1501         }
1502     }
1503     
1504     if(escape_count==0){ 
1505         if(dst+1 != src)
1506             memcpy(dst+1, src, length);
1507         return length + 1;
1508     }
1509     
1510     if(length + escape_count + 1> dst_length)
1511         return -1;
1512
1513     //this should be damn rare (hopefully)
1514
1515     h->rbsp_buffer= av_fast_realloc(h->rbsp_buffer, &h->rbsp_buffer_size, length + escape_count);
1516     temp= h->rbsp_buffer;
1517 //printf("encoding esc\n");
1518     
1519     si= 0;
1520     di= 0;
1521     while(si < length){
1522         if(si+2<length && src[si]==0 && src[si+1]==0 && src[si+2]<=3){
1523             temp[di++]= 0; si++;
1524             temp[di++]= 0; si++;
1525             temp[di++]= 3; 
1526             temp[di++]= src[si++];
1527         }
1528         else
1529             temp[di++]= src[si++];
1530     }
1531     memcpy(dst+1, temp, length+escape_count);
1532     
1533     assert(di == length+escape_count);
1534     
1535     return di + 1;
1536 }
1537
1538 /**
1539  * write 1,10,100,1000,... for alignment, yes its exactly inverse to mpeg4
1540  */
1541 static void encode_rbsp_trailing(PutBitContext *pb){
1542     int length;
1543     put_bits(pb, 1, 1);
1544     length= (-put_bits_count(pb))&7;
1545     if(length) put_bits(pb, length, 0);
1546 }
1547 #endif
1548
1549 /**
1550  * identifies the exact end of the bitstream
1551  * @return the length of the trailing, or 0 if damaged
1552  */
1553 static int decode_rbsp_trailing(uint8_t *src){
1554     int v= *src;
1555     int r;
1556
1557     tprintf("rbsp trailing %X\n", v);
1558
1559     for(r=1; r<9; r++){
1560         if(v&1) return r;
1561         v>>=1;
1562     }
1563     return 0;
1564 }
1565
1566 /**
1567  * idct tranforms the 16 dc values and dequantize them.
1568  * @param qp quantization parameter
1569  */
1570 static void h264_luma_dc_dequant_idct_c(DCTELEM *block, int qp){
1571     const int qmul= dequant_coeff[qp][0];
1572 #define stride 16
1573     int i;
1574     int temp[16]; //FIXME check if this is a good idea
1575     static const int x_offset[4]={0, 1*stride, 4* stride,  5*stride};
1576     static const int y_offset[4]={0, 2*stride, 8* stride, 10*stride};
1577
1578 //memset(block, 64, 2*256);
1579 //return;
1580     for(i=0; i<4; i++){
1581         const int offset= y_offset[i];
1582         const int z0= block[offset+stride*0] + block[offset+stride*4];
1583         const int z1= block[offset+stride*0] - block[offset+stride*4];
1584         const int z2= block[offset+stride*1] - block[offset+stride*5];
1585         const int z3= block[offset+stride*1] + block[offset+stride*5];
1586
1587         temp[4*i+0]= z0+z3;
1588         temp[4*i+1]= z1+z2;
1589         temp[4*i+2]= z1-z2;
1590         temp[4*i+3]= z0-z3;
1591     }
1592
1593     for(i=0; i<4; i++){
1594         const int offset= x_offset[i];
1595         const int z0= temp[4*0+i] + temp[4*2+i];
1596         const int z1= temp[4*0+i] - temp[4*2+i];
1597         const int z2= temp[4*1+i] - temp[4*3+i];
1598         const int z3= temp[4*1+i] + temp[4*3+i];
1599
1600         block[stride*0 +offset]= ((z0 + z3)*qmul + 2)>>2; //FIXME think about merging this into decode_resdual
1601         block[stride*2 +offset]= ((z1 + z2)*qmul + 2)>>2;
1602         block[stride*8 +offset]= ((z1 - z2)*qmul + 2)>>2;
1603         block[stride*10+offset]= ((z0 - z3)*qmul + 2)>>2;
1604     }
1605 }
1606
1607 #if 0
1608 /**
1609  * dct tranforms the 16 dc values.
1610  * @param qp quantization parameter ??? FIXME
1611  */
1612 static void h264_luma_dc_dct_c(DCTELEM *block/*, int qp*/){
1613 //    const int qmul= dequant_coeff[qp][0];
1614     int i;
1615     int temp[16]; //FIXME check if this is a good idea
1616     static const int x_offset[4]={0, 1*stride, 4* stride,  5*stride};
1617     static const int y_offset[4]={0, 2*stride, 8* stride, 10*stride};
1618
1619     for(i=0; i<4; i++){
1620         const int offset= y_offset[i];
1621         const int z0= block[offset+stride*0] + block[offset+stride*4];
1622         const int z1= block[offset+stride*0] - block[offset+stride*4];
1623         const int z2= block[offset+stride*1] - block[offset+stride*5];
1624         const int z3= block[offset+stride*1] + block[offset+stride*5];
1625
1626         temp[4*i+0]= z0+z3;
1627         temp[4*i+1]= z1+z2;
1628         temp[4*i+2]= z1-z2;
1629         temp[4*i+3]= z0-z3;
1630     }
1631
1632     for(i=0; i<4; i++){
1633         const int offset= x_offset[i];
1634         const int z0= temp[4*0+i] + temp[4*2+i];
1635         const int z1= temp[4*0+i] - temp[4*2+i];
1636         const int z2= temp[4*1+i] - temp[4*3+i];
1637         const int z3= temp[4*1+i] + temp[4*3+i];
1638
1639         block[stride*0 +offset]= (z0 + z3)>>1;
1640         block[stride*2 +offset]= (z1 + z2)>>1;
1641         block[stride*8 +offset]= (z1 - z2)>>1;
1642         block[stride*10+offset]= (z0 - z3)>>1;
1643     }
1644 }
1645 #endif
1646
1647 #undef xStride
1648 #undef stride
1649
1650 static void chroma_dc_dequant_idct_c(DCTELEM *block, int qp){
1651     const int qmul= dequant_coeff[qp][0];
1652     const int stride= 16*2;
1653     const int xStride= 16;
1654     int a,b,c,d,e;
1655
1656     a= block[stride*0 + xStride*0];
1657     b= block[stride*0 + xStride*1];
1658     c= block[stride*1 + xStride*0];
1659     d= block[stride*1 + xStride*1];
1660
1661     e= a-b;
1662     a= a+b;
1663     b= c-d;
1664     c= c+d;
1665
1666     block[stride*0 + xStride*0]= ((a+c)*qmul + 0)>>1;
1667     block[stride*0 + xStride*1]= ((e+b)*qmul + 0)>>1;
1668     block[stride*1 + xStride*0]= ((a-c)*qmul + 0)>>1;
1669     block[stride*1 + xStride*1]= ((e-b)*qmul + 0)>>1;
1670 }
1671
1672 #if 0
1673 static void chroma_dc_dct_c(DCTELEM *block){
1674     const int stride= 16*2;
1675     const int xStride= 16;
1676     int a,b,c,d,e;
1677
1678     a= block[stride*0 + xStride*0];
1679     b= block[stride*0 + xStride*1];
1680     c= block[stride*1 + xStride*0];
1681     d= block[stride*1 + xStride*1];
1682
1683     e= a-b;
1684     a= a+b;
1685     b= c-d;
1686     c= c+d;
1687
1688     block[stride*0 + xStride*0]= (a+c);
1689     block[stride*0 + xStride*1]= (e+b);
1690     block[stride*1 + xStride*0]= (a-c);
1691     block[stride*1 + xStride*1]= (e-b);
1692 }
1693 #endif
1694
1695 /**
1696  * gets the chroma qp.
1697  */
1698 static inline int get_chroma_qp(int chroma_qp_index_offset, int qscale){
1699     
1700     return chroma_qp[clip(qscale + chroma_qp_index_offset, 0, 51)];
1701 }
1702
1703
1704 #if 0
1705 static void h264_diff_dct_c(DCTELEM *block, uint8_t *src1, uint8_t *src2, int stride){
1706     int i;
1707     //FIXME try int temp instead of block
1708     
1709     for(i=0; i<4; i++){
1710         const int d0= src1[0 + i*stride] - src2[0 + i*stride];
1711         const int d1= src1[1 + i*stride] - src2[1 + i*stride];
1712         const int d2= src1[2 + i*stride] - src2[2 + i*stride];
1713         const int d3= src1[3 + i*stride] - src2[3 + i*stride];
1714         const int z0= d0 + d3;
1715         const int z3= d0 - d3;
1716         const int z1= d1 + d2;
1717         const int z2= d1 - d2;
1718         
1719         block[0 + 4*i]=   z0 +   z1;
1720         block[1 + 4*i]= 2*z3 +   z2;
1721         block[2 + 4*i]=   z0 -   z1;
1722         block[3 + 4*i]=   z3 - 2*z2;
1723     }    
1724
1725     for(i=0; i<4; i++){
1726         const int z0= block[0*4 + i] + block[3*4 + i];
1727         const int z3= block[0*4 + i] - block[3*4 + i];
1728         const int z1= block[1*4 + i] + block[2*4 + i];
1729         const int z2= block[1*4 + i] - block[2*4 + i];
1730         
1731         block[0*4 + i]=   z0 +   z1;
1732         block[1*4 + i]= 2*z3 +   z2;
1733         block[2*4 + i]=   z0 -   z1;
1734         block[3*4 + i]=   z3 - 2*z2;
1735     }
1736 }
1737 #endif
1738
1739 //FIXME need to check that this doesnt overflow signed 32 bit for low qp, iam not sure, its very close
1740 //FIXME check that gcc inlines this (and optimizes intra & seperate_dc stuff away)
1741 static inline int quantize_c(DCTELEM *block, uint8_t *scantable, int qscale, int intra, int seperate_dc){
1742     int i;
1743     const int * const quant_table= quant_coeff[qscale];
1744     const int bias= intra ? (1<<QUANT_SHIFT)/3 : (1<<QUANT_SHIFT)/6;
1745     const unsigned int threshold1= (1<<QUANT_SHIFT) - bias - 1;
1746     const unsigned int threshold2= (threshold1<<1);
1747     int last_non_zero;
1748
1749     if(seperate_dc){
1750         if(qscale<=18){
1751             //avoid overflows
1752             const int dc_bias= intra ? (1<<(QUANT_SHIFT-2))/3 : (1<<(QUANT_SHIFT-2))/6;
1753             const unsigned int dc_threshold1= (1<<(QUANT_SHIFT-2)) - dc_bias - 1;
1754             const unsigned int dc_threshold2= (dc_threshold1<<1);
1755
1756             int level= block[0]*quant_coeff[qscale+18][0];
1757             if(((unsigned)(level+dc_threshold1))>dc_threshold2){
1758                 if(level>0){
1759                     level= (dc_bias + level)>>(QUANT_SHIFT-2);
1760                     block[0]= level;
1761                 }else{
1762                     level= (dc_bias - level)>>(QUANT_SHIFT-2);
1763                     block[0]= -level;
1764                 }
1765 //                last_non_zero = i;
1766             }else{
1767                 block[0]=0;
1768             }
1769         }else{
1770             const int dc_bias= intra ? (1<<(QUANT_SHIFT+1))/3 : (1<<(QUANT_SHIFT+1))/6;
1771             const unsigned int dc_threshold1= (1<<(QUANT_SHIFT+1)) - dc_bias - 1;
1772             const unsigned int dc_threshold2= (dc_threshold1<<1);
1773
1774             int level= block[0]*quant_table[0];
1775             if(((unsigned)(level+dc_threshold1))>dc_threshold2){
1776                 if(level>0){
1777                     level= (dc_bias + level)>>(QUANT_SHIFT+1);
1778                     block[0]= level;
1779                 }else{
1780                     level= (dc_bias - level)>>(QUANT_SHIFT+1);
1781                     block[0]= -level;
1782                 }
1783 //                last_non_zero = i;
1784             }else{
1785                 block[0]=0;
1786             }
1787         }
1788         last_non_zero= 0;
1789         i=1;
1790     }else{
1791         last_non_zero= -1;
1792         i=0;
1793     }
1794
1795     for(; i<16; i++){
1796         const int j= scantable[i];
1797         int level= block[j]*quant_table[j];
1798
1799 //        if(   bias+level >= (1<<(QMAT_SHIFT - 3))
1800 //           || bias-level >= (1<<(QMAT_SHIFT - 3))){
1801         if(((unsigned)(level+threshold1))>threshold2){
1802             if(level>0){
1803                 level= (bias + level)>>QUANT_SHIFT;
1804                 block[j]= level;
1805             }else{
1806                 level= (bias - level)>>QUANT_SHIFT;
1807                 block[j]= -level;
1808             }
1809             last_non_zero = i;
1810         }else{
1811             block[j]=0;
1812         }
1813     }
1814
1815     return last_non_zero;
1816 }
1817
1818 static void pred4x4_vertical_c(uint8_t *src, uint8_t *topright, int stride){
1819     const uint32_t a= ((uint32_t*)(src-stride))[0];
1820     ((uint32_t*)(src+0*stride))[0]= a;
1821     ((uint32_t*)(src+1*stride))[0]= a;
1822     ((uint32_t*)(src+2*stride))[0]= a;
1823     ((uint32_t*)(src+3*stride))[0]= a;
1824 }
1825
1826 static void pred4x4_horizontal_c(uint8_t *src, uint8_t *topright, int stride){
1827     ((uint32_t*)(src+0*stride))[0]= src[-1+0*stride]*0x01010101;
1828     ((uint32_t*)(src+1*stride))[0]= src[-1+1*stride]*0x01010101;
1829     ((uint32_t*)(src+2*stride))[0]= src[-1+2*stride]*0x01010101;
1830     ((uint32_t*)(src+3*stride))[0]= src[-1+3*stride]*0x01010101;
1831 }
1832
1833 static void pred4x4_dc_c(uint8_t *src, uint8_t *topright, int stride){
1834     const int dc= (  src[-stride] + src[1-stride] + src[2-stride] + src[3-stride]
1835                    + src[-1+0*stride] + src[-1+1*stride] + src[-1+2*stride] + src[-1+3*stride] + 4) >>3;
1836     
1837     ((uint32_t*)(src+0*stride))[0]= 
1838     ((uint32_t*)(src+1*stride))[0]= 
1839     ((uint32_t*)(src+2*stride))[0]= 
1840     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1841 }
1842
1843 static void pred4x4_left_dc_c(uint8_t *src, uint8_t *topright, int stride){
1844     const int dc= (  src[-1+0*stride] + src[-1+1*stride] + src[-1+2*stride] + src[-1+3*stride] + 2) >>2;
1845     
1846     ((uint32_t*)(src+0*stride))[0]= 
1847     ((uint32_t*)(src+1*stride))[0]= 
1848     ((uint32_t*)(src+2*stride))[0]= 
1849     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1850 }
1851
1852 static void pred4x4_top_dc_c(uint8_t *src, uint8_t *topright, int stride){
1853     const int dc= (  src[-stride] + src[1-stride] + src[2-stride] + src[3-stride] + 2) >>2;
1854     
1855     ((uint32_t*)(src+0*stride))[0]= 
1856     ((uint32_t*)(src+1*stride))[0]= 
1857     ((uint32_t*)(src+2*stride))[0]= 
1858     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1859 }
1860
1861 static void pred4x4_128_dc_c(uint8_t *src, uint8_t *topright, int stride){
1862     ((uint32_t*)(src+0*stride))[0]= 
1863     ((uint32_t*)(src+1*stride))[0]= 
1864     ((uint32_t*)(src+2*stride))[0]= 
1865     ((uint32_t*)(src+3*stride))[0]= 128U*0x01010101U;
1866 }
1867
1868
1869 #define LOAD_TOP_RIGHT_EDGE\
1870     const int t4= topright[0];\
1871     const int t5= topright[1];\
1872     const int t6= topright[2];\
1873     const int t7= topright[3];\
1874
1875 #define LOAD_LEFT_EDGE\
1876     const int l0= src[-1+0*stride];\
1877     const int l1= src[-1+1*stride];\
1878     const int l2= src[-1+2*stride];\
1879     const int l3= src[-1+3*stride];\
1880
1881 #define LOAD_TOP_EDGE\
1882     const int t0= src[ 0-1*stride];\
1883     const int t1= src[ 1-1*stride];\
1884     const int t2= src[ 2-1*stride];\
1885     const int t3= src[ 3-1*stride];\
1886
1887 static void pred4x4_down_right_c(uint8_t *src, uint8_t *topright, int stride){
1888     const int lt= src[-1-1*stride];
1889     LOAD_TOP_EDGE
1890     LOAD_LEFT_EDGE
1891
1892     src[0+3*stride]=(l3 + 2*l2 + l1 + 2)>>2; 
1893     src[0+2*stride]=
1894     src[1+3*stride]=(l2 + 2*l1 + l0 + 2)>>2; 
1895     src[0+1*stride]=
1896     src[1+2*stride]=
1897     src[2+3*stride]=(l1 + 2*l0 + lt + 2)>>2; 
1898     src[0+0*stride]=
1899     src[1+1*stride]=
1900     src[2+2*stride]=
1901     src[3+3*stride]=(l0 + 2*lt + t0 + 2)>>2; 
1902     src[1+0*stride]=
1903     src[2+1*stride]=
1904     src[3+2*stride]=(lt + 2*t0 + t1 + 2)>>2;
1905     src[2+0*stride]=
1906     src[3+1*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1907     src[3+0*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1908 }
1909
1910 static void pred4x4_down_left_c(uint8_t *src, uint8_t *topright, int stride){
1911     LOAD_TOP_EDGE    
1912     LOAD_TOP_RIGHT_EDGE    
1913 //    LOAD_LEFT_EDGE    
1914
1915     src[0+0*stride]=(t0 + t2 + 2*t1 + 2)>>2;
1916     src[1+0*stride]=
1917     src[0+1*stride]=(t1 + t3 + 2*t2 + 2)>>2;
1918     src[2+0*stride]=
1919     src[1+1*stride]=
1920     src[0+2*stride]=(t2 + t4 + 2*t3 + 2)>>2;
1921     src[3+0*stride]=
1922     src[2+1*stride]=
1923     src[1+2*stride]=
1924     src[0+3*stride]=(t3 + t5 + 2*t4 + 2)>>2;
1925     src[3+1*stride]=
1926     src[2+2*stride]=
1927     src[1+3*stride]=(t4 + t6 + 2*t5 + 2)>>2;
1928     src[3+2*stride]=
1929     src[2+3*stride]=(t5 + t7 + 2*t6 + 2)>>2;
1930     src[3+3*stride]=(t6 + 3*t7 + 2)>>2;
1931 }
1932
1933 static void pred4x4_vertical_right_c(uint8_t *src, uint8_t *topright, int stride){
1934     const int lt= src[-1-1*stride];
1935     LOAD_TOP_EDGE    
1936     LOAD_LEFT_EDGE    
1937     const __attribute__((unused)) int unu= l3;
1938
1939     src[0+0*stride]=
1940     src[1+2*stride]=(lt + t0 + 1)>>1;
1941     src[1+0*stride]=
1942     src[2+2*stride]=(t0 + t1 + 1)>>1;
1943     src[2+0*stride]=
1944     src[3+2*stride]=(t1 + t2 + 1)>>1;
1945     src[3+0*stride]=(t2 + t3 + 1)>>1;
1946     src[0+1*stride]=
1947     src[1+3*stride]=(l0 + 2*lt + t0 + 2)>>2;
1948     src[1+1*stride]=
1949     src[2+3*stride]=(lt + 2*t0 + t1 + 2)>>2;
1950     src[2+1*stride]=
1951     src[3+3*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1952     src[3+1*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1953     src[0+2*stride]=(lt + 2*l0 + l1 + 2)>>2;
1954     src[0+3*stride]=(l0 + 2*l1 + l2 + 2)>>2;
1955 }
1956
1957 static void pred4x4_vertical_left_c(uint8_t *src, uint8_t *topright, int stride){
1958     LOAD_TOP_EDGE    
1959     LOAD_TOP_RIGHT_EDGE    
1960     const __attribute__((unused)) int unu= t7;
1961
1962     src[0+0*stride]=(t0 + t1 + 1)>>1;
1963     src[1+0*stride]=
1964     src[0+2*stride]=(t1 + t2 + 1)>>1;
1965     src[2+0*stride]=
1966     src[1+2*stride]=(t2 + t3 + 1)>>1;
1967     src[3+0*stride]=
1968     src[2+2*stride]=(t3 + t4+ 1)>>1;
1969     src[3+2*stride]=(t4 + t5+ 1)>>1;
1970     src[0+1*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1971     src[1+1*stride]=
1972     src[0+3*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1973     src[2+1*stride]=
1974     src[1+3*stride]=(t2 + 2*t3 + t4 + 2)>>2;
1975     src[3+1*stride]=
1976     src[2+3*stride]=(t3 + 2*t4 + t5 + 2)>>2;
1977     src[3+3*stride]=(t4 + 2*t5 + t6 + 2)>>2;
1978 }
1979
1980 static void pred4x4_horizontal_up_c(uint8_t *src, uint8_t *topright, int stride){
1981     LOAD_LEFT_EDGE    
1982
1983     src[0+0*stride]=(l0 + l1 + 1)>>1;
1984     src[1+0*stride]=(l0 + 2*l1 + l2 + 2)>>2;
1985     src[2+0*stride]=
1986     src[0+1*stride]=(l1 + l2 + 1)>>1;
1987     src[3+0*stride]=
1988     src[1+1*stride]=(l1 + 2*l2 + l3 + 2)>>2;
1989     src[2+1*stride]=
1990     src[0+2*stride]=(l2 + l3 + 1)>>1;
1991     src[3+1*stride]=
1992     src[1+2*stride]=(l2 + 2*l3 + l3 + 2)>>2;
1993     src[3+2*stride]=
1994     src[1+3*stride]=
1995     src[0+3*stride]=
1996     src[2+2*stride]=
1997     src[2+3*stride]=
1998     src[3+3*stride]=l3;
1999 }
2000     
2001 static void pred4x4_horizontal_down_c(uint8_t *src, uint8_t *topright, int stride){
2002     const int lt= src[-1-1*stride];
2003     LOAD_TOP_EDGE    
2004     LOAD_LEFT_EDGE    
2005     const __attribute__((unused)) int unu= t3;
2006
2007     src[0+0*stride]=
2008     src[2+1*stride]=(lt + l0 + 1)>>1;
2009     src[1+0*stride]=
2010     src[3+1*stride]=(l0 + 2*lt + t0 + 2)>>2;
2011     src[2+0*stride]=(lt + 2*t0 + t1 + 2)>>2;
2012     src[3+0*stride]=(t0 + 2*t1 + t2 + 2)>>2;
2013     src[0+1*stride]=
2014     src[2+2*stride]=(l0 + l1 + 1)>>1;
2015     src[1+1*stride]=
2016     src[3+2*stride]=(lt + 2*l0 + l1 + 2)>>2;
2017     src[0+2*stride]=
2018     src[2+3*stride]=(l1 + l2+ 1)>>1;
2019     src[1+2*stride]=
2020     src[3+3*stride]=(l0 + 2*l1 + l2 + 2)>>2;
2021     src[0+3*stride]=(l2 + l3 + 1)>>1;
2022     src[1+3*stride]=(l1 + 2*l2 + l3 + 2)>>2;
2023 }
2024
2025 static void pred16x16_vertical_c(uint8_t *src, int stride){
2026     int i;
2027     const uint32_t a= ((uint32_t*)(src-stride))[0];
2028     const uint32_t b= ((uint32_t*)(src-stride))[1];
2029     const uint32_t c= ((uint32_t*)(src-stride))[2];
2030     const uint32_t d= ((uint32_t*)(src-stride))[3];
2031     
2032     for(i=0; i<16; i++){
2033         ((uint32_t*)(src+i*stride))[0]= a;
2034         ((uint32_t*)(src+i*stride))[1]= b;
2035         ((uint32_t*)(src+i*stride))[2]= c;
2036         ((uint32_t*)(src+i*stride))[3]= d;
2037     }
2038 }
2039
2040 static void pred16x16_horizontal_c(uint8_t *src, int stride){
2041     int i;
2042
2043     for(i=0; i<16; i++){
2044         ((uint32_t*)(src+i*stride))[0]=
2045         ((uint32_t*)(src+i*stride))[1]=
2046         ((uint32_t*)(src+i*stride))[2]=
2047         ((uint32_t*)(src+i*stride))[3]= src[-1+i*stride]*0x01010101;
2048     }
2049 }
2050
2051 static void pred16x16_dc_c(uint8_t *src, int stride){
2052     int i, dc=0;
2053
2054     for(i=0;i<16; i++){
2055         dc+= src[-1+i*stride];
2056     }
2057     
2058     for(i=0;i<16; i++){
2059         dc+= src[i-stride];
2060     }
2061
2062     dc= 0x01010101*((dc + 16)>>5);
2063
2064     for(i=0; i<16; i++){
2065         ((uint32_t*)(src+i*stride))[0]=
2066         ((uint32_t*)(src+i*stride))[1]=
2067         ((uint32_t*)(src+i*stride))[2]=
2068         ((uint32_t*)(src+i*stride))[3]= dc;
2069     }
2070 }
2071
2072 static void pred16x16_left_dc_c(uint8_t *src, int stride){
2073     int i, dc=0;
2074
2075     for(i=0;i<16; i++){
2076         dc+= src[-1+i*stride];
2077     }
2078     
2079     dc= 0x01010101*((dc + 8)>>4);
2080
2081     for(i=0; i<16; i++){
2082         ((uint32_t*)(src+i*stride))[0]=
2083         ((uint32_t*)(src+i*stride))[1]=
2084         ((uint32_t*)(src+i*stride))[2]=
2085         ((uint32_t*)(src+i*stride))[3]= dc;
2086     }
2087 }
2088
2089 static void pred16x16_top_dc_c(uint8_t *src, int stride){
2090     int i, dc=0;
2091
2092     for(i=0;i<16; i++){
2093         dc+= src[i-stride];
2094     }
2095     dc= 0x01010101*((dc + 8)>>4);
2096
2097     for(i=0; i<16; i++){
2098         ((uint32_t*)(src+i*stride))[0]=
2099         ((uint32_t*)(src+i*stride))[1]=
2100         ((uint32_t*)(src+i*stride))[2]=
2101         ((uint32_t*)(src+i*stride))[3]= dc;
2102     }
2103 }
2104
2105 static void pred16x16_128_dc_c(uint8_t *src, int stride){
2106     int i;
2107
2108     for(i=0; i<16; i++){
2109         ((uint32_t*)(src+i*stride))[0]=
2110         ((uint32_t*)(src+i*stride))[1]=
2111         ((uint32_t*)(src+i*stride))[2]=
2112         ((uint32_t*)(src+i*stride))[3]= 0x01010101U*128U;
2113     }
2114 }
2115
2116 static inline void pred16x16_plane_compat_c(uint8_t *src, int stride, const int svq3){
2117   int i, j, k;
2118   int a;
2119   uint8_t *cm = cropTbl + MAX_NEG_CROP;
2120   const uint8_t * const src0 = src+7-stride;
2121   const uint8_t *src1 = src+8*stride-1;
2122   const uint8_t *src2 = src1-2*stride;      // == src+6*stride-1;
2123   int H = src0[1] - src0[-1];
2124   int V = src1[0] - src2[ 0];
2125   for(k=2; k<=8; ++k) {
2126     src1 += stride; src2 -= stride;
2127     H += k*(src0[k] - src0[-k]);
2128     V += k*(src1[0] - src2[ 0]);
2129   }
2130   if(svq3){
2131     H = ( 5*(H/4) ) / 16;
2132     V = ( 5*(V/4) ) / 16;
2133
2134     /* required for 100% accuracy */
2135     i = H; H = V; V = i;
2136   }else{
2137     H = ( 5*H+32 ) >> 6;
2138     V = ( 5*V+32 ) >> 6;
2139   }
2140
2141   a = 16*(src1[0] + src2[16] + 1) - 7*(V+H);
2142   for(j=16; j>0; --j) {
2143     int b = a;
2144     a += V;
2145     for(i=-16; i<0; i+=4) {
2146       src[16+i] = cm[ (b    ) >> 5 ];
2147       src[17+i] = cm[ (b+  H) >> 5 ];
2148       src[18+i] = cm[ (b+2*H) >> 5 ];
2149       src[19+i] = cm[ (b+3*H) >> 5 ];
2150       b += 4*H;
2151     }
2152     src += stride;
2153   }
2154 }
2155
2156 static void pred16x16_plane_c(uint8_t *src, int stride){
2157     pred16x16_plane_compat_c(src, stride, 0);
2158 }
2159
2160 static void pred8x8_vertical_c(uint8_t *src, int stride){
2161     int i;
2162     const uint32_t a= ((uint32_t*)(src-stride))[0];
2163     const uint32_t b= ((uint32_t*)(src-stride))[1];
2164     
2165     for(i=0; i<8; i++){
2166         ((uint32_t*)(src+i*stride))[0]= a;
2167         ((uint32_t*)(src+i*stride))[1]= b;
2168     }
2169 }
2170
2171 static void pred8x8_horizontal_c(uint8_t *src, int stride){
2172     int i;
2173
2174     for(i=0; i<8; i++){
2175         ((uint32_t*)(src+i*stride))[0]=
2176         ((uint32_t*)(src+i*stride))[1]= src[-1+i*stride]*0x01010101;
2177     }
2178 }
2179
2180 static void pred8x8_128_dc_c(uint8_t *src, int stride){
2181     int i;
2182
2183     for(i=0; i<4; i++){
2184         ((uint32_t*)(src+i*stride))[0]= 
2185         ((uint32_t*)(src+i*stride))[1]= 0x01010101U*128U;
2186     }
2187     for(i=4; i<8; i++){
2188         ((uint32_t*)(src+i*stride))[0]= 
2189         ((uint32_t*)(src+i*stride))[1]= 0x01010101U*128U;
2190     }
2191 }
2192
2193 static void pred8x8_left_dc_c(uint8_t *src, int stride){
2194     int i;
2195     int dc0, dc2;
2196
2197     dc0=dc2=0;
2198     for(i=0;i<4; i++){
2199         dc0+= src[-1+i*stride];
2200         dc2+= src[-1+(i+4)*stride];
2201     }
2202     dc0= 0x01010101*((dc0 + 2)>>2);
2203     dc2= 0x01010101*((dc2 + 2)>>2);
2204
2205     for(i=0; i<4; i++){
2206         ((uint32_t*)(src+i*stride))[0]=
2207         ((uint32_t*)(src+i*stride))[1]= dc0;
2208     }
2209     for(i=4; i<8; i++){
2210         ((uint32_t*)(src+i*stride))[0]=
2211         ((uint32_t*)(src+i*stride))[1]= dc2;
2212     }
2213 }
2214
2215 static void pred8x8_top_dc_c(uint8_t *src, int stride){
2216     int i;
2217     int dc0, dc1;
2218
2219     dc0=dc1=0;
2220     for(i=0;i<4; i++){
2221         dc0+= src[i-stride];
2222         dc1+= src[4+i-stride];
2223     }
2224     dc0= 0x01010101*((dc0 + 2)>>2);
2225     dc1= 0x01010101*((dc1 + 2)>>2);
2226
2227     for(i=0; i<4; i++){
2228         ((uint32_t*)(src+i*stride))[0]= dc0;
2229         ((uint32_t*)(src+i*stride))[1]= dc1;
2230     }
2231     for(i=4; i<8; i++){
2232         ((uint32_t*)(src+i*stride))[0]= dc0;
2233         ((uint32_t*)(src+i*stride))[1]= dc1;
2234     }
2235 }
2236
2237
2238 static void pred8x8_dc_c(uint8_t *src, int stride){
2239     int i;
2240     int dc0, dc1, dc2, dc3;
2241
2242     dc0=dc1=dc2=0;
2243     for(i=0;i<4; i++){
2244         dc0+= src[-1+i*stride] + src[i-stride];
2245         dc1+= src[4+i-stride];
2246         dc2+= src[-1+(i+4)*stride];
2247     }
2248     dc3= 0x01010101*((dc1 + dc2 + 4)>>3);
2249     dc0= 0x01010101*((dc0 + 4)>>3);
2250     dc1= 0x01010101*((dc1 + 2)>>2);
2251     dc2= 0x01010101*((dc2 + 2)>>2);
2252
2253     for(i=0; i<4; i++){
2254         ((uint32_t*)(src+i*stride))[0]= dc0;
2255         ((uint32_t*)(src+i*stride))[1]= dc1;
2256     }
2257     for(i=4; i<8; i++){
2258         ((uint32_t*)(src+i*stride))[0]= dc2;
2259         ((uint32_t*)(src+i*stride))[1]= dc3;
2260     }
2261 }
2262
2263 static void pred8x8_plane_c(uint8_t *src, int stride){
2264   int j, k;
2265   int a;
2266   uint8_t *cm = cropTbl + MAX_NEG_CROP;
2267   const uint8_t * const src0 = src+3-stride;
2268   const uint8_t *src1 = src+4*stride-1;
2269   const uint8_t *src2 = src1-2*stride;      // == src+2*stride-1;
2270   int H = src0[1] - src0[-1];
2271   int V = src1[0] - src2[ 0];
2272   for(k=2; k<=4; ++k) {
2273     src1 += stride; src2 -= stride;
2274     H += k*(src0[k] - src0[-k]);
2275     V += k*(src1[0] - src2[ 0]);
2276   }
2277   H = ( 17*H+16 ) >> 5;
2278   V = ( 17*V+16 ) >> 5;
2279
2280   a = 16*(src1[0] + src2[8]+1) - 3*(V+H);
2281   for(j=8; j>0; --j) {
2282     int b = a;
2283     a += V;
2284     src[0] = cm[ (b    ) >> 5 ];
2285     src[1] = cm[ (b+  H) >> 5 ];
2286     src[2] = cm[ (b+2*H) >> 5 ];
2287     src[3] = cm[ (b+3*H) >> 5 ];
2288     src[4] = cm[ (b+4*H) >> 5 ];
2289     src[5] = cm[ (b+5*H) >> 5 ];
2290     src[6] = cm[ (b+6*H) >> 5 ];
2291     src[7] = cm[ (b+7*H) >> 5 ];
2292     src += stride;
2293   }
2294 }
2295
2296 static inline void mc_dir_part(H264Context *h, Picture *pic, int n, int square, int chroma_height, int delta, int list,
2297                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2298                            int src_x_offset, int src_y_offset,
2299                            qpel_mc_func *qpix_op, h264_chroma_mc_func chroma_op){
2300     MpegEncContext * const s = &h->s;
2301     const int mx= h->mv_cache[list][ scan8[n] ][0] + src_x_offset*8;
2302     const int my= h->mv_cache[list][ scan8[n] ][1] + src_y_offset*8;
2303     const int luma_xy= (mx&3) + ((my&3)<<2);
2304     uint8_t * src_y = pic->data[0] + (mx>>2) + (my>>2)*s->linesize;
2305     uint8_t * src_cb= pic->data[1] + (mx>>3) + (my>>3)*s->uvlinesize;
2306     uint8_t * src_cr= pic->data[2] + (mx>>3) + (my>>3)*s->uvlinesize;
2307     int extra_width= (s->flags&CODEC_FLAG_EMU_EDGE) ? 0 : 16; //FIXME increase edge?, IMHO not worth it
2308     int extra_height= extra_width;
2309     int emu=0;
2310     const int full_mx= mx>>2;
2311     const int full_my= my>>2;
2312     
2313     assert(pic->data[0]);
2314     
2315     if(mx&7) extra_width -= 3;
2316     if(my&7) extra_height -= 3;
2317     
2318     if(   full_mx < 0-extra_width 
2319        || full_my < 0-extra_height 
2320        || full_mx + 16/*FIXME*/ > s->width + extra_width 
2321        || full_my + 16/*FIXME*/ > s->height + extra_height){
2322         ff_emulated_edge_mc(s->edge_emu_buffer, src_y - 2 - 2*s->linesize, s->linesize, 16+5, 16+5/*FIXME*/, full_mx-2, full_my-2, s->width, s->height);
2323             src_y= s->edge_emu_buffer + 2 + 2*s->linesize;
2324         emu=1;
2325     }
2326     
2327     qpix_op[luma_xy](dest_y, src_y, s->linesize); //FIXME try variable height perhaps?
2328     if(!square){
2329         qpix_op[luma_xy](dest_y + delta, src_y + delta, s->linesize);
2330     }
2331     
2332     if(s->flags&CODEC_FLAG_GRAY) return;
2333     
2334     if(emu){
2335         ff_emulated_edge_mc(s->edge_emu_buffer, src_cb, s->uvlinesize, 9, 9/*FIXME*/, (mx>>3), (my>>3), s->width>>1, s->height>>1);
2336             src_cb= s->edge_emu_buffer;
2337     }
2338     chroma_op(dest_cb, src_cb, s->uvlinesize, chroma_height, mx&7, my&7);
2339
2340     if(emu){
2341         ff_emulated_edge_mc(s->edge_emu_buffer, src_cr, s->uvlinesize, 9, 9/*FIXME*/, (mx>>3), (my>>3), s->width>>1, s->height>>1);
2342             src_cr= s->edge_emu_buffer;
2343     }
2344     chroma_op(dest_cr, src_cr, s->uvlinesize, chroma_height, mx&7, my&7);
2345 }
2346
2347 static inline void mc_part_std(H264Context *h, int n, int square, int chroma_height, int delta,
2348                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2349                            int x_offset, int y_offset,
2350                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2351                            qpel_mc_func *qpix_avg, h264_chroma_mc_func chroma_avg,
2352                            int list0, int list1){
2353     MpegEncContext * const s = &h->s;
2354     qpel_mc_func *qpix_op=  qpix_put;
2355     h264_chroma_mc_func chroma_op= chroma_put;
2356     
2357     dest_y  += 2*x_offset + 2*y_offset*s->  linesize;
2358     dest_cb +=   x_offset +   y_offset*s->uvlinesize;
2359     dest_cr +=   x_offset +   y_offset*s->uvlinesize;
2360     x_offset += 8*s->mb_x;
2361     y_offset += 8*s->mb_y;
2362     
2363     if(list0){
2364         Picture *ref= &h->ref_list[0][ h->ref_cache[0][ scan8[n] ] ];
2365         mc_dir_part(h, ref, n, square, chroma_height, delta, 0,
2366                            dest_y, dest_cb, dest_cr, x_offset, y_offset,
2367                            qpix_op, chroma_op);
2368
2369         qpix_op=  qpix_avg;
2370         chroma_op= chroma_avg;
2371     }
2372
2373     if(list1){
2374         Picture *ref= &h->ref_list[1][ h->ref_cache[1][ scan8[n] ] ];
2375         mc_dir_part(h, ref, n, square, chroma_height, delta, 1,
2376                            dest_y, dest_cb, dest_cr, x_offset, y_offset,
2377                            qpix_op, chroma_op);
2378     }
2379 }
2380
2381 static inline void mc_part_weighted(H264Context *h, int n, int square, int chroma_height, int delta,
2382                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2383                            int x_offset, int y_offset,
2384                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2385                            h264_weight_func luma_weight_op, h264_weight_func chroma_weight_op,
2386                            h264_biweight_func luma_weight_avg, h264_biweight_func chroma_weight_avg,
2387                            int list0, int list1){
2388     MpegEncContext * const s = &h->s;
2389
2390     dest_y  += 2*x_offset + 2*y_offset*s->  linesize;
2391     dest_cb +=   x_offset +   y_offset*s->uvlinesize;
2392     dest_cr +=   x_offset +   y_offset*s->uvlinesize;
2393     x_offset += 8*s->mb_x;
2394     y_offset += 8*s->mb_y;
2395     
2396     if(list0 && list1){
2397         /* don't optimize for luma-only case, since B-frames usually
2398          * use implicit weights => chroma too. */
2399         uint8_t *tmp_cb = s->obmc_scratchpad;
2400         uint8_t *tmp_cr = tmp_cb + 8*s->uvlinesize;
2401         uint8_t *tmp_y  = tmp_cr + 8*s->uvlinesize;
2402         int refn0 = h->ref_cache[0][ scan8[n] ];
2403         int refn1 = h->ref_cache[1][ scan8[n] ];
2404
2405         mc_dir_part(h, &h->ref_list[0][refn0], n, square, chroma_height, delta, 0,
2406                     dest_y, dest_cb, dest_cr,
2407                     x_offset, y_offset, qpix_put, chroma_put);
2408         mc_dir_part(h, &h->ref_list[1][refn1], n, square, chroma_height, delta, 1,
2409                     tmp_y, tmp_cb, tmp_cr,
2410                     x_offset, y_offset, qpix_put, chroma_put);
2411
2412         if(h->use_weight == 2){
2413             int weight0 = h->implicit_weight[refn0][refn1];
2414             int weight1 = 64 - weight0;
2415             luma_weight_avg(  dest_y,  tmp_y,  s->  linesize, 5, weight0, weight1, 0, 0);
2416             chroma_weight_avg(dest_cb, tmp_cb, s->uvlinesize, 5, weight0, weight1, 0, 0);
2417             chroma_weight_avg(dest_cr, tmp_cr, s->uvlinesize, 5, weight0, weight1, 0, 0);
2418         }else{
2419             luma_weight_avg(dest_y, tmp_y, s->linesize, h->luma_log2_weight_denom,
2420                             h->luma_weight[0][refn0], h->luma_weight[1][refn1], 
2421                             h->luma_offset[0][refn0], h->luma_offset[1][refn1]);
2422             chroma_weight_avg(dest_cb, tmp_cb, s->uvlinesize, h->chroma_log2_weight_denom,
2423                             h->chroma_weight[0][refn0][0], h->chroma_weight[1][refn1][0], 
2424                             h->chroma_offset[0][refn0][0], h->chroma_offset[1][refn1][0]);
2425             chroma_weight_avg(dest_cr, tmp_cr, s->uvlinesize, h->chroma_log2_weight_denom,
2426                             h->chroma_weight[0][refn0][1], h->chroma_weight[1][refn1][1], 
2427                             h->chroma_offset[0][refn0][1], h->chroma_offset[1][refn1][1]);
2428         }
2429     }else{
2430         int list = list1 ? 1 : 0;
2431         int refn = h->ref_cache[list][ scan8[n] ];
2432         Picture *ref= &h->ref_list[list][refn];
2433         mc_dir_part(h, ref, n, square, chroma_height, delta, list,
2434                     dest_y, dest_cb, dest_cr, x_offset, y_offset,
2435                     qpix_put, chroma_put);
2436
2437         luma_weight_op(dest_y, s->linesize, h->luma_log2_weight_denom,
2438                        h->luma_weight[list][refn], h->luma_offset[list][refn]);
2439         if(h->use_weight_chroma){
2440             chroma_weight_op(dest_cb, s->uvlinesize, h->chroma_log2_weight_denom,
2441                              h->chroma_weight[list][refn][0], h->chroma_offset[list][refn][0]);
2442             chroma_weight_op(dest_cr, s->uvlinesize, h->chroma_log2_weight_denom,
2443                              h->chroma_weight[list][refn][1], h->chroma_offset[list][refn][1]);
2444         }
2445     }
2446 }
2447
2448 static inline void mc_part(H264Context *h, int n, int square, int chroma_height, int delta,
2449                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2450                            int x_offset, int y_offset,
2451                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2452                            qpel_mc_func *qpix_avg, h264_chroma_mc_func chroma_avg,
2453                            h264_weight_func *weight_op, h264_biweight_func *weight_avg, 
2454                            int list0, int list1){
2455     if((h->use_weight==2 && list0 && list1
2456         && (h->implicit_weight[ h->ref_cache[0][scan8[n]] ][ h->ref_cache[1][scan8[n]] ] != 32))
2457        || h->use_weight==1)
2458         mc_part_weighted(h, n, square, chroma_height, delta, dest_y, dest_cb, dest_cr,
2459                          x_offset, y_offset, qpix_put, chroma_put,
2460                          weight_op[0], weight_op[3], weight_avg[0], weight_avg[3], list0, list1);
2461     else
2462         mc_part_std(h, n, square, chroma_height, delta, dest_y, dest_cb, dest_cr,
2463                     x_offset, y_offset, qpix_put, chroma_put, qpix_avg, chroma_avg, list0, list1);
2464 }
2465
2466 static void hl_motion(H264Context *h, uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2467                       qpel_mc_func (*qpix_put)[16], h264_chroma_mc_func (*chroma_put),
2468                       qpel_mc_func (*qpix_avg)[16], h264_chroma_mc_func (*chroma_avg),
2469                       h264_weight_func *weight_op, h264_biweight_func *weight_avg){
2470     MpegEncContext * const s = &h->s;
2471     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
2472     const int mb_type= s->current_picture.mb_type[mb_xy];
2473     
2474     assert(IS_INTER(mb_type));
2475     
2476     if(IS_16X16(mb_type)){
2477         mc_part(h, 0, 1, 8, 0, dest_y, dest_cb, dest_cr, 0, 0,
2478                 qpix_put[0], chroma_put[0], qpix_avg[0], chroma_avg[0],
2479                 &weight_op[0], &weight_avg[0],
2480                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2481     }else if(IS_16X8(mb_type)){
2482         mc_part(h, 0, 0, 4, 8, dest_y, dest_cb, dest_cr, 0, 0,
2483                 qpix_put[1], chroma_put[0], qpix_avg[1], chroma_avg[0],
2484                 &weight_op[1], &weight_avg[1],
2485                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2486         mc_part(h, 8, 0, 4, 8, dest_y, dest_cb, dest_cr, 0, 4,
2487                 qpix_put[1], chroma_put[0], qpix_avg[1], chroma_avg[0],
2488                 &weight_op[1], &weight_avg[1],
2489                 IS_DIR(mb_type, 1, 0), IS_DIR(mb_type, 1, 1));
2490     }else if(IS_8X16(mb_type)){
2491         mc_part(h, 0, 0, 8, 8*s->linesize, dest_y, dest_cb, dest_cr, 0, 0,
2492                 qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2493                 &weight_op[2], &weight_avg[2],
2494                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2495         mc_part(h, 4, 0, 8, 8*s->linesize, dest_y, dest_cb, dest_cr, 4, 0,
2496                 qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2497                 &weight_op[2], &weight_avg[2],
2498                 IS_DIR(mb_type, 1, 0), IS_DIR(mb_type, 1, 1));
2499     }else{
2500         int i;
2501         
2502         assert(IS_8X8(mb_type));
2503
2504         for(i=0; i<4; i++){
2505             const int sub_mb_type= h->sub_mb_type[i];
2506             const int n= 4*i;
2507             int x_offset= (i&1)<<2;
2508             int y_offset= (i&2)<<1;
2509
2510             if(IS_SUB_8X8(sub_mb_type)){
2511                 mc_part(h, n, 1, 4, 0, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2512                     qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2513                     &weight_op[3], &weight_avg[3],
2514                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2515             }else if(IS_SUB_8X4(sub_mb_type)){
2516                 mc_part(h, n  , 0, 2, 4, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2517                     qpix_put[2], chroma_put[1], qpix_avg[2], chroma_avg[1],
2518                     &weight_op[4], &weight_avg[4],
2519                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2520                 mc_part(h, n+2, 0, 2, 4, dest_y, dest_cb, dest_cr, x_offset, y_offset+2,
2521                     qpix_put[2], chroma_put[1], qpix_avg[2], chroma_avg[1],
2522                     &weight_op[4], &weight_avg[4],
2523                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2524             }else if(IS_SUB_4X8(sub_mb_type)){
2525                 mc_part(h, n  , 0, 4, 4*s->linesize, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2526                     qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2527                     &weight_op[5], &weight_avg[5],
2528                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2529                 mc_part(h, n+1, 0, 4, 4*s->linesize, dest_y, dest_cb, dest_cr, x_offset+2, y_offset,
2530                     qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2531                     &weight_op[5], &weight_avg[5],
2532                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2533             }else{
2534                 int j;
2535                 assert(IS_SUB_4X4(sub_mb_type));
2536                 for(j=0; j<4; j++){
2537                     int sub_x_offset= x_offset + 2*(j&1);
2538                     int sub_y_offset= y_offset +   (j&2);
2539                     mc_part(h, n+j, 1, 2, 0, dest_y, dest_cb, dest_cr, sub_x_offset, sub_y_offset,
2540                         qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2541                         &weight_op[6], &weight_avg[6],
2542                         IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2543                 }
2544             }
2545         }
2546     }
2547 }
2548
2549 static void decode_init_vlc(H264Context *h){
2550     static int done = 0;
2551
2552     if (!done) {
2553         int i;
2554         done = 1;
2555
2556         init_vlc(&chroma_dc_coeff_token_vlc, CHROMA_DC_COEFF_TOKEN_VLC_BITS, 4*5, 
2557                  &chroma_dc_coeff_token_len [0], 1, 1,
2558                  &chroma_dc_coeff_token_bits[0], 1, 1, 1);
2559
2560         for(i=0; i<4; i++){
2561             init_vlc(&coeff_token_vlc[i], COEFF_TOKEN_VLC_BITS, 4*17, 
2562                      &coeff_token_len [i][0], 1, 1,
2563                      &coeff_token_bits[i][0], 1, 1, 1);
2564         }
2565
2566         for(i=0; i<3; i++){
2567             init_vlc(&chroma_dc_total_zeros_vlc[i], CHROMA_DC_TOTAL_ZEROS_VLC_BITS, 4,
2568                      &chroma_dc_total_zeros_len [i][0], 1, 1,
2569                      &chroma_dc_total_zeros_bits[i][0], 1, 1, 1);
2570         }
2571         for(i=0; i<15; i++){
2572             init_vlc(&total_zeros_vlc[i], TOTAL_ZEROS_VLC_BITS, 16, 
2573                      &total_zeros_len [i][0], 1, 1,
2574                      &total_zeros_bits[i][0], 1, 1, 1);
2575         }
2576
2577         for(i=0; i<6; i++){
2578             init_vlc(&run_vlc[i], RUN_VLC_BITS, 7, 
2579                      &run_len [i][0], 1, 1,
2580                      &run_bits[i][0], 1, 1, 1);
2581         }
2582         init_vlc(&run7_vlc, RUN7_VLC_BITS, 16, 
2583                  &run_len [6][0], 1, 1,
2584                  &run_bits[6][0], 1, 1, 1);
2585     }
2586 }
2587
2588 /**
2589  * Sets the intra prediction function pointers.
2590  */
2591 static void init_pred_ptrs(H264Context *h){
2592 //    MpegEncContext * const s = &h->s;
2593
2594     h->pred4x4[VERT_PRED           ]= pred4x4_vertical_c;
2595     h->pred4x4[HOR_PRED            ]= pred4x4_horizontal_c;
2596     h->pred4x4[DC_PRED             ]= pred4x4_dc_c;
2597     h->pred4x4[DIAG_DOWN_LEFT_PRED ]= pred4x4_down_left_c;
2598     h->pred4x4[DIAG_DOWN_RIGHT_PRED]= pred4x4_down_right_c;
2599     h->pred4x4[VERT_RIGHT_PRED     ]= pred4x4_vertical_right_c;
2600     h->pred4x4[HOR_DOWN_PRED       ]= pred4x4_horizontal_down_c;
2601     h->pred4x4[VERT_LEFT_PRED      ]= pred4x4_vertical_left_c;
2602     h->pred4x4[HOR_UP_PRED         ]= pred4x4_horizontal_up_c;
2603     h->pred4x4[LEFT_DC_PRED        ]= pred4x4_left_dc_c;
2604     h->pred4x4[TOP_DC_PRED         ]= pred4x4_top_dc_c;
2605     h->pred4x4[DC_128_PRED         ]= pred4x4_128_dc_c;
2606
2607     h->pred8x8[DC_PRED8x8     ]= pred8x8_dc_c;
2608     h->pred8x8[VERT_PRED8x8   ]= pred8x8_vertical_c;
2609     h->pred8x8[HOR_PRED8x8    ]= pred8x8_horizontal_c;
2610     h->pred8x8[PLANE_PRED8x8  ]= pred8x8_plane_c;
2611     h->pred8x8[LEFT_DC_PRED8x8]= pred8x8_left_dc_c;
2612     h->pred8x8[TOP_DC_PRED8x8 ]= pred8x8_top_dc_c;
2613     h->pred8x8[DC_128_PRED8x8 ]= pred8x8_128_dc_c;
2614
2615     h->pred16x16[DC_PRED8x8     ]= pred16x16_dc_c;
2616     h->pred16x16[VERT_PRED8x8   ]= pred16x16_vertical_c;
2617     h->pred16x16[HOR_PRED8x8    ]= pred16x16_horizontal_c;
2618     h->pred16x16[PLANE_PRED8x8  ]= pred16x16_plane_c;
2619     h->pred16x16[LEFT_DC_PRED8x8]= pred16x16_left_dc_c;
2620     h->pred16x16[TOP_DC_PRED8x8 ]= pred16x16_top_dc_c;
2621     h->pred16x16[DC_128_PRED8x8 ]= pred16x16_128_dc_c;
2622 }
2623
2624 static void free_tables(H264Context *h){
2625     av_freep(&h->intra4x4_pred_mode);
2626     av_freep(&h->chroma_pred_mode_table);
2627     av_freep(&h->cbp_table);
2628     av_freep(&h->mvd_table[0]);
2629     av_freep(&h->mvd_table[1]);
2630     av_freep(&h->direct_table);
2631     av_freep(&h->non_zero_count);
2632     av_freep(&h->slice_table_base);
2633     av_freep(&h->top_borders[1]);
2634     av_freep(&h->top_borders[0]);
2635     h->slice_table= NULL;
2636
2637     av_freep(&h->mb2b_xy);
2638     av_freep(&h->mb2b8_xy);
2639
2640     av_freep(&h->s.obmc_scratchpad);
2641 }
2642
2643 /**
2644  * allocates tables.
2645  * needs widzh/height
2646  */
2647 static int alloc_tables(H264Context *h){
2648     MpegEncContext * const s = &h->s;
2649     const int big_mb_num= s->mb_stride * (s->mb_height+1);
2650     int x,y;
2651
2652     CHECKED_ALLOCZ(h->intra4x4_pred_mode, big_mb_num * 8  * sizeof(uint8_t))
2653
2654     CHECKED_ALLOCZ(h->non_zero_count    , big_mb_num * 16 * sizeof(uint8_t))
2655     CHECKED_ALLOCZ(h->slice_table_base  , big_mb_num * sizeof(uint8_t))
2656     CHECKED_ALLOCZ(h->top_borders[0]    , s->mb_width * (16+8+8) * sizeof(uint8_t))
2657     CHECKED_ALLOCZ(h->top_borders[1]    , s->mb_width * (16+8+8) * sizeof(uint8_t))
2658     CHECKED_ALLOCZ(h->cbp_table, big_mb_num * sizeof(uint16_t))
2659
2660     if( h->pps.cabac ) {
2661         CHECKED_ALLOCZ(h->chroma_pred_mode_table, big_mb_num * sizeof(uint8_t))
2662         CHECKED_ALLOCZ(h->mvd_table[0], 32*big_mb_num * sizeof(uint16_t));
2663         CHECKED_ALLOCZ(h->mvd_table[1], 32*big_mb_num * sizeof(uint16_t));
2664         CHECKED_ALLOCZ(h->direct_table, 32*big_mb_num * sizeof(uint8_t));
2665     }
2666
2667     memset(h->slice_table_base, -1, big_mb_num  * sizeof(uint8_t));
2668     h->slice_table= h->slice_table_base + s->mb_stride + 1;
2669
2670     CHECKED_ALLOCZ(h->mb2b_xy  , big_mb_num * sizeof(uint16_t));
2671     CHECKED_ALLOCZ(h->mb2b8_xy , big_mb_num * sizeof(uint16_t));
2672     for(y=0; y<s->mb_height; y++){
2673         for(x=0; x<s->mb_width; x++){
2674             const int mb_xy= x + y*s->mb_stride;
2675             const int b_xy = 4*x + 4*y*h->b_stride;
2676             const int b8_xy= 2*x + 2*y*h->b8_stride;
2677         
2678             h->mb2b_xy [mb_xy]= b_xy;
2679             h->mb2b8_xy[mb_xy]= b8_xy;
2680         }
2681     }
2682
2683     s->obmc_scratchpad = NULL;
2684
2685     return 0;
2686 fail:
2687     free_tables(h);
2688     return -1;
2689 }
2690
2691 static void common_init(H264Context *h){
2692     MpegEncContext * const s = &h->s;
2693
2694     s->width = s->avctx->width;
2695     s->height = s->avctx->height;
2696     s->codec_id= s->avctx->codec->id;
2697     
2698     init_pred_ptrs(h);
2699
2700     s->unrestricted_mv=1;
2701     s->decode=1; //FIXME
2702 }
2703
2704 static int decode_init(AVCodecContext *avctx){
2705     H264Context *h= avctx->priv_data;
2706     MpegEncContext * const s = &h->s;
2707
2708     MPV_decode_defaults(s);
2709     
2710     s->avctx = avctx;
2711     common_init(h);
2712
2713     s->out_format = FMT_H264;
2714     s->workaround_bugs= avctx->workaround_bugs;
2715
2716     // set defaults
2717 //    s->decode_mb= ff_h263_decode_mb;
2718     s->low_delay= 1;
2719     avctx->pix_fmt= PIX_FMT_YUV420P;
2720
2721     decode_init_vlc(h);
2722     
2723     if(avctx->extradata_size > 0 && avctx->extradata &&
2724        *(char *)avctx->extradata == 1){
2725         h->is_avc = 1;
2726         h->got_avcC = 0;
2727     } else {
2728         h->is_avc = 0;
2729     }
2730
2731     return 0;
2732 }
2733
2734 static void frame_start(H264Context *h){
2735     MpegEncContext * const s = &h->s;
2736     int i;
2737
2738     MPV_frame_start(s, s->avctx);
2739     ff_er_frame_start(s);
2740
2741     assert(s->linesize && s->uvlinesize);
2742
2743     for(i=0; i<16; i++){
2744         h->block_offset[i]= 4*((scan8[i] - scan8[0])&7) + 4*s->linesize*((scan8[i] - scan8[0])>>3);
2745         h->block_offset[24+i]= 4*((scan8[i] - scan8[0])&7) + 8*s->linesize*((scan8[i] - scan8[0])>>3);
2746     }
2747     for(i=0; i<4; i++){
2748         h->block_offset[16+i]=
2749         h->block_offset[20+i]= 4*((scan8[i] - scan8[0])&7) + 4*s->uvlinesize*((scan8[i] - scan8[0])>>3);
2750         h->block_offset[24+16+i]=
2751         h->block_offset[24+20+i]= 4*((scan8[i] - scan8[0])&7) + 8*s->uvlinesize*((scan8[i] - scan8[0])>>3);
2752     }
2753
2754     /* can't be in alloc_tables because linesize isn't known there.
2755      * FIXME: redo bipred weight to not require extra buffer? */
2756     if(!s->obmc_scratchpad)
2757         s->obmc_scratchpad = av_malloc(16*s->linesize + 2*8*s->uvlinesize);
2758
2759 //    s->decode= (s->flags&CODEC_FLAG_PSNR) || !s->encoding || s->current_picture.reference /*|| h->contains_intra*/ || 1;
2760 }
2761
2762 static inline void backup_mb_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize){
2763     MpegEncContext * const s = &h->s;
2764     int i;
2765     
2766     src_y  -=   linesize;
2767     src_cb -= uvlinesize;
2768     src_cr -= uvlinesize;
2769
2770     // There is two lines saved, the line above the the top macroblock of a pair,
2771     // and the line above the bottom macroblock
2772     h->left_border[0]= h->top_borders[0][s->mb_x][15];
2773     for(i=1; i<17; i++){
2774         h->left_border[i]= src_y[15+i*  linesize];
2775     }
2776     
2777     *(uint64_t*)(h->top_borders[0][s->mb_x]+0)= *(uint64_t*)(src_y +  16*linesize);
2778     *(uint64_t*)(h->top_borders[0][s->mb_x]+8)= *(uint64_t*)(src_y +8+16*linesize);
2779
2780     if(!(s->flags&CODEC_FLAG_GRAY)){
2781         h->left_border[17  ]= h->top_borders[0][s->mb_x][16+7];
2782         h->left_border[17+9]= h->top_borders[0][s->mb_x][24+7];
2783         for(i=1; i<9; i++){
2784             h->left_border[i+17  ]= src_cb[7+i*uvlinesize];
2785             h->left_border[i+17+9]= src_cr[7+i*uvlinesize];
2786         }
2787         *(uint64_t*)(h->top_borders[0][s->mb_x]+16)= *(uint64_t*)(src_cb+8*uvlinesize);
2788         *(uint64_t*)(h->top_borders[0][s->mb_x]+24)= *(uint64_t*)(src_cr+8*uvlinesize);
2789     }
2790 }
2791
2792 static inline void xchg_mb_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize, int xchg){
2793     MpegEncContext * const s = &h->s;
2794     int temp8, i;
2795     uint64_t temp64;
2796     int deblock_left = (s->mb_x > 0);
2797     int deblock_top  = (s->mb_y > 0);
2798
2799     src_y  -=   linesize + 1;
2800     src_cb -= uvlinesize + 1;
2801     src_cr -= uvlinesize + 1;
2802
2803 #define XCHG(a,b,t,xchg)\
2804 t= a;\
2805 if(xchg)\
2806     a= b;\
2807 b= t;
2808
2809     if(deblock_left){
2810         for(i = !deblock_top; i<17; i++){
2811             XCHG(h->left_border[i     ], src_y [i*  linesize], temp8, xchg);
2812         }
2813     }
2814
2815     if(deblock_top){
2816         XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+0), *(uint64_t*)(src_y +1), temp64, xchg);
2817         XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+8), *(uint64_t*)(src_y +9), temp64, 1);
2818     }
2819
2820     if(!(s->flags&CODEC_FLAG_GRAY)){
2821         if(deblock_left){
2822             for(i = !deblock_top; i<9; i++){
2823                 XCHG(h->left_border[i+17  ], src_cb[i*uvlinesize], temp8, xchg);
2824                 XCHG(h->left_border[i+17+9], src_cr[i*uvlinesize], temp8, xchg);
2825             }
2826         }
2827         if(deblock_top){
2828             XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+16), *(uint64_t*)(src_cb+1), temp64, 1);
2829             XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+24), *(uint64_t*)(src_cr+1), temp64, 1);
2830         }
2831     }
2832 }
2833
2834 static inline void backup_pair_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize){
2835     MpegEncContext * const s = &h->s;
2836     int i;
2837     
2838     src_y  -= 2 *   linesize;
2839     src_cb -= 2 * uvlinesize;
2840     src_cr -= 2 * uvlinesize;
2841
2842     // There is two lines saved, the line above the the top macroblock of a pair,
2843     // and the line above the bottom macroblock
2844     h->left_border[0]= h->top_borders[0][s->mb_x][15];
2845     h->left_border[1]= h->top_borders[1][s->mb_x][15];
2846     for(i=2; i<34; i++){
2847         h->left_border[i]= src_y[15+i*  linesize];
2848     }
2849     
2850     *(uint64_t*)(h->top_borders[0][s->mb_x]+0)= *(uint64_t*)(src_y +  32*linesize);
2851     *(uint64_t*)(h->top_borders[0][s->mb_x]+8)= *(uint64_t*)(src_y +8+32*linesize);
2852     *(uint64_t*)(h->top_borders[1][s->mb_x]+0)= *(uint64_t*)(src_y +  33*linesize);
2853     *(uint64_t*)(h->top_borders[1][s->mb_x]+8)= *(uint64_t*)(src_y +8+33*linesize);
2854
2855     if(!(s->flags&CODEC_FLAG_GRAY)){
2856         h->left_border[34     ]= h->top_borders[0][s->mb_x][16+7];
2857         h->left_border[34+   1]= h->top_borders[1][s->mb_x][16+7];
2858         h->left_border[34+18  ]= h->top_borders[0][s->mb_x][24+7];
2859         h->left_border[34+18+1]= h->top_borders[1][s->mb_x][24+7];
2860         for(i=2; i<18; i++){
2861             h->left_border[i+34   ]= src_cb[7+i*uvlinesize];
2862             h->left_border[i+34+18]= src_cr[7+i*uvlinesize];
2863         }
2864         *(uint64_t*)(h->top_borders[0][s->mb_x]+16)= *(uint64_t*)(src_cb+16*uvlinesize);
2865         *(uint64_t*)(h->top_borders[0][s->mb_x]+24)= *(uint64_t*)(src_cr+16*uvlinesize);
2866         *(uint64_t*)(h->top_borders[1][s->mb_x]+16)= *(uint64_t*)(src_cb+17*uvlinesize);
2867         *(uint64_t*)(h->top_borders[1][s->mb_x]+24)= *(uint64_t*)(src_cr+17*uvlinesize);
2868     }
2869 }
2870
2871 static inline void xchg_pair_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize, int xchg){
2872     MpegEncContext * const s = &h->s;
2873     int temp8, i;
2874     uint64_t temp64;
2875     int deblock_left = (s->mb_x > 0);
2876     int deblock_top  = (s->mb_y > 0);
2877
2878     tprintf("xchg_pair_border: src_y:%p src_cb:%p src_cr:%p ls:%d uvls:%d\n", src_y, src_cb, src_cr, linesize, uvlinesize);
2879
2880     src_y  -= 2 *   linesize + 1;
2881     src_cb -= 2 * uvlinesize + 1;
2882     src_cr -= 2 * uvlinesize + 1;
2883
2884 #define XCHG(a,b,t,xchg)\
2885 t= a;\
2886 if(xchg)\
2887     a= b;\
2888 b= t;
2889
2890     if(deblock_left){
2891         for(i = (!deblock_top)<<1; i<34; i++){
2892             XCHG(h->left_border[i     ], src_y [i*  linesize], temp8, xchg);
2893         }
2894     }
2895
2896     if(deblock_top){
2897         XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+0), *(uint64_t*)(src_y +1), temp64, xchg);
2898         XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+8), *(uint64_t*)(src_y +9), temp64, 1);
2899         XCHG(*(uint64_t*)(h->top_borders[1][s->mb_x]+0), *(uint64_t*)(src_y +1 +linesize), temp64, xchg);
2900         XCHG(*(uint64_t*)(h->top_borders[1][s->mb_x]+8), *(uint64_t*)(src_y +9 +linesize), temp64, 1);
2901     }
2902
2903     if(!(s->flags&CODEC_FLAG_GRAY)){
2904         if(deblock_left){
2905             for(i = (!deblock_top) << 1; i<18; i++){
2906                 XCHG(h->left_border[i+34   ], src_cb[i*uvlinesize], temp8, xchg);
2907                 XCHG(h->left_border[i+34+18], src_cr[i*uvlinesize], temp8, xchg);
2908             }
2909         }
2910         if(deblock_top){
2911             XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+16), *(uint64_t*)(src_cb+1), temp64, 1);
2912             XCHG(*(uint64_t*)(h->top_borders[0][s->mb_x]+24), *(uint64_t*)(src_cr+1), temp64, 1);
2913             XCHG(*(uint64_t*)(h->top_borders[1][s->mb_x]+16), *(uint64_t*)(src_cb+1 +uvlinesize), temp64, 1);
2914             XCHG(*(uint64_t*)(h->top_borders[1][s->mb_x]+24), *(uint64_t*)(src_cr+1 +uvlinesize), temp64, 1);
2915         }
2916     }
2917 }
2918
2919 static void hl_decode_mb(H264Context *h){
2920     MpegEncContext * const s = &h->s;
2921     const int mb_x= s->mb_x;
2922     const int mb_y= s->mb_y;
2923     const int mb_xy= mb_x + mb_y*s->mb_stride;
2924     const int mb_type= s->current_picture.mb_type[mb_xy];
2925     uint8_t  *dest_y, *dest_cb, *dest_cr;
2926     int linesize, uvlinesize /*dct_offset*/;
2927     int i;
2928     int *block_offset = &h->block_offset[0];
2929     const unsigned int bottom = mb_y & 1;
2930
2931     if(!s->decode)
2932         return;
2933
2934     dest_y  = s->current_picture.data[0] + (mb_y * 16* s->linesize  ) + mb_x * 16;
2935     dest_cb = s->current_picture.data[1] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
2936     dest_cr = s->current_picture.data[2] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
2937
2938     if (h->mb_field_decoding_flag) {
2939         linesize = s->linesize * 2;
2940         uvlinesize = s->uvlinesize * 2;
2941         block_offset = &h->block_offset[24];
2942         if(mb_y&1){ //FIXME move out of this func?
2943             dest_y -= s->linesize*15;
2944             dest_cb-= s->uvlinesize*7;
2945             dest_cr-= s->uvlinesize*7;
2946         }
2947     } else {
2948         linesize = s->linesize;
2949         uvlinesize = s->uvlinesize;
2950 //        dct_offset = s->linesize * 16;
2951     }
2952
2953     if (IS_INTRA_PCM(mb_type)) {
2954         unsigned int x, y;
2955
2956         // The pixels are stored in h->mb array in the same order as levels,
2957         // copy them in output in the correct order.
2958         for(i=0; i<16; i++) {
2959             for (y=0; y<4; y++) {
2960                 for (x=0; x<4; x++) {
2961                     *(dest_y + block_offset[i] + y*linesize + x) = h->mb[i*16+y*4+x];
2962                 }
2963             }
2964         }
2965         for(i=16; i<16+4; i++) {
2966             for (y=0; y<4; y++) {
2967                 for (x=0; x<4; x++) {
2968                     *(dest_cb + block_offset[i] + y*uvlinesize + x) = h->mb[i*16+y*4+x];
2969                 }
2970             }
2971         }
2972         for(i=20; i<20+4; i++) {
2973             for (y=0; y<4; y++) {
2974                 for (x=0; x<4; x++) {
2975                     *(dest_cr + block_offset[i] + y*uvlinesize + x) = h->mb[i*16+y*4+x];
2976                 }
2977             }
2978         }
2979     } else {
2980         if(IS_INTRA(mb_type)){
2981             if(h->deblocking_filter) {
2982                 if (h->mb_aff_frame) {
2983                     if (!bottom)
2984                         xchg_pair_border(h, dest_y, dest_cb, dest_cr, s->linesize, s->uvlinesize, 1);
2985                 } else {
2986                     xchg_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize, 1);
2987                 }
2988             }
2989
2990             if(!(s->flags&CODEC_FLAG_GRAY)){
2991                 h->pred8x8[ h->chroma_pred_mode ](dest_cb, uvlinesize);
2992                 h->pred8x8[ h->chroma_pred_mode ](dest_cr, uvlinesize);
2993             }
2994
2995             if(IS_INTRA4x4(mb_type)){
2996                 if(!s->encoding){
2997                     for(i=0; i<16; i++){
2998                         uint8_t * const ptr= dest_y + block_offset[i];
2999                         uint8_t *topright;
3000                         const int dir= h->intra4x4_pred_mode_cache[ scan8[i] ];
3001                         int tr;
3002
3003                         if(dir == DIAG_DOWN_LEFT_PRED || dir == VERT_LEFT_PRED){
3004                             const int topright_avail= (h->topright_samples_available<<i)&0x8000;
3005                             assert(mb_y || linesize <= block_offset[i]);
3006                             if(!topright_avail){
3007                                 tr= ptr[3 - linesize]*0x01010101;
3008                                 topright= (uint8_t*) &tr;
3009                             }else if(i==5 && h->deblocking_filter){
3010                                 tr= *(uint32_t*)h->top_borders[h->mb_aff_frame ? IS_INTERLACED(mb_type) ? bottom : 1 : 0][mb_x+1];
3011                                 topright= (uint8_t*) &tr;
3012                             }else
3013                                 topright= ptr + 4 - linesize;
3014                         }else
3015                             topright= NULL;
3016
3017                         h->pred4x4[ dir ](ptr, topright, linesize);
3018                         if(h->non_zero_count_cache[ scan8[i] ]){
3019                             if(s->codec_id == CODEC_ID_H264)
3020                                 s->dsp.h264_idct_add(ptr, h->mb + i*16, linesize);
3021                             else
3022                                 svq3_add_idct_c(ptr, h->mb + i*16, linesize, s->qscale, 0);
3023                         }
3024                     }
3025                 }
3026             }else{
3027                 h->pred16x16[ h->intra16x16_pred_mode ](dest_y , linesize);
3028                 if(s->codec_id == CODEC_ID_H264)
3029                     h264_luma_dc_dequant_idct_c(h->mb, s->qscale);
3030                 else
3031                     svq3_luma_dc_dequant_idct_c(h->mb, s->qscale);
3032             }
3033             if(h->deblocking_filter) {
3034                 if (h->mb_aff_frame) {
3035                     if (bottom) {
3036                         uint8_t *pair_dest_y  = s->current_picture.data[0] + ((mb_y-1) * 16* s->linesize  ) + mb_x * 16;
3037                         uint8_t *pair_dest_cb = s->current_picture.data[1] + ((mb_y-1) * 8 * s->uvlinesize) + mb_x * 8;
3038                         uint8_t *pair_dest_cr = s->current_picture.data[2] + ((mb_y-1) * 8 * s->uvlinesize) + mb_x * 8;
3039                         s->mb_y--;
3040                         xchg_pair_border(h, pair_dest_y, pair_dest_cb, pair_dest_cr, s->linesize, s->uvlinesize, 0);
3041                         s->mb_y++;
3042                     }
3043                 } else {
3044                     xchg_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize, 0);
3045                 }
3046             }
3047         }else if(s->codec_id == CODEC_ID_H264){
3048             hl_motion(h, dest_y, dest_cb, dest_cr,
3049                       s->dsp.put_h264_qpel_pixels_tab, s->dsp.put_h264_chroma_pixels_tab, 
3050                       s->dsp.avg_h264_qpel_pixels_tab, s->dsp.avg_h264_chroma_pixels_tab,
3051                       s->dsp.weight_h264_pixels_tab, s->dsp.biweight_h264_pixels_tab);
3052         }
3053
3054
3055         if(!IS_INTRA4x4(mb_type)){
3056             if(s->codec_id == CODEC_ID_H264){
3057                 for(i=0; i<16; i++){
3058                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){ //FIXME benchmark weird rule, & below
3059                         uint8_t * const ptr= dest_y + block_offset[i];
3060                         s->dsp.h264_idct_add(ptr, h->mb + i*16, linesize);
3061                     }
3062                 }
3063             }else{
3064                 for(i=0; i<16; i++){
3065                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){ //FIXME benchmark weird rule, & below
3066                         uint8_t * const ptr= dest_y + block_offset[i];
3067                         svq3_add_idct_c(ptr, h->mb + i*16, linesize, s->qscale, IS_INTRA(mb_type) ? 1 : 0);
3068                     }
3069                 }
3070             }
3071         }
3072
3073         if(!(s->flags&CODEC_FLAG_GRAY)){
3074             chroma_dc_dequant_idct_c(h->mb + 16*16, h->chroma_qp);
3075             chroma_dc_dequant_idct_c(h->mb + 16*16+4*16, h->chroma_qp);
3076             if(s->codec_id == CODEC_ID_H264){
3077                 for(i=16; i<16+4; i++){
3078                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
3079                         uint8_t * const ptr= dest_cb + block_offset[i];
3080                         s->dsp.h264_idct_add(ptr, h->mb + i*16, uvlinesize);
3081                     }
3082                 }
3083                 for(i=20; i<20+4; i++){
3084                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
3085                         uint8_t * const ptr= dest_cr + block_offset[i];
3086                         s->dsp.h264_idct_add(ptr, h->mb + i*16, uvlinesize);
3087                     }
3088                 }
3089             }else{
3090                 for(i=16; i<16+4; i++){
3091                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
3092                         uint8_t * const ptr= dest_cb + block_offset[i];
3093                         svq3_add_idct_c(ptr, h->mb + i*16, uvlinesize, chroma_qp[s->qscale + 12] - 12, 2);
3094                     }
3095                 }
3096                 for(i=20; i<20+4; i++){
3097                     if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
3098                         uint8_t * const ptr= dest_cr + block_offset[i];
3099                         svq3_add_idct_c(ptr, h->mb + i*16, uvlinesize, chroma_qp[s->qscale + 12] - 12, 2);
3100                     }
3101                 }
3102             }
3103         }
3104     }
3105     if(h->deblocking_filter) {
3106         if (h->mb_aff_frame) {
3107             const int mb_y = s->mb_y - 1;
3108             uint8_t  *pair_dest_y, *pair_dest_cb, *pair_dest_cr;
3109             const int mb_xy= mb_x + mb_y*s->mb_stride;
3110             const int mb_type_top   = s->current_picture.mb_type[mb_xy];
3111             const int mb_type_bottom= s->current_picture.mb_type[mb_xy+s->mb_stride];
3112             uint8_t tmp = s->current_picture.data[1][384];
3113             if (!bottom) return;
3114             pair_dest_y  = s->current_picture.data[0] + (mb_y * 16* s->linesize  ) + mb_x * 16;
3115             pair_dest_cb = s->current_picture.data[1] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
3116             pair_dest_cr = s->current_picture.data[2] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
3117
3118             backup_pair_border(h, pair_dest_y, pair_dest_cb, pair_dest_cr, s->linesize, s->uvlinesize);
3119             // TODO deblock a pair
3120             // top 
3121             s->mb_y--;
3122             tprintf("call mbaff filter_mb mb_x:%d mb_y:%d pair_dest_y = %p, dest_y = %p\n", mb_x, mb_y, pair_dest_y, dest_y);
3123             fill_caches(h, mb_type_top, 1); //FIXME dont fill stuff which isnt used by filter_mb
3124             filter_mb(h, mb_x, mb_y, pair_dest_y, pair_dest_cb, pair_dest_cr, linesize, uvlinesize);
3125             if (tmp != s->current_picture.data[1][384]) {
3126                 tprintf("modified pixel 8,1 (1)\n");
3127             }
3128             // bottom
3129             s->mb_y++;
3130             tprintf("call mbaff filter_mb\n");
3131             fill_caches(h, mb_type_bottom, 1); //FIXME dont fill stuff which isnt used by filter_mb
3132             filter_mb(h, mb_x, mb_y+1, dest_y, dest_cb, dest_cr, linesize, uvlinesize);
3133             if (tmp != s->current_picture.data[1][384]) {
3134                 tprintf("modified pixel 8,1 (2)\n");
3135             }
3136         } else {
3137             tprintf("call filter_mb\n");
3138             backup_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize);
3139             fill_caches(h, mb_type, 1); //FIXME dont fill stuff which isnt used by filter_mb
3140             filter_mb(h, mb_x, mb_y, dest_y, dest_cb, dest_cr, linesize, uvlinesize);
3141         }
3142     }
3143 }
3144
3145 /**
3146  * fills the default_ref_list.
3147  */
3148 static int fill_default_ref_list(H264Context *h){
3149     MpegEncContext * const s = &h->s;
3150     int i;
3151     int smallest_poc_greater_than_current = -1;
3152     Picture sorted_short_ref[32];
3153     
3154     if(h->slice_type==B_TYPE){
3155         int out_i;
3156         int limit= -1;
3157
3158         /* sort frame according to poc in B slice */
3159         for(out_i=0; out_i<h->short_ref_count; out_i++){
3160             int best_i=-1;
3161             int best_poc=INT_MAX;
3162
3163             for(i=0; i<h->short_ref_count; i++){
3164                 const int poc= h->short_ref[i]->poc;
3165                 if(poc > limit && poc < best_poc){
3166                     best_poc= poc;
3167                     best_i= i;
3168                 }
3169             }
3170             
3171             assert(best_i != -1);
3172             
3173             limit= best_poc;
3174             sorted_short_ref[out_i]= *h->short_ref[best_i];
3175             tprintf("sorted poc: %d->%d poc:%d fn:%d\n", best_i, out_i, sorted_short_ref[out_i].poc, sorted_short_ref[out_i].frame_num);
3176             if (-1 == smallest_poc_greater_than_current) {
3177                 if (h->short_ref[best_i]->poc >= s->current_picture_ptr->poc) {
3178                     smallest_poc_greater_than_current = out_i;
3179                 }
3180             }
3181         }
3182     }
3183
3184     if(s->picture_structure == PICT_FRAME){
3185         if(h->slice_type==B_TYPE){
3186             int list;
3187             tprintf("current poc: %d, smallest_poc_greater_than_current: %d\n", s->current_picture_ptr->poc, smallest_poc_greater_than_current);
3188
3189             // find the largest poc
3190             for(list=0; list<2; list++){
3191                 int index = 0;
3192                 int j= -99;
3193                 int step= list ? -1 : 1;
3194
3195                 for(i=0; i<h->short_ref_count && index < h->ref_count[list]; i++, j+=step) {
3196                     while(j<0 || j>= h->short_ref_count){
3197                         step = -step;
3198                         j= smallest_poc_greater_than_current + (step>>1);
3199                     }
3200                     if(sorted_short_ref[j].reference != 3) continue;
3201                     h->default_ref_list[list][index  ]= sorted_short_ref[j];
3202                     h->default_ref_list[list][index++].pic_id= sorted_short_ref[j].frame_num;
3203                 }
3204
3205                 for(i = 0; i < 16 && index < h->ref_count[ list ]; i++){
3206                     if(h->long_ref[i] == NULL) continue;
3207                     if(h->long_ref[i]->reference != 3) continue;
3208
3209                     h->default_ref_list[ list ][index  ]= *h->long_ref[i];
3210                     h->default_ref_list[ list ][index++].pic_id= i;;
3211                 }
3212                 
3213                 if(list && (smallest_poc_greater_than_current<=0 || smallest_poc_greater_than_current>=h->short_ref_count) && (1 < index)){
3214                     // swap the two first elements of L1 when
3215                     // L0 and L1 are identical
3216                     Picture temp= h->default_ref_list[1][0];
3217                     h->default_ref_list[1][0] = h->default_ref_list[1][1];
3218                     h->default_ref_list[1][0] = temp;
3219                 }
3220
3221                 if(index < h->ref_count[ list ])
3222                     memset(&h->default_ref_list[list][index], 0, sizeof(Picture)*(h->ref_count[ list ] - index));
3223             }
3224         }else{
3225             int index=0;
3226             for(i=0; i<h->short_ref_count; i++){
3227                 if(h->short_ref[i]->reference != 3) continue; //FIXME refernce field shit
3228                 h->default_ref_list[0][index  ]= *h->short_ref[i];
3229                 h->default_ref_list[0][index++].pic_id= h->short_ref[i]->frame_num;
3230             }
3231             for(i = 0; i < 16; i++){
3232                 if(h->long_ref[i] == NULL) continue;
3233                 if(h->long_ref[i]->reference != 3) continue;
3234                 h->default_ref_list[0][index  ]= *h->long_ref[i];
3235                 h->default_ref_list[0][index++].pic_id= i;;
3236             }
3237             if(index < h->ref_count[0])
3238                 memset(&h->default_ref_list[0][index], 0, sizeof(Picture)*(h->ref_count[0] - index));
3239         }
3240     }else{ //FIELD
3241         if(h->slice_type==B_TYPE){
3242         }else{
3243             //FIXME second field balh
3244         }
3245     }
3246 #ifdef TRACE
3247     for (i=0; i<h->ref_count[0]; i++) {
3248         tprintf("List0: %s fn:%d 0x%p\n", (h->default_ref_list[0][i].long_ref ? "LT" : "ST"), h->default_ref_list[0][i].pic_id, h->default_ref_list[0][i].data[0]);
3249     }
3250     if(h->slice_type==B_TYPE){
3251         for (i=0; i<h->ref_count[1]; i++) {
3252             tprintf("List1: %s fn:%d 0x%p\n", (h->default_ref_list[1][i].long_ref ? "LT" : "ST"), h->default_ref_list[1][i].pic_id, h->default_ref_list[0][i].data[0]);
3253         }
3254     }
3255 #endif
3256     return 0;
3257 }
3258
3259 static void print_short_term(H264Context *h);
3260 static void print_long_term(H264Context *h);
3261
3262 static int decode_ref_pic_list_reordering(H264Context *h){
3263     MpegEncContext * const s = &h->s;
3264     int list;
3265     
3266     print_short_term(h);
3267     print_long_term(h);
3268     if(h->slice_type==I_TYPE || h->slice_type==SI_TYPE) return 0; //FIXME move beofre func
3269     
3270     for(list=0; list<2; list++){
3271         memcpy(h->ref_list[list], h->default_ref_list[list], sizeof(Picture)*h->ref_count[list]);
3272
3273         if(get_bits1(&s->gb)){
3274             int pred= h->curr_pic_num;
3275             int index;
3276
3277             for(index=0; ; index++){
3278                 int reordering_of_pic_nums_idc= get_ue_golomb(&s->gb);
3279                 int pic_id;
3280                 int i;
3281                 Picture *ref = NULL;
3282                 
3283                 if(reordering_of_pic_nums_idc==3) 
3284                     break;
3285                 
3286                 if(index >= h->ref_count[list]){
3287                     av_log(h->s.avctx, AV_LOG_ERROR, "reference count overflow\n");
3288                     return -1;
3289                 }
3290                 
3291                 if(reordering_of_pic_nums_idc<3){
3292                     if(reordering_of_pic_nums_idc<2){
3293                         const int abs_diff_pic_num= get_ue_golomb(&s->gb) + 1;
3294
3295                         if(abs_diff_pic_num >= h->max_pic_num){
3296                             av_log(h->s.avctx, AV_LOG_ERROR, "abs_diff_pic_num overflow\n");
3297                             return -1;
3298                         }
3299
3300                         if(reordering_of_pic_nums_idc == 0) pred-= abs_diff_pic_num;
3301                         else                                pred+= abs_diff_pic_num;
3302                         pred &= h->max_pic_num - 1;
3303                     
3304                         for(i= h->short_ref_count-1; i>=0; i--){
3305                             ref = h->short_ref[i];
3306                             if(ref->data[0] != NULL && ref->frame_num == pred && ref->long_ref == 0) // ignore non existing pictures by testing data[0] pointer
3307                                 break;
3308                         }
3309                     }else{
3310                         pic_id= get_ue_golomb(&s->gb); //long_term_pic_idx
3311                         ref = h->long_ref[pic_id];
3312                     }
3313
3314                     if (i < 0) {
3315                         av_log(h->s.avctx, AV_LOG_ERROR, "reference picture missing during reorder\n");
3316                         memset(&h->ref_list[list][index], 0, sizeof(Picture)); //FIXME
3317                     } else {
3318                         h->ref_list[list][index]= *ref;
3319                     }
3320                 }else{
3321                     av_log(h->s.avctx, AV_LOG_ERROR, "illegal reordering_of_pic_nums_idc\n");
3322                     return -1;
3323                 }
3324             }
3325         }
3326
3327         if(h->slice_type!=B_TYPE) break;
3328     }
3329     
3330     if(h->slice_type==B_TYPE && !h->direct_spatial_mv_pred)
3331         direct_dist_scale_factor(h);
3332     direct_ref_list_init(h);
3333     return 0;    
3334 }
3335
3336 static int pred_weight_table(H264Context *h){
3337     MpegEncContext * const s = &h->s;
3338     int list, i;
3339     int luma_def, chroma_def;
3340     
3341     h->use_weight= 0;
3342     h->use_weight_chroma= 0;
3343     h->luma_log2_weight_denom= get_ue_golomb(&s->gb);
3344     h->chroma_log2_weight_denom= get_ue_golomb(&s->gb);
3345     luma_def = 1<<h->luma_log2_weight_denom;
3346     chroma_def = 1<<h->chroma_log2_weight_denom;
3347
3348     for(list=0; list<2; list++){
3349         for(i=0; i<h->ref_count[list]; i++){
3350             int luma_weight_flag, chroma_weight_flag;
3351             
3352             luma_weight_flag= get_bits1(&s->gb);
3353             if(luma_weight_flag){
3354                 h->luma_weight[list][i]= get_se_golomb(&s->gb);
3355                 h->luma_offset[list][i]= get_se_golomb(&s->gb);
3356                 if(   h->luma_weight[list][i] != luma_def
3357                    || h->luma_offset[list][i] != 0)
3358                     h->use_weight= 1;
3359             }else{
3360                 h->luma_weight[list][i]= luma_def;
3361                 h->luma_offset[list][i]= 0;
3362             }
3363
3364             chroma_weight_flag= get_bits1(&s->gb);
3365             if(chroma_weight_flag){
3366                 int j;
3367                 for(j=0; j<2; j++){
3368                     h->chroma_weight[list][i][j]= get_se_golomb(&s->gb);
3369                     h->chroma_offset[list][i][j]= get_se_golomb(&s->gb);
3370                     if(   h->chroma_weight[list][i][j] != chroma_def
3371                        || h->chroma_offset[list][i][j] != 0)
3372                         h->use_weight_chroma= 1;
3373                 }
3374             }else{
3375                 int j;
3376                 for(j=0; j<2; j++){
3377                     h->chroma_weight[list][i][j]= chroma_def;
3378                     h->chroma_offset[list][i][j]= 0;
3379                 }
3380             }
3381         }
3382         if(h->slice_type != B_TYPE) break;
3383     }
3384     h->use_weight= h->use_weight || h->use_weight_chroma;
3385     return 0;
3386 }
3387
3388 static void implicit_weight_table(H264Context *h){
3389     MpegEncContext * const s = &h->s;
3390     int ref0, ref1;
3391     int cur_poc = s->current_picture_ptr->poc;
3392
3393     if(   h->ref_count[0] == 1 && h->ref_count[1] == 1
3394        && h->ref_list[0][0].poc + h->ref_list[1][0].poc == 2*cur_poc){
3395         h->use_weight= 0;
3396         h->use_weight_chroma= 0;
3397         return;
3398     }
3399
3400     h->use_weight= 2;
3401     h->use_weight_chroma= 2;
3402     h->luma_log2_weight_denom= 5;
3403     h->chroma_log2_weight_denom= 5;
3404
3405     /* FIXME: MBAFF */
3406     for(ref0=0; ref0 < h->ref_count[0]; ref0++){
3407         int poc0 = h->ref_list[0][ref0].poc;
3408         for(ref1=0; ref1 < h->ref_count[1]; ref1++){
3409             int poc1 = h->ref_list[1][ref1].poc;
3410             int td = clip(poc1 - poc0, -128, 127);
3411             if(td){
3412                 int tb = clip(cur_poc - poc0, -128, 127);
3413                 int tx = (16384 + (ABS(td) >> 1)) / td;
3414                 int dist_scale_factor = clip((tb*tx + 32) >> 6, -1024, 1023) >> 2;
3415                 if(dist_scale_factor < -64 || dist_scale_factor > 128)
3416                     h->implicit_weight[ref0][ref1] = 32;
3417                 else
3418                     h->implicit_weight[ref0][ref1] = 64 - dist_scale_factor;
3419             }else
3420                 h->implicit_weight[ref0][ref1] = 32;
3421         }
3422     }
3423 }
3424
3425 static inline void unreference_pic(H264Context *h, Picture *pic){
3426     int i;
3427     pic->reference=0;
3428     if(pic == h->delayed_output_pic)
3429         pic->reference=1;
3430     else{
3431         for(i = 0; h->delayed_pic[i]; i++)
3432             if(pic == h->delayed_pic[i]){
3433                 pic->reference=1;
3434                 break;
3435             }
3436     }
3437 }
3438
3439 /**
3440  * instantaneous decoder refresh.
3441  */
3442 static void idr(H264Context *h){
3443     int i;
3444
3445     for(i=0; i<16; i++){
3446         if (h->long_ref[i] != NULL) {
3447             unreference_pic(h, h->long_ref[i]);
3448             h->long_ref[i]= NULL;
3449         }
3450     }
3451     h->long_ref_count=0;
3452
3453     for(i=0; i<h->short_ref_count; i++){
3454         unreference_pic(h, h->short_ref[i]);
3455         h->short_ref[i]= NULL;
3456     }
3457     h->short_ref_count=0;
3458 }
3459
3460 /**
3461  *
3462  * @return the removed picture or NULL if an error occures
3463  */
3464 static Picture * remove_short(H264Context *h, int frame_num){
3465     MpegEncContext * const s = &h->s;
3466     int i;
3467     
3468     if(s->avctx->debug&FF_DEBUG_MMCO)
3469         av_log(h->s.avctx, AV_LOG_DEBUG, "remove short %d count %d\n", frame_num, h->short_ref_count);
3470     
3471     for(i=0; i<h->short_ref_count; i++){
3472         Picture *pic= h->short_ref[i];
3473         if(s->avctx->debug&FF_DEBUG_MMCO)
3474             av_log(h->s.avctx, AV_LOG_DEBUG, "%d %d %p\n", i, pic->frame_num, pic);
3475         if(pic->frame_num == frame_num){
3476             h->short_ref[i]= NULL;
3477             memmove(&h->short_ref[i], &h->short_ref[i+1], (h->short_ref_count - i - 1)*sizeof(Picture*));
3478             h->short_ref_count--;
3479             return pic;
3480         }
3481     }
3482     return NULL;
3483 }
3484
3485 /**
3486  *
3487  * @return the removed picture or NULL if an error occures
3488  */
3489 static Picture * remove_long(H264Context *h, int i){
3490     Picture *pic;
3491
3492     pic= h->long_ref[i];
3493     h->long_ref[i]= NULL;
3494     if(pic) h->long_ref_count--;
3495
3496     return pic;
3497 }
3498
3499 /**
3500  * print short term list
3501  */
3502 static void print_short_term(H264Context *h) {
3503     uint32_t i;
3504     if(h->s.avctx->debug&FF_DEBUG_MMCO) {
3505         av_log(h->s.avctx, AV_LOG_DEBUG, "short term list:\n");
3506         for(i=0; i<h->short_ref_count; i++){
3507             Picture *pic= h->short_ref[i];
3508             av_log(h->s.avctx, AV_LOG_DEBUG, "%d fn:%d poc:%d %p\n", i, pic->frame_num, pic->poc, pic->data[0]);
3509         }
3510     }
3511 }
3512
3513 /**
3514  * print long term list
3515  */
3516 static void print_long_term(H264Context *h) {
3517     uint32_t i;
3518     if(h->s.avctx->debug&FF_DEBUG_MMCO) {
3519         av_log(h->s.avctx, AV_LOG_DEBUG, "long term list:\n");
3520         for(i = 0; i < 16; i++){
3521             Picture *pic= h->long_ref[i];
3522             if (pic) {
3523                 av_log(h->s.avctx, AV_LOG_DEBUG, "%d fn:%d poc:%d %p\n", i, pic->frame_num, pic->poc, pic->data[0]);
3524             }
3525         }
3526     }
3527 }
3528
3529 /**
3530  * Executes the reference picture marking (memory management control operations).
3531  */
3532 static int execute_ref_pic_marking(H264Context *h, MMCO *mmco, int mmco_count){
3533     MpegEncContext * const s = &h->s;
3534     int i, j;
3535     int current_is_long=0;
3536     Picture *pic;
3537     
3538     if((s->avctx->debug&FF_DEBUG_MMCO) && mmco_count==0)
3539         av_log(h->s.avctx, AV_LOG_DEBUG, "no mmco here\n");
3540         
3541     for(i=0; i<mmco_count; i++){
3542         if(s->avctx->debug&FF_DEBUG_MMCO)
3543             av_log(h->s.avctx, AV_LOG_DEBUG, "mmco:%d %d %d\n", h->mmco[i].opcode, h->mmco[i].short_frame_num, h->mmco[i].long_index);
3544
3545         switch(mmco[i].opcode){
3546         case MMCO_SHORT2UNUSED:
3547             pic= remove_short(h, mmco[i].short_frame_num);
3548             if(pic==NULL) return -1;
3549             unreference_pic(h, pic);
3550             break;
3551         case MMCO_SHORT2LONG:
3552             pic= remove_long(h, mmco[i].long_index);
3553             if(pic) unreference_pic(h, pic);
3554             
3555             h->long_ref[ mmco[i].long_index ]= remove_short(h, mmco[i].short_frame_num);
3556             h->long_ref[ mmco[i].long_index ]->long_ref=1;
3557             h->long_ref_count++;
3558             break;
3559         case MMCO_LONG2UNUSED:
3560             pic= remove_long(h, mmco[i].long_index);
3561             if(pic==NULL) return -1;
3562             unreference_pic(h, pic);
3563             break;
3564         case MMCO_LONG:
3565             pic= remove_long(h, mmco[i].long_index);
3566             if(pic) unreference_pic(h, pic);
3567             
3568             h->long_ref[ mmco[i].long_index ]= s->current_picture_ptr;
3569             h->long_ref[ mmco[i].long_index ]->long_ref=1;
3570             h->long_ref_count++;
3571             
3572             current_is_long=1;
3573             break;
3574         case MMCO_SET_MAX_LONG:
3575             assert(mmco[i].long_index <= 16);
3576             // just remove the long term which index is greater than new max
3577             for(j = mmco[i].long_index; j<16; j++){
3578                 pic = remove_long(h, j);
3579                 if (pic) unreference_pic(h, pic);
3580             }
3581             break;
3582         case MMCO_RESET:
3583             while(h->short_ref_count){
3584                 pic= remove_short(h, h->short_ref[0]->frame_num);
3585                 unreference_pic(h, pic);
3586             }
3587             for(j = 0; j < 16; j++) {
3588                 pic= remove_long(h, j);
3589                 if(pic) unreference_pic(h, pic);
3590             }
3591             break;
3592         default: assert(0);
3593         }
3594     }
3595     
3596     if(!current_is_long){
3597         pic= remove_short(h, s->current_picture_ptr->frame_num);
3598         if(pic){
3599             unreference_pic(h, pic);
3600             av_log(h->s.avctx, AV_LOG_ERROR, "illegal short term buffer state detected\n");
3601         }
3602         
3603         if(h->short_ref_count)
3604             memmove(&h->short_ref[1], &h->short_ref[0], h->short_ref_count*sizeof(Picture*));
3605
3606         h->short_ref[0]= s->current_picture_ptr;
3607         h->short_ref[0]->long_ref=0;
3608         h->short_ref_count++;
3609     }
3610     
3611     print_short_term(h);
3612     print_long_term(h);
3613     return 0; 
3614 }
3615
3616 static int decode_ref_pic_marking(H264Context *h){
3617     MpegEncContext * const s = &h->s;
3618     int i;
3619     
3620     if(h->nal_unit_type == NAL_IDR_SLICE){ //FIXME fields
3621         s->broken_link= get_bits1(&s->gb) -1;
3622         h->mmco[0].long_index= get_bits1(&s->gb) - 1; // current_long_term_idx
3623         if(h->mmco[0].long_index == -1)
3624             h->mmco_index= 0;
3625         else{
3626             h->mmco[0].opcode= MMCO_LONG;
3627             h->mmco_index= 1;
3628         } 
3629     }else{
3630         if(get_bits1(&s->gb)){ // adaptive_ref_pic_marking_mode_flag
3631             for(i= 0; i<MAX_MMCO_COUNT; i++) { 
3632                 MMCOOpcode opcode= get_ue_golomb(&s->gb);;
3633
3634                 h->mmco[i].opcode= opcode;
3635                 if(opcode==MMCO_SHORT2UNUSED || opcode==MMCO_SHORT2LONG){
3636                     h->mmco[i].short_frame_num= (h->frame_num - get_ue_golomb(&s->gb) - 1) & ((1<<h->sps.log2_max_frame_num)-1); //FIXME fields
3637 /*                    if(h->mmco[i].short_frame_num >= h->short_ref_count || h->short_ref[ h->mmco[i].short_frame_num ] == NULL){
3638                         fprintf(stderr, "illegal short ref in memory management control operation %d\n", mmco);
3639                         return -1;
3640                     }*/
3641                 }
3642                 if(opcode==MMCO_SHORT2LONG || opcode==MMCO_LONG2UNUSED || opcode==MMCO_LONG || opcode==MMCO_SET_MAX_LONG){
3643                     h->mmco[i].long_index= get_ue_golomb(&s->gb);
3644                     if(/*h->mmco[i].long_index >= h->long_ref_count || h->long_ref[ h->mmco[i].long_index ] == NULL*/ h->mmco[i].long_index >= 16){
3645                         av_log(h->s.avctx, AV_LOG_ERROR, "illegal long ref in memory management control operation %d\n", opcode);
3646                         return -1;
3647                     }
3648                 }
3649                     
3650                 if(opcode > MMCO_LONG){
3651                     av_log(h->s.avctx, AV_LOG_ERROR, "illegal memory management control operation %d\n", opcode);
3652                     return -1;
3653                 }
3654                 if(opcode == MMCO_END)
3655                     break;
3656             }
3657             h->mmco_index= i;
3658         }else{
3659             assert(h->long_ref_count + h->short_ref_count <= h->sps.ref_frame_count);
3660
3661             if(h->long_ref_count + h->short_ref_count == h->sps.ref_frame_count){ //FIXME fields
3662                 h->mmco[0].opcode= MMCO_SHORT2UNUSED;
3663                 h->mmco[0].short_frame_num= h->short_ref[ h->short_ref_count - 1 ]->frame_num;
3664                 h->mmco_index= 1;
3665             }else
3666                 h->mmco_index= 0;
3667         }
3668     }
3669     
3670     return 0; 
3671 }
3672
3673 static int init_poc(H264Context *h){
3674     MpegEncContext * const s = &h->s;
3675     const int max_frame_num= 1<<h->sps.log2_max_frame_num;
3676     int field_poc[2];
3677
3678     if(h->nal_unit_type == NAL_IDR_SLICE){
3679         h->frame_num_offset= 0;
3680     }else{
3681         if(h->frame_num < h->prev_frame_num)
3682             h->frame_num_offset= h->prev_frame_num_offset + max_frame_num;
3683         else
3684             h->frame_num_offset= h->prev_frame_num_offset;
3685     }
3686
3687     if(h->sps.poc_type==0){
3688         const int max_poc_lsb= 1<<h->sps.log2_max_poc_lsb;
3689
3690         if     (h->poc_lsb < h->prev_poc_lsb && h->prev_poc_lsb - h->poc_lsb >= max_poc_lsb/2)
3691             h->poc_msb = h->prev_poc_msb + max_poc_lsb;
3692         else if(h->poc_lsb > h->prev_poc_lsb && h->prev_poc_lsb - h->poc_lsb < -max_poc_lsb/2)
3693             h->poc_msb = h->prev_poc_msb - max_poc_lsb;
3694         else
3695             h->poc_msb = h->prev_poc_msb;
3696 //printf("poc: %d %d\n", h->poc_msb, h->poc_lsb);
3697         field_poc[0] = 
3698         field_poc[1] = h->poc_msb + h->poc_lsb;
3699         if(s->picture_structure == PICT_FRAME) 
3700             field_poc[1] += h->delta_poc_bottom;
3701     }else if(h->sps.poc_type==1){
3702         int abs_frame_num, expected_delta_per_poc_cycle, expectedpoc;
3703         int i;
3704
3705         if(h->sps.poc_cycle_length != 0)
3706             abs_frame_num = h->frame_num_offset + h->frame_num;
3707         else
3708             abs_frame_num = 0;
3709
3710         if(h->nal_ref_idc==0 && abs_frame_num > 0)
3711             abs_frame_num--;
3712             
3713         expected_delta_per_poc_cycle = 0;
3714         for(i=0; i < h->sps.poc_cycle_length; i++)
3715             expected_delta_per_poc_cycle += h->sps.offset_for_ref_frame[ i ]; //FIXME integrate during sps parse
3716
3717         if(abs_frame_num > 0){
3718             int poc_cycle_cnt          = (abs_frame_num - 1) / h->sps.poc_cycle_length;
3719             int frame_num_in_poc_cycle = (abs_frame_num - 1) % h->sps.poc_cycle_length;
3720
3721             expectedpoc = poc_cycle_cnt * expected_delta_per_poc_cycle;
3722             for(i = 0; i <= frame_num_in_poc_cycle; i++)
3723                 expectedpoc = expectedpoc + h->sps.offset_for_ref_frame[ i ];
3724         } else
3725             expectedpoc = 0;
3726
3727         if(h->nal_ref_idc == 0) 
3728             expectedpoc = expectedpoc + h->sps.offset_for_non_ref_pic;
3729         
3730         field_poc[0] = expectedpoc + h->delta_poc[0];
3731         field_poc[1] = field_poc[0] + h->sps.offset_for_top_to_bottom_field;
3732
3733         if(s->picture_structure == PICT_FRAME)
3734             field_poc[1] += h->delta_poc[1];
3735     }else{
3736         int poc;
3737         if(h->nal_unit_type == NAL_IDR_SLICE){
3738             poc= 0;
3739         }else{
3740             if(h->nal_ref_idc) poc= 2*(h->frame_num_offset + h->frame_num);
3741             else               poc= 2*(h->frame_num_offset + h->frame_num) - 1;
3742         }
3743         field_poc[0]= poc;
3744         field_poc[1]= poc;
3745     }
3746     
3747     if(s->picture_structure != PICT_BOTTOM_FIELD)
3748         s->current_picture_ptr->field_poc[0]= field_poc[0];
3749     if(s->picture_structure != PICT_TOP_FIELD)
3750         s->current_picture_ptr->field_poc[1]= field_poc[1];
3751     if(s->picture_structure == PICT_FRAME) // FIXME field pix?
3752         s->current_picture_ptr->poc= FFMIN(field_poc[0], field_poc[1]);
3753
3754     return 0;
3755 }
3756
3757 /**
3758  * decodes a slice header.
3759  * this will allso call MPV_common_init() and frame_start() as needed
3760  */
3761 static int decode_slice_header(H264Context *h){
3762     MpegEncContext * const s = &h->s;
3763     int first_mb_in_slice, pps_id;
3764     int num_ref_idx_active_override_flag;
3765     static const uint8_t slice_type_map[5]= {P_TYPE, B_TYPE, I_TYPE, SP_TYPE, SI_TYPE};
3766     int slice_type;
3767     int default_ref_list_done = 0;
3768
3769     s->current_picture.reference= h->nal_ref_idc != 0;
3770     s->dropable= h->nal_ref_idc == 0;
3771
3772     first_mb_in_slice= get_ue_golomb(&s->gb);
3773
3774     slice_type= get_ue_golomb(&s->gb);
3775     if(slice_type > 9){
3776         av_log(h->s.avctx, AV_LOG_ERROR, "slice type too large (%d) at %d %d\n", h->slice_type, s->mb_x, s->mb_y);
3777         return -1;
3778     }
3779     if(slice_type > 4){
3780         slice_type -= 5;
3781         h->slice_type_fixed=1;
3782     }else
3783         h->slice_type_fixed=0;
3784     
3785     slice_type= slice_type_map[ slice_type ];
3786     if (slice_type == I_TYPE
3787         || (h->slice_num != 0 && slice_type == h->slice_type) ) {
3788         default_ref_list_done = 1;
3789     }
3790     h->slice_type= slice_type;
3791
3792     s->pict_type= h->slice_type; // to make a few old func happy, its wrong though
3793         
3794     pps_id= get_ue_golomb(&s->gb);
3795     if(pps_id>255){
3796         av_log(h->s.avctx, AV_LOG_ERROR, "pps_id out of range\n");
3797         return -1;
3798     }
3799     h->pps= h->pps_buffer[pps_id];
3800     if(h->pps.slice_group_count == 0){
3801         av_log(h->s.avctx, AV_LOG_ERROR, "non existing PPS referenced\n");
3802         return -1;
3803     }
3804
3805     h->sps= h->sps_buffer[ h->pps.sps_id ];
3806     if(h->sps.log2_max_frame_num == 0){
3807         av_log(h->s.avctx, AV_LOG_ERROR, "non existing SPS referenced\n");
3808         return -1;
3809     }
3810     
3811     s->mb_width= h->sps.mb_width;
3812     s->mb_height= h->sps.mb_height * (2 - h->sps.frame_mbs_only_flag);
3813     
3814     h->b_stride=  s->mb_width*4 + 1;
3815     h->b8_stride= s->mb_width*2 + 1;
3816
3817     s->width = 16*s->mb_width - 2*(h->sps.crop_left + h->sps.crop_right );
3818     if(h->sps.frame_mbs_only_flag)
3819         s->height= 16*s->mb_height - 2*(h->sps.crop_top  + h->sps.crop_bottom);
3820     else
3821         s->height= 16*s->mb_height - 4*(h->sps.crop_top  + h->sps.crop_bottom); //FIXME recheck
3822     
3823     if (s->context_initialized 
3824         && (   s->width != s->avctx->width || s->height != s->avctx->height)) {
3825         free_tables(h);
3826         MPV_common_end(s);
3827     }
3828     if (!s->context_initialized) {
3829         if (MPV_common_init(s) < 0)
3830             return -1;
3831
3832         alloc_tables(h);
3833
3834         s->avctx->width = s->width;
3835         s->avctx->height = s->height;
3836         s->avctx->sample_aspect_ratio= h->sps.sar;
3837         if(!s->avctx->sample_aspect_ratio.den)
3838             s->avctx->sample_aspect_ratio.den = 1;
3839
3840         if(h->sps.timing_info_present_flag && h->sps.fixed_frame_rate_flag){
3841             s->avctx->frame_rate = h->sps.time_scale;
3842             s->avctx->frame_rate_base = h->sps.num_units_in_tick;
3843         }
3844     }
3845
3846     if(h->slice_num == 0){
3847         frame_start(h);
3848     }
3849
3850     s->current_picture_ptr->frame_num= //FIXME frame_num cleanup
3851     h->frame_num= get_bits(&s->gb, h->sps.log2_max_frame_num);
3852
3853     h->mb_aff_frame = 0;
3854     if(h->sps.frame_mbs_only_flag){
3855         s->picture_structure= PICT_FRAME;
3856     }else{
3857         if(get_bits1(&s->gb)) { //field_pic_flag
3858             s->picture_structure= PICT_TOP_FIELD + get_bits1(&s->gb); //bottom_field_flag
3859         } else {
3860             s->picture_structure= PICT_FRAME;
3861             first_mb_in_slice <<= 1;
3862             h->mb_aff_frame = h->sps.mb_aff;
3863         }
3864     }
3865
3866     s->resync_mb_x = s->mb_x = first_mb_in_slice % s->mb_width;
3867     s->resync_mb_y = s->mb_y = first_mb_in_slice / s->mb_width;
3868     
3869     if(s->picture_structure==PICT_FRAME){
3870         h->curr_pic_num=   h->frame_num;
3871         h->max_pic_num= 1<< h->sps.log2_max_frame_num;
3872     }else{
3873         h->curr_pic_num= 2*h->frame_num;
3874         h->max_pic_num= 1<<(h->sps.log2_max_frame_num + 1);
3875     }
3876         
3877     if(h->nal_unit_type == NAL_IDR_SLICE){
3878         get_ue_golomb(&s->gb); /* idr_pic_id */
3879     }
3880    
3881     if(h->sps.poc_type==0){
3882         h->poc_lsb= get_bits(&s->gb, h->sps.log2_max_poc_lsb);
3883         
3884         if(h->pps.pic_order_present==1 && s->picture_structure==PICT_FRAME){
3885             h->delta_poc_bottom= get_se_golomb(&s->gb);
3886         }
3887     }
3888     
3889     if(h->sps.poc_type==1 && !h->sps.delta_pic_order_always_zero_flag){
3890         h->delta_poc[0]= get_se_golomb(&s->gb);
3891         
3892         if(h->pps.pic_order_present==1 && s->picture_structure==PICT_FRAME)
3893             h->delta_poc[1]= get_se_golomb(&s->gb);
3894     }
3895     
3896     init_poc(h);
3897     
3898     if(h->pps.redundant_pic_cnt_present){
3899         h->redundant_pic_count= get_ue_golomb(&s->gb);
3900     }
3901
3902     //set defaults, might be overriden a few line later
3903     h->ref_count[0]= h->pps.ref_count[0];
3904     h->ref_count[1]= h->pps.ref_count[1];
3905
3906     if(h->slice_type == P_TYPE || h->slice_type == SP_TYPE || h->slice_type == B_TYPE){
3907         if(h->slice_type == B_TYPE){
3908             h->direct_spatial_mv_pred= get_bits1(&s->gb);
3909         }
3910         num_ref_idx_active_override_flag= get_bits1(&s->gb);
3911     
3912         if(num_ref_idx_active_override_flag){
3913             h->ref_count[0]= get_ue_golomb(&s->gb) + 1;
3914             if(h->slice_type==B_TYPE)
3915                 h->ref_count[1]= get_ue_golomb(&s->gb) + 1;
3916
3917             if(h->ref_count[0] > 32 || h->ref_count[1] > 32){
3918                 av_log(h->s.avctx, AV_LOG_ERROR, "reference overflow\n");
3919                 return -1;
3920             }
3921         }
3922     }
3923
3924     if(!default_ref_list_done){
3925         fill_default_ref_list(h);
3926     }
3927
3928     decode_ref_pic_list_reordering(h);
3929
3930     if(   (h->pps.weighted_pred          && (h->slice_type == P_TYPE || h->slice_type == SP_TYPE )) 
3931        || (h->pps.weighted_bipred_idc==1 && h->slice_type==B_TYPE ) )
3932         pred_weight_table(h);
3933     else if(h->pps.weighted_bipred_idc==2 && h->slice_type==B_TYPE)
3934         implicit_weight_table(h);
3935     else
3936         h->use_weight = 0;
3937     
3938     if(s->current_picture.reference)
3939         decode_ref_pic_marking(h);
3940
3941     if( h->slice_type != I_TYPE && h->slice_type != SI_TYPE && h->pps.cabac )
3942         h->cabac_init_idc = get_ue_golomb(&s->gb);
3943
3944     h->last_qscale_diff = 0;
3945     s->qscale = h->pps.init_qp + get_se_golomb(&s->gb);
3946     if(s->qscale<0 || s->qscale>51){
3947         av_log(s->avctx, AV_LOG_ERROR, "QP %d out of range\n", s->qscale);
3948         return -1;
3949     }
3950     h->chroma_qp = get_chroma_qp(h->pps.chroma_qp_index_offset, s->qscale);
3951     //FIXME qscale / qp ... stuff
3952     if(h->slice_type == SP_TYPE){
3953         get_bits1(&s->gb); /* sp_for_switch_flag */
3954     }
3955     if(h->slice_type==SP_TYPE || h->slice_type == SI_TYPE){
3956         get_se_golomb(&s->gb); /* slice_qs_delta */
3957     }
3958
3959     h->deblocking_filter = 1;
3960     h->slice_alpha_c0_offset = 0;
3961     h->slice_beta_offset = 0;
3962     if( h->pps.deblocking_filter_parameters_present ) {
3963         h->deblocking_filter= get_ue_golomb(&s->gb);
3964         if(h->deblocking_filter < 2) 
3965             h->deblocking_filter^= 1; // 1<->0
3966
3967         if( h->deblocking_filter ) {
3968             h->slice_alpha_c0_offset = get_se_golomb(&s->gb) << 1;
3969             h->slice_beta_offset = get_se_golomb(&s->gb) << 1;
3970         }
3971     }
3972
3973 #if 0 //FMO
3974     if( h->pps.num_slice_groups > 1  && h->pps.mb_slice_group_map_type >= 3 && h->pps.mb_slice_group_map_type <= 5)
3975         slice_group_change_cycle= get_bits(&s->gb, ?);
3976 #endif
3977
3978     h->slice_num++;
3979
3980     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
3981         av_log(h->s.avctx, AV_LOG_DEBUG, "slice:%d %s mb:%d %c pps:%d frame:%d poc:%d/%d ref:%d/%d qp:%d loop:%d:%d:%d weight:%d%s\n", 
3982                h->slice_num,
3983                (s->picture_structure==PICT_FRAME ? "F" : s->picture_structure==PICT_TOP_FIELD ? "T" : "B"),
3984                first_mb_in_slice, 
3985                av_get_pict_type_char(h->slice_type),
3986                pps_id, h->frame_num,
3987                s->current_picture_ptr->field_poc[0], s->current_picture_ptr->field_poc[1],
3988                h->ref_count[0], h->ref_count[1],
3989                s->qscale,
3990                h->deblocking_filter, h->slice_alpha_c0_offset/2, h->slice_beta_offset/2,
3991                h->use_weight,
3992                h->use_weight==1 && h->use_weight_chroma ? "c" : ""
3993                );
3994     }
3995
3996     return 0;
3997 }
3998
3999 /**
4000  *
4001  */
4002 static inline int get_level_prefix(GetBitContext *gb){
4003     unsigned int buf;
4004     int log;
4005     
4006     OPEN_READER(re, gb);
4007     UPDATE_CACHE(re, gb);
4008     buf=GET_CACHE(re, gb);
4009     
4010     log= 32 - av_log2(buf);
4011 #ifdef TRACE
4012     print_bin(buf>>(32-log), log);
4013     av_log(NULL, AV_LOG_DEBUG, "%5d %2d %3d lpr @%5d in %s get_level_prefix\n", buf>>(32-log), log, log-1, get_bits_count(gb), __FILE__);
4014 #endif
4015
4016     LAST_SKIP_BITS(re, gb, log);
4017     CLOSE_READER(re, gb);
4018
4019     return log-1;
4020 }
4021
4022 /**
4023  * decodes a residual block.
4024  * @param n block index
4025  * @param scantable scantable
4026  * @param max_coeff number of coefficients in the block
4027  * @return <0 if an error occured
4028  */
4029 static int decode_residual(H264Context *h, GetBitContext *gb, DCTELEM *block, int n, const uint8_t *scantable, int qp, int max_coeff){
4030     MpegEncContext * const s = &h->s;
4031     const uint16_t *qmul= dequant_coeff[qp];
4032     static const int coeff_token_table_index[17]= {0, 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3};
4033     int level[16], run[16];
4034     int suffix_length, zeros_left, coeff_num, coeff_token, total_coeff, i, trailing_ones;
4035
4036     //FIXME put trailing_onex into the context
4037
4038     if(n == CHROMA_DC_BLOCK_INDEX){
4039         coeff_token= get_vlc2(gb, chroma_dc_coeff_token_vlc.table, CHROMA_DC_COEFF_TOKEN_VLC_BITS, 1);
4040         total_coeff= coeff_token>>2;
4041     }else{    
4042         if(n == LUMA_DC_BLOCK_INDEX){
4043             total_coeff= pred_non_zero_count(h, 0);
4044             coeff_token= get_vlc2(gb, coeff_token_vlc[ coeff_token_table_index[total_coeff] ].table, COEFF_TOKEN_VLC_BITS, 2);
4045             total_coeff= coeff_token>>2;
4046         }else{
4047             total_coeff= pred_non_zero_count(h, n);
4048             coeff_token= get_vlc2(gb, coeff_token_vlc[ coeff_token_table_index[total_coeff] ].table, COEFF_TOKEN_VLC_BITS, 2);
4049             total_coeff= coeff_token>>2;
4050             h->non_zero_count_cache[ scan8[n] ]= total_coeff;
4051         }
4052     }
4053
4054     //FIXME set last_non_zero?
4055
4056     if(total_coeff==0)
4057         return 0;
4058         
4059     trailing_ones= coeff_token&3;
4060     tprintf("trailing:%d, total:%d\n", trailing_ones, total_coeff);
4061     assert(total_coeff<=16);
4062     
4063     for(i=0; i<trailing_ones; i++){
4064         level[i]= 1 - 2*get_bits1(gb);
4065     }
4066
4067     suffix_length= total_coeff > 10 && trailing_ones < 3;
4068
4069     for(; i<total_coeff; i++){
4070         const int prefix= get_level_prefix(gb);
4071         int level_code, mask;
4072
4073         if(prefix<14){ //FIXME try to build a large unified VLC table for all this
4074             if(suffix_length)
4075                 level_code= (prefix<<suffix_length) + get_bits(gb, suffix_length); //part
4076             else
4077                 level_code= (prefix<<suffix_length); //part
4078         }else if(prefix==14){
4079             if(suffix_length)
4080                 level_code= (prefix<<suffix_length) + get_bits(gb, suffix_length); //part
4081             else
4082                 level_code= prefix + get_bits(gb, 4); //part
4083         }else if(prefix==15){
4084             level_code= (prefix<<suffix_length) + get_bits(gb, 12); //part
4085             if(suffix_length==0) level_code+=15; //FIXME doesnt make (much)sense
4086         }else{
4087             av_log(h->s.avctx, AV_LOG_ERROR, "prefix too large at %d %d\n", s->mb_x, s->mb_y);
4088             return -1;
4089         }
4090
4091         if(i==trailing_ones && i<3) level_code+= 2; //FIXME split first iteration
4092
4093         mask= -(level_code&1);
4094         level[i]= (((2+level_code)>>1) ^ mask) - mask;
4095
4096         if(suffix_length==0) suffix_length=1; //FIXME split first iteration
4097
4098 #if 1
4099         if(ABS(level[i]) > (3<<(suffix_length-1)) && suffix_length<6) suffix_length++;
4100 #else        
4101         if((2+level_code)>>1) > (3<<(suffix_length-1)) && suffix_length<6) suffix_length++;
4102         /* ? == prefix > 2 or sth */
4103 #endif
4104         tprintf("level: %d suffix_length:%d\n", level[i], suffix_length);
4105     }
4106
4107     if(total_coeff == max_coeff)
4108         zeros_left=0;
4109     else{
4110         if(n == CHROMA_DC_BLOCK_INDEX)
4111             zeros_left= get_vlc2(gb, chroma_dc_total_zeros_vlc[ total_coeff-1 ].table, CHROMA_DC_TOTAL_ZEROS_VLC_BITS, 1);
4112         else
4113             zeros_left= get_vlc2(gb, total_zeros_vlc[ total_coeff-1 ].table, TOTAL_ZEROS_VLC_BITS, 1);
4114     }
4115     
4116     for(i=0; i<total_coeff-1; i++){
4117         if(zeros_left <=0)
4118             break;
4119         else if(zeros_left < 7){
4120             run[i]= get_vlc2(gb, run_vlc[zeros_left-1].table, RUN_VLC_BITS, 1);
4121         }else{
4122             run[i]= get_vlc2(gb, run7_vlc.table, RUN7_VLC_BITS, 2);
4123         }
4124         zeros_left -= run[i];
4125     }
4126
4127     if(zeros_left<0){
4128         av_log(h->s.avctx, AV_LOG_ERROR, "negative number of zero coeffs at %d %d\n", s->mb_x, s->mb_y);
4129         return -1;
4130     }
4131     
4132     for(; i<total_coeff-1; i++){
4133         run[i]= 0;
4134     }
4135
4136     run[i]= zeros_left;
4137
4138     coeff_num=-1;
4139     if(n > 24){
4140         for(i=total_coeff-1; i>=0; i--){ //FIXME merge into rundecode?
4141             int j;
4142
4143             coeff_num += run[i] + 1; //FIXME add 1 earlier ?
4144             j= scantable[ coeff_num ];
4145
4146             block[j]= level[i];
4147         }
4148     }else{
4149         for(i=total_coeff-1; i>=0; i--){ //FIXME merge into  rundecode?
4150             int j;
4151
4152             coeff_num += run[i] + 1; //FIXME add 1 earlier ?
4153             j= scantable[ coeff_num ];
4154
4155             block[j]= level[i] * qmul[j];
4156 //            printf("%d %d  ", block[j], qmul[j]);
4157         }
4158     }
4159     return 0;
4160 }
4161
4162 /**
4163  * decodes a P_SKIP or B_SKIP macroblock
4164  */
4165 static void decode_mb_skip(H264Context *h){
4166     MpegEncContext * const s = &h->s;
4167     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
4168     int mb_type;
4169     
4170     memset(h->non_zero_count[mb_xy], 0, 16);
4171     memset(h->non_zero_count_cache + 8, 0, 8*5); //FIXME ugly, remove pfui
4172
4173     if(h->mb_aff_frame && s->mb_skip_run==0 && (s->mb_y&1)==0){
4174         h->mb_field_decoding_flag= get_bits1(&s->gb);
4175     }
4176     if(h->mb_field_decoding_flag)
4177         mb_type|= MB_TYPE_INTERLACED;
4178         
4179     if( h->slice_type == B_TYPE )
4180     {
4181         // just for fill_caches. pred_direct_motion will set the real mb_type
4182         mb_type= MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2|MB_TYPE_SKIP;
4183
4184         fill_caches(h, mb_type, 0); //FIXME check what is needed and what not ...
4185         pred_direct_motion(h, &mb_type);
4186         if(h->pps.cabac){
4187             fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
4188             fill_rectangle(h->mvd_cache[1][scan8[0]], 4, 4, 8, 0, 4);
4189         }
4190     }
4191     else
4192     {
4193         int mx, my;
4194         mb_type= MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P1L0|MB_TYPE_SKIP;
4195
4196         fill_caches(h, mb_type, 0); //FIXME check what is needed and what not ...
4197         pred_pskip_motion(h, &mx, &my);
4198         fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, 0, 1);
4199         fill_rectangle(  h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mx,my), 4);
4200         if(h->pps.cabac)
4201             fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
4202     }
4203
4204     write_back_motion(h, mb_type);
4205     s->current_picture.mb_type[mb_xy]= mb_type|MB_TYPE_SKIP;
4206     s->current_picture.qscale_table[mb_xy]= s->qscale;
4207     h->slice_table[ mb_xy ]= h->slice_num;
4208     h->prev_mb_skipped= 1;
4209 }
4210
4211 /**
4212  * decodes a macroblock
4213  * @returns 0 if ok, AC_ERROR / DC_ERROR / MV_ERROR if an error is noticed
4214  */
4215 static int decode_mb_cavlc(H264Context *h){
4216     MpegEncContext * const s = &h->s;
4217     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
4218     int mb_type, partition_count, cbp;
4219
4220     s->dsp.clear_blocks(h->mb); //FIXME avoid if allready clear (move after skip handlong?    
4221
4222     tprintf("pic:%d mb:%d/%d\n", h->frame_num, s->mb_x, s->mb_y);
4223     cbp = 0; /* avoid warning. FIXME: find a solution without slowing
4224                 down the code */
4225     if(h->slice_type != I_TYPE && h->slice_type != SI_TYPE){
4226         if(s->mb_skip_run==-1)
4227             s->mb_skip_run= get_ue_golomb(&s->gb);
4228         
4229         if (s->mb_skip_run--) {
4230             decode_mb_skip(h);
4231             return 0;
4232         }
4233     }
4234     if(h->mb_aff_frame){
4235         if ( ((s->mb_y&1) == 0) || h->prev_mb_skipped)
4236             h->mb_field_decoding_flag = get_bits1(&s->gb);
4237     }else
4238         h->mb_field_decoding_flag= (s->picture_structure!=PICT_FRAME);
4239     
4240     h->prev_mb_skipped= 0;
4241     
4242     mb_type= get_ue_golomb(&s->gb);
4243     if(h->slice_type == B_TYPE){
4244         if(mb_type < 23){
4245             partition_count= b_mb_type_info[mb_type].partition_count;
4246             mb_type=         b_mb_type_info[mb_type].type;
4247         }else{
4248             mb_type -= 23;
4249             goto decode_intra_mb;
4250         }
4251     }else if(h->slice_type == P_TYPE /*|| h->slice_type == SP_TYPE */){
4252         if(mb_type < 5){
4253             partition_count= p_mb_type_info[mb_type].partition_count;
4254             mb_type=         p_mb_type_info[mb_type].type;
4255         }else{
4256             mb_type -= 5;
4257             goto decode_intra_mb;
4258         }
4259     }else{
4260        assert(h->slice_type == I_TYPE);
4261 decode_intra_mb:
4262         if(mb_type > 25){
4263             av_log(h->s.avctx, AV_LOG_ERROR, "mb_type %d in %c slice to large at %d %d\n", mb_type, av_get_pict_type_char(h->slice_type), s->mb_x, s->mb_y);
4264             return -1;
4265         }
4266         partition_count=0;
4267         cbp= i_mb_type_info[mb_type].cbp;
4268         h->intra16x16_pred_mode= i_mb_type_info[mb_type].pred_mode;
4269         mb_type= i_mb_type_info[mb_type].type;
4270     }
4271
4272     if(h->mb_field_decoding_flag)
4273         mb_type |= MB_TYPE_INTERLACED;
4274
4275     s->current_picture.mb_type[mb_xy]= mb_type;
4276     h->slice_table[ mb_xy ]= h->slice_num;
4277     
4278     if(IS_INTRA_PCM(mb_type)){
4279         unsigned int x, y;
4280         
4281         // we assume these blocks are very rare so we dont optimize it
4282         align_get_bits(&s->gb);
4283         
4284         // The pixels are stored in the same order as levels in h->mb array.
4285         for(y=0; y<16; y++){
4286             const int index= 4*(y&3) + 32*((y>>2)&1) + 128*(y>>3);
4287             for(x=0; x<16; x++){
4288                 tprintf("LUMA ICPM LEVEL (%3d)\n", show_bits(&s->gb, 8));
4289                 h->mb[index + (x&3) + 16*((x>>2)&1) + 64*(x>>3)]= get_bits(&s->gb, 8);
4290             }
4291         }
4292         for(y=0; y<8; y++){
4293             const int index= 256 + 4*(y&3) + 32*(y>>2);
4294             for(x=0; x<8; x++){
4295                 tprintf("CHROMA U ICPM LEVEL (%3d)\n", show_bits(&s->gb, 8));
4296                 h->mb[index + (x&3) + 16*(x>>2)]= get_bits(&s->gb, 8);
4297             }
4298         }
4299         for(y=0; y<8; y++){
4300             const int index= 256 + 64 + 4*(y&3) + 32*(y>>2);
4301             for(x=0; x<8; x++){
4302                 tprintf("CHROMA V ICPM LEVEL (%3d)\n", show_bits(&s->gb, 8));
4303                 h->mb[index + (x&3) + 16*(x>>2)]= get_bits(&s->gb, 8);
4304             }
4305         }
4306     
4307         // In deblocking, the quantiser is 0
4308         s->current_picture.qscale_table[mb_xy]= 0;
4309         h->chroma_qp = get_chroma_qp(h->pps.chroma_qp_index_offset, 0);
4310         // All coeffs are presents
4311         memset(h->non_zero_count[mb_xy], 16, 16);
4312         
4313         return 0;
4314     }
4315         
4316     fill_caches(h, mb_type, 0);
4317
4318     //mb_pred
4319     if(IS_INTRA(mb_type)){
4320 //            init_top_left_availability(h);
4321             if(IS_INTRA4x4(mb_type)){
4322                 int i;
4323
4324 //                fill_intra4x4_pred_table(h);
4325                 for(i=0; i<16; i++){
4326                     const int mode_coded= !get_bits1(&s->gb);
4327                     const int predicted_mode=  pred_intra_mode(h, i);
4328                     int mode;
4329
4330                     if(mode_coded){
4331                         const int rem_mode= get_bits(&s->gb, 3);
4332                         if(rem_mode<predicted_mode)
4333                             mode= rem_mode;
4334                         else
4335                             mode= rem_mode + 1;
4336                     }else{
4337                         mode= predicted_mode;
4338                     }
4339                     
4340                     h->intra4x4_pred_mode_cache[ scan8[i] ] = mode;
4341                 }
4342                 write_back_intra_pred_mode(h);
4343                 if( check_intra4x4_pred_mode(h) < 0)
4344                     return -1;
4345             }else{
4346                 h->intra16x16_pred_mode= check_intra_pred_mode(h, h->intra16x16_pred_mode);
4347                 if(h->intra16x16_pred_mode < 0)
4348                     return -1;
4349             }
4350             h->chroma_pred_mode= get_ue_golomb(&s->gb);
4351
4352             h->chroma_pred_mode= check_intra_pred_mode(h, h->chroma_pred_mode);
4353             if(h->chroma_pred_mode < 0)
4354                 return -1;
4355     }else if(partition_count==4){
4356         int i, j, sub_partition_count[4], list, ref[2][4];
4357         
4358         if(h->slice_type == B_TYPE){
4359             for(i=0; i<4; i++){
4360                 h->sub_mb_type[i]= get_ue_golomb(&s->gb);
4361                 if(h->sub_mb_type[i] >=13){
4362                     av_log(h->s.avctx, AV_LOG_ERROR, "B sub_mb_type %d out of range at %d %d\n", h->sub_mb_type[i], s->mb_x, s->mb_y);
4363                     return -1;
4364                 }
4365                 sub_partition_count[i]= b_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
4366                 h->sub_mb_type[i]=      b_sub_mb_type_info[ h->sub_mb_type[i] ].type;
4367             }
4368             if(   IS_DIRECT(h->sub_mb_type[0]) || IS_DIRECT(h->sub_mb_type[1])
4369                || IS_DIRECT(h->sub_mb_type[2]) || IS_DIRECT(h->sub_mb_type[3]))
4370                 pred_direct_motion(h, &mb_type);
4371         }else{
4372             assert(h->slice_type == P_TYPE || h->slice_type == SP_TYPE); //FIXME SP correct ?
4373             for(i=0; i<4; i++){
4374                 h->sub_mb_type[i]= get_ue_golomb(&s->gb);
4375                 if(h->sub_mb_type[i] >=4){
4376                     av_log(h->s.avctx, AV_LOG_ERROR, "P sub_mb_type %d out of range at %d %d\n", h->sub_mb_type[i], s->mb_x, s->mb_y);
4377                     return -1;
4378                 }
4379                 sub_partition_count[i]= p_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
4380                 h->sub_mb_type[i]=      p_sub_mb_type_info[ h->sub_mb_type[i] ].type;
4381             }
4382         }
4383         
4384         for(list=0; list<2; list++){
4385             int ref_count= IS_REF0(mb_type) ? 1 : h->ref_count[list];
4386             if(ref_count == 0) continue;
4387             if (h->mb_aff_frame && h->mb_field_decoding_flag) {
4388                 ref_count <<= 1;
4389             }
4390             for(i=0; i<4; i++){
4391                 if(IS_DIRECT(h->sub_mb_type[i])) continue;
4392                 if(IS_DIR(h->sub_mb_type[i], 0, list)){
4393                     ref[list][i] = get_te0_golomb(&s->gb, ref_count); //FIXME init to 0 before and skip?
4394                 }else{
4395                  //FIXME
4396                     ref[list][i] = -1;
4397                 }
4398             }
4399         }
4400         
4401         for(list=0; list<2; list++){
4402             const int ref_count= IS_REF0(mb_type) ? 1 : h->ref_count[list];
4403             if(ref_count == 0) continue;
4404
4405             for(i=0; i<4; i++){
4406                 if(IS_DIRECT(h->sub_mb_type[i])) continue;
4407                 h->ref_cache[list][ scan8[4*i]   ]=h->ref_cache[list][ scan8[4*i]+1 ]=
4408                 h->ref_cache[list][ scan8[4*i]+8 ]=h->ref_cache[list][ scan8[4*i]+9 ]= ref[list][i];
4409
4410                 if(IS_DIR(h->sub_mb_type[i], 0, list)){
4411                     const int sub_mb_type= h->sub_mb_type[i];
4412                     const int block_width= (sub_mb_type & (MB_TYPE_16x16|MB_TYPE_16x8)) ? 2 : 1;
4413                     for(j=0; j<sub_partition_count[i]; j++){
4414                         int mx, my;
4415                         const int index= 4*i + block_width*j;
4416                         int16_t (* mv_cache)[2]= &h->mv_cache[list][ scan8[index] ];
4417                         pred_motion(h, index, block_width, list, h->ref_cache[list][ scan8[index] ], &mx, &my);
4418                         mx += get_se_golomb(&s->gb);
4419                         my += get_se_golomb(&s->gb);
4420                         tprintf("final mv:%d %d\n", mx, my);
4421
4422                         if(IS_SUB_8X8(sub_mb_type)){
4423                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= 
4424                             mv_cache[ 8 ][0]= mv_cache[ 9 ][0]= mx;
4425                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= 
4426                             mv_cache[ 8 ][1]= mv_cache[ 9 ][1]= my;
4427                         }else if(IS_SUB_8X4(sub_mb_type)){
4428                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= mx;
4429                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= my;
4430                         }else if(IS_SUB_4X8(sub_mb_type)){
4431                             mv_cache[ 0 ][0]= mv_cache[ 8 ][0]= mx;
4432                             mv_cache[ 0 ][1]= mv_cache[ 8 ][1]= my;
4433                         }else{
4434                             assert(IS_SUB_4X4(sub_mb_type));
4435                             mv_cache[ 0 ][0]= mx;
4436                             mv_cache[ 0 ][1]= my;
4437                         }
4438                     }
4439                 }else{
4440                     uint32_t *p= (uint32_t *)&h->mv_cache[list][ scan8[4*i] ][0];
4441                     p[0] = p[1]=
4442                     p[8] = p[9]= 0;
4443                 }
4444             }
4445         }
4446     }else if(IS_DIRECT(mb_type)){
4447         pred_direct_motion(h, &mb_type);
4448         s->current_picture.mb_type[mb_xy]= mb_type;
4449     }else{
4450         int list, mx, my, i;
4451          //FIXME we should set ref_idx_l? to 0 if we use that later ...
4452         if(IS_16X16(mb_type)){
4453             for(list=0; list<2; list++){
4454                 if(h->ref_count[list]>0){
4455                     if(IS_DIR(mb_type, 0, list)){
4456                         const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4457                         fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, val, 1);
4458                     }else
4459                         fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, (LIST_NOT_USED&0xFF), 1);
4460                 }
4461             }
4462             for(list=0; list<2; list++){
4463                 if(IS_DIR(mb_type, 0, list)){
4464                     pred_motion(h, 0, 4, list, h->ref_cache[list][ scan8[0] ], &mx, &my);
4465                     mx += get_se_golomb(&s->gb);
4466                     my += get_se_golomb(&s->gb);
4467                     tprintf("final mv:%d %d\n", mx, my);
4468
4469                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx,my), 4);
4470                 }else
4471                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, 0, 4);
4472             }
4473         }
4474         else if(IS_16X8(mb_type)){
4475             for(list=0; list<2; list++){
4476                 if(h->ref_count[list]>0){
4477                     for(i=0; i<2; i++){
4478                         if(IS_DIR(mb_type, i, list)){
4479                             const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4480                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, val, 1);
4481                         }else
4482                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, (LIST_NOT_USED&0xFF), 1);
4483                     }
4484                 }
4485             }
4486             for(list=0; list<2; list++){
4487                 for(i=0; i<2; i++){
4488                     if(IS_DIR(mb_type, i, list)){
4489                         pred_16x8_motion(h, 8*i, list, h->ref_cache[list][scan8[0] + 16*i], &mx, &my);
4490                         mx += get_se_golomb(&s->gb);
4491                         my += get_se_golomb(&s->gb);
4492                         tprintf("final mv:%d %d\n", mx, my);
4493
4494                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx,my), 4);
4495                     }else
4496                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
4497                 }
4498             }
4499         }else{
4500             assert(IS_8X16(mb_type));
4501             for(list=0; list<2; list++){
4502                 if(h->ref_count[list]>0){
4503                     for(i=0; i<2; i++){
4504                         if(IS_DIR(mb_type, i, list)){ //FIXME optimize
4505                             const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4506                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, val, 1);
4507                         }else
4508                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, (LIST_NOT_USED&0xFF), 1);
4509                     }
4510                 }
4511             }
4512             for(list=0; list<2; list++){
4513                 for(i=0; i<2; i++){
4514                     if(IS_DIR(mb_type, i, list)){
4515                         pred_8x16_motion(h, i*4, list, h->ref_cache[list][ scan8[0] + 2*i ], &mx, &my);
4516                         mx += get_se_golomb(&s->gb);
4517                         my += get_se_golomb(&s->gb);
4518                         tprintf("final mv:%d %d\n", mx, my);
4519
4520                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx,my), 4);
4521                     }else
4522                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
4523                 }
4524             }
4525         }
4526     }
4527     
4528     if(IS_INTER(mb_type))
4529         write_back_motion(h, mb_type);
4530     
4531     if(!IS_INTRA16x16(mb_type)){
4532         cbp= get_ue_golomb(&s->gb);
4533         if(cbp > 47){
4534             av_log(h->s.avctx, AV_LOG_ERROR, "cbp too large (%d) at %d %d\n", cbp, s->mb_x, s->mb_y);
4535             return -1;
4536         }
4537         
4538         if(IS_INTRA4x4(mb_type))
4539             cbp= golomb_to_intra4x4_cbp[cbp];
4540         else
4541             cbp= golomb_to_inter_cbp[cbp];
4542     }
4543
4544     if(cbp || IS_INTRA16x16(mb_type)){
4545         int i8x8, i4x4, chroma_idx;
4546         int chroma_qp, dquant;
4547         GetBitContext *gb= IS_INTRA(mb_type) ? h->intra_gb_ptr : h->inter_gb_ptr;
4548         const uint8_t *scan, *dc_scan;
4549         
4550 //        fill_non_zero_count_cache(h);
4551
4552         if(IS_INTERLACED(mb_type)){
4553             scan= field_scan;
4554             dc_scan= luma_dc_field_scan;
4555         }else{
4556             scan= zigzag_scan;
4557             dc_scan= luma_dc_zigzag_scan;
4558         }
4559
4560         dquant= get_se_golomb(&s->gb);
4561
4562         if( dquant > 25 || dquant < -26 ){
4563             av_log(h->s.avctx, AV_LOG_ERROR, "dquant out of range (%d) at %d %d\n", dquant, s->mb_x, s->mb_y);
4564             return -1;
4565         }
4566         
4567         s->qscale += dquant;
4568         if(((unsigned)s->qscale) > 51){
4569             if(s->qscale<0) s->qscale+= 52;
4570             else            s->qscale-= 52;
4571         }
4572         
4573         h->chroma_qp= chroma_qp= get_chroma_qp(h->pps.chroma_qp_index_offset, s->qscale);
4574         if(IS_INTRA16x16(mb_type)){
4575             if( decode_residual(h, h->intra_gb_ptr, h->mb, LUMA_DC_BLOCK_INDEX, dc_scan, s->qscale, 16) < 0){
4576                 return -1; //FIXME continue if partotioned and other retirn -1 too
4577             }
4578
4579             assert((cbp&15) == 0 || (cbp&15) == 15);
4580
4581             if(cbp&15){
4582                 for(i8x8=0; i8x8<4; i8x8++){
4583                     for(i4x4=0; i4x4<4; i4x4++){
4584                         const int index= i4x4 + 4*i8x8;
4585                         if( decode_residual(h, h->intra_gb_ptr, h->mb + 16*index, index, scan + 1, s->qscale, 15) < 0 ){
4586                             return -1;
4587                         }
4588                     }
4589                 }
4590             }else{
4591                 fill_rectangle(&h->non_zero_count_cache[scan8[0]], 4, 4, 8, 0, 1);
4592             }
4593         }else{
4594             for(i8x8=0; i8x8<4; i8x8++){
4595                 if(cbp & (1<<i8x8)){
4596                     for(i4x4=0; i4x4<4; i4x4++){
4597                         const int index= i4x4 + 4*i8x8;
4598                         
4599                         if( decode_residual(h, gb, h->mb + 16*index, index, scan, s->qscale, 16) <0 ){
4600                             return -1;
4601                         }
4602                     }
4603                 }else{
4604                     uint8_t * const nnz= &h->non_zero_count_cache[ scan8[4*i8x8] ];
4605                     nnz[0] = nnz[1] = nnz[8] = nnz[9] = 0;
4606                 }
4607             }
4608         }
4609         
4610         if(cbp&0x30){
4611             for(chroma_idx=0; chroma_idx<2; chroma_idx++)
4612                 if( decode_residual(h, gb, h->mb + 256 + 16*4*chroma_idx, CHROMA_DC_BLOCK_INDEX, chroma_dc_scan, chroma_qp, 4) < 0){
4613                     return -1;
4614                 }
4615         }
4616
4617         if(cbp&0x20){
4618             for(chroma_idx=0; chroma_idx<2; chroma_idx++){
4619                 for(i4x4=0; i4x4<4; i4x4++){
4620                     const int index= 16 + 4*chroma_idx + i4x4;
4621                     if( decode_residual(h, gb, h->mb + 16*index, index, scan + 1, chroma_qp, 15) < 0){
4622                         return -1;
4623                     }
4624                 }
4625             }
4626         }else{
4627             uint8_t * const nnz= &h->non_zero_count_cache[0];
4628             nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
4629             nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
4630         }
4631     }else{
4632         uint8_t * const nnz= &h->non_zero_count_cache[0];
4633         fill_rectangle(&nnz[scan8[0]], 4, 4, 8, 0, 1);
4634         nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
4635         nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
4636     }
4637     s->current_picture.qscale_table[mb_xy]= s->qscale;
4638     write_back_non_zero_count(h);
4639
4640     return 0;
4641 }
4642
4643 static int decode_cabac_field_decoding_flag(H264Context *h) {
4644     MpegEncContext * const s = &h->s;
4645     const int mb_x = s->mb_x;
4646     const int mb_y = s->mb_y & ~1;
4647     const int mba_xy = mb_x - 1 +  mb_y   *s->mb_stride;
4648     const int mbb_xy = mb_x     + (mb_y-2)*s->mb_stride;
4649
4650     unsigned int ctx = 0;
4651     
4652     if( h->slice_table[mba_xy] == h->slice_num && IS_INTERLACED( s->current_picture.mb_type[mba_xy] ) ) {
4653         ctx += 1;
4654     }
4655     if( h->slice_table[mbb_xy] == h->slice_num && IS_INTERLACED( s->current_picture.mb_type[mbb_xy] ) ) {
4656         ctx += 1;
4657     }
4658
4659     return get_cabac( &h->cabac, &h->cabac_state[70 + ctx] );
4660 }
4661
4662 static int decode_cabac_intra_mb_type(H264Context *h, int ctx_base, int intra_slice) {
4663     uint8_t *state= &h->cabac_state[ctx_base];
4664     int mb_type;
4665     
4666     if(intra_slice){
4667         MpegEncContext * const s = &h->s;
4668         const int mba_xy = h->left_mb_xy[0];
4669         const int mbb_xy = h->top_mb_xy;
4670         int ctx=0;
4671         if( h->slice_table[mba_xy] == h->slice_num && !IS_INTRA4x4( s->current_picture.mb_type[mba_xy] ) )
4672             ctx++;
4673         if( h->slice_table[mbb_xy] == h->slice_num && !IS_INTRA4x4( s->current_picture.mb_type[mbb_xy] ) )
4674             ctx++;
4675         if( get_cabac( &h->cabac, &state[ctx] ) == 0 )
4676             return 0;   /* I4x4 */
4677         state += 2;
4678     }else{
4679         if( get_cabac( &h->cabac, &state[0] ) == 0 )
4680             return 0;   /* I4x4 */
4681     }
4682
4683     if( get_cabac_terminate( &h->cabac ) )
4684         return 25;  /* PCM */
4685
4686     mb_type = 1; /* I16x16 */
4687     if( get_cabac( &h->cabac, &state[1] ) )
4688         mb_type += 12;  /* cbp_luma != 0 */
4689
4690     if( get_cabac( &h->cabac, &state[2] ) ) {
4691         if( get_cabac( &h->cabac, &state[2+intra_slice] ) )
4692             mb_type += 4 * 2;   /* cbp_chroma == 2 */
4693         else
4694             mb_type += 4 * 1;   /* cbp_chroma == 1 */
4695     }
4696     if( get_cabac( &h->cabac, &state[3+intra_slice] ) )
4697         mb_type += 2;
4698     if( get_cabac( &h->cabac, &state[3+2*intra_slice] ) )
4699         mb_type += 1;
4700     return mb_type;
4701 }
4702
4703 static int decode_cabac_mb_type( H264Context *h ) {
4704     MpegEncContext * const s = &h->s;
4705
4706     if( h->slice_type == I_TYPE ) {
4707         return decode_cabac_intra_mb_type(h, 3, 1);
4708     } else if( h->slice_type == P_TYPE ) {
4709         if( get_cabac( &h->cabac, &h->cabac_state[14] ) == 0 ) {
4710             /* P-type */
4711             if( get_cabac( &h->cabac, &h->cabac_state[15] ) == 0 ) {
4712                 if( get_cabac( &h->cabac, &h->cabac_state[16] ) == 0 )
4713                     return 0; /* P_L0_D16x16; */
4714                 else
4715                     return 3; /* P_8x8; */
4716             } else {
4717                 if( get_cabac( &h->cabac, &h->cabac_state[17] ) == 0 )
4718                     return 2; /* P_L0_D8x16; */
4719                 else
4720                     return 1; /* P_L0_D16x8; */
4721             }
4722         } else {
4723             return decode_cabac_intra_mb_type(h, 17, 0) + 5;
4724         }
4725     } else if( h->slice_type == B_TYPE ) {
4726         const int mba_xy = h->left_mb_xy[0];
4727         const int mbb_xy = h->top_mb_xy;
4728         int ctx = 0;
4729         int bits;
4730
4731         if( h->slice_table[mba_xy] == h->slice_num && !IS_SKIP( s->current_picture.mb_type[mba_xy] )
4732                       && !IS_DIRECT( s->current_picture.mb_type[mba_xy] ) )
4733             ctx++;
4734         if( h->slice_table[mbb_xy] == h->slice_num && !IS_SKIP( s->current_picture.mb_type[mbb_xy] )
4735                       && !IS_DIRECT( s->current_picture.mb_type[mbb_xy] ) )
4736             ctx++;
4737
4738         if( !get_cabac( &h->cabac, &h->cabac_state[27+ctx] ) )
4739             return 0; /* B_Direct_16x16 */
4740
4741         if( !get_cabac( &h->cabac, &h->cabac_state[27+3] ) ) {
4742             return 1 + get_cabac( &h->cabac, &h->cabac_state[27+5] ); /* B_L[01]_16x16 */
4743         }
4744
4745         bits = get_cabac( &h->cabac, &h->cabac_state[27+4] ) << 3;
4746         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] ) << 2;
4747         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] ) << 1;
4748         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] );
4749         if( bits < 8 )
4750             return bits + 3; /* B_Bi_16x16 through B_L1_L0_16x8 */
4751         else if( bits == 13 ) {
4752             return decode_cabac_intra_mb_type(h, 32, 0) + 23;
4753         } else if( bits == 14 )
4754             return 11; /* B_L1_L0_8x16 */
4755         else if( bits == 15 )
4756             return 22; /* B_8x8 */
4757
4758         bits= ( bits<<1 ) | get_cabac( &h->cabac, &h->cabac_state[27+5] );
4759         return bits - 4; /* B_L0_Bi_* through B_Bi_Bi_* */
4760     } else {
4761         /* TODO SI/SP frames? */
4762         return -1;
4763     }
4764 }
4765
4766 static int decode_cabac_mb_skip( H264Context *h) {
4767     MpegEncContext * const s = &h->s;
4768     const int mb_xy = s->mb_x + s->mb_y*s->mb_stride;
4769     const int mba_xy = mb_xy - 1;
4770     const int mbb_xy = mb_xy - s->mb_stride;
4771     int ctx = 0;
4772
4773     if( h->slice_table[mba_xy] == h->slice_num && !IS_SKIP( s->current_picture.mb_type[mba_xy] ))
4774         ctx++;
4775     if( h->slice_table[mbb_xy] == h->slice_num && !IS_SKIP( s->current_picture.mb_type[mbb_xy] ))
4776         ctx++;
4777
4778     if( h->slice_type == P_TYPE || h->slice_type == SP_TYPE)
4779         return get_cabac( &h->cabac, &h->cabac_state[11+ctx] );
4780     else /* B-frame */
4781         return get_cabac( &h->cabac, &h->cabac_state[24+ctx] );
4782 }
4783
4784 static int decode_cabac_mb_intra4x4_pred_mode( H264Context *h, int pred_mode ) {
4785     int mode = 0;
4786
4787     if( get_cabac( &h->cabac, &h->cabac_state[68] ) )
4788         return pred_mode;
4789
4790     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4791         mode += 1;
4792     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4793         mode += 2;
4794     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4795         mode += 4;
4796     if( mode >= pred_mode )
4797         return mode + 1;
4798     else
4799         return mode;
4800 }
4801
4802 static int decode_cabac_mb_chroma_pre_mode( H264Context *h) {
4803     const int mba_xy = h->left_mb_xy[0];
4804     const int mbb_xy = h->top_mb_xy;
4805
4806     int ctx = 0;
4807
4808     /* No need to test for IS_INTRA4x4 and IS_INTRA16x16, as we set chroma_pred_mode_table to 0 */
4809     if( h->slice_table[mba_xy] == h->slice_num && h->chroma_pred_mode_table[mba_xy] != 0 )
4810         ctx++;
4811
4812     if( h->slice_table[mbb_xy] == h->slice_num && h->chroma_pred_mode_table[mbb_xy] != 0 )
4813         ctx++;
4814
4815     if( get_cabac( &h->cabac, &h->cabac_state[64+ctx] ) == 0 )
4816         return 0;
4817
4818     if( get_cabac( &h->cabac, &h->cabac_state[64+3] ) == 0 )
4819         return 1;
4820     if( get_cabac( &h->cabac, &h->cabac_state[64+3] ) == 0 )
4821         return 2;
4822     else
4823         return 3;
4824 }
4825
4826 static const uint8_t block_idx_x[16] = {
4827     0, 1, 0, 1, 2, 3, 2, 3, 0, 1, 0, 1, 2, 3, 2, 3
4828 };
4829 static const uint8_t block_idx_y[16] = {
4830     0, 0, 1, 1, 0, 0, 1, 1, 2, 2, 3, 3, 2, 2, 3, 3
4831 };
4832 static const uint8_t block_idx_xy[4][4] = {
4833     { 0, 2, 8,  10},
4834     { 1, 3, 9,  11},
4835     { 4, 6, 12, 14},
4836     { 5, 7, 13, 15}
4837 };
4838
4839 static int decode_cabac_mb_cbp_luma( H264Context *h) {
4840     MpegEncContext * const s = &h->s;
4841
4842     int cbp = 0;
4843     int i8x8;
4844
4845     for( i8x8 = 0; i8x8 < 4; i8x8++ ) {
4846         int cbp_a = -1;
4847         int cbp_b = -1;
4848         int x, y;
4849         int ctx = 0;
4850
4851         x = block_idx_x[4*i8x8];
4852         y = block_idx_y[4*i8x8];
4853
4854         if( x > 0 )
4855             cbp_a = cbp;
4856         else if( s->mb_x > 0 && (h->slice_table[h->left_mb_xy[0]] == h->slice_num)) {
4857             cbp_a = h->left_cbp;
4858             tprintf("cbp_a = left_cbp = %x\n", cbp_a);
4859         }
4860
4861         if( y > 0 )
4862             cbp_b = cbp;
4863         else if( s->mb_y > 0 && (h->slice_table[h->top_mb_xy] == h->slice_num)) {
4864             cbp_b = h->top_cbp;
4865             tprintf("cbp_b = top_cbp = %x\n", cbp_b);
4866         }
4867
4868         /* No need to test for skip as we put 0 for skip block */
4869         /* No need to test for IPCM as we put 1 for IPCM block */
4870         if( cbp_a >= 0 ) {
4871             int i8x8a = block_idx_xy[(x-1)&0x03][y]/4;
4872             if( ((cbp_a >> i8x8a)&0x01) == 0 )
4873                 ctx++;
4874         }
4875
4876         if( cbp_b >= 0 ) {
4877             int i8x8b = block_idx_xy[x][(y-1)&0x03]/4;
4878             if( ((cbp_b >> i8x8b)&0x01) == 0 )
4879                 ctx += 2;
4880         }
4881
4882         if( get_cabac( &h->cabac, &h->cabac_state[73 + ctx] ) ) {
4883             cbp |= 1 << i8x8;
4884         }
4885     }
4886     return cbp;
4887 }
4888 static int decode_cabac_mb_cbp_chroma( H264Context *h) {
4889     int ctx;
4890     int cbp_a, cbp_b;
4891
4892     cbp_a = (h->left_cbp>>4)&0x03;
4893     cbp_b = (h-> top_cbp>>4)&0x03;
4894
4895     ctx = 0;
4896     if( cbp_a > 0 ) ctx++;
4897     if( cbp_b > 0 ) ctx += 2;
4898     if( get_cabac( &h->cabac, &h->cabac_state[77 + ctx] ) == 0 )
4899         return 0;
4900
4901     ctx = 4;
4902     if( cbp_a == 2 ) ctx++;
4903     if( cbp_b == 2 ) ctx += 2;
4904     return 1 + get_cabac( &h->cabac, &h->cabac_state[77 + ctx] );
4905 }
4906 static int decode_cabac_mb_dqp( H264Context *h) {
4907     MpegEncContext * const s = &h->s;
4908     int mbn_xy;
4909     int   ctx = 0;
4910     int   val = 0;
4911
4912     if( s->mb_x > 0 )
4913         mbn_xy = s->mb_x + s->mb_y*s->mb_stride - 1;
4914     else
4915         mbn_xy = s->mb_width - 1 + (s->mb_y-1)*s->mb_stride;
4916
4917     if( h->last_qscale_diff != 0 && ( IS_INTRA16x16(s->current_picture.mb_type[mbn_xy] ) || (h->cbp_table[mbn_xy]&0x3f) ) )
4918         ctx++;
4919
4920     while( get_cabac( &h->cabac, &h->cabac_state[60 + ctx] ) ) {
4921         if( ctx < 2 )
4922             ctx = 2;
4923         else
4924             ctx = 3;
4925         val++;
4926     }
4927
4928     if( val&0x01 )
4929         return (val + 1)/2;
4930     else
4931         return -(val + 1)/2;
4932 }
4933 static int decode_cabac_p_mb_sub_type( H264Context *h ) {
4934     if( get_cabac( &h->cabac, &h->cabac_state[21] ) )
4935         return 0;   /* 8x8 */
4936     if( !get_cabac( &h->cabac, &h->cabac_state[22] ) )
4937         return 1;   /* 8x4 */
4938     if( get_cabac( &h->cabac, &h->cabac_state[23] ) )
4939         return 2;   /* 4x8 */
4940     return 3;       /* 4x4 */
4941 }
4942 static int decode_cabac_b_mb_sub_type( H264Context *h ) {
4943     int type;
4944     if( !get_cabac( &h->cabac, &h->cabac_state[36] ) )
4945         return 0;   /* B_Direct_8x8 */
4946     if( !get_cabac( &h->cabac, &h->cabac_state[37] ) )
4947         return 1 + get_cabac( &h->cabac, &h->cabac_state[39] ); /* B_L0_8x8, B_L1_8x8 */
4948     type = 3;
4949     if( get_cabac( &h->cabac, &h->cabac_state[38] ) ) {
4950         if( get_cabac( &h->cabac, &h->cabac_state[39] ) )
4951             return 11 + get_cabac( &h->cabac, &h->cabac_state[39] ); /* B_L1_4x4, B_Bi_4x4 */
4952         type += 4;
4953     }
4954     type += 2*get_cabac( &h->cabac, &h->cabac_state[39] );
4955     type +=   get_cabac( &h->cabac, &h->cabac_state[39] );
4956     return type;
4957 }
4958
4959 static int decode_cabac_mb_ref( H264Context *h, int list, int n ) {
4960     int refa = h->ref_cache[list][scan8[n] - 1];
4961     int refb = h->ref_cache[list][scan8[n] - 8];
4962     int ref  = 0;
4963     int ctx  = 0;
4964
4965     if( h->slice_type == B_TYPE) {
4966         if( refa > 0 && !h->direct_cache[scan8[n] - 1] )
4967             ctx++;
4968         if( refb > 0 && !h->direct_cache[scan8[n] - 8] )
4969             ctx += 2;
4970     } else {
4971         if( refa > 0 )
4972             ctx++;
4973         if( refb > 0 )
4974             ctx += 2;
4975     }
4976
4977     while( get_cabac( &h->cabac, &h->cabac_state[54+ctx] ) ) {
4978         ref++;
4979         if( ctx < 4 )
4980             ctx = 4;
4981         else
4982             ctx = 5;
4983     }
4984     return ref;
4985 }
4986
4987 static int decode_cabac_mb_mvd( H264Context *h, int list, int n, int l ) {
4988     int amvd = abs( h->mvd_cache[list][scan8[n] - 1][l] ) +
4989                abs( h->mvd_cache[list][scan8[n] - 8][l] );
4990     int ctxbase = (l == 0) ? 40 : 47;
4991     int ctx, mvd;
4992
4993     if( amvd < 3 )
4994         ctx = 0;
4995     else if( amvd > 32 )
4996         ctx = 2;
4997     else
4998         ctx = 1;
4999
5000     if(!get_cabac(&h->cabac, &h->cabac_state[ctxbase+ctx]))
5001         return 0;
5002
5003     mvd= 1;
5004     ctx= 3;
5005     while( mvd < 9 && get_cabac( &h->cabac, &h->cabac_state[ctxbase+ctx] ) ) {
5006         mvd++;
5007         if( ctx < 6 )
5008             ctx++;
5009     }
5010
5011     if( mvd >= 9 ) {
5012         int k = 3;
5013         while( get_cabac_bypass( &h->cabac ) ) {
5014             mvd += 1 << k;
5015             k++;
5016         }
5017         while( k-- ) {
5018             if( get_cabac_bypass( &h->cabac ) )
5019                 mvd += 1 << k;
5020         }
5021     }
5022     if( get_cabac_bypass( &h->cabac ) )  return -mvd;
5023     else                                 return  mvd;
5024 }
5025
5026 static int inline get_cabac_cbf_ctx( H264Context *h, int cat, int idx ) {
5027     int nza, nzb;
5028     int ctx = 0;
5029
5030     if( cat == 0 ) {
5031         nza = h->left_cbp&0x100;
5032         nzb = h-> top_cbp&0x100;
5033     } else if( cat == 1 || cat == 2 ) {
5034         nza = h->non_zero_count_cache[scan8[idx] - 1];
5035         nzb = h->non_zero_count_cache[scan8[idx] - 8];
5036     } else if( cat == 3 ) {
5037         nza = (h->left_cbp>>(6+idx))&0x01;
5038         nzb = (h-> top_cbp>>(6+idx))&0x01;
5039     } else {
5040         assert(cat == 4);
5041         nza = h->non_zero_count_cache[scan8[16+idx] - 1];
5042         nzb = h->non_zero_count_cache[scan8[16+idx] - 8];
5043     }
5044
5045     if( nza > 0 )
5046         ctx++;
5047
5048     if( nzb > 0 )
5049         ctx += 2;
5050
5051     return ctx + 4 * cat;
5052 }
5053
5054 static int inline decode_cabac_residual( H264Context *h, DCTELEM *block, int cat, int n, const uint8_t *scantable, int qp, int max_coeff) {
5055     const int mb_xy  = h->s.mb_x + h->s.mb_y*h->s.mb_stride;
5056     const uint16_t *qmul= dequant_coeff[qp];
5057     static const int significant_coeff_flag_field_offset[2] = { 105, 277 };
5058     static const int last_significant_coeff_flag_field_offset[2] = { 166, 338 };
5059     static const int significant_coeff_flag_offset[5] = { 0, 15, 29, 44, 47 };
5060     static const int coeff_abs_level_m1_offset[5] = {227+ 0, 227+10, 227+20, 227+30, 227+39 };
5061
5062     int index[16];
5063
5064     int i, last;
5065     int coeff_count = 0;
5066
5067     int abslevel1 = 1;
5068     int abslevelgt1 = 0;
5069
5070     /* cat: 0-> DC 16x16  n = 0
5071      *      1-> AC 16x16  n = luma4x4idx
5072      *      2-> Luma4x4   n = luma4x4idx
5073      *      3-> DC Chroma n = iCbCr
5074      *      4-> AC Chroma n = 4 * iCbCr + chroma4x4idx
5075      */
5076
5077     /* read coded block flag */
5078     if( get_cabac( &h->cabac, &h->cabac_state[85 + get_cabac_cbf_ctx( h, cat, n ) ] ) == 0 ) {
5079         if( cat == 1 || cat == 2 )
5080             h->non_zero_count_cache[scan8[n]] = 0;
5081         else if( cat == 4 )
5082             h->non_zero_count_cache[scan8[16+n]] = 0;
5083
5084         return 0;
5085     }
5086
5087     for(last= 0; last < max_coeff - 1; last++) {
5088         if( get_cabac( &h->cabac, &h->cabac_state[significant_coeff_flag_field_offset[h->mb_field_decoding_flag]+significant_coeff_flag_offset[cat]+last] )) {
5089             index[coeff_count++] = last;
5090             if( get_cabac( &h->cabac, &h->cabac_state[last_significant_coeff_flag_field_offset[h->mb_field_decoding_flag]+significant_coeff_flag_offset[cat]+last] ) ) {
5091                 last= max_coeff;
5092                 break;
5093             }
5094         }
5095     }
5096     if( last == max_coeff -1 ) {
5097         index[coeff_count++] = last;
5098     }
5099     assert(coeff_count > 0);
5100
5101     if( cat == 0 )
5102         h->cbp_table[mb_xy] |= 0x100;
5103     else if( cat == 1 || cat == 2 )
5104         h->non_zero_count_cache[scan8[n]] = coeff_count;
5105     else if( cat == 3 )
5106         h->cbp_table[mb_xy] |= 0x40 << n;
5107     else {
5108         assert( cat == 4 );
5109         h->non_zero_count_cache[scan8[16+n]] = coeff_count;
5110     }
5111
5112     for( i = coeff_count - 1; i >= 0; i-- ) {
5113         int ctx = (abslevelgt1 != 0 ? 0 : FFMIN( 4, abslevel1 )) + coeff_abs_level_m1_offset[cat];
5114         int j= scantable[index[i]];
5115
5116         if( get_cabac( &h->cabac, &h->cabac_state[ctx] ) == 0 ) {
5117             if( cat == 0 || cat == 3 ) {
5118                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -1;
5119                 else                                block[j] =  1;
5120             }else{
5121                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -qmul[j];
5122                 else                                block[j] =  qmul[j];
5123             }
5124     
5125             abslevel1++;
5126         } else {
5127             int coeff_abs = 2;
5128             ctx = 5 + FFMIN( 4, abslevelgt1 ) + coeff_abs_level_m1_offset[cat];
5129             while( coeff_abs < 15 && get_cabac( &h->cabac, &h->cabac_state[ctx] ) ) {
5130                 coeff_abs++;
5131             }
5132
5133             if( coeff_abs >= 15 ) {
5134                 int j = 0;
5135                 while( get_cabac_bypass( &h->cabac ) ) {
5136                     coeff_abs += 1 << j;
5137                     j++;
5138                 }
5139     
5140                 while( j-- ) {
5141                     if( get_cabac_bypass( &h->cabac ) )
5142                         coeff_abs += 1 << j ;
5143                 }
5144             }
5145
5146             if( cat == 0 || cat == 3 ) {
5147                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -coeff_abs;
5148                 else                                block[j] =  coeff_abs;
5149             }else{
5150                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -coeff_abs * qmul[j];
5151                 else                                block[j] =  coeff_abs * qmul[j];
5152             }
5153     
5154             abslevelgt1++;
5155         }
5156     }
5157     return 0;
5158 }
5159
5160 void inline compute_mb_neighboors(H264Context *h)
5161 {
5162     MpegEncContext * const s = &h->s;
5163     const int mb_xy  = s->mb_x + s->mb_y*s->mb_stride;
5164     h->top_mb_xy     = mb_xy - s->mb_stride;
5165     h->left_mb_xy[0] = mb_xy - 1;
5166     if(h->mb_aff_frame){
5167         const int pair_xy          = s->mb_x     + (s->mb_y & ~1)*s->mb_stride;
5168         const int top_pair_xy      = pair_xy     - s->mb_stride;
5169         const int top_mb_frame_flag      = !IS_INTERLACED(s->current_picture.mb_type[top_pair_xy]);
5170         const int left_mb_frame_flag = !IS_INTERLACED(s->current_picture.mb_type[pair_xy-1]);
5171         const int curr_mb_frame_flag = !h->mb_field_decoding_flag;
5172         const int bottom = (s->mb_y & 1);
5173         if (bottom
5174                 ? !curr_mb_frame_flag // bottom macroblock
5175                 : (!curr_mb_frame_flag && !top_mb_frame_flag) // top macroblock
5176                 ) {
5177             h->top_mb_xy -= s->mb_stride;
5178         }
5179         if (left_mb_frame_flag != curr_mb_frame_flag) {
5180             h->left_mb_xy[0] = pair_xy - 1;
5181         }
5182     }
5183     return;
5184 }
5185
5186 /**
5187  * decodes a macroblock
5188  * @returns 0 if ok, AC_ERROR / DC_ERROR / MV_ERROR if an error is noticed
5189  */
5190 static int decode_mb_cabac(H264Context *h) {
5191     MpegEncContext * const s = &h->s;
5192     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
5193     int mb_type, partition_count, cbp = 0;
5194
5195     s->dsp.clear_blocks(h->mb); //FIXME avoid if allready clear (move after skip handlong?)
5196
5197     tprintf("pic:%d mb:%d/%d\n", h->frame_num, s->mb_x, s->mb_y);
5198     if( h->slice_type != I_TYPE && h->slice_type != SI_TYPE ) {
5199         /* read skip flags */
5200         if( decode_cabac_mb_skip( h ) ) {
5201             decode_mb_skip(h);
5202
5203             h->cbp_table[mb_xy] = 0;
5204             h->chroma_pred_mode_table[mb_xy] = 0;
5205             h->last_qscale_diff = 0;
5206
5207             return 0;
5208
5209         }
5210     }
5211     if(h->mb_aff_frame){
5212         if ( ((s->mb_y&1) == 0) || h->prev_mb_skipped)
5213             h->mb_field_decoding_flag = decode_cabac_field_decoding_flag(h);
5214     }else
5215         h->mb_field_decoding_flag= (s->picture_structure!=PICT_FRAME);
5216
5217     h->prev_mb_skipped = 0;
5218
5219     compute_mb_neighboors(h);
5220     if( ( mb_type = decode_cabac_mb_type( h ) ) < 0 ) {
5221         av_log( h->s.avctx, AV_LOG_ERROR, "decode_cabac_mb_type failed\n" );
5222         return -1;
5223     }
5224
5225     if( h->slice_type == B_TYPE ) {
5226         if( mb_type < 23 ){
5227             partition_count= b_mb_type_info[mb_type].partition_count;
5228             mb_type=         b_mb_type_info[mb_type].type;
5229         }else{
5230             mb_type -= 23;
5231             goto decode_intra_mb;
5232         }
5233     } else if( h->slice_type == P_TYPE ) {
5234         if( mb_type < 5) {
5235             partition_count= p_mb_type_info[mb_type].partition_count;
5236             mb_type=         p_mb_type_info[mb_type].type;
5237         } else {
5238             mb_type -= 5;
5239             goto decode_intra_mb;
5240         }
5241     } else {
5242        assert(h->slice_type == I_TYPE);
5243 decode_intra_mb:
5244         partition_count = 0;
5245         cbp= i_mb_type_info[mb_type].cbp;
5246         h->intra16x16_pred_mode= i_mb_type_info[mb_type].pred_mode;
5247         mb_type= i_mb_type_info[mb_type].type;
5248     }
5249     if(h->mb_field_decoding_flag)
5250         mb_type |= MB_TYPE_INTERLACED;
5251
5252     s->current_picture.mb_type[mb_xy]= mb_type;
5253     h->slice_table[ mb_xy ]= h->slice_num;
5254
5255     if(IS_INTRA_PCM(mb_type)) {
5256         const uint8_t *ptr;
5257         unsigned int x, y;
5258         
5259         // We assume these blocks are very rare so we dont optimize it.
5260         // FIXME The two following lines get the bitstream position in the cabac
5261         // decode, I think it should be done by a function in cabac.h (or cabac.c).
5262         ptr= h->cabac.bytestream;
5263         if (h->cabac.low&0x1) ptr-=CABAC_BITS/8;
5264
5265         // The pixels are stored in the same order as levels in h->mb array.
5266         for(y=0; y<16; y++){
5267             const int index= 4*(y&3) + 32*((y>>2)&1) + 128*(y>>3);
5268             for(x=0; x<16; x++){
5269                 tprintf("LUMA ICPM LEVEL (%3d)\n", *ptr);
5270                 h->mb[index + (x&3) + 16*((x>>2)&1) + 64*(x>>3)]= *ptr++;
5271             }
5272         }
5273         for(y=0; y<8; y++){
5274             const int index= 256 + 4*(y&3) + 32*(y>>2);
5275             for(x=0; x<8; x++){
5276                 tprintf("CHROMA U ICPM LEVEL (%3d)\n", *ptr);
5277                 h->mb[index + (x&3) + 16*(x>>2)]= *ptr++;
5278             }
5279         }
5280         for(y=0; y<8; y++){
5281             const int index= 256 + 64 + 4*(y&3) + 32*(y>>2);
5282             for(x=0; x<8; x++){
5283                 tprintf("CHROMA V ICPM LEVEL (%3d)\n", *ptr);
5284                 h->mb[index + (x&3) + 16*(x>>2)]= *ptr++;
5285             }
5286         }
5287
5288         ff_init_cabac_decoder(&h->cabac, ptr, h->cabac.bytestream_end - ptr);
5289
5290         // All blocks are presents
5291         h->cbp_table[mb_xy] = 0x1ef;
5292         h->chroma_pred_mode_table[mb_xy] = 0;
5293         // In deblocking, the quantiser is 0
5294         s->current_picture.qscale_table[mb_xy]= 0;
5295         h->chroma_qp = get_chroma_qp(h->pps.chroma_qp_index_offset, 0);
5296         // All coeffs are presents
5297         memset(h->non_zero_count[mb_xy], 16, 16);
5298         return 0;
5299     }
5300
5301     fill_caches(h, mb_type, 0);
5302
5303     if( IS_INTRA( mb_type ) ) {
5304         if( IS_INTRA4x4( mb_type ) ) {
5305             int i;
5306             for( i = 0; i < 16; i++ ) {
5307                 int pred = pred_intra_mode( h, i );
5308                 h->intra4x4_pred_mode_cache[ scan8[i] ] = decode_cabac_mb_intra4x4_pred_mode( h, pred );
5309
5310                 //av_log( s->avctx, AV_LOG_ERROR, "i4x4 pred=%d mode=%d\n", pred, h->intra4x4_pred_mode_cache[ scan8[i] ] );
5311             }
5312             write_back_intra_pred_mode(h);
5313             if( check_intra4x4_pred_mode(h) < 0 ) return -1;
5314         } else {
5315             h->intra16x16_pred_mode= check_intra_pred_mode( h, h->intra16x16_pred_mode );
5316             if( h->intra16x16_pred_mode < 0 ) return -1;
5317         }
5318         h->chroma_pred_mode_table[mb_xy] =
5319             h->chroma_pred_mode          = decode_cabac_mb_chroma_pre_mode( h );
5320
5321         h->chroma_pred_mode= check_intra_pred_mode( h, h->chroma_pred_mode );
5322         if( h->chroma_pred_mode < 0 ) return -1;
5323     } else if( partition_count == 4 ) {
5324         int i, j, sub_partition_count[4], list, ref[2][4];
5325
5326         if( h->slice_type == B_TYPE ) {
5327             for( i = 0; i < 4; i++ ) {
5328                 h->sub_mb_type[i] = decode_cabac_b_mb_sub_type( h );
5329                 sub_partition_count[i]= b_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
5330                 h->sub_mb_type[i]=      b_sub_mb_type_info[ h->sub_mb_type[i] ].type;
5331             }
5332             if(   IS_DIRECT(h->sub_mb_type[0]) || IS_DIRECT(h->sub_mb_type[1])
5333                || IS_DIRECT(h->sub_mb_type[2]) || IS_DIRECT(h->sub_mb_type[3])) {
5334                 pred_direct_motion(h, &mb_type);
5335                 if( h->ref_count[0] > 1 || h->ref_count[1] > 1 ) {
5336                     for( i = 0; i < 4; i++ )
5337                         if( IS_DIRECT(h->sub_mb_type[i]) )
5338                             fill_rectangle( &h->direct_cache[scan8[4*i]], 2, 2, 8, 1, 1 );
5339                 }
5340             }
5341         } else {
5342             for( i = 0; i < 4; i++ ) {
5343                 h->sub_mb_type[i] = decode_cabac_p_mb_sub_type( h );
5344                 sub_partition_count[i]= p_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
5345                 h->sub_mb_type[i]=      p_sub_mb_type_info[ h->sub_mb_type[i] ].type;
5346             }
5347         }
5348
5349         for( list = 0; list < 2; list++ ) {
5350             if( h->ref_count[list] > 0 ) {
5351                 for( i = 0; i < 4; i++ ) {
5352                     if(IS_DIRECT(h->sub_mb_type[i])) continue;
5353                     if(IS_DIR(h->sub_mb_type[i], 0, list)){
5354                         if( h->ref_count[list] > 1 )
5355                             ref[list][i] = decode_cabac_mb_ref( h, list, 4*i );
5356                         else
5357                             ref[list][i] = 0;
5358                     } else {
5359                         ref[list][i] = -1;
5360                     }
5361                                                        h->ref_cache[list][ scan8[4*i]+1 ]=
5362                     h->ref_cache[list][ scan8[4*i]+8 ]=h->ref_cache[list][ scan8[4*i]+9 ]= ref[list][i];
5363                 }
5364             }
5365         }
5366
5367         for(list=0; list<2; list++){
5368             for(i=0; i<4; i++){
5369                 if(IS_DIRECT(h->sub_mb_type[i])){
5370                     fill_rectangle(h->mvd_cache[list][scan8[4*i]], 2, 2, 8, 0, 4);
5371                     continue;
5372                 }
5373                 h->ref_cache[list][ scan8[4*i]   ]=h->ref_cache[list][ scan8[4*i]+1 ];
5374
5375                 if(IS_DIR(h->sub_mb_type[i], 0, list) && !IS_DIRECT(h->sub_mb_type[i])){
5376                     const int sub_mb_type= h->sub_mb_type[i];
5377                     const int block_width= (sub_mb_type & (MB_TYPE_16x16|MB_TYPE_16x8)) ? 2 : 1;
5378                     for(j=0; j<sub_partition_count[i]; j++){
5379                         int mpx, mpy;
5380                         int mx, my;
5381                         const int index= 4*i + block_width*j;
5382                         int16_t (* mv_cache)[2]= &h->mv_cache[list][ scan8[index] ];
5383                         int16_t (* mvd_cache)[2]= &h->mvd_cache[list][ scan8[index] ];
5384                         pred_motion(h, index, block_width, list, h->ref_cache[list][ scan8[index] ], &mpx, &mpy);
5385
5386                         mx = mpx + decode_cabac_mb_mvd( h, list, index, 0 );
5387                         my = mpy + decode_cabac_mb_mvd( h, list, index, 1 );
5388                         tprintf("final mv:%d %d\n", mx, my);
5389
5390                         if(IS_SUB_8X8(sub_mb_type)){
5391                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]=
5392                             mv_cache[ 8 ][0]= mv_cache[ 9 ][0]= mx;
5393                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]=
5394                             mv_cache[ 8 ][1]= mv_cache[ 9 ][1]= my;
5395
5396                             mvd_cache[ 0 ][0]= mvd_cache[ 1 ][0]=
5397                             mvd_cache[ 8 ][0]= mvd_cache[ 9 ][0]= mx - mpx;
5398                             mvd_cache[ 0 ][1]= mvd_cache[ 1 ][1]=
5399                             mvd_cache[ 8 ][1]= mvd_cache[ 9 ][1]= my - mpy;
5400                         }else if(IS_SUB_8X4(sub_mb_type)){
5401                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= mx;
5402                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= my;
5403
5404                             mvd_cache[ 0 ][0]= mvd_cache[ 1 ][0]= mx- mpx;
5405                             mvd_cache[ 0 ][1]= mvd_cache[ 1 ][1]= my - mpy;
5406                         }else if(IS_SUB_4X8(sub_mb_type)){
5407                             mv_cache[ 0 ][0]= mv_cache[ 8 ][0]= mx;
5408                             mv_cache[ 0 ][1]= mv_cache[ 8 ][1]= my;
5409
5410                             mvd_cache[ 0 ][0]= mvd_cache[ 8 ][0]= mx - mpx;
5411                             mvd_cache[ 0 ][1]= mvd_cache[ 8 ][1]= my - mpy;
5412                         }else{
5413                             assert(IS_SUB_4X4(sub_mb_type));
5414                             mv_cache[ 0 ][0]= mx;
5415                             mv_cache[ 0 ][1]= my;
5416
5417                             mvd_cache[ 0 ][0]= mx - mpx;
5418                             mvd_cache[ 0 ][1]= my - mpy;
5419                         }
5420                     }
5421                 }else{
5422                     uint32_t *p= (uint32_t *)&h->mv_cache[list][ scan8[4*i] ][0];
5423                     uint32_t *pd= (uint32_t *)&h->mvd_cache[list][ scan8[4*i] ][0];
5424                     p[0] = p[1] = p[8] = p[9] = 0;
5425                     pd[0]= pd[1]= pd[8]= pd[9]= 0;
5426                 }
5427             }
5428         }
5429     } else if( IS_DIRECT(mb_type) ) {
5430         pred_direct_motion(h, &mb_type);
5431         s->current_picture.mb_type[mb_xy]= mb_type;
5432         fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
5433         fill_rectangle(h->mvd_cache[1][scan8[0]], 4, 4, 8, 0, 4);
5434     } else {
5435         int list, mx, my, i, mpx, mpy;
5436         if(IS_16X16(mb_type)){
5437             for(list=0; list<2; list++){
5438                 if(IS_DIR(mb_type, 0, list)){
5439                     if(h->ref_count[list] > 0 ){
5440                         const int ref = h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 0 ) : 0;
5441                         fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, ref, 1);
5442                     }
5443                 }else
5444                     fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, (uint8_t)LIST_NOT_USED, 1);
5445             }
5446             for(list=0; list<2; list++){
5447                 if(IS_DIR(mb_type, 0, list)){
5448                     pred_motion(h, 0, 4, list, h->ref_cache[list][ scan8[0] ], &mpx, &mpy);
5449
5450                     mx = mpx + decode_cabac_mb_mvd( h, list, 0, 0 );
5451                     my = mpy + decode_cabac_mb_mvd( h, list, 0, 1 );
5452                     tprintf("final mv:%d %d\n", mx, my);
5453
5454                     fill_rectangle(h->mvd_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx-mpx,my-mpy), 4);
5455                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx,my), 4);
5456                 }else
5457                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, 0, 4);
5458             }
5459         }
5460         else if(IS_16X8(mb_type)){
5461             for(list=0; list<2; list++){
5462                 if(h->ref_count[list]>0){
5463                     for(i=0; i<2; i++){
5464                         if(IS_DIR(mb_type, i, list)){
5465                             const int ref= h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 8*i ) : 0;
5466                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, ref, 1);
5467                         }else
5468                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, (LIST_NOT_USED&0xFF), 1);
5469                     }
5470                 }
5471             }
5472             for(list=0; list<2; list++){
5473                 for(i=0; i<2; i++){
5474                     if(IS_DIR(mb_type, i, list)){
5475                         pred_16x8_motion(h, 8*i, list, h->ref_cache[list][scan8[0] + 16*i], &mpx, &mpy);
5476                         mx = mpx + decode_cabac_mb_mvd( h, list, 8*i, 0 );
5477                         my = mpy + decode_cabac_mb_mvd( h, list, 8*i, 1 );
5478                         tprintf("final mv:%d %d\n", mx, my);
5479
5480                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx-mpx,my-mpy), 4);
5481                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx,my), 4);
5482                     }else{
5483                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
5484                         fill_rectangle(h-> mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
5485                     }
5486                 }
5487             }
5488         }else{
5489             assert(IS_8X16(mb_type));
5490             for(list=0; list<2; list++){
5491                 if(h->ref_count[list]>0){
5492                     for(i=0; i<2; i++){
5493                         if(IS_DIR(mb_type, i, list)){ //FIXME optimize
5494                             const int ref= h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 4*i ) : 0;
5495                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, ref, 1);
5496                         }else
5497                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, (LIST_NOT_USED&0xFF), 1);
5498                     }
5499                 }
5500             }
5501             for(list=0; list<2; list++){
5502                 for(i=0; i<2; i++){
5503                     if(IS_DIR(mb_type, i, list)){
5504                         pred_8x16_motion(h, i*4, list, h->ref_cache[list][ scan8[0] + 2*i ], &mpx, &mpy);
5505                         mx = mpx + decode_cabac_mb_mvd( h, list, 4*i, 0 );
5506                         my = mpy + decode_cabac_mb_mvd( h, list, 4*i, 1 );
5507
5508                         tprintf("final mv:%d %d\n", mx, my);
5509                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx-mpx,my-mpy), 4);
5510                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx,my), 4);
5511                     }else{
5512                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
5513                         fill_rectangle(h-> mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
5514                     }
5515                 }
5516             }
5517         }
5518     }
5519
5520    if( IS_INTER( mb_type ) ) {
5521         h->chroma_pred_mode_table[mb_xy] = 0;
5522         write_back_motion( h, mb_type );
5523    }
5524
5525     if( !IS_INTRA16x16( mb_type ) ) {
5526         cbp  = decode_cabac_mb_cbp_luma( h );
5527         cbp |= decode_cabac_mb_cbp_chroma( h ) << 4;
5528     }
5529
5530     h->cbp_table[mb_xy] = cbp;
5531
5532     if( cbp || IS_INTRA16x16( mb_type ) ) {
5533         const uint8_t *scan, *dc_scan;
5534         int dqp;
5535
5536         if(IS_INTERLACED(mb_type)){
5537             scan= field_scan;
5538             dc_scan= luma_dc_field_scan;
5539         }else{
5540             scan= zigzag_scan;
5541             dc_scan= luma_dc_zigzag_scan;
5542         }
5543
5544         h->last_qscale_diff = dqp = decode_cabac_mb_dqp( h );
5545         s->qscale += dqp;
5546         if(((unsigned)s->qscale) > 51){
5547             if(s->qscale<0) s->qscale+= 52;
5548             else            s->qscale-= 52;
5549         }
5550         h->chroma_qp = get_chroma_qp(h->pps.chroma_qp_index_offset, s->qscale);
5551
5552         if( IS_INTRA16x16( mb_type ) ) {
5553             int i;
5554             //av_log( s->avctx, AV_LOG_ERROR, "INTRA16x16 DC\n" );
5555             if( decode_cabac_residual( h, h->mb, 0, 0, dc_scan, s->qscale, 16) < 0)
5556                 return -1;
5557             if( cbp&15 ) {
5558                 for( i = 0; i < 16; i++ ) {
5559                     //av_log( s->avctx, AV_LOG_ERROR, "INTRA16x16 AC:%d\n", i );
5560                     if( decode_cabac_residual(h, h->mb + 16*i, 1, i, scan + 1, s->qscale, 15) < 0 )
5561                         return -1;
5562                 }
5563             } else {
5564                 fill_rectangle(&h->non_zero_count_cache[scan8[0]], 4, 4, 8, 0, 1);
5565             }
5566         } else {
5567             int i8x8, i4x4;
5568             for( i8x8 = 0; i8x8 < 4; i8x8++ ) {
5569                 if( cbp & (1<<i8x8) ) {
5570                     for( i4x4 = 0; i4x4 < 4; i4x4++ ) {
5571                         const int index = 4*i8x8 + i4x4;
5572                         //av_log( s->avctx, AV_LOG_ERROR, "Luma4x4: %d\n", index );
5573                         if( decode_cabac_residual(h, h->mb + 16*index, 2, index, scan, s->qscale, 16) < 0 )
5574                             return -1;
5575                     }
5576                 } else {
5577                     uint8_t * const nnz= &h->non_zero_count_cache[ scan8[4*i8x8] ];
5578                     nnz[0] = nnz[1] = nnz[8] = nnz[9] = 0;
5579                 }
5580             }
5581         }
5582
5583         if( cbp&0x30 ){
5584             int c;
5585             for( c = 0; c < 2; c++ ) {
5586                 //av_log( s->avctx, AV_LOG_ERROR, "INTRA C%d-DC\n",c );
5587                 if( decode_cabac_residual(h, h->mb + 256 + 16*4*c, 3, c, chroma_dc_scan, h->chroma_qp, 4) < 0)
5588                     return -1;
5589             }
5590         }
5591
5592         if( cbp&0x20 ) {
5593             int c, i;
5594             for( c = 0; c < 2; c++ ) {
5595                 for( i = 0; i < 4; i++ ) {
5596                     const int index = 16 + 4 * c + i;
5597                     //av_log( s->avctx, AV_LOG_ERROR, "INTRA C%d-AC %d\n",c, index - 16 );
5598                     if( decode_cabac_residual(h, h->mb + 16*index, 4, index - 16, scan + 1, h->chroma_qp, 15) < 0)
5599                         return -1;
5600                 }
5601             }
5602         } else {
5603             uint8_t * const nnz= &h->non_zero_count_cache[0];
5604             nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
5605             nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
5606         }
5607     } else {
5608         uint8_t * const nnz= &h->non_zero_count_cache[0];
5609         fill_rectangle(&nnz[scan8[0]], 4, 4, 8, 0, 1);
5610         nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
5611         nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
5612     }
5613
5614     s->current_picture.qscale_table[mb_xy]= s->qscale;
5615     write_back_non_zero_count(h);
5616
5617     return 0;
5618 }
5619
5620
5621 static void filter_mb_edgev( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5622     int i, d;
5623     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5624     const int alpha = alpha_table[index_a];
5625     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5626
5627     for( i = 0; i < 4; i++ ) {
5628         if( bS[i] == 0 ) {
5629             pix += 4 * stride;
5630             continue;
5631         }
5632
5633         if( bS[i] < 4 ) {
5634             const int tc0 = tc0_table[index_a][bS[i] - 1];
5635             /* 4px edge length */
5636             for( d = 0; d < 4; d++ ) {
5637                 const int p0 = pix[-1];
5638                 const int p1 = pix[-2];
5639                 const int p2 = pix[-3];
5640                 const int q0 = pix[0];
5641                 const int q1 = pix[1];
5642                 const int q2 = pix[2];
5643
5644                 if( ABS( p0 - q0 ) < alpha &&
5645                     ABS( p1 - p0 ) < beta &&
5646                     ABS( q1 - q0 ) < beta ) {
5647                     int tc = tc0;
5648                     int i_delta;
5649
5650                     if( ABS( p2 - p0 ) < beta ) {
5651                         pix[-2] = p1 + clip( ( p2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( p1 << 1 ) ) >> 1, -tc0, tc0 );
5652                         tc++;
5653                     }
5654                     if( ABS( q2 - q0 ) < beta ) {
5655                         pix[1] = q1 + clip( ( q2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( q1 << 1 ) ) >> 1, -tc0, tc0 );
5656                         tc++;
5657                     }
5658
5659                     i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5660                     pix[-1] = clip_uint8( p0 + i_delta );    /* p0' */
5661                     pix[0]  = clip_uint8( q0 - i_delta );    /* q0' */
5662                     tprintf("filter_mb_edgev i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, tc, bS[i], pix[-3], p1, p0, q0, q1, pix[2], pix[-2], pix[-1], pix[0], pix[1]);
5663                 }
5664                 pix += stride;
5665             }
5666         }else{
5667             /* 4px edge length */
5668             for( d = 0; d < 4; d++ ) {
5669                 const int p0 = pix[-1];
5670                 const int p1 = pix[-2];
5671                 const int p2 = pix[-3];
5672
5673                 const int q0 = pix[0];
5674                 const int q1 = pix[1];
5675                 const int q2 = pix[2];
5676
5677                 if( ABS( p0 - q0 ) < alpha &&
5678                     ABS( p1 - p0 ) < beta &&
5679                     ABS( q1 - q0 ) < beta ) {
5680
5681                     if(ABS( p0 - q0 ) < (( alpha >> 2 ) + 2 )){
5682                         if( ABS( p2 - p0 ) < beta)
5683                         {
5684                             const int p3 = pix[-4];
5685                             /* p0', p1', p2' */
5686                             pix[-1] = ( p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4 ) >> 3;
5687                             pix[-2] = ( p2 + p1 + p0 + q0 + 2 ) >> 2;
5688                             pix[-3] = ( 2*p3 + 3*p2 + p1 + p0 + q0 + 4 ) >> 3;
5689                         } else {
5690                             /* p0' */
5691                             pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5692                         }
5693                         if( ABS( q2 - q0 ) < beta)
5694                         {
5695                             const int q3 = pix[3];
5696                             /* q0', q1', q2' */
5697                             pix[0] = ( p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4 ) >> 3;
5698                             pix[1] = ( p0 + q0 + q1 + q2 + 2 ) >> 2;
5699                             pix[2] = ( 2*q3 + 3*q2 + q1 + q0 + p0 + 4 ) >> 3;
5700                         } else {
5701                             /* q0' */
5702                             pix[0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5703                         }
5704                     }else{
5705                         /* p0', q0' */
5706                         pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5707                         pix[ 0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5708                     }
5709                     tprintf("filter_mb_edgev i:%d d:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, p2, p1, p0, q0, q1, q2, pix[-2], pix[-1], pix[0], pix[1]);
5710                 }
5711                 pix += stride;
5712             }
5713         }
5714     }
5715 }
5716 static void filter_mb_edgecv( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5717     int i, d;
5718     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5719     const int alpha = alpha_table[index_a];
5720     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5721
5722     for( i = 0; i < 4; i++ ) {
5723         if( bS[i] == 0 ) {
5724             pix += 2 * stride;
5725             continue;
5726         }
5727
5728         if( bS[i] < 4 ) {
5729             const int tc = tc0_table[index_a][bS[i] - 1] + 1;
5730             /* 2px edge length (because we use same bS than the one for luma) */
5731             for( d = 0; d < 2; d++ ){
5732                 const int p0 = pix[-1];
5733                 const int p1 = pix[-2];
5734                 const int q0 = pix[0];
5735                 const int q1 = pix[1];
5736
5737                 if( ABS( p0 - q0 ) < alpha &&
5738                     ABS( p1 - p0 ) < beta &&
5739                     ABS( q1 - q0 ) < beta ) {
5740                     const int i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5741
5742                     pix[-1] = clip_uint8( p0 + i_delta );    /* p0' */
5743                     pix[0]  = clip_uint8( q0 - i_delta );    /* q0' */
5744                     tprintf("filter_mb_edgecv i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, tc, bS[i], pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5745                 }
5746                 pix += stride;
5747             }
5748         }else{
5749             /* 2px edge length (because we use same bS than the one for luma) */
5750             for( d = 0; d < 2; d++ ){
5751                 const int p0 = pix[-1];
5752                 const int p1 = pix[-2];
5753                 const int q0 = pix[0];
5754                 const int q1 = pix[1];
5755
5756                 if( ABS( p0 - q0 ) < alpha &&
5757                     ABS( p1 - p0 ) < beta &&
5758                     ABS( q1 - q0 ) < beta ) {
5759
5760                     pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;   /* p0' */
5761                     pix[0]  = ( 2*q1 + q0 + p1 + 2 ) >> 2;   /* q0' */
5762                     tprintf("filter_mb_edgecv i:%d d:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5763                 }
5764                 pix += stride;
5765             }
5766         }
5767     }
5768 }
5769
5770 static void filter_mb_mbaff_edgev( H264Context *h, uint8_t *pix, int stride, int bS[8], int qp[2] ) {
5771     int i;
5772     for( i = 0; i < 16; i++, pix += stride) {
5773         int index_a;
5774         int alpha;
5775         int beta;
5776     
5777         int qp_index;
5778         int bS_index = (i >> 1);
5779         if (h->mb_field_decoding_flag) {
5780             bS_index &= ~1;
5781             bS_index |= (i & 1);
5782         }
5783
5784         if( bS[bS_index] == 0 ) {
5785             continue;
5786         }
5787
5788         qp_index = h->mb_field_decoding_flag ? (i & 1) : (i >> 3);
5789         index_a = clip( qp[qp_index] + h->slice_alpha_c0_offset, 0, 51 );
5790         alpha = alpha_table[index_a];
5791         beta  = beta_table[clip( qp[qp_index] + h->slice_beta_offset, 0, 51 )];
5792
5793
5794         if( bS[bS_index] < 4 ) {
5795             const int tc0 = tc0_table[index_a][bS[bS_index] - 1];
5796             /* 4px edge length */
5797             const int p0 = pix[-1];
5798             const int p1 = pix[-2];
5799             const int p2 = pix[-3];
5800             const int q0 = pix[0];
5801             const int q1 = pix[1];
5802             const int q2 = pix[2];
5803
5804             if( ABS( p0 - q0 ) < alpha &&
5805                 ABS( p1 - p0 ) < beta &&
5806                 ABS( q1 - q0 ) < beta ) {
5807                 int tc = tc0;
5808                 int i_delta;
5809
5810                 if( ABS( p2 - p0 ) < beta ) {
5811                     pix[-2] = p1 + clip( ( p2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( p1 << 1 ) ) >> 1, -tc0, tc0 );
5812                     tc++;
5813                 }
5814                 if( ABS( q2 - q0 ) < beta ) {
5815                     pix[1] = q1 + clip( ( q2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( q1 << 1 ) ) >> 1, -tc0, tc0 );
5816                     tc++;
5817                 }
5818
5819                 i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5820                 pix[-1] = clip_uint8( p0 + i_delta );    /* p0' */
5821                 pix[0]  = clip_uint8( q0 - i_delta );    /* q0' */
5822                 tprintf("filter_mb_mbaff_edgev i:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, qp[qp_index], index_a, alpha, beta, tc, bS[bS_index], pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5823             }
5824         }else{
5825             /* 4px edge length */
5826             const int p0 = pix[-1];
5827             const int p1 = pix[-2];
5828             const int p2 = pix[-3];
5829
5830             const int q0 = pix[0];
5831             const int q1 = pix[1];
5832             const int q2 = pix[2];
5833
5834             if( ABS( p0 - q0 ) < alpha &&
5835                 ABS( p1 - p0 ) < beta &&
5836                 ABS( q1 - q0 ) < beta ) {
5837
5838                 if(ABS( p0 - q0 ) < (( alpha >> 2 ) + 2 )){
5839                     if( ABS( p2 - p0 ) < beta)
5840                     {
5841                         const int p3 = pix[-4];
5842                         /* p0', p1', p2' */
5843                         pix[-1] = ( p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4 ) >> 3;
5844                         pix[-2] = ( p2 + p1 + p0 + q0 + 2 ) >> 2;
5845                         pix[-3] = ( 2*p3 + 3*p2 + p1 + p0 + q0 + 4 ) >> 3;
5846                     } else {
5847                         /* p0' */
5848                         pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5849                     }
5850                     if( ABS( q2 - q0 ) < beta)
5851                     {
5852                         const int q3 = pix[3];
5853                         /* q0', q1', q2' */
5854                         pix[0] = ( p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4 ) >> 3;
5855                         pix[1] = ( p0 + q0 + q1 + q2 + 2 ) >> 2;
5856                         pix[2] = ( 2*q3 + 3*q2 + q1 + q0 + p0 + 4 ) >> 3;
5857                     } else {
5858                         /* q0' */
5859                         pix[0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5860                     }
5861                 }else{
5862                     /* p0', q0' */
5863                     pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5864                     pix[ 0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5865                 }
5866                 tprintf("filter_mb_mbaff_edgev i:%d, qp:%d, indexA:%d, alpha:%d, beta:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x, %02x, %02x]\n", i, qp[qp_index], index_a, alpha, beta, p2, p1, p0, q0, q1, q2, pix[-3], pix[-2], pix[-1], pix[0], pix[1], pix[2]);
5867             }
5868         }
5869     }
5870 }
5871 static void filter_mb_mbaff_edgecv( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp[2] ) {
5872     int i;
5873     for( i = 0; i < 8; i++, pix += stride) {
5874         int index_a;
5875         int alpha;
5876         int beta;
5877
5878         int qp_index;
5879         int bS_index = i;
5880
5881         if( bS[bS_index] == 0 ) {
5882             continue;
5883         }
5884
5885         qp_index = h->mb_field_decoding_flag ? (i & 1) : (i >> 3);
5886         index_a = clip( qp[qp_index] + h->slice_alpha_c0_offset, 0, 51 );
5887         alpha = alpha_table[index_a];
5888         beta  = beta_table[clip( qp[qp_index] + h->slice_beta_offset, 0, 51 )];
5889         if( bS[bS_index] < 4 ) {
5890             const int tc = tc0_table[index_a][bS[bS_index] - 1] + 1;
5891             /* 2px edge length (because we use same bS than the one for luma) */
5892             const int p0 = pix[-1];
5893             const int p1 = pix[-2];
5894             const int q0 = pix[0];
5895             const int q1 = pix[1];
5896
5897             if( ABS( p0 - q0 ) < alpha &&
5898                 ABS( p1 - p0 ) < beta &&
5899                 ABS( q1 - q0 ) < beta ) {
5900                 const int i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5901
5902                 pix[-1] = clip_uint8( p0 + i_delta );    /* p0' */
5903                 pix[0]  = clip_uint8( q0 - i_delta );    /* q0' */
5904                 tprintf("filter_mb_mbaff_edgecv i:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, qp[qp_index], index_a, alpha, beta, tc, bS[bS_index], pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5905             }
5906         }else{
5907             const int p0 = pix[-1];
5908             const int p1 = pix[-2];
5909             const int q0 = pix[0];
5910             const int q1 = pix[1];
5911
5912             if( ABS( p0 - q0 ) < alpha &&
5913                 ABS( p1 - p0 ) < beta &&
5914                 ABS( q1 - q0 ) < beta ) {
5915
5916                 pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;   /* p0' */
5917                 pix[0]  = ( 2*q1 + q0 + p1 + 2 ) >> 2;   /* q0' */
5918                 tprintf("filter_mb_mbaff_edgecv i:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x, %02x, %02x]\n", i, pix[-3], p1, p0, q0, q1, pix[2], pix[-3], pix[-2], pix[-1], pix[0], pix[1], pix[2]);
5919             }
5920         }
5921     }
5922 }
5923
5924 static void filter_mb_edgeh( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5925     int i, d;
5926     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5927     const int alpha = alpha_table[index_a];
5928     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5929     const int pix_next  = stride;
5930
5931     for( i = 0; i < 4; i++ ) {
5932         if( bS[i] == 0 ) {
5933             pix += 4;
5934             continue;
5935         }
5936
5937         if( bS[i] < 4 ) {
5938             const int tc0 = tc0_table[index_a][bS[i] - 1];
5939             /* 4px edge length */
5940             for( d = 0; d < 4; d++ ) {
5941                 const int p0 = pix[-1*pix_next];
5942                 const int p1 = pix[-2*pix_next];
5943                 const int p2 = pix[-3*pix_next];
5944                 const int q0 = pix[0];
5945                 const int q1 = pix[1*pix_next];
5946                 const int q2 = pix[2*pix_next];
5947
5948                 if( ABS( p0 - q0 ) < alpha &&
5949                     ABS( p1 - p0 ) < beta &&
5950                     ABS( q1 - q0 ) < beta ) {
5951
5952                     int tc = tc0;
5953                     int i_delta;
5954
5955                     if( ABS( p2 - p0 ) < beta ) {
5956                         pix[-2*pix_next] = p1 + clip( ( p2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( p1 << 1 ) ) >> 1, -tc0, tc0 );
5957                         tc++;
5958                     }
5959                     if( ABS( q2 - q0 ) < beta ) {
5960                         pix[pix_next] = q1 + clip( ( q2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( q1 << 1 ) ) >> 1, -tc0, tc0 );
5961                         tc++;
5962                     }
5963
5964                     i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5965                     pix[-pix_next] = clip_uint8( p0 + i_delta );    /* p0' */
5966                     pix[0]         = clip_uint8( q0 - i_delta );    /* q0' */
5967                     tprintf("filter_mb_edgeh i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, tc, bS[i], p2, p1, p0, q0, q1, q2, pix[-2*pix_next], pix[-pix_next], pix[0], pix[pix_next]);
5968                 }
5969                 pix++;
5970             }
5971         }else{
5972             /* 4px edge length */
5973             for( d = 0; d < 4; d++ ) {
5974                 const int p0 = pix[-1*pix_next];
5975                 const int p1 = pix[-2*pix_next];
5976                 const int p2 = pix[-3*pix_next];
5977                 const int q0 = pix[0];
5978                 const int q1 = pix[1*pix_next];
5979                 const int q2 = pix[2*pix_next];
5980
5981                 if( ABS( p0 - q0 ) < alpha &&
5982                     ABS( p1 - p0 ) < beta &&
5983                     ABS( q1 - q0 ) < beta ) {
5984
5985                     const int p3 = pix[-4*pix_next];
5986                     const int q3 = pix[ 3*pix_next];
5987
5988                     if(ABS( p0 - q0 ) < (( alpha >> 2 ) + 2 )){
5989                         if( ABS( p2 - p0 ) < beta) {
5990                             /* p0', p1', p2' */
5991                             pix[-1*pix_next] = ( p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4 ) >> 3;
5992                             pix[-2*pix_next] = ( p2 + p1 + p0 + q0 + 2 ) >> 2;
5993                             pix[-3*pix_next] = ( 2*p3 + 3*p2 + p1 + p0 + q0 + 4 ) >> 3;
5994                         } else {
5995                             /* p0' */
5996                             pix[-1*pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5997                         }
5998                         if( ABS( q2 - q0 ) < beta) {
5999                             /* q0', q1', q2' */
6000                             pix[0*pix_next] = ( p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4 ) >> 3;
6001                             pix[1*pix_next] = ( p0 + q0 + q1 + q2 + 2 ) >> 2;
6002                             pix[2*pix_next] = ( 2*q3 + 3*q2 + q1 + q0 + p0 + 4 ) >> 3;
6003                         } else {
6004                             /* q0' */
6005                             pix[0*pix_next] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
6006                         }
6007                     }else{
6008                         /* p0', q0' */
6009                         pix[-1*pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
6010                         pix[ 0*pix_next] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
6011                     }
6012                     tprintf("filter_mb_edgeh i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, bS[i], p2, p1, p0, q0, q1, q2, pix[-2*pix_next], pix[-pix_next], pix[0], pix[pix_next]);
6013                 }
6014                 pix++;
6015             }
6016         }
6017     }
6018 }
6019
6020 static void filter_mb_edgech( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
6021     int i, d;
6022     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
6023     const int alpha = alpha_table[index_a];
6024     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
6025     const int pix_next  = stride;
6026
6027     for( i = 0; i < 4; i++ )
6028     {
6029         if( bS[i] == 0 ) {
6030             pix += 2;
6031             continue;
6032         }
6033
6034         if( bS[i] < 4 ) {
6035             int tc = tc0_table[index_a][bS[i] - 1] + 1;
6036             /* 2px edge length (see deblocking_filter_edgecv) */
6037             for( d = 0; d < 2; d++ ) {
6038                 const int p0 = pix[-1*pix_next];
6039                 const int p1 = pix[-2*pix_next];
6040                 const int q0 = pix[0];
6041                 const int q1 = pix[1*pix_next];
6042
6043                 if( ABS( p0 - q0 ) < alpha &&
6044                     ABS( p1 - p0 ) < beta &&
6045                     ABS( q1 - q0 ) < beta ) {
6046
6047                     int i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
6048
6049                     pix[-pix_next] = clip_uint8( p0 + i_delta );    /* p0' */
6050                     pix[0]         = clip_uint8( q0 - i_delta );    /* q0' */
6051                     tprintf("filter_mb_edgech i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, tc, bS[i], pix[-3*pix_next], p1, p0, q0, q1, pix[2*pix_next], pix[-2*pix_next], pix[-pix_next], pix[0], pix[pix_next]);
6052                 }
6053                 pix++;
6054             }
6055         }else{
6056             /* 2px edge length (see deblocking_filter_edgecv) */
6057             for( d = 0; d < 2; d++ ) {
6058                 const int p0 = pix[-1*pix_next];
6059                 const int p1 = pix[-2*pix_next];
6060                 const int q0 = pix[0];
6061                 const int q1 = pix[1*pix_next];
6062
6063                 if( ABS( p0 - q0 ) < alpha &&
6064                     ABS( p1 - p0 ) < beta &&
6065                     ABS( q1 - q0 ) < beta ) {
6066
6067                     pix[-pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;   /* p0' */
6068                     pix[0]         = ( 2*q1 + q0 + p1 + 2 ) >> 2;   /* q0' */
6069                     tprintf("filter_mb_edgech i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, bS[i], pix[-3*pix_next], p1, p0, q0, q1, pix[2*pix_next], pix[-2*pix_next], pix[-pix_next], pix[0], pix[pix_next]);
6070                 }
6071                 pix++;
6072             }
6073         }
6074     }
6075 }
6076
6077 static void filter_mb( H264Context *h, int mb_x, int mb_y, uint8_t *img_y, uint8_t *img_cb, uint8_t *img_cr, unsigned int linesize, unsigned int uvlinesize) {
6078     MpegEncContext * const s = &h->s;
6079     const int mb_xy= mb_x + mb_y*s->mb_stride;
6080     int first_vertical_edge_done = 0;
6081     int dir;
6082
6083     if (h->mb_aff_frame
6084             // left mb is in picture
6085             && h->slice_table[mb_xy-1] != 255
6086             // and current and left pair do not have the same interlaced type
6087             && (IS_INTERLACED(s->current_picture.mb_type[mb_xy]) != IS_INTERLACED(s->current_picture.mb_type[mb_xy-1]))
6088             // and left mb is in the same slice if deblocking_filter == 2
6089             && (h->deblocking_filter!=2 || h->slice_table[mb_xy-1] == h->slice_table[mb_xy])) {
6090         /* First vertical edge is different in MBAFF frames
6091          * There are 8 differents bS to compute and 2 differents Qp
6092          */
6093         int bS[8];
6094         int qp[2];
6095         int chroma_qp[2];
6096
6097         int i;
6098         first_vertical_edge_done = 1;
6099         for( i = 0; i < 8; i++ ) {
6100             int y = i>>1;
6101             int b_idx= 8 + 4 + 8*y;
6102             int bn_idx= b_idx - 1;
6103
6104             int mbn_xy = h->mb_field_decoding_flag ? h->left_mb_xy[i>>2] : h->left_mb_xy[i&1];
6105
6106             if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
6107                 IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
6108                 bS[i] = 4;
6109             } else if( h->non_zero_count_cache[b_idx] != 0 ||
6110                 h->non_zero_count_cache[bn_idx] != 0 ) {
6111                 bS[i] = 2;
6112             } else {
6113                 /* FIXME: A given frame may occupy more than one position in
6114                  * the reference list. So we should compare the frame numbers,
6115                  * not the indices in the ref list. */
6116                 int l;
6117                 bS[i] = 0;
6118                 for( l = 0; l < 1 + (h->slice_type == B_TYPE); l++ ) {
6119                     if( h->ref_cache[l][b_idx] != h->ref_cache[l][bn_idx] ||
6120                         ABS( h->mv_cache[l][b_idx][0] - h->mv_cache[l][bn_idx][0] ) >= 4 ||
6121                         ABS( h->mv_cache[l][b_idx][1] - h->mv_cache[l][bn_idx][1] ) >= 4 ) {
6122                         bS[i] = 1;
6123                         break;
6124                     }
6125                 }
6126             }
6127         }
6128         if(bS[0]+bS[1]+bS[2]+bS[3] != 0) {
6129             // Do not use s->qscale as luma quantiser because it has not the same
6130             // value in IPCM macroblocks.
6131             qp[0] = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[h->left_mb_xy[0]] + 1 ) >> 1;
6132             chroma_qp[0] = ( get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mb_xy] ) +
6133                              get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[h->left_mb_xy[0]] ) + 1 ) >> 1;
6134             qp[1] = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[h->left_mb_xy[1]] + 1 ) >> 1;
6135             chroma_qp[1] = ( get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mb_xy] ) +
6136                              get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[h->left_mb_xy[1]] ) + 1 ) >> 1;
6137
6138             /* Filter edge */
6139             tprintf("filter mb:%d/%d MBAFF, QPy:%d/%d, QPc:%d/%d ls:%d uvls:%d", mb_x, mb_y, qp[0], qp[1], chroma_qp[0], chroma_qp[1], linesize, uvlinesize);
6140             { int i; for (i = 0; i < 8; i++) tprintf(" bS[%d]:%d", i, bS[i]); tprintf("\n"); }
6141             filter_mb_mbaff_edgev ( h, &img_y [0], linesize,   bS, qp );
6142             filter_mb_mbaff_edgecv( h, &img_cb[0], uvlinesize, bS, chroma_qp );
6143             filter_mb_mbaff_edgecv( h, &img_cr[0], uvlinesize, bS, chroma_qp );
6144         }
6145     }
6146     /* dir : 0 -> vertical edge, 1 -> horizontal edge */
6147     for( dir = 0; dir < 2; dir++ )
6148     {
6149         int edge;
6150         const int mbm_xy = dir == 0 ? mb_xy -1 : h->top_mb_xy;
6151         int start = h->slice_table[mbm_xy] == 255 ? 1 : 0;
6152
6153         if (first_vertical_edge_done) {
6154             start = 1;
6155             first_vertical_edge_done = 0;
6156         }
6157
6158         if (h->deblocking_filter==2 && h->slice_table[mbm_xy] != h->slice_table[mb_xy])
6159             start = 1;
6160
6161         /* Calculate bS */
6162         for( edge = start; edge < 4; edge++ ) {
6163             /* mbn_xy: neighbour macroblock */
6164             int mbn_xy = edge > 0 ? mb_xy : mbm_xy;
6165             int bS[4];
6166             int qp;
6167
6168             if (h->mb_aff_frame && (dir == 1) && (edge == 0) && ((mb_y & 1) == 0)
6169                 && !IS_INTERLACED(s->current_picture.mb_type[mb_xy])
6170                 && IS_INTERLACED(s->current_picture.mb_type[mbn_xy])
6171                 ) {
6172                 // This is a special case in the norm where the filtering must
6173                 // be done twice (one each of the field) even if we are in a
6174                 // frame macroblock.
6175                 //
6176                 unsigned int tmp_linesize   = 2 *   linesize;
6177                 unsigned int tmp_uvlinesize = 2 * uvlinesize;
6178                 int mbn_xy = mb_xy - 2 * s->mb_stride;
6179                 int qp, chroma_qp;
6180
6181                 // first filtering
6182                 if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
6183                     IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
6184                     bS[0] = bS[1] = bS[2] = bS[3] = 3;
6185                 } else {
6186                     // TODO
6187                     assert(0);
6188                 }
6189                 /* Filter edge */
6190                 // Do not use s->qscale as luma quantiser because it has not the same
6191                 // value in IPCM macroblocks.
6192                 qp = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[mbn_xy] + 1 ) >> 1;
6193                 tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d ls:%d uvls:%d", mb_x, mb_y, dir, edge, qp, tmp_linesize, tmp_uvlinesize);
6194                 { int i; for (i = 0; i < 4; i++) tprintf(" bS[%d]:%d", i, bS[i]); tprintf("\n"); }
6195                 filter_mb_edgeh( h, &img_y[0], tmp_linesize, bS, qp );
6196                 chroma_qp = ( h->chroma_qp +
6197                               get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
6198                 filter_mb_edgech( h, &img_cb[0], tmp_uvlinesize, bS, chroma_qp );
6199                 filter_mb_edgech( h, &img_cr[0], tmp_uvlinesize, bS, chroma_qp );
6200
6201                 // second filtering
6202                 mbn_xy += s->mb_stride;
6203                 if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
6204                     IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
6205                     bS[0] = bS[1] = bS[2] = bS[3] = 3;
6206                 } else {
6207                     // TODO
6208                     assert(0);
6209                 }
6210                 /* Filter edge */
6211                 // Do not use s->qscale as luma quantiser because it has not the same
6212                 // value in IPCM macroblocks.
6213                 qp = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[mbn_xy] + 1 ) >> 1;
6214                 tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d ls:%d uvls:%d", mb_x, mb_y, dir, edge, qp, tmp_linesize, tmp_uvlinesize);
6215                 { int i; for (i = 0; i < 4; i++) tprintf(" bS[%d]:%d", i, bS[i]); tprintf("\n"); }
6216                 filter_mb_edgeh( h, &img_y[linesize], tmp_linesize, bS, qp );
6217                 chroma_qp = ( h->chroma_qp +
6218                               get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
6219                 filter_mb_edgech( h, &img_cb[uvlinesize], tmp_uvlinesize, bS, chroma_qp );
6220                 filter_mb_edgech( h, &img_cr[uvlinesize], tmp_uvlinesize, bS, chroma_qp );
6221                 continue;
6222             }
6223             if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
6224                 IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
6225                 int value;
6226                 if (edge == 0) {
6227                     if (   (!IS_INTERLACED(s->current_picture.mb_type[mb_xy]) && !IS_INTERLACED(s->current_picture.mb_type[mbm_xy]))
6228                         || ((h->mb_aff_frame || (s->picture_structure != PICT_FRAME)) && (dir == 0))
6229                     ) {
6230                         value = 4;
6231                     } else {
6232                         value = 3;
6233                     }
6234                 } else {
6235                     value = 3;
6236                 }
6237                 bS[0] = bS[1] = bS[2] = bS[3] = value;
6238             } else {
6239                 int i;
6240                 for( i = 0; i < 4; i++ ) {
6241                     int x = dir == 0 ? edge : i;
6242                     int y = dir == 0 ? i    : edge;
6243                     int b_idx= 8 + 4 + x + 8*y;
6244                     int bn_idx= b_idx - (dir ? 8:1);
6245
6246                     if( h->non_zero_count_cache[b_idx] != 0 ||
6247                         h->non_zero_count_cache[bn_idx] != 0 ) {
6248                         bS[i] = 2;
6249                     }
6250                     else
6251                     {
6252                         /* FIXME: A given frame may occupy more than one position in
6253                          * the reference list. So we should compare the frame numbers,
6254                          * not the indices in the ref list. */
6255                         int l;
6256                         bS[i] = 0;
6257                         for( l = 0; l < 1 + (h->slice_type == B_TYPE); l++ ) {
6258                             if( h->ref_cache[l][b_idx] != h->ref_cache[l][bn_idx] ||
6259                                 ABS( h->mv_cache[l][b_idx][0] - h->mv_cache[l][bn_idx][0] ) >= 4 ||
6260                                 ABS( h->mv_cache[l][b_idx][1] - h->mv_cache[l][bn_idx][1] ) >= 4 ) {
6261                                 bS[i] = 1;
6262                                 break;
6263                             }
6264                         }
6265                     }
6266                 }
6267
6268                 if(bS[0]+bS[1]+bS[2]+bS[3] == 0)
6269                     continue;
6270             }
6271
6272             /* Filter edge */
6273             // Do not use s->qscale as luma quantiser because it has not the same
6274             // value in IPCM macroblocks.
6275             qp = ( s->current_picture.qscale_table[mb_xy] + s->current_picture.qscale_table[mbn_xy] + 1 ) >> 1;
6276             //tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d, QPc:%d, QPcn:%d\n", mb_x, mb_y, dir, edge, qp, h->chroma_qp, s->current_picture.qscale_table[mbn_xy]);
6277             tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d ls:%d uvls:%d", mb_x, mb_y, dir, edge, qp, linesize, uvlinesize);
6278             { int i; for (i = 0; i < 4; i++) tprintf(" bS[%d]:%d", i, bS[i]); tprintf("\n"); }
6279             if( dir == 0 ) {
6280                 filter_mb_edgev( h, &img_y[4*edge], linesize, bS, qp );
6281                 if( (edge&1) == 0 ) {
6282                     int chroma_qp = ( h->chroma_qp +
6283                                       get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
6284                     filter_mb_edgecv( h, &img_cb[2*edge], uvlinesize, bS, chroma_qp );
6285                     filter_mb_edgecv( h, &img_cr[2*edge], uvlinesize, bS, chroma_qp );
6286                 }
6287             } else {
6288                 filter_mb_edgeh( h, &img_y[4*edge*linesize], linesize, bS, qp );
6289                 if( (edge&1) == 0 ) {
6290                     int chroma_qp = ( h->chroma_qp +
6291                                       get_chroma_qp( h->pps.chroma_qp_index_offset, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
6292                     filter_mb_edgech( h, &img_cb[2*edge*uvlinesize], uvlinesize, bS, chroma_qp );
6293                     filter_mb_edgech( h, &img_cr[2*edge*uvlinesize], uvlinesize, bS, chroma_qp );
6294                 }
6295             }
6296         }
6297     }
6298 }
6299
6300 static int decode_slice(H264Context *h){
6301     MpegEncContext * const s = &h->s;
6302     const int part_mask= s->partitioned_frame ? (AC_END|AC_ERROR) : 0x7F;
6303
6304     s->mb_skip_run= -1;
6305
6306     if( h->pps.cabac ) {
6307         int i;
6308
6309         /* realign */
6310         align_get_bits( &s->gb );
6311
6312         /* init cabac */
6313         ff_init_cabac_states( &h->cabac, ff_h264_lps_range, ff_h264_mps_state, ff_h264_lps_state, 64 );
6314         ff_init_cabac_decoder( &h->cabac,
6315                                s->gb.buffer + get_bits_count(&s->gb)/8,
6316                                ( s->gb.size_in_bits - get_bits_count(&s->gb) + 7)/8);
6317         /* calculate pre-state */
6318         for( i= 0; i < 399; i++ ) {
6319             int pre;
6320             if( h->slice_type == I_TYPE )
6321                 pre = clip( ((cabac_context_init_I[i][0] * s->qscale) >>4 ) + cabac_context_init_I[i][1], 1, 126 );
6322             else
6323                 pre = clip( ((cabac_context_init_PB[h->cabac_init_idc][i][0] * s->qscale) >>4 ) + cabac_context_init_PB[h->cabac_init_idc][i][1], 1, 126 );
6324
6325             if( pre <= 63 )
6326                 h->cabac_state[i] = 2 * ( 63 - pre ) + 0;
6327             else
6328                 h->cabac_state[i] = 2 * ( pre - 64 ) + 1;
6329         }
6330
6331         for(;;){
6332             int ret = decode_mb_cabac(h);
6333             int eos;
6334
6335             if(ret>=0) hl_decode_mb(h);
6336
6337             /* XXX: useless as decode_mb_cabac it doesn't support that ... */
6338             if( ret >= 0 && h->mb_aff_frame ) { //FIXME optimal? or let mb_decode decode 16x32 ?
6339                 s->mb_y++;
6340
6341                 if(ret>=0) ret = decode_mb_cabac(h);
6342
6343                 hl_decode_mb(h);
6344                 s->mb_y--;
6345             }
6346             eos = get_cabac_terminate( &h->cabac );
6347
6348             if( ret < 0 || h->cabac.bytestream > h->cabac.bytestream_end + 1) {
6349                 av_log(h->s.avctx, AV_LOG_ERROR, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
6350                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6351                 return -1;
6352             }
6353
6354             if( ++s->mb_x >= s->mb_width ) {
6355                 s->mb_x = 0;
6356                 ff_draw_horiz_band(s, 16*s->mb_y, 16);
6357                 ++s->mb_y;
6358                 if(h->mb_aff_frame) {
6359                     ++s->mb_y;
6360                 }
6361             }
6362
6363             if( eos || s->mb_y >= s->mb_height ) {
6364                 tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
6365                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6366                 return 0;
6367             }
6368         }
6369
6370     } else {
6371         for(;;){
6372             int ret = decode_mb_cavlc(h);
6373
6374             if(ret>=0) hl_decode_mb(h);
6375
6376             if(ret>=0 && h->mb_aff_frame){ //FIXME optimal? or let mb_decode decode 16x32 ?
6377                 s->mb_y++;
6378                 ret = decode_mb_cavlc(h);
6379
6380                 if(ret>=0) hl_decode_mb(h);
6381                 s->mb_y--;
6382             }
6383
6384             if(ret<0){
6385                 av_log(h->s.avctx, AV_LOG_ERROR, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
6386                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6387
6388                 return -1;
6389             }
6390
6391             if(++s->mb_x >= s->mb_width){
6392                 s->mb_x=0;
6393                 ff_draw_horiz_band(s, 16*s->mb_y, 16);
6394                 ++s->mb_y;
6395                 if(h->mb_aff_frame) {
6396                     ++s->mb_y;
6397                 }
6398                 if(s->mb_y >= s->mb_height){
6399                     tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
6400
6401                     if(get_bits_count(&s->gb) == s->gb.size_in_bits ) {
6402                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6403
6404                         return 0;
6405                     }else{
6406                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6407
6408                         return -1;
6409                     }
6410                 }
6411             }
6412
6413             if(get_bits_count(&s->gb) >= s->gb.size_in_bits && s->mb_skip_run<=0){
6414                 tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
6415                 if(get_bits_count(&s->gb) == s->gb.size_in_bits ){
6416                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6417
6418                     return 0;
6419                 }else{
6420                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6421
6422                     return -1;
6423                 }
6424             }
6425         }
6426     }
6427
6428 #if 0
6429     for(;s->mb_y < s->mb_height; s->mb_y++){
6430         for(;s->mb_x < s->mb_width; s->mb_x++){
6431             int ret= decode_mb(h);
6432             
6433             hl_decode_mb(h);
6434
6435             if(ret<0){
6436                 fprintf(stderr, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
6437                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6438
6439                 return -1;
6440             }
6441         
6442             if(++s->mb_x >= s->mb_width){
6443                 s->mb_x=0;
6444                 if(++s->mb_y >= s->mb_height){
6445                     if(get_bits_count(s->gb) == s->gb.size_in_bits){
6446                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6447
6448                         return 0;
6449                     }else{
6450                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6451
6452                         return -1;
6453                     }
6454                 }
6455             }
6456         
6457             if(get_bits_count(s->?gb) >= s->gb?.size_in_bits){
6458                 if(get_bits_count(s->gb) == s->gb.size_in_bits){
6459                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
6460
6461                     return 0;
6462                 }else{
6463                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
6464
6465                     return -1;
6466                 }
6467             }
6468         }
6469         s->mb_x=0;
6470         ff_draw_horiz_band(s, 16*s->mb_y, 16);
6471     }
6472 #endif
6473     return -1; //not reached
6474 }
6475
6476 static inline void decode_hrd_parameters(H264Context *h, SPS *sps){
6477     MpegEncContext * const s = &h->s;
6478     int cpb_count, i;
6479     cpb_count = get_ue_golomb(&s->gb) + 1;
6480     get_bits(&s->gb, 4); /* bit_rate_scale */
6481     get_bits(&s->gb, 4); /* cpb_size_scale */
6482     for(i=0; i<cpb_count; i++){
6483         get_ue_golomb(&s->gb); /* bit_rate_value_minus1 */
6484         get_ue_golomb(&s->gb); /* cpb_size_value_minus1 */
6485         get_bits1(&s->gb);     /* cbr_flag */
6486     }
6487     get_bits(&s->gb, 5); /* initial_cpb_removal_delay_length_minus1 */
6488     get_bits(&s->gb, 5); /* cpb_removal_delay_length_minus1 */
6489     get_bits(&s->gb, 5); /* dpb_output_delay_length_minus1 */
6490     get_bits(&s->gb, 5); /* time_offset_length */
6491 }
6492
6493 static inline int decode_vui_parameters(H264Context *h, SPS *sps){
6494     MpegEncContext * const s = &h->s;
6495     int aspect_ratio_info_present_flag, aspect_ratio_idc;
6496     int nal_hrd_parameters_present_flag, vcl_hrd_parameters_present_flag;
6497
6498     aspect_ratio_info_present_flag= get_bits1(&s->gb);
6499     
6500     if( aspect_ratio_info_present_flag ) {
6501         aspect_ratio_idc= get_bits(&s->gb, 8);
6502         if( aspect_ratio_idc == EXTENDED_SAR ) {
6503             sps->sar.num= get_bits(&s->gb, 16);
6504             sps->sar.den= get_bits(&s->gb, 16);
6505         }else if(aspect_ratio_idc < 16){
6506             sps->sar=  pixel_aspect[aspect_ratio_idc];
6507         }else{
6508             av_log(h->s.avctx, AV_LOG_ERROR, "illegal aspect ratio\n");
6509             return -1;
6510         }
6511     }else{
6512         sps->sar.num= 
6513         sps->sar.den= 0;
6514     }
6515 //            s->avctx->aspect_ratio= sar_width*s->width / (float)(s->height*sar_height);
6516
6517     if(get_bits1(&s->gb)){      /* overscan_info_present_flag */
6518         get_bits1(&s->gb);      /* overscan_appropriate_flag */
6519     }
6520
6521     if(get_bits1(&s->gb)){      /* video_signal_type_present_flag */
6522         get_bits(&s->gb, 3);    /* video_format */
6523         get_bits1(&s->gb);      /* video_full_range_flag */
6524         if(get_bits1(&s->gb)){  /* colour_description_present_flag */
6525             get_bits(&s->gb, 8); /* colour_primaries */
6526             get_bits(&s->gb, 8); /* transfer_characteristics */
6527             get_bits(&s->gb, 8); /* matrix_coefficients */
6528         }
6529     }
6530
6531     if(get_bits1(&s->gb)){      /* chroma_location_info_present_flag */
6532         get_ue_golomb(&s->gb);  /* chroma_sample_location_type_top_field */
6533         get_ue_golomb(&s->gb);  /* chroma_sample_location_type_bottom_field */
6534     }
6535
6536     sps->timing_info_present_flag = get_bits1(&s->gb);
6537     if(sps->timing_info_present_flag){
6538         sps->num_units_in_tick = get_bits_long(&s->gb, 32);
6539         sps->time_scale = get_bits_long(&s->gb, 32);
6540         sps->fixed_frame_rate_flag = get_bits1(&s->gb);
6541     }
6542
6543     nal_hrd_parameters_present_flag = get_bits1(&s->gb);
6544     if(nal_hrd_parameters_present_flag)
6545         decode_hrd_parameters(h, sps);
6546     vcl_hrd_parameters_present_flag = get_bits1(&s->gb);
6547     if(vcl_hrd_parameters_present_flag)
6548         decode_hrd_parameters(h, sps);
6549     if(nal_hrd_parameters_present_flag || vcl_hrd_parameters_present_flag)
6550         get_bits1(&s->gb);     /* low_delay_hrd_flag */
6551     get_bits1(&s->gb);         /* pic_struct_present_flag */
6552
6553     sps->bitstream_restriction_flag = get_bits1(&s->gb);
6554     if(sps->bitstream_restriction_flag){
6555         get_bits1(&s->gb);     /* motion_vectors_over_pic_boundaries_flag */
6556         get_ue_golomb(&s->gb); /* max_bytes_per_pic_denom */
6557         get_ue_golomb(&s->gb); /* max_bits_per_mb_denom */
6558         get_ue_golomb(&s->gb); /* log2_max_mv_length_horizontal */
6559         get_ue_golomb(&s->gb); /* log2_max_mv_length_vertical */
6560         sps->num_reorder_frames = get_ue_golomb(&s->gb);
6561         get_ue_golomb(&s->gb); /* max_dec_frame_buffering */
6562     }
6563
6564     return 0;
6565 }
6566
6567 static inline int decode_seq_parameter_set(H264Context *h){
6568     MpegEncContext * const s = &h->s;
6569     int profile_idc, level_idc;
6570     int sps_id, i;
6571     SPS *sps;
6572     
6573     profile_idc= get_bits(&s->gb, 8);
6574     get_bits1(&s->gb);   //constraint_set0_flag
6575     get_bits1(&s->gb);   //constraint_set1_flag
6576     get_bits1(&s->gb);   //constraint_set2_flag
6577     get_bits1(&s->gb);   //constraint_set3_flag
6578     get_bits(&s->gb, 4); // reserved
6579     level_idc= get_bits(&s->gb, 8);
6580     sps_id= get_ue_golomb(&s->gb);
6581     
6582     sps= &h->sps_buffer[ sps_id ];
6583     sps->profile_idc= profile_idc;
6584     sps->level_idc= level_idc;
6585
6586     sps->log2_max_frame_num= get_ue_golomb(&s->gb) + 4;
6587     sps->poc_type= get_ue_golomb(&s->gb);
6588     
6589     if(sps->poc_type == 0){ //FIXME #define
6590         sps->log2_max_poc_lsb= get_ue_golomb(&s->gb) + 4;
6591     } else if(sps->poc_type == 1){//FIXME #define
6592         sps->delta_pic_order_always_zero_flag= get_bits1(&s->gb);
6593         sps->offset_for_non_ref_pic= get_se_golomb(&s->gb);
6594         sps->offset_for_top_to_bottom_field= get_se_golomb(&s->gb);
6595         sps->poc_cycle_length= get_ue_golomb(&s->gb);
6596         
6597         for(i=0; i<sps->poc_cycle_length; i++)
6598             sps->offset_for_ref_frame[i]= get_se_golomb(&s->gb);
6599     }
6600     if(sps->poc_type > 2){
6601         av_log(h->s.avctx, AV_LOG_ERROR, "illegal POC type %d\n", sps->poc_type);
6602         return -1;
6603     }
6604
6605     sps->ref_frame_count= get_ue_golomb(&s->gb);
6606     if(sps->ref_frame_count > MAX_PICTURE_COUNT-2){
6607         av_log(h->s.avctx, AV_LOG_ERROR, "too many reference frames\n");
6608     }
6609     sps->gaps_in_frame_num_allowed_flag= get_bits1(&s->gb);
6610     sps->mb_width= get_ue_golomb(&s->gb) + 1;
6611     sps->mb_height= get_ue_golomb(&s->gb) + 1;
6612     if((unsigned)sps->mb_width >= INT_MAX/16 || (unsigned)sps->mb_height >= INT_MAX/16 || 
6613        avcodec_check_dimensions(NULL, 16*sps->mb_width, 16*sps->mb_height))
6614         return -1;
6615
6616     sps->frame_mbs_only_flag= get_bits1(&s->gb);
6617     if(!sps->frame_mbs_only_flag)
6618         sps->mb_aff= get_bits1(&s->gb);
6619     else
6620         sps->mb_aff= 0;
6621
6622     sps->direct_8x8_inference_flag= get_bits1(&s->gb);
6623
6624     sps->crop= get_bits1(&s->gb);
6625     if(sps->crop){
6626         sps->crop_left  = get_ue_golomb(&s->gb);
6627         sps->crop_right = get_ue_golomb(&s->gb);
6628         sps->crop_top   = get_ue_golomb(&s->gb);
6629         sps->crop_bottom= get_ue_golomb(&s->gb);
6630         if(sps->crop_left || sps->crop_top){
6631             av_log(h->s.avctx, AV_LOG_ERROR, "insane cropping not completely supported, this could look slightly wrong ...\n");
6632         }
6633     }else{
6634         sps->crop_left  = 
6635         sps->crop_right = 
6636         sps->crop_top   = 
6637         sps->crop_bottom= 0;
6638     }
6639
6640     sps->vui_parameters_present_flag= get_bits1(&s->gb);
6641     if( sps->vui_parameters_present_flag )
6642         decode_vui_parameters(h, sps);
6643     
6644     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
6645         av_log(h->s.avctx, AV_LOG_DEBUG, "sps:%d profile:%d/%d poc:%d ref:%d %dx%d %s %s crop:%d/%d/%d/%d %s\n", 
6646                sps_id, sps->profile_idc, sps->level_idc,
6647                sps->poc_type,
6648                sps->ref_frame_count,
6649                sps->mb_width, sps->mb_height,
6650                sps->frame_mbs_only_flag ? "FRM" : (sps->mb_aff ? "MB-AFF" : "PIC-AFF"),
6651                sps->direct_8x8_inference_flag ? "8B8" : "",
6652                sps->crop_left, sps->crop_right, 
6653                sps->crop_top, sps->crop_bottom, 
6654                sps->vui_parameters_present_flag ? "VUI" : ""
6655                );
6656     }
6657     return 0;
6658 }
6659
6660 static inline int decode_picture_parameter_set(H264Context *h){
6661     MpegEncContext * const s = &h->s;
6662     int pps_id= get_ue_golomb(&s->gb);
6663     PPS *pps= &h->pps_buffer[pps_id];
6664     
6665     pps->sps_id= get_ue_golomb(&s->gb);
6666     pps->cabac= get_bits1(&s->gb);
6667     pps->pic_order_present= get_bits1(&s->gb);
6668     pps->slice_group_count= get_ue_golomb(&s->gb) + 1;
6669     if(pps->slice_group_count > 1 ){
6670         pps->mb_slice_group_map_type= get_ue_golomb(&s->gb);
6671         av_log(h->s.avctx, AV_LOG_ERROR, "FMO not supported\n");
6672         switch(pps->mb_slice_group_map_type){
6673         case 0:
6674 #if 0
6675 |   for( i = 0; i <= num_slice_groups_minus1; i++ ) |   |        |
6676 |    run_length[ i ]                                |1  |ue(v)   |
6677 #endif
6678             break;
6679         case 2:
6680 #if 0
6681 |   for( i = 0; i < num_slice_groups_minus1; i++ )  |   |        |
6682 |{                                                  |   |        |
6683 |    top_left_mb[ i ]                               |1  |ue(v)   |
6684 |    bottom_right_mb[ i ]                           |1  |ue(v)   |
6685 |   }                                               |   |        |
6686 #endif
6687             break;
6688         case 3:
6689         case 4:
6690         case 5:
6691 #if 0
6692 |   slice_group_change_direction_flag               |1  |u(1)    |
6693 |   slice_group_change_rate_minus1                  |1  |ue(v)   |
6694 #endif
6695             break;
6696         case 6:
6697 #if 0
6698 |   slice_group_id_cnt_minus1                       |1  |ue(v)   |
6699 |   for( i = 0; i <= slice_group_id_cnt_minus1; i++ |   |        |
6700 |)                                                  |   |        |
6701 |    slice_group_id[ i ]                            |1  |u(v)    |
6702 #endif
6703             break;
6704         }
6705     }
6706     pps->ref_count[0]= get_ue_golomb(&s->gb) + 1;
6707     pps->ref_count[1]= get_ue_golomb(&s->gb) + 1;
6708     if(pps->ref_count[0] > 32 || pps->ref_count[1] > 32){
6709         av_log(h->s.avctx, AV_LOG_ERROR, "reference overflow (pps)\n");
6710         return -1;
6711     }
6712     
6713     pps->weighted_pred= get_bits1(&s->gb);
6714     pps->weighted_bipred_idc= get_bits(&s->gb, 2);
6715     pps->init_qp= get_se_golomb(&s->gb) + 26;
6716     pps->init_qs= get_se_golomb(&s->gb) + 26;
6717     pps->chroma_qp_index_offset= get_se_golomb(&s->gb);
6718     pps->deblocking_filter_parameters_present= get_bits1(&s->gb);
6719     pps->constrained_intra_pred= get_bits1(&s->gb);
6720     pps->redundant_pic_cnt_present = get_bits1(&s->gb);
6721     
6722     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
6723         av_log(h->s.avctx, AV_LOG_DEBUG, "pps:%d sps:%d %s slice_groups:%d ref:%d/%d %s qp:%d/%d/%d %s %s %s\n", 
6724                pps_id, pps->sps_id,
6725                pps->cabac ? "CABAC" : "CAVLC",
6726                pps->slice_group_count,
6727                pps->ref_count[0], pps->ref_count[1],
6728                pps->weighted_pred ? "weighted" : "",
6729                pps->init_qp, pps->init_qs, pps->chroma_qp_index_offset,
6730                pps->deblocking_filter_parameters_present ? "LPAR" : "",
6731                pps->constrained_intra_pred ? "CONSTR" : "",
6732                pps->redundant_pic_cnt_present ? "REDU" : ""
6733                );
6734     }
6735     
6736     return 0;
6737 }
6738
6739 /**
6740  * finds the end of the current frame in the bitstream.
6741  * @return the position of the first byte of the next frame, or -1
6742  */
6743 static int find_frame_end(H264Context *h, const uint8_t *buf, int buf_size){
6744     int i;
6745     uint32_t state;
6746     ParseContext *pc = &(h->s.parse_context);
6747 //printf("first %02X%02X%02X%02X\n", buf[0], buf[1],buf[2],buf[3]);
6748 //    mb_addr= pc->mb_addr - 1;
6749     state= pc->state;
6750     for(i=0; i<=buf_size; i++){
6751         if((state&0xFFFFFF1F) == 0x101 || (state&0xFFFFFF1F) == 0x102 || (state&0xFFFFFF1F) == 0x105){
6752             tprintf("find_frame_end new startcode = %08x, frame_start_found = %d, pos = %d\n", state, pc->frame_start_found, i);
6753             if(pc->frame_start_found){
6754                 // If there isn't one more byte in the buffer
6755                 // the test on first_mb_in_slice cannot be done yet
6756                 // do it at next call.
6757                 if (i >= buf_size) break;
6758                 if (buf[i] & 0x80) {
6759                     // first_mb_in_slice is 0, probably the first nal of a new
6760                     // slice
6761                     tprintf("find_frame_end frame_end_found, state = %08x, pos = %d\n", state, i);
6762                     pc->state=-1; 
6763                     pc->frame_start_found= 0;
6764                     return i-4;
6765                 }
6766             }
6767             pc->frame_start_found = 1;
6768         }
6769         if (i<buf_size)
6770             state= (state<<8) | buf[i];
6771     }
6772     
6773     pc->state= state;
6774     return END_NOT_FOUND;
6775 }
6776
6777 static int h264_parse(AVCodecParserContext *s,
6778                       AVCodecContext *avctx,
6779                       uint8_t **poutbuf, int *poutbuf_size, 
6780                       const uint8_t *buf, int buf_size)
6781 {
6782     H264Context *h = s->priv_data;
6783     ParseContext *pc = &h->s.parse_context;
6784     int next;
6785     
6786     next= find_frame_end(h, buf, buf_size);
6787
6788     if (ff_combine_frame(pc, next, (uint8_t **)&buf, &buf_size) < 0) {
6789         *poutbuf = NULL;
6790         *poutbuf_size = 0;
6791         return buf_size;
6792     }
6793
6794     *poutbuf = (uint8_t *)buf;
6795     *poutbuf_size = buf_size;
6796     return next;
6797 }
6798
6799 static int decode_nal_units(H264Context *h, uint8_t *buf, int buf_size){
6800     MpegEncContext * const s = &h->s;
6801     AVCodecContext * const avctx= s->avctx;
6802     int buf_index=0;
6803 #if 0
6804     int i;
6805     for(i=0; i<32; i++){
6806         printf("%X ", buf[i]);
6807     }
6808 #endif
6809     h->slice_num = 0;
6810     for(;;){
6811         int consumed;
6812         int dst_length;
6813         int bit_length;
6814         uint8_t *ptr;
6815         int i, nalsize = 0;
6816         
6817       if(h->is_avc) {
6818         if(buf_index >= buf_size) break;
6819         nalsize = 0;
6820         for(i = 0; i < h->nal_length_size; i++)
6821             nalsize = (nalsize << 8) | buf[buf_index++];
6822       } else {
6823         // start code prefix search
6824         for(; buf_index + 3 < buf_size; buf_index++){
6825             // this should allways succeed in the first iteration
6826             if(buf[buf_index] == 0 && buf[buf_index+1] == 0 && buf[buf_index+2] == 1)
6827                 break;
6828         }
6829         
6830         if(buf_index+3 >= buf_size) break;
6831         
6832         buf_index+=3;
6833       }  
6834         
6835         ptr= decode_nal(h, buf + buf_index, &dst_length, &consumed, h->is_avc ? nalsize : buf_size - buf_index);
6836         if(ptr[dst_length - 1] == 0) dst_length--;
6837         bit_length= 8*dst_length - decode_rbsp_trailing(ptr + dst_length - 1);
6838
6839         if(s->avctx->debug&FF_DEBUG_STARTCODE){
6840             av_log(h->s.avctx, AV_LOG_DEBUG, "NAL %d at %d/%d length %d\n", h->nal_unit_type, buf_index, buf_size, dst_length);
6841         }
6842         
6843         if (h->is_avc && (nalsize != consumed))
6844             av_log(h->s.avctx, AV_LOG_ERROR, "AVC: Consumed only %d bytes instead of %d\n", consumed, nalsize);
6845
6846         buf_index += consumed;
6847
6848         if( s->hurry_up == 1 && h->nal_ref_idc  == 0 )
6849             continue;
6850         
6851         switch(h->nal_unit_type){
6852         case NAL_IDR_SLICE:
6853             idr(h); //FIXME ensure we dont loose some frames if there is reordering
6854         case NAL_SLICE:
6855             init_get_bits(&s->gb, ptr, bit_length);
6856             h->intra_gb_ptr=
6857             h->inter_gb_ptr= &s->gb;
6858             s->data_partitioning = 0;
6859             
6860             if(decode_slice_header(h) < 0) return -1;
6861             if(h->redundant_pic_count==0 && s->hurry_up < 5 )
6862                 decode_slice(h);
6863             break;
6864         case NAL_DPA:
6865             init_get_bits(&s->gb, ptr, bit_length);
6866             h->intra_gb_ptr=
6867             h->inter_gb_ptr= NULL;
6868             s->data_partitioning = 1;
6869             
6870             if(decode_slice_header(h) < 0) return -1;
6871             break;
6872         case NAL_DPB:
6873             init_get_bits(&h->intra_gb, ptr, bit_length);
6874             h->intra_gb_ptr= &h->intra_gb;
6875             break;
6876         case NAL_DPC:
6877             init_get_bits(&h->inter_gb, ptr, bit_length);
6878             h->inter_gb_ptr= &h->inter_gb;
6879
6880             if(h->redundant_pic_count==0 && h->intra_gb_ptr && s->data_partitioning && s->hurry_up < 5 )
6881                 decode_slice(h);
6882             break;
6883         case NAL_SEI:
6884             break;
6885         case NAL_SPS:
6886             init_get_bits(&s->gb, ptr, bit_length);
6887             decode_seq_parameter_set(h);
6888             
6889             if(s->flags& CODEC_FLAG_LOW_DELAY)
6890                 s->low_delay=1;
6891       
6892             if(avctx->has_b_frames < 2)
6893                 avctx->has_b_frames= !s->low_delay;
6894             break;
6895         case NAL_PPS:
6896             init_get_bits(&s->gb, ptr, bit_length);
6897             
6898             decode_picture_parameter_set(h);
6899
6900             break;
6901         case NAL_PICTURE_DELIMITER:
6902             break;
6903         case NAL_FILTER_DATA:
6904             break;
6905         default:
6906             av_log(avctx, AV_LOG_ERROR, "Unknown NAL code: %d\n", h->nal_unit_type);
6907         }        
6908     }
6909     
6910     if(!s->current_picture_ptr) return buf_index; //no frame
6911
6912     s->current_picture_ptr->pict_type= s->pict_type;
6913     s->current_picture_ptr->key_frame= s->pict_type == I_TYPE && h->nal_unit_type == NAL_IDR_SLICE;
6914     
6915     h->prev_frame_num_offset= h->frame_num_offset;
6916     h->prev_frame_num= h->frame_num;
6917     if(s->current_picture_ptr->reference){
6918         h->prev_poc_msb= h->poc_msb;
6919         h->prev_poc_lsb= h->poc_lsb;
6920     }
6921     if(s->current_picture_ptr->reference)
6922         execute_ref_pic_marking(h, h->mmco, h->mmco_index);
6923
6924     ff_er_frame_end(s);
6925
6926     MPV_frame_end(s);
6927
6928     return buf_index;
6929 }
6930
6931 /**
6932  * retunrs the number of bytes consumed for building the current frame
6933  */
6934 static int get_consumed_bytes(MpegEncContext *s, int pos, int buf_size){
6935     if(s->flags&CODEC_FLAG_TRUNCATED){
6936         pos -= s->parse_context.last_index;
6937         if(pos<0) pos=0; // FIXME remove (uneeded?)
6938         
6939         return pos;
6940     }else{
6941         if(pos==0) pos=1; //avoid infinite loops (i doubt thats needed but ...)
6942         if(pos+10>buf_size) pos=buf_size; // oops ;)
6943
6944         return pos;
6945     }
6946 }
6947
6948 static int decode_frame(AVCodecContext *avctx, 
6949                              void *data, int *data_size,
6950                              uint8_t *buf, int buf_size)
6951 {
6952     H264Context *h = avctx->priv_data;
6953     MpegEncContext *s = &h->s;
6954     AVFrame *pict = data; 
6955     int buf_index;
6956     
6957     s->flags= avctx->flags;
6958     s->flags2= avctx->flags2;
6959
6960    /* no supplementary picture */
6961     if (buf_size == 0) {
6962         return 0;
6963     }
6964     
6965     if(s->flags&CODEC_FLAG_TRUNCATED){
6966         int next= find_frame_end(h, buf, buf_size);
6967         
6968         if( ff_combine_frame(&s->parse_context, next, &buf, &buf_size) < 0 )
6969             return buf_size;
6970 //printf("next:%d buf_size:%d last_index:%d\n", next, buf_size, s->parse_context.last_index);
6971     }
6972
6973     if(h->is_avc && !h->got_avcC) {
6974         int i, cnt, nalsize;
6975         unsigned char *p = avctx->extradata;
6976         if(avctx->extradata_size < 7) {
6977             av_log(avctx, AV_LOG_ERROR, "avcC too short\n");
6978             return -1;
6979         }
6980         if(*p != 1) {
6981             av_log(avctx, AV_LOG_ERROR, "Unknown avcC version %d\n", *p);
6982             return -1;
6983         }
6984         /* sps and pps in the avcC always have length coded with 2 bytes,
6985            so put a fake nal_length_size = 2 while parsing them */
6986         h->nal_length_size = 2;
6987         // Decode sps from avcC
6988         cnt = *(p+5) & 0x1f; // Number of sps
6989         p += 6;
6990         for (i = 0; i < cnt; i++) {
6991             nalsize = BE_16(p) + 2;
6992             if(decode_nal_units(h, p, nalsize) != nalsize) {
6993                 av_log(avctx, AV_LOG_ERROR, "Decoding sps %d from avcC failed\n", i);
6994                 return -1;
6995             }
6996             p += nalsize;
6997         }        
6998         // Decode pps from avcC
6999         cnt = *(p++); // Number of pps
7000         for (i = 0; i < cnt; i++) {
7001             nalsize = BE_16(p) + 2;
7002             if(decode_nal_units(h, p, nalsize)  != nalsize) {
7003                 av_log(avctx, AV_LOG_ERROR, "Decoding pps %d from avcC failed\n", i);
7004                 return -1;
7005             }
7006             p += nalsize;
7007         }        
7008         // Now store right nal length size, that will be use to parse all other nals
7009         h->nal_length_size = ((*(((char*)(avctx->extradata))+4))&0x03)+1;
7010         // Do not reparse avcC
7011         h->got_avcC = 1;
7012     }
7013
7014     if(!h->is_avc && s->avctx->extradata_size && s->picture_number==0){
7015         if(0 < decode_nal_units(h, s->avctx->extradata, s->avctx->extradata_size) ) 
7016             return -1;
7017     }
7018
7019     buf_index=decode_nal_units(h, buf, buf_size);
7020     if(buf_index < 0) 
7021         return -1;
7022
7023     //FIXME do something with unavailable reference frames    
7024  
7025 //    if(ret==FRAME_SKIPPED) return get_consumed_bytes(s, buf_index, buf_size);
7026     if(!s->current_picture_ptr){
7027         av_log(h->s.avctx, AV_LOG_DEBUG, "error, NO frame\n");
7028         return -1;
7029     }
7030
7031     {
7032         Picture *out = s->current_picture_ptr;
7033 #if 0 //decode order
7034         *data_size = sizeof(AVFrame);
7035 #else
7036         /* Sort B-frames into display order */
7037         Picture *cur = s->current_picture_ptr;
7038         Picture *prev = h->delayed_output_pic;
7039         int out_idx = 0;
7040         int pics = 0;
7041         int out_of_order;
7042         int cross_idr = 0;
7043         int dropped_frame = 0;
7044         int i;
7045
7046         if(h->sps.bitstream_restriction_flag
7047            && s->avctx->has_b_frames < h->sps.num_reorder_frames){
7048             s->avctx->has_b_frames = h->sps.num_reorder_frames;
7049             s->low_delay = 0;
7050         }
7051
7052         while(h->delayed_pic[pics]) pics++;
7053         h->delayed_pic[pics++] = cur;
7054         if(cur->reference == 0)
7055             cur->reference = 1;
7056
7057         for(i=0; h->delayed_pic[i]; i++)
7058             if(h->delayed_pic[i]->key_frame)
7059                 cross_idr = 1;
7060
7061         out = h->delayed_pic[0];
7062         for(i=1; h->delayed_pic[i] && !h->delayed_pic[i]->key_frame; i++)
7063             if(h->delayed_pic[i]->poc < out->poc){
7064                 out = h->delayed_pic[i];
7065                 out_idx = i;
7066             }
7067
7068         out_of_order = !cross_idr && prev && out->poc < prev->poc;
7069         if(prev && pics <= s->avctx->has_b_frames)
7070             out = prev;
7071         else if((out_of_order && pics-1 == s->avctx->has_b_frames)
7072            || (s->low_delay && 
7073             ((!cross_idr && prev && out->poc > prev->poc + 2)
7074              || cur->pict_type == B_TYPE)))
7075         {
7076             s->low_delay = 0;
7077             s->avctx->has_b_frames++;
7078             out = prev;
7079         }
7080         else if(out_of_order)
7081             out = prev;
7082
7083         if(out_of_order || pics > s->avctx->has_b_frames){
7084             dropped_frame = (out != h->delayed_pic[out_idx]);
7085             for(i=out_idx; h->delayed_pic[i]; i++)
7086                 h->delayed_pic[i] = h->delayed_pic[i+1];
7087         }
7088
7089         if(prev == out && !dropped_frame)
7090             *data_size = 0;
7091         else
7092             *data_size = sizeof(AVFrame);
7093         if(prev && prev != out && prev->reference == 1)
7094             prev->reference = 0;
7095         h->delayed_output_pic = out;
7096 #endif
7097
7098         *pict= *(AVFrame*)out;
7099     }
7100
7101     assert(pict->data[0]);
7102     ff_print_debug_info(s, pict);
7103 //printf("out %d\n", (int)pict->data[0]);
7104 #if 0 //?
7105
7106     /* Return the Picture timestamp as the frame number */
7107     /* we substract 1 because it is added on utils.c    */
7108     avctx->frame_number = s->picture_number - 1;
7109 #endif
7110     return get_consumed_bytes(s, buf_index, buf_size);
7111 }
7112 #if 0
7113 static inline void fill_mb_avail(H264Context *h){
7114     MpegEncContext * const s = &h->s;
7115     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
7116
7117     if(s->mb_y){
7118         h->mb_avail[0]= s->mb_x                 && h->slice_table[mb_xy - s->mb_stride - 1] == h->slice_num;
7119         h->mb_avail[1]=                            h->slice_table[mb_xy - s->mb_stride    ] == h->slice_num;
7120         h->mb_avail[2]= s->mb_x+1 < s->mb_width && h->slice_table[mb_xy - s->mb_stride + 1] == h->slice_num;
7121     }else{
7122         h->mb_avail[0]=
7123         h->mb_avail[1]=
7124         h->mb_avail[2]= 0;
7125     }
7126     h->mb_avail[3]= s->mb_x && h->slice_table[mb_xy - 1] == h->slice_num;
7127     h->mb_avail[4]= 1; //FIXME move out
7128     h->mb_avail[5]= 0; //FIXME move out
7129 }
7130 #endif
7131
7132 #if 0 //selftest
7133 #define COUNT 8000
7134 #define SIZE (COUNT*40)
7135 int main(){
7136     int i;
7137     uint8_t temp[SIZE];
7138     PutBitContext pb;
7139     GetBitContext gb;
7140 //    int int_temp[10000];
7141     DSPContext dsp;
7142     AVCodecContext avctx;
7143     
7144     dsputil_init(&dsp, &avctx);
7145
7146     init_put_bits(&pb, temp, SIZE);
7147     printf("testing unsigned exp golomb\n");
7148     for(i=0; i<COUNT; i++){
7149         START_TIMER
7150         set_ue_golomb(&pb, i);
7151         STOP_TIMER("set_ue_golomb");
7152     }
7153     flush_put_bits(&pb);
7154     
7155     init_get_bits(&gb, temp, 8*SIZE);
7156     for(i=0; i<COUNT; i++){
7157         int j, s;
7158         
7159         s= show_bits(&gb, 24);
7160         
7161         START_TIMER
7162         j= get_ue_golomb(&gb);
7163         if(j != i){
7164             printf("missmatch! at %d (%d should be %d) bits:%6X\n", i, j, i, s);
7165 //            return -1;
7166         }
7167         STOP_TIMER("get_ue_golomb");
7168     }
7169     
7170     
7171     init_put_bits(&pb, temp, SIZE);
7172     printf("testing signed exp golomb\n");
7173     for(i=0; i<COUNT; i++){
7174         START_TIMER
7175         set_se_golomb(&pb, i - COUNT/2);
7176         STOP_TIMER("set_se_golomb");
7177     }
7178     flush_put_bits(&pb);
7179     
7180     init_get_bits(&gb, temp, 8*SIZE);
7181     for(i=0; i<COUNT; i++){
7182         int j, s;
7183         
7184         s= show_bits(&gb, 24);
7185         
7186         START_TIMER
7187         j= get_se_golomb(&gb);
7188         if(j != i - COUNT/2){
7189             printf("missmatch! at %d (%d should be %d) bits:%6X\n", i, j, i, s);
7190 //            return -1;
7191         }
7192         STOP_TIMER("get_se_golomb");
7193     }
7194
7195     printf("testing 4x4 (I)DCT\n");
7196     
7197     DCTELEM block[16];
7198     uint8_t src[16], ref[16];
7199     uint64_t error= 0, max_error=0;
7200
7201     for(i=0; i<COUNT; i++){
7202         int j;
7203 //        printf("%d %d %d\n", r1, r2, (r2-r1)*16);
7204         for(j=0; j<16; j++){
7205             ref[j]= random()%255;
7206             src[j]= random()%255;
7207         }
7208
7209         h264_diff_dct_c(block, src, ref, 4);
7210         
7211         //normalize
7212         for(j=0; j<16; j++){
7213 //            printf("%d ", block[j]);
7214             block[j]= block[j]*4;
7215             if(j&1) block[j]= (block[j]*4 + 2)/5;
7216             if(j&4) block[j]= (block[j]*4 + 2)/5;
7217         }
7218 //        printf("\n");
7219         
7220         s->dsp.h264_idct_add(ref, block, 4);
7221 /*        for(j=0; j<16; j++){
7222             printf("%d ", ref[j]);
7223         }
7224         printf("\n");*/
7225             
7226         for(j=0; j<16; j++){
7227             int diff= ABS(src[j] - ref[j]);
7228             
7229             error+= diff*diff;
7230             max_error= FFMAX(max_error, diff);
7231         }
7232     }
7233     printf("error=%f max_error=%d\n", ((float)error)/COUNT/16, (int)max_error );
7234 #if 0
7235     printf("testing quantizer\n");
7236     for(qp=0; qp<52; qp++){
7237         for(i=0; i<16; i++)
7238             src1_block[i]= src2_block[i]= random()%255;
7239         
7240     }
7241 #endif
7242     printf("Testing NAL layer\n");
7243     
7244     uint8_t bitstream[COUNT];
7245     uint8_t nal[COUNT*2];
7246     H264Context h;
7247     memset(&h, 0, sizeof(H264Context));
7248     
7249     for(i=0; i<COUNT; i++){
7250         int zeros= i;
7251         int nal_length;
7252         int consumed;
7253         int out_length;
7254         uint8_t *out;
7255         int j;
7256         
7257         for(j=0; j<COUNT; j++){
7258             bitstream[j]= (random() % 255) + 1;
7259         }
7260         
7261         for(j=0; j<zeros; j++){
7262             int pos= random() % COUNT;
7263             while(bitstream[pos] == 0){
7264                 pos++;
7265                 pos %= COUNT;
7266             }
7267             bitstream[pos]=0;
7268         }
7269         
7270         START_TIMER
7271         
7272         nal_length= encode_nal(&h, nal, bitstream, COUNT, COUNT*2);
7273         if(nal_length<0){
7274             printf("encoding failed\n");
7275             return -1;
7276         }
7277         
7278         out= decode_nal(&h, nal, &out_length, &consumed, nal_length);
7279
7280         STOP_TIMER("NAL")
7281         
7282         if(out_length != COUNT){
7283             printf("incorrect length %d %d\n", out_length, COUNT);
7284             return -1;
7285         }
7286         
7287         if(consumed != nal_length){
7288             printf("incorrect consumed length %d %d\n", nal_length, consumed);
7289             return -1;
7290         }
7291         
7292         if(memcmp(bitstream, out, COUNT)){
7293             printf("missmatch\n");
7294             return -1;
7295         }
7296     }
7297     
7298     printf("Testing RBSP\n");
7299     
7300     
7301     return 0;
7302 }
7303 #endif
7304
7305
7306 static int decode_end(AVCodecContext *avctx)
7307 {
7308     H264Context *h = avctx->priv_data;
7309     MpegEncContext *s = &h->s;
7310     
7311     free_tables(h); //FIXME cleanup init stuff perhaps
7312     MPV_common_end(s);
7313
7314 //    memset(h, 0, sizeof(H264Context));
7315         
7316     return 0;
7317 }
7318
7319
7320 AVCodec h264_decoder = {
7321     "h264",
7322     CODEC_TYPE_VIDEO,
7323     CODEC_ID_H264,
7324     sizeof(H264Context),
7325     decode_init,
7326     NULL,
7327     decode_end,
7328     decode_frame,
7329     /*CODEC_CAP_DRAW_HORIZ_BAND |*/ CODEC_CAP_DR1 | CODEC_CAP_TRUNCATED | CODEC_CAP_DELAY,
7330 };
7331
7332 AVCodecParser h264_parser = {
7333     { CODEC_ID_H264 },
7334     sizeof(H264Context),
7335     NULL,
7336     h264_parse,
7337     ff_parse_close,
7338 };
7339
7340 #include "svq3.c"