]> git.sesse.net Git - ffmpeg/blob - libavcodec/h264.c
856b0804a43493172ac7cca574d200fdad1e0302
[ffmpeg] / libavcodec / h264.c
1 /*
2  * H.26L/H.264/AVC/JVT/14496-10/... encoder/decoder
3  * Copyright (c) 2003 Michael Niedermayer <michaelni@gmx.at>
4  *
5  * This library is free software; you can redistribute it and/or
6  * modify it under the terms of the GNU Lesser General Public
7  * License as published by the Free Software Foundation; either
8  * version 2 of the License, or (at your option) any later version.
9  *
10  * This library is distributed in the hope that it will be useful,
11  * but WITHOUT ANY WARRANTY; without even the implied warranty of
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  * Lesser General Public License for more details.
14  *
15  * You should have received a copy of the GNU Lesser General Public
16  * License along with this library; if not, write to the Free Software
17  * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
18  *
19  */
20  
21 /**
22  * @file h264.c
23  * H.264 / AVC / MPEG4 part10 codec.
24  * @author Michael Niedermayer <michaelni@gmx.at>
25  */
26
27 #include "common.h"
28 #include "dsputil.h"
29 #include "avcodec.h"
30 #include "mpegvideo.h"
31 #include "h264data.h"
32 #include "golomb.h"
33
34 #include "cabac.h"
35
36 #undef NDEBUG
37 #include <assert.h>
38
39 #define interlaced_dct interlaced_dct_is_a_bad_name
40 #define mb_intra mb_intra_isnt_initalized_see_mb_type
41
42 #define LUMA_DC_BLOCK_INDEX   25
43 #define CHROMA_DC_BLOCK_INDEX 26
44
45 #define CHROMA_DC_COEFF_TOKEN_VLC_BITS 8
46 #define COEFF_TOKEN_VLC_BITS           8
47 #define TOTAL_ZEROS_VLC_BITS           9
48 #define CHROMA_DC_TOTAL_ZEROS_VLC_BITS 3
49 #define RUN_VLC_BITS                   3
50 #define RUN7_VLC_BITS                  6
51
52 #define MAX_SPS_COUNT 32
53 #define MAX_PPS_COUNT 256
54
55 #define MAX_MMCO_COUNT 66
56
57 /**
58  * Sequence parameter set
59  */
60 typedef struct SPS{
61     
62     int profile_idc;
63     int level_idc;
64     int log2_max_frame_num;            ///< log2_max_frame_num_minus4 + 4
65     int poc_type;                      ///< pic_order_cnt_type
66     int log2_max_poc_lsb;              ///< log2_max_pic_order_cnt_lsb_minus4
67     int delta_pic_order_always_zero_flag;
68     int offset_for_non_ref_pic;
69     int offset_for_top_to_bottom_field;
70     int poc_cycle_length;              ///< num_ref_frames_in_pic_order_cnt_cycle
71     int ref_frame_count;               ///< num_ref_frames
72     int gaps_in_frame_num_allowed_flag;
73     int mb_width;                      ///< frame_width_in_mbs_minus1 + 1
74     int mb_height;                     ///< frame_height_in_mbs_minus1 + 1
75     int frame_mbs_only_flag;
76     int mb_aff;                        ///<mb_adaptive_frame_field_flag
77     int direct_8x8_inference_flag;
78     int crop;                   ///< frame_cropping_flag
79     int crop_left;              ///< frame_cropping_rect_left_offset
80     int crop_right;             ///< frame_cropping_rect_right_offset
81     int crop_top;               ///< frame_cropping_rect_top_offset
82     int crop_bottom;            ///< frame_cropping_rect_bottom_offset
83     int vui_parameters_present_flag;
84     AVRational sar;
85     int timing_info_present_flag;
86     uint32_t num_units_in_tick;
87     uint32_t time_scale;
88     int fixed_frame_rate_flag;
89     short offset_for_ref_frame[256]; //FIXME dyn aloc?
90 }SPS;
91
92 /**
93  * Picture parameter set
94  */
95 typedef struct PPS{
96     int sps_id;
97     int cabac;                  ///< entropy_coding_mode_flag
98     int pic_order_present;      ///< pic_order_present_flag
99     int slice_group_count;      ///< num_slice_groups_minus1 + 1
100     int mb_slice_group_map_type;
101     int ref_count[2];           ///< num_ref_idx_l0/1_active_minus1 + 1
102     int weighted_pred;          ///< weighted_pred_flag
103     int weighted_bipred_idc;
104     int init_qp;                ///< pic_init_qp_minus26 + 26
105     int init_qs;                ///< pic_init_qs_minus26 + 26
106     int chroma_qp_index_offset;
107     int deblocking_filter_parameters_present; ///< deblocking_filter_parameters_present_flag
108     int constrained_intra_pred; ///< constrained_intra_pred_flag
109     int redundant_pic_cnt_present; ///< redundant_pic_cnt_present_flag
110 }PPS;
111
112 /**
113  * Memory management control operation opcode.
114  */
115 typedef enum MMCOOpcode{
116     MMCO_END=0,
117     MMCO_SHORT2UNUSED,
118     MMCO_LONG2UNUSED,
119     MMCO_SHORT2LONG,
120     MMCO_SET_MAX_LONG,
121     MMCO_RESET, 
122     MMCO_LONG,
123 } MMCOOpcode;
124
125 /**
126  * Memory management control operation.
127  */
128 typedef struct MMCO{
129     MMCOOpcode opcode;
130     int short_frame_num;
131     int long_index;
132 } MMCO;
133
134 /**
135  * H264Context
136  */
137 typedef struct H264Context{
138     MpegEncContext s;
139     int nal_ref_idc;    
140     int nal_unit_type;
141 #define NAL_SLICE               1
142 #define NAL_DPA                 2
143 #define NAL_DPB                 3
144 #define NAL_DPC                 4
145 #define NAL_IDR_SLICE           5
146 #define NAL_SEI                 6
147 #define NAL_SPS                 7
148 #define NAL_PPS                 8
149 #define NAL_PICTURE_DELIMITER   9
150 #define NAL_FILTER_DATA         10
151     uint8_t *rbsp_buffer;
152     int rbsp_buffer_size;
153
154     /**
155       * Used to parse AVC variant of h264
156       */
157     int is_avc; ///< this flag is != 0 if codec is avc1
158     int got_avcC; ///< flag used to parse avcC data only once
159     int nal_length_size; ///< Number of bytes used for nal length (1, 2 or 4)
160
161     int chroma_qp; //QPc
162
163     int prev_mb_skiped; //FIXME remove (IMHO not used)
164
165     //prediction stuff
166     int chroma_pred_mode;
167     int intra16x16_pred_mode;
168     
169     int8_t intra4x4_pred_mode_cache[5*8];
170     int8_t (*intra4x4_pred_mode)[8];
171     void (*pred4x4  [9+3])(uint8_t *src, uint8_t *topright, int stride);//FIXME move to dsp?
172     void (*pred8x8  [4+3])(uint8_t *src, int stride);
173     void (*pred16x16[4+3])(uint8_t *src, int stride);
174     unsigned int topleft_samples_available;
175     unsigned int top_samples_available;
176     unsigned int topright_samples_available;
177     unsigned int left_samples_available;
178     uint8_t (*top_border)[16+2*8];
179     uint8_t left_border[17+2*9];
180
181     /**
182      * non zero coeff count cache.
183      * is 64 if not available.
184      */
185     uint8_t non_zero_count_cache[6*8];
186     uint8_t (*non_zero_count)[16];
187
188     /**
189      * Motion vector cache.
190      */
191     int16_t mv_cache[2][5*8][2];
192     int8_t ref_cache[2][5*8];
193 #define LIST_NOT_USED -1 //FIXME rename?
194 #define PART_NOT_AVAILABLE -2
195     
196     /**
197      * is 1 if the specific list MV&references are set to 0,0,-2.
198      */
199     int mv_cache_clean[2];
200
201     int block_offset[16+8];
202     int chroma_subblock_offset[16]; //FIXME remove
203     
204     uint16_t *mb2b_xy; //FIXME are these 4 a good idea?
205     uint16_t *mb2b8_xy;
206     int b_stride; //FIXME use s->b4_stride
207     int b8_stride;
208
209     int halfpel_flag;
210     int thirdpel_flag;
211
212     int unknown_svq3_flag;
213     int next_slice_index;
214
215     SPS sps_buffer[MAX_SPS_COUNT];
216     SPS sps; ///< current sps
217     
218     PPS pps_buffer[MAX_PPS_COUNT];
219     /**
220      * current pps
221      */
222     PPS pps; //FIXME move tp Picture perhaps? (->no) do we need that?
223
224     int slice_num;
225     uint8_t *slice_table_base;
226     uint8_t *slice_table;      ///< slice_table_base + mb_stride + 1
227     int slice_type;
228     int slice_type_fixed;
229     
230     //interlacing specific flags
231     int mb_field_decoding_flag;
232     
233     int sub_mb_type[4];
234     
235     //POC stuff
236     int poc_lsb;
237     int poc_msb;
238     int delta_poc_bottom;
239     int delta_poc[2];
240     int frame_num;
241     int prev_poc_msb;             ///< poc_msb of the last reference pic for POC type 0
242     int prev_poc_lsb;             ///< poc_lsb of the last reference pic for POC type 0
243     int frame_num_offset;         ///< for POC type 2
244     int prev_frame_num_offset;    ///< for POC type 2
245     int prev_frame_num;           ///< frame_num of the last pic for POC type 1/2
246
247     /**
248      * frame_num for frames or 2*frame_num for field pics.
249      */
250     int curr_pic_num;
251     
252     /**
253      * max_frame_num or 2*max_frame_num for field pics.
254      */
255     int max_pic_num;
256
257     //Weighted pred stuff
258     int use_weight;
259     int use_weight_chroma;
260     int luma_log2_weight_denom;
261     int chroma_log2_weight_denom;
262     int luma_weight[2][16];
263     int luma_offset[2][16];
264     int chroma_weight[2][16][2];
265     int chroma_offset[2][16][2];
266     int implicit_weight[16][16];
267    
268     //deblock
269     int deblocking_filter;         ///< disable_deblocking_filter_idc with 1<->0 
270     int slice_alpha_c0_offset;
271     int slice_beta_offset;
272      
273     int redundant_pic_count;
274     
275     int direct_spatial_mv_pred;
276     int dist_scale_factor[16];
277
278     /**
279      * num_ref_idx_l0/1_active_minus1 + 1
280      */
281     int ref_count[2];// FIXME split for AFF
282     Picture *short_ref[16];
283     Picture *long_ref[16];
284     Picture default_ref_list[2][32];
285     Picture ref_list[2][32]; //FIXME size?
286     Picture field_ref_list[2][32]; //FIXME size?
287     Picture *delayed_pic[16]; //FIXME size?
288     
289     /**
290      * memory management control operations buffer.
291      */
292     MMCO mmco[MAX_MMCO_COUNT];
293     int mmco_index;
294     
295     int long_ref_count;  ///< number of actual long term references
296     int short_ref_count; ///< number of actual short term references
297     
298     //data partitioning
299     GetBitContext intra_gb;
300     GetBitContext inter_gb;
301     GetBitContext *intra_gb_ptr;
302     GetBitContext *inter_gb_ptr;
303     
304     DCTELEM mb[16*24] __align8;
305
306     /**
307      * Cabac
308      */
309     CABACContext cabac;
310     uint8_t      cabac_state[399];
311     int          cabac_init_idc;
312
313     /* 0x100 -> non null luma_dc, 0x80/0x40 -> non null chroma_dc (cb/cr), 0x?0 -> chroma_cbp(0,1,2), 0x0? luma_cbp */
314     uint16_t     *cbp_table;
315     int top_cbp;
316     int left_cbp;
317     /* chroma_pred_mode for i4x4 or i16x16, else 0 */
318     uint8_t     *chroma_pred_mode_table;
319     int         last_qscale_diff;
320     int16_t     (*mvd_table[2])[2];
321     int16_t     mvd_cache[2][5*8][2];
322     uint8_t     *direct_table;
323     uint8_t     direct_cache[5*8];
324
325 }H264Context;
326
327 static VLC coeff_token_vlc[4];
328 static VLC chroma_dc_coeff_token_vlc;
329
330 static VLC total_zeros_vlc[15];
331 static VLC chroma_dc_total_zeros_vlc[3];
332
333 static VLC run_vlc[6];
334 static VLC run7_vlc;
335
336 static void svq3_luma_dc_dequant_idct_c(DCTELEM *block, int qp);
337 static void svq3_add_idct_c(uint8_t *dst, DCTELEM *block, int stride, int qp, int dc);
338 static void filter_mb( H264Context *h, int mb_x, int mb_y, uint8_t *img_y, uint8_t *img_cb, uint8_t *img_cr);
339
340 static inline uint32_t pack16to32(int a, int b){
341 #ifdef WORDS_BIGENDIAN
342    return (b&0xFFFF) + (a<<16);
343 #else
344    return (a&0xFFFF) + (b<<16);
345 #endif
346 }
347
348 /**
349  * fill a rectangle.
350  * @param h height of the rectangle, should be a constant
351  * @param w width of the rectangle, should be a constant
352  * @param size the size of val (1 or 4), should be a constant
353  */
354 static inline void fill_rectangle(void *vp, int w, int h, int stride, uint32_t val, int size){ //FIXME ensure this IS inlined
355     uint8_t *p= (uint8_t*)vp;
356     assert(size==1 || size==4);
357     
358     w      *= size;
359     stride *= size;
360     
361 //FIXME check what gcc generates for 64 bit on x86 and possible write a 32 bit ver of it
362     if(w==2 && h==2){
363         *(uint16_t*)(p + 0)=
364         *(uint16_t*)(p + stride)= size==4 ? val : val*0x0101;
365     }else if(w==2 && h==4){
366         *(uint16_t*)(p + 0*stride)=
367         *(uint16_t*)(p + 1*stride)=
368         *(uint16_t*)(p + 2*stride)=
369         *(uint16_t*)(p + 3*stride)= size==4 ? val : val*0x0101;
370     }else if(w==4 && h==1){
371         *(uint32_t*)(p + 0*stride)= size==4 ? val : val*0x01010101;
372     }else if(w==4 && h==2){
373         *(uint32_t*)(p + 0*stride)=
374         *(uint32_t*)(p + 1*stride)= size==4 ? val : val*0x01010101;
375     }else if(w==4 && h==4){
376         *(uint32_t*)(p + 0*stride)=
377         *(uint32_t*)(p + 1*stride)=
378         *(uint32_t*)(p + 2*stride)=
379         *(uint32_t*)(p + 3*stride)= size==4 ? val : val*0x01010101;
380     }else if(w==8 && h==1){
381         *(uint32_t*)(p + 0)=
382         *(uint32_t*)(p + 4)= size==4 ? val : val*0x01010101;
383     }else if(w==8 && h==2){
384         *(uint32_t*)(p + 0 + 0*stride)=
385         *(uint32_t*)(p + 4 + 0*stride)=
386         *(uint32_t*)(p + 0 + 1*stride)=
387         *(uint32_t*)(p + 4 + 1*stride)=  size==4 ? val : val*0x01010101;
388     }else if(w==8 && h==4){
389         *(uint64_t*)(p + 0*stride)=
390         *(uint64_t*)(p + 1*stride)=
391         *(uint64_t*)(p + 2*stride)=
392         *(uint64_t*)(p + 3*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
393     }else if(w==16 && h==2){
394         *(uint64_t*)(p + 0+0*stride)=
395         *(uint64_t*)(p + 8+0*stride)=
396         *(uint64_t*)(p + 0+1*stride)=
397         *(uint64_t*)(p + 8+1*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
398     }else if(w==16 && h==4){
399         *(uint64_t*)(p + 0+0*stride)=
400         *(uint64_t*)(p + 8+0*stride)=
401         *(uint64_t*)(p + 0+1*stride)=
402         *(uint64_t*)(p + 8+1*stride)=
403         *(uint64_t*)(p + 0+2*stride)=
404         *(uint64_t*)(p + 8+2*stride)=
405         *(uint64_t*)(p + 0+3*stride)=
406         *(uint64_t*)(p + 8+3*stride)= size==4 ? val*0x0100000001ULL : val*0x0101010101010101ULL;
407     }else
408         assert(0);
409 }
410
411 static inline void fill_caches(H264Context *h, int mb_type, int for_deblock){
412     MpegEncContext * const s = &h->s;
413     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
414     int topleft_xy, top_xy, topright_xy, left_xy[2];
415     int topleft_type, top_type, topright_type, left_type[2];
416     int left_block[4];
417     int i;
418
419     //wow what a mess, why didnt they simplify the interlacing&intra stuff, i cant imagine that these complex rules are worth it 
420     
421     if(h->sps.mb_aff){
422     //FIXME
423         topleft_xy = 0; /* avoid warning */
424         top_xy = 0; /* avoid warning */
425         topright_xy = 0; /* avoid warning */
426     }else{
427         topleft_xy = mb_xy-1 - s->mb_stride;
428         top_xy     = mb_xy   - s->mb_stride;
429         topright_xy= mb_xy+1 - s->mb_stride;
430         left_xy[0]   = mb_xy-1;
431         left_xy[1]   = mb_xy-1;
432         left_block[0]= 0;
433         left_block[1]= 1;
434         left_block[2]= 2;
435         left_block[3]= 3;
436     }
437
438     if(for_deblock){
439         topleft_type = h->slice_table[topleft_xy ] < 255 ? s->current_picture.mb_type[topleft_xy] : 0;
440         top_type     = h->slice_table[top_xy     ] < 255 ? s->current_picture.mb_type[top_xy]     : 0;
441         topright_type= h->slice_table[topright_xy] < 255 ? s->current_picture.mb_type[topright_xy]: 0;
442         left_type[0] = h->slice_table[left_xy[0] ] < 255 ? s->current_picture.mb_type[left_xy[0]] : 0;
443         left_type[1] = h->slice_table[left_xy[1] ] < 255 ? s->current_picture.mb_type[left_xy[1]] : 0;
444     }else{
445         topleft_type = h->slice_table[topleft_xy ] == h->slice_num ? s->current_picture.mb_type[topleft_xy] : 0;
446         top_type     = h->slice_table[top_xy     ] == h->slice_num ? s->current_picture.mb_type[top_xy]     : 0;
447         topright_type= h->slice_table[topright_xy] == h->slice_num ? s->current_picture.mb_type[topright_xy]: 0;
448         left_type[0] = h->slice_table[left_xy[0] ] == h->slice_num ? s->current_picture.mb_type[left_xy[0]] : 0;
449         left_type[1] = h->slice_table[left_xy[1] ] == h->slice_num ? s->current_picture.mb_type[left_xy[1]] : 0;
450     }
451
452     if(IS_INTRA(mb_type)){
453         h->topleft_samples_available= 
454         h->top_samples_available= 
455         h->left_samples_available= 0xFFFF;
456         h->topright_samples_available= 0xEEEA;
457
458         if(!IS_INTRA(top_type) && (top_type==0 || h->pps.constrained_intra_pred)){
459             h->topleft_samples_available= 0xB3FF;
460             h->top_samples_available= 0x33FF;
461             h->topright_samples_available= 0x26EA;
462         }
463         for(i=0; i<2; i++){
464             if(!IS_INTRA(left_type[i]) && (left_type[i]==0 || h->pps.constrained_intra_pred)){
465                 h->topleft_samples_available&= 0xDF5F;
466                 h->left_samples_available&= 0x5F5F;
467             }
468         }
469         
470         if(!IS_INTRA(topleft_type) && (topleft_type==0 || h->pps.constrained_intra_pred))
471             h->topleft_samples_available&= 0x7FFF;
472         
473         if(!IS_INTRA(topright_type) && (topright_type==0 || h->pps.constrained_intra_pred))
474             h->topright_samples_available&= 0xFBFF;
475     
476         if(IS_INTRA4x4(mb_type)){
477             if(IS_INTRA4x4(top_type)){
478                 h->intra4x4_pred_mode_cache[4+8*0]= h->intra4x4_pred_mode[top_xy][4];
479                 h->intra4x4_pred_mode_cache[5+8*0]= h->intra4x4_pred_mode[top_xy][5];
480                 h->intra4x4_pred_mode_cache[6+8*0]= h->intra4x4_pred_mode[top_xy][6];
481                 h->intra4x4_pred_mode_cache[7+8*0]= h->intra4x4_pred_mode[top_xy][3];
482             }else{
483                 int pred;
484                 if(IS_INTRA16x16(top_type) || (IS_INTER(top_type) && !h->pps.constrained_intra_pred))
485                     pred= 2;
486                 else{
487                     pred= -1;
488                 }
489                 h->intra4x4_pred_mode_cache[4+8*0]=
490                 h->intra4x4_pred_mode_cache[5+8*0]=
491                 h->intra4x4_pred_mode_cache[6+8*0]=
492                 h->intra4x4_pred_mode_cache[7+8*0]= pred;
493             }
494             for(i=0; i<2; i++){
495                 if(IS_INTRA4x4(left_type[i])){
496                     h->intra4x4_pred_mode_cache[3+8*1 + 2*8*i]= h->intra4x4_pred_mode[left_xy[i]][left_block[0+2*i]];
497                     h->intra4x4_pred_mode_cache[3+8*2 + 2*8*i]= h->intra4x4_pred_mode[left_xy[i]][left_block[1+2*i]];
498                 }else{
499                     int pred;
500                     if(IS_INTRA16x16(left_type[i]) || (IS_INTER(left_type[i]) && !h->pps.constrained_intra_pred))
501                         pred= 2;
502                     else{
503                         pred= -1;
504                     }
505                     h->intra4x4_pred_mode_cache[3+8*1 + 2*8*i]=
506                     h->intra4x4_pred_mode_cache[3+8*2 + 2*8*i]= pred;
507                 }
508             }
509         }
510     }
511     
512     
513 /*
514 0 . T T. T T T T 
515 1 L . .L . . . . 
516 2 L . .L . . . . 
517 3 . T TL . . . . 
518 4 L . .L . . . . 
519 5 L . .. . . . . 
520 */
521 //FIXME constraint_intra_pred & partitioning & nnz (lets hope this is just a typo in the spec)
522     if(top_type){
523         h->non_zero_count_cache[4+8*0]= h->non_zero_count[top_xy][0];
524         h->non_zero_count_cache[5+8*0]= h->non_zero_count[top_xy][1];
525         h->non_zero_count_cache[6+8*0]= h->non_zero_count[top_xy][2];
526         h->non_zero_count_cache[7+8*0]= h->non_zero_count[top_xy][3];
527     
528         h->non_zero_count_cache[1+8*0]= h->non_zero_count[top_xy][7];
529         h->non_zero_count_cache[2+8*0]= h->non_zero_count[top_xy][8];
530     
531         h->non_zero_count_cache[1+8*3]= h->non_zero_count[top_xy][10];
532         h->non_zero_count_cache[2+8*3]= h->non_zero_count[top_xy][11];
533         
534         h->top_cbp= h->cbp_table[top_xy];
535     }else{
536         h->non_zero_count_cache[4+8*0]=      
537         h->non_zero_count_cache[5+8*0]=
538         h->non_zero_count_cache[6+8*0]=
539         h->non_zero_count_cache[7+8*0]=
540     
541         h->non_zero_count_cache[1+8*0]=
542         h->non_zero_count_cache[2+8*0]=
543     
544         h->non_zero_count_cache[1+8*3]=
545         h->non_zero_count_cache[2+8*3]= h->pps.cabac && !IS_INTRA(mb_type) ? 0 : 64;
546         
547         if(IS_INTRA(mb_type)) h->top_cbp= 0x1C0;
548         else                  h->top_cbp= 0;
549     }
550     
551     if(left_type[0]){
552         h->non_zero_count_cache[3+8*1]= h->non_zero_count[left_xy[0]][6];
553         h->non_zero_count_cache[3+8*2]= h->non_zero_count[left_xy[0]][5];
554         h->non_zero_count_cache[0+8*1]= h->non_zero_count[left_xy[0]][9]; //FIXME left_block
555         h->non_zero_count_cache[0+8*4]= h->non_zero_count[left_xy[0]][12];
556         h->left_cbp= h->cbp_table[left_xy[0]]; //FIXME interlacing
557     }else{
558         h->non_zero_count_cache[3+8*1]= 
559         h->non_zero_count_cache[3+8*2]= 
560         h->non_zero_count_cache[0+8*1]= 
561         h->non_zero_count_cache[0+8*4]= h->pps.cabac && !IS_INTRA(mb_type) ? 0 : 64;
562         
563         if(IS_INTRA(mb_type)) h->left_cbp= 0x1C0;//FIXME interlacing
564         else                  h->left_cbp= 0;
565     }
566     
567     if(left_type[1]){
568         h->non_zero_count_cache[3+8*3]= h->non_zero_count[left_xy[1]][4];
569         h->non_zero_count_cache[3+8*4]= h->non_zero_count[left_xy[1]][3];
570         h->non_zero_count_cache[0+8*2]= h->non_zero_count[left_xy[1]][8];
571         h->non_zero_count_cache[0+8*5]= h->non_zero_count[left_xy[1]][11];
572     }else{
573         h->non_zero_count_cache[3+8*3]= 
574         h->non_zero_count_cache[3+8*4]= 
575         h->non_zero_count_cache[0+8*2]= 
576         h->non_zero_count_cache[0+8*5]= h->pps.cabac && !IS_INTRA(mb_type) ? 0 : 64;
577     }
578     
579 #if 1
580     //FIXME direct mb can skip much of this
581     if(IS_INTER(mb_type) || (IS_DIRECT(mb_type) && h->direct_spatial_mv_pred)){
582         int list;
583         for(list=0; list<2; list++){
584             if((!IS_8X8(mb_type)) && !USES_LIST(mb_type, list) && !IS_DIRECT(mb_type)){
585                 /*if(!h->mv_cache_clean[list]){
586                     memset(h->mv_cache [list],  0, 8*5*2*sizeof(int16_t)); //FIXME clean only input? clean at all?
587                     memset(h->ref_cache[list], PART_NOT_AVAILABLE, 8*5*sizeof(int8_t));
588                     h->mv_cache_clean[list]= 1;
589                 }*/
590                 continue;
591             }
592             h->mv_cache_clean[list]= 0;
593             
594             if(IS_INTER(topleft_type)){
595                 const int b_xy = h->mb2b_xy[topleft_xy] + 3 + 3*h->b_stride;
596                 const int b8_xy= h->mb2b8_xy[topleft_xy] + 1 + h->b8_stride;
597                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy];
598                 h->ref_cache[list][scan8[0] - 1 - 1*8]= s->current_picture.ref_index[list][b8_xy];
599             }else{
600                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 - 1*8]= 0;
601                 h->ref_cache[list][scan8[0] - 1 - 1*8]= topleft_type ? LIST_NOT_USED : PART_NOT_AVAILABLE;
602             }
603             
604             if(IS_INTER(top_type)){
605                 const int b_xy= h->mb2b_xy[top_xy] + 3*h->b_stride;
606                 const int b8_xy= h->mb2b8_xy[top_xy] + h->b8_stride;
607                 *(uint32_t*)h->mv_cache[list][scan8[0] + 0 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 0];
608                 *(uint32_t*)h->mv_cache[list][scan8[0] + 1 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 1];
609                 *(uint32_t*)h->mv_cache[list][scan8[0] + 2 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 2];
610                 *(uint32_t*)h->mv_cache[list][scan8[0] + 3 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + 3];
611                 h->ref_cache[list][scan8[0] + 0 - 1*8]=
612                 h->ref_cache[list][scan8[0] + 1 - 1*8]= s->current_picture.ref_index[list][b8_xy + 0];
613                 h->ref_cache[list][scan8[0] + 2 - 1*8]=
614                 h->ref_cache[list][scan8[0] + 3 - 1*8]= s->current_picture.ref_index[list][b8_xy + 1];
615             }else{
616                 *(uint32_t*)h->mv_cache [list][scan8[0] + 0 - 1*8]= 
617                 *(uint32_t*)h->mv_cache [list][scan8[0] + 1 - 1*8]= 
618                 *(uint32_t*)h->mv_cache [list][scan8[0] + 2 - 1*8]= 
619                 *(uint32_t*)h->mv_cache [list][scan8[0] + 3 - 1*8]= 0;
620                 *(uint32_t*)&h->ref_cache[list][scan8[0] + 0 - 1*8]= ((top_type ? LIST_NOT_USED : PART_NOT_AVAILABLE)&0xFF)*0x01010101;
621             }
622
623             if(IS_INTER(topright_type)){
624                 const int b_xy= h->mb2b_xy[topright_xy] + 3*h->b_stride;
625                 const int b8_xy= h->mb2b8_xy[topright_xy] + h->b8_stride;
626                 *(uint32_t*)h->mv_cache[list][scan8[0] + 4 - 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy];
627                 h->ref_cache[list][scan8[0] + 4 - 1*8]= s->current_picture.ref_index[list][b8_xy];
628             }else{
629                 *(uint32_t*)h->mv_cache [list][scan8[0] + 4 - 1*8]= 0;
630                 h->ref_cache[list][scan8[0] + 4 - 1*8]= topright_type ? LIST_NOT_USED : PART_NOT_AVAILABLE;
631             }
632             
633             //FIXME unify cleanup or sth
634             if(IS_INTER(left_type[0])){
635                 const int b_xy= h->mb2b_xy[left_xy[0]] + 3;
636                 const int b8_xy= h->mb2b8_xy[left_xy[0]] + 1;
637                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 0*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[0]];
638                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 1*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[1]];
639                 h->ref_cache[list][scan8[0] - 1 + 0*8]= 
640                 h->ref_cache[list][scan8[0] - 1 + 1*8]= s->current_picture.ref_index[list][b8_xy + h->b8_stride*(left_block[0]>>1)];
641             }else{
642                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 0*8]=
643                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 1*8]= 0;
644                 h->ref_cache[list][scan8[0] - 1 + 0*8]=
645                 h->ref_cache[list][scan8[0] - 1 + 1*8]= left_type[0] ? LIST_NOT_USED : PART_NOT_AVAILABLE;
646             }
647             
648             if(IS_INTER(left_type[1])){
649                 const int b_xy= h->mb2b_xy[left_xy[1]] + 3;
650                 const int b8_xy= h->mb2b8_xy[left_xy[1]] + 1;
651                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 2*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[2]];
652                 *(uint32_t*)h->mv_cache[list][scan8[0] - 1 + 3*8]= *(uint32_t*)s->current_picture.motion_val[list][b_xy + h->b_stride*left_block[3]];
653                 h->ref_cache[list][scan8[0] - 1 + 2*8]= 
654                 h->ref_cache[list][scan8[0] - 1 + 3*8]= s->current_picture.ref_index[list][b8_xy + h->b8_stride*(left_block[2]>>1)];
655             }else{
656                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 2*8]=
657                 *(uint32_t*)h->mv_cache [list][scan8[0] - 1 + 3*8]= 0;
658                 h->ref_cache[list][scan8[0] - 1 + 2*8]=
659                 h->ref_cache[list][scan8[0] - 1 + 3*8]= left_type[0] ? LIST_NOT_USED : PART_NOT_AVAILABLE;
660             }
661
662             if(for_deblock)
663                 continue;
664
665             h->ref_cache[list][scan8[5 ]+1] = 
666             h->ref_cache[list][scan8[7 ]+1] = 
667             h->ref_cache[list][scan8[13]+1] =  //FIXME remove past 3 (init somewher else)
668             h->ref_cache[list][scan8[4 ]] = 
669             h->ref_cache[list][scan8[12]] = PART_NOT_AVAILABLE;
670             *(uint32_t*)h->mv_cache [list][scan8[5 ]+1]=
671             *(uint32_t*)h->mv_cache [list][scan8[7 ]+1]=
672             *(uint32_t*)h->mv_cache [list][scan8[13]+1]= //FIXME remove past 3 (init somewher else)
673             *(uint32_t*)h->mv_cache [list][scan8[4 ]]=
674             *(uint32_t*)h->mv_cache [list][scan8[12]]= 0;
675
676             if( h->pps.cabac ) {
677                 /* XXX beurk, Load mvd */
678                 if(IS_INTER(topleft_type)){
679                     const int b_xy = h->mb2b_xy[topleft_xy] + 3 + 3*h->b_stride;
680                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy];
681                 }else{
682                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 - 1*8]= 0;
683                 }
684
685                 if(IS_INTER(top_type)){
686                     const int b_xy= h->mb2b_xy[top_xy] + 3*h->b_stride;
687                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 0 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 0];
688                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 1 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 1];
689                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 2 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 2];
690                     *(uint32_t*)h->mvd_cache[list][scan8[0] + 3 - 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + 3];
691                 }else{
692                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 0 - 1*8]= 
693                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 1 - 1*8]= 
694                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 2 - 1*8]= 
695                     *(uint32_t*)h->mvd_cache [list][scan8[0] + 3 - 1*8]= 0;
696                 }
697                 if(IS_INTER(left_type[0])){
698                     const int b_xy= h->mb2b_xy[left_xy[0]] + 3;
699                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 0*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[0]];
700                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 1*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[1]];
701                 }else{
702                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 0*8]=
703                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 1*8]= 0;
704                 }
705                 if(IS_INTER(left_type[1])){
706                     const int b_xy= h->mb2b_xy[left_xy[1]] + 3;
707                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 2*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[2]];
708                     *(uint32_t*)h->mvd_cache[list][scan8[0] - 1 + 3*8]= *(uint32_t*)h->mvd_table[list][b_xy + h->b_stride*left_block[3]];
709                 }else{
710                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 2*8]=
711                     *(uint32_t*)h->mvd_cache [list][scan8[0] - 1 + 3*8]= 0;
712                 }
713                 *(uint32_t*)h->mvd_cache [list][scan8[5 ]+1]=
714                 *(uint32_t*)h->mvd_cache [list][scan8[7 ]+1]=
715                 *(uint32_t*)h->mvd_cache [list][scan8[13]+1]= //FIXME remove past 3 (init somewher else)
716                 *(uint32_t*)h->mvd_cache [list][scan8[4 ]]=
717                 *(uint32_t*)h->mvd_cache [list][scan8[12]]= 0;
718
719                 if(h->slice_type == B_TYPE){
720                     fill_rectangle(&h->direct_cache[scan8[0]], 4, 4, 8, 0, 1);
721
722                     if(IS_DIRECT(top_type)){
723                         *(uint32_t*)&h->direct_cache[scan8[0] - 1*8]= 0x01010101;
724                     }else if(IS_8X8(top_type)){
725                         int b8_xy = h->mb2b8_xy[top_xy] + h->b8_stride;
726                         h->direct_cache[scan8[0] + 0 - 1*8]= h->direct_table[b8_xy];
727                         h->direct_cache[scan8[0] + 2 - 1*8]= h->direct_table[b8_xy + 1];
728                     }else{
729                         *(uint32_t*)&h->direct_cache[scan8[0] - 1*8]= 0;
730                     }
731                     
732                     //FIXME interlacing
733                     if(IS_DIRECT(left_type[0])){
734                         h->direct_cache[scan8[0] - 1 + 0*8]=
735                         h->direct_cache[scan8[0] - 1 + 2*8]= 1;
736                     }else if(IS_8X8(left_type[0])){
737                         int b8_xy = h->mb2b8_xy[left_xy[0]] + 1;
738                         h->direct_cache[scan8[0] - 1 + 0*8]= h->direct_table[b8_xy];
739                         h->direct_cache[scan8[0] - 1 + 2*8]= h->direct_table[b8_xy + h->b8_stride];
740                     }else{
741                         h->direct_cache[scan8[0] - 1 + 0*8]=
742                         h->direct_cache[scan8[0] - 1 + 2*8]= 0;
743                     }
744                 }
745             }
746         }
747     }
748 #endif
749 }
750
751 static inline void write_back_intra_pred_mode(H264Context *h){
752     MpegEncContext * const s = &h->s;
753     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
754
755     h->intra4x4_pred_mode[mb_xy][0]= h->intra4x4_pred_mode_cache[7+8*1];
756     h->intra4x4_pred_mode[mb_xy][1]= h->intra4x4_pred_mode_cache[7+8*2];
757     h->intra4x4_pred_mode[mb_xy][2]= h->intra4x4_pred_mode_cache[7+8*3];
758     h->intra4x4_pred_mode[mb_xy][3]= h->intra4x4_pred_mode_cache[7+8*4];
759     h->intra4x4_pred_mode[mb_xy][4]= h->intra4x4_pred_mode_cache[4+8*4];
760     h->intra4x4_pred_mode[mb_xy][5]= h->intra4x4_pred_mode_cache[5+8*4];
761     h->intra4x4_pred_mode[mb_xy][6]= h->intra4x4_pred_mode_cache[6+8*4];
762 }
763
764 /**
765  * checks if the top & left blocks are available if needed & changes the dc mode so it only uses the available blocks.
766  */
767 static inline int check_intra4x4_pred_mode(H264Context *h){
768     MpegEncContext * const s = &h->s;
769     static const int8_t top [12]= {-1, 0,LEFT_DC_PRED,-1,-1,-1,-1,-1, 0};
770     static const int8_t left[12]= { 0,-1, TOP_DC_PRED, 0,-1,-1,-1, 0,-1,DC_128_PRED};
771     int i;
772     
773     if(!(h->top_samples_available&0x8000)){
774         for(i=0; i<4; i++){
775             int status= top[ h->intra4x4_pred_mode_cache[scan8[0] + i] ];
776             if(status<0){
777                 av_log(h->s.avctx, AV_LOG_ERROR, "top block unavailable for requested intra4x4 mode %d at %d %d\n", status, s->mb_x, s->mb_y);
778                 return -1;
779             } else if(status){
780                 h->intra4x4_pred_mode_cache[scan8[0] + i]= status;
781             }
782         }
783     }
784     
785     if(!(h->left_samples_available&0x8000)){
786         for(i=0; i<4; i++){
787             int status= left[ h->intra4x4_pred_mode_cache[scan8[0] + 8*i] ];
788             if(status<0){
789                 av_log(h->s.avctx, AV_LOG_ERROR, "left block unavailable for requested intra4x4 mode %d at %d %d\n", status, s->mb_x, s->mb_y);
790                 return -1;
791             } else if(status){
792                 h->intra4x4_pred_mode_cache[scan8[0] + 8*i]= status;
793             }
794         }
795     }
796
797     return 0;
798 } //FIXME cleanup like next
799
800 /**
801  * checks if the top & left blocks are available if needed & changes the dc mode so it only uses the available blocks.
802  */
803 static inline int check_intra_pred_mode(H264Context *h, int mode){
804     MpegEncContext * const s = &h->s;
805     static const int8_t top [7]= {LEFT_DC_PRED8x8, 1,-1,-1};
806     static const int8_t left[7]= { TOP_DC_PRED8x8,-1, 2,-1,DC_128_PRED8x8};
807     
808     if(mode < 0 || mode > 6) {
809         av_log(h->s.avctx, AV_LOG_ERROR, "out of range intra chroma pred mode at %d %d\n", s->mb_x, s->mb_y);
810         return -1;
811     }
812     
813     if(!(h->top_samples_available&0x8000)){
814         mode= top[ mode ];
815         if(mode<0){
816             av_log(h->s.avctx, AV_LOG_ERROR, "top block unavailable for requested intra mode at %d %d\n", s->mb_x, s->mb_y);
817             return -1;
818         }
819     }
820     
821     if(!(h->left_samples_available&0x8000)){
822         mode= left[ mode ];
823         if(mode<0){
824             av_log(h->s.avctx, AV_LOG_ERROR, "left block unavailable for requested intra mode at %d %d\n", s->mb_x, s->mb_y);
825             return -1;
826         } 
827     }
828
829     return mode;
830 }
831
832 /**
833  * gets the predicted intra4x4 prediction mode.
834  */
835 static inline int pred_intra_mode(H264Context *h, int n){
836     const int index8= scan8[n];
837     const int left= h->intra4x4_pred_mode_cache[index8 - 1];
838     const int top = h->intra4x4_pred_mode_cache[index8 - 8];
839     const int min= FFMIN(left, top);
840
841     tprintf("mode:%d %d min:%d\n", left ,top, min);
842
843     if(min<0) return DC_PRED;
844     else      return min;
845 }
846
847 static inline void write_back_non_zero_count(H264Context *h){
848     MpegEncContext * const s = &h->s;
849     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
850
851     h->non_zero_count[mb_xy][0]= h->non_zero_count_cache[4+8*4];
852     h->non_zero_count[mb_xy][1]= h->non_zero_count_cache[5+8*4];
853     h->non_zero_count[mb_xy][2]= h->non_zero_count_cache[6+8*4];
854     h->non_zero_count[mb_xy][3]= h->non_zero_count_cache[7+8*4];
855     h->non_zero_count[mb_xy][4]= h->non_zero_count_cache[7+8*3];
856     h->non_zero_count[mb_xy][5]= h->non_zero_count_cache[7+8*2];
857     h->non_zero_count[mb_xy][6]= h->non_zero_count_cache[7+8*1];
858     
859     h->non_zero_count[mb_xy][7]= h->non_zero_count_cache[1+8*2];
860     h->non_zero_count[mb_xy][8]= h->non_zero_count_cache[2+8*2];
861     h->non_zero_count[mb_xy][9]= h->non_zero_count_cache[2+8*1];
862
863     h->non_zero_count[mb_xy][10]=h->non_zero_count_cache[1+8*5];
864     h->non_zero_count[mb_xy][11]=h->non_zero_count_cache[2+8*5];
865     h->non_zero_count[mb_xy][12]=h->non_zero_count_cache[2+8*4];
866 }
867
868 /**
869  * gets the predicted number of non zero coefficients.
870  * @param n block index
871  */
872 static inline int pred_non_zero_count(H264Context *h, int n){
873     const int index8= scan8[n];
874     const int left= h->non_zero_count_cache[index8 - 1];
875     const int top = h->non_zero_count_cache[index8 - 8];
876     int i= left + top;
877     
878     if(i<64) i= (i+1)>>1;
879
880     tprintf("pred_nnz L%X T%X n%d s%d P%X\n", left, top, n, scan8[n], i&31);
881
882     return i&31;
883 }
884
885 static inline int fetch_diagonal_mv(H264Context *h, const int16_t **C, int i, int list, int part_width){
886     const int topright_ref= h->ref_cache[list][ i - 8 + part_width ];
887
888     if(topright_ref != PART_NOT_AVAILABLE){
889         *C= h->mv_cache[list][ i - 8 + part_width ];
890         return topright_ref;
891     }else{
892         tprintf("topright MV not available\n");
893
894         *C= h->mv_cache[list][ i - 8 - 1 ];
895         return h->ref_cache[list][ i - 8 - 1 ];
896     }
897 }
898
899 /**
900  * gets the predicted MV.
901  * @param n the block index
902  * @param part_width the width of the partition (4, 8,16) -> (1, 2, 4)
903  * @param mx the x component of the predicted motion vector
904  * @param my the y component of the predicted motion vector
905  */
906 static inline void pred_motion(H264Context * const h, int n, int part_width, int list, int ref, int * const mx, int * const my){
907     const int index8= scan8[n];
908     const int top_ref=      h->ref_cache[list][ index8 - 8 ];
909     const int left_ref=     h->ref_cache[list][ index8 - 1 ];
910     const int16_t * const A= h->mv_cache[list][ index8 - 1 ];
911     const int16_t * const B= h->mv_cache[list][ index8 - 8 ];
912     const int16_t * C;
913     int diagonal_ref, match_count;
914
915     assert(part_width==1 || part_width==2 || part_width==4);
916
917 /* mv_cache
918   B . . A T T T T 
919   U . . L . . , .
920   U . . L . . . .
921   U . . L . . , .
922   . . . L . . . .
923 */
924
925     diagonal_ref= fetch_diagonal_mv(h, &C, index8, list, part_width);
926     match_count= (diagonal_ref==ref) + (top_ref==ref) + (left_ref==ref);
927     tprintf("pred_motion match_count=%d\n", match_count);
928     if(match_count > 1){ //most common
929         *mx= mid_pred(A[0], B[0], C[0]);
930         *my= mid_pred(A[1], B[1], C[1]);
931     }else if(match_count==1){
932         if(left_ref==ref){
933             *mx= A[0];
934             *my= A[1];        
935         }else if(top_ref==ref){
936             *mx= B[0];
937             *my= B[1];        
938         }else{
939             *mx= C[0];
940             *my= C[1];        
941         }
942     }else{
943         if(top_ref == PART_NOT_AVAILABLE && diagonal_ref == PART_NOT_AVAILABLE && left_ref != PART_NOT_AVAILABLE){
944             *mx= A[0];
945             *my= A[1];        
946         }else{
947             *mx= mid_pred(A[0], B[0], C[0]);
948             *my= mid_pred(A[1], B[1], C[1]);
949         }
950     }
951         
952     tprintf("pred_motion (%2d %2d %2d) (%2d %2d %2d) (%2d %2d %2d) -> (%2d %2d %2d) at %2d %2d %d list %d\n", top_ref, B[0], B[1],                    diagonal_ref, C[0], C[1], left_ref, A[0], A[1], ref, *mx, *my, h->s.mb_x, h->s.mb_y, n, list);
953 }
954
955 /**
956  * gets the directionally predicted 16x8 MV.
957  * @param n the block index
958  * @param mx the x component of the predicted motion vector
959  * @param my the y component of the predicted motion vector
960  */
961 static inline void pred_16x8_motion(H264Context * const h, int n, int list, int ref, int * const mx, int * const my){
962     if(n==0){
963         const int top_ref=      h->ref_cache[list][ scan8[0] - 8 ];
964         const int16_t * const B= h->mv_cache[list][ scan8[0] - 8 ];
965
966         tprintf("pred_16x8: (%2d %2d %2d) at %2d %2d %d list %d\n", top_ref, B[0], B[1], h->s.mb_x, h->s.mb_y, n, list);
967         
968         if(top_ref == ref){
969             *mx= B[0];
970             *my= B[1];
971             return;
972         }
973     }else{
974         const int left_ref=     h->ref_cache[list][ scan8[8] - 1 ];
975         const int16_t * const A= h->mv_cache[list][ scan8[8] - 1 ];
976         
977         tprintf("pred_16x8: (%2d %2d %2d) at %2d %2d %d list %d\n", left_ref, A[0], A[1], h->s.mb_x, h->s.mb_y, n, list);
978
979         if(left_ref == ref){
980             *mx= A[0];
981             *my= A[1];
982             return;
983         }
984     }
985
986     //RARE
987     pred_motion(h, n, 4, list, ref, mx, my);
988 }
989
990 /**
991  * gets the directionally predicted 8x16 MV.
992  * @param n the block index
993  * @param mx the x component of the predicted motion vector
994  * @param my the y component of the predicted motion vector
995  */
996 static inline void pred_8x16_motion(H264Context * const h, int n, int list, int ref, int * const mx, int * const my){
997     if(n==0){
998         const int left_ref=      h->ref_cache[list][ scan8[0] - 1 ];
999         const int16_t * const A=  h->mv_cache[list][ scan8[0] - 1 ];
1000         
1001         tprintf("pred_8x16: (%2d %2d %2d) at %2d %2d %d list %d\n", left_ref, A[0], A[1], h->s.mb_x, h->s.mb_y, n, list);
1002
1003         if(left_ref == ref){
1004             *mx= A[0];
1005             *my= A[1];
1006             return;
1007         }
1008     }else{
1009         const int16_t * C;
1010         int diagonal_ref;
1011
1012         diagonal_ref= fetch_diagonal_mv(h, &C, scan8[4], list, 2);
1013         
1014         tprintf("pred_8x16: (%2d %2d %2d) at %2d %2d %d list %d\n", diagonal_ref, C[0], C[1], h->s.mb_x, h->s.mb_y, n, list);
1015
1016         if(diagonal_ref == ref){ 
1017             *mx= C[0];
1018             *my= C[1];
1019             return;
1020         }
1021     }
1022
1023     //RARE
1024     pred_motion(h, n, 2, list, ref, mx, my);
1025 }
1026
1027 static inline void pred_pskip_motion(H264Context * const h, int * const mx, int * const my){
1028     const int top_ref = h->ref_cache[0][ scan8[0] - 8 ];
1029     const int left_ref= h->ref_cache[0][ scan8[0] - 1 ];
1030
1031     tprintf("pred_pskip: (%d) (%d) at %2d %2d\n", top_ref, left_ref, h->s.mb_x, h->s.mb_y);
1032
1033     if(top_ref == PART_NOT_AVAILABLE || left_ref == PART_NOT_AVAILABLE
1034        || (top_ref == 0  && *(uint32_t*)h->mv_cache[0][ scan8[0] - 8 ] == 0)
1035        || (left_ref == 0 && *(uint32_t*)h->mv_cache[0][ scan8[0] - 1 ] == 0)){
1036        
1037         *mx = *my = 0;
1038         return;
1039     }
1040         
1041     pred_motion(h, 0, 4, 0, 0, mx, my);
1042
1043     return;
1044 }
1045
1046 static inline void direct_dist_scale_factor(H264Context * const h){
1047     const int poc = h->s.current_picture_ptr->poc;
1048     const int poc1 = h->ref_list[1][0].poc;
1049     int i;
1050     for(i=0; i<h->ref_count[0]; i++){
1051         int poc0 = h->ref_list[0][i].poc;
1052         int td = clip(poc1 - poc0, -128, 127);
1053         if(td == 0 /* FIXME || pic0 is a long-term ref */){
1054             h->dist_scale_factor[i] = 256;
1055         }else{
1056             int tb = clip(poc - poc0, -128, 127);
1057             int tx = (16384 + (ABS(td) >> 1)) / td;
1058             h->dist_scale_factor[i] = clip((tb*tx + 32) >> 6, -1024, 1023);
1059         }
1060     }
1061 }
1062
1063 static inline void pred_direct_motion(H264Context * const h, int *mb_type){
1064     MpegEncContext * const s = &h->s;
1065     const int mb_xy =   s->mb_x +   s->mb_y*s->mb_stride;
1066     const int b8_xy = 2*s->mb_x + 2*s->mb_y*h->b8_stride;
1067     const int b4_xy = 4*s->mb_x + 4*s->mb_y*h->b_stride;
1068     const int mb_type_col = h->ref_list[1][0].mb_type[mb_xy];
1069     const int16_t (*l1mv0)[2] = (const int16_t (*)[2]) &h->ref_list[1][0].motion_val[0][b4_xy];
1070     const int8_t *l1ref0 = &h->ref_list[1][0].ref_index[0][b8_xy];
1071     const int is_b8x8 = IS_8X8(*mb_type);
1072     int sub_mb_type;
1073     int i8, i4;
1074
1075     if(IS_8X8(mb_type_col) && !h->sps.direct_8x8_inference_flag){
1076         /* FIXME save sub mb types from previous frames (or derive from MVs)
1077          * so we know exactly what block size to use */
1078         sub_mb_type = MB_TYPE_8x8|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_4x4 */
1079         *mb_type =    MB_TYPE_8x8;
1080     }else if(!is_b8x8 && (IS_16X16(mb_type_col) || IS_INTRA(mb_type_col))){
1081         sub_mb_type = MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_8x8 */
1082         *mb_type =    MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_16x16 */
1083     }else{
1084         sub_mb_type = MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2; /* B_SUB_8x8 */
1085         *mb_type =    MB_TYPE_8x8;
1086     }
1087     if(!is_b8x8)
1088         *mb_type |= MB_TYPE_DIRECT2;
1089
1090     tprintf("mb_type = %08x, sub_mb_type = %08x, is_b8x8 = %d, mb_type_col = %08x\n", *mb_type, sub_mb_type, is_b8x8, mb_type_col);
1091     
1092     if(h->direct_spatial_mv_pred){
1093         int ref[2];
1094         int mv[2][2];
1095         int list;
1096
1097         /* ref = min(neighbors) */
1098         for(list=0; list<2; list++){
1099             int refa = h->ref_cache[list][scan8[0] - 1];
1100             int refb = h->ref_cache[list][scan8[0] - 8];
1101             int refc = h->ref_cache[list][scan8[0] - 8 + 4];
1102             if(refc == -2)
1103                 refc = h->ref_cache[list][scan8[0] - 8 - 1];
1104             ref[list] = refa;
1105             if(ref[list] < 0 || (refb < ref[list] && refb >= 0))
1106                 ref[list] = refb;
1107             if(ref[list] < 0 || (refc < ref[list] && refc >= 0))
1108                 ref[list] = refc;
1109             if(ref[list] < 0)
1110                 ref[list] = -1;
1111         }
1112
1113         if(ref[0] < 0 && ref[1] < 0){
1114             ref[0] = ref[1] = 0;
1115             mv[0][0] = mv[0][1] =
1116             mv[1][0] = mv[1][1] = 0;
1117         }else{
1118             for(list=0; list<2; list++){
1119                 if(ref[list] >= 0)
1120                     pred_motion(h, 0, 4, list, ref[list], &mv[list][0], &mv[list][1]);
1121                 else
1122                     mv[list][0] = mv[list][1] = 0;
1123             }
1124         }
1125
1126         if(ref[1] < 0){
1127             *mb_type &= ~MB_TYPE_P0L1;
1128             sub_mb_type &= ~MB_TYPE_P0L1;
1129         }else if(ref[0] < 0){
1130             *mb_type &= ~MB_TYPE_P0L0;
1131             sub_mb_type &= ~MB_TYPE_P0L0;
1132         }
1133
1134         if(IS_16X16(*mb_type)){
1135             fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, ref[0], 1);
1136             fill_rectangle(&h->ref_cache[1][scan8[0]], 4, 4, 8, ref[1], 1);
1137             if(!IS_INTRA(mb_type_col) && l1ref0[0] == 0 &&
1138                 ABS(l1mv0[0][0]) <= 1 && ABS(l1mv0[0][1]) <= 1){
1139                 if(ref[0] > 0)
1140                     fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1141                 else
1142                     fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, 0, 4);
1143                 if(ref[1] > 0)
1144                     fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1145                 else
1146                     fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, 0, 4);
1147             }else{
1148                 fill_rectangle(&h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1149                 fill_rectangle(&h->mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1150             }
1151         }else{
1152             for(i8=0; i8<4; i8++){
1153                 const int x8 = i8&1;
1154                 const int y8 = i8>>1;
1155     
1156                 if(is_b8x8 && !IS_DIRECT(h->sub_mb_type[i8]))
1157                     continue;
1158                 h->sub_mb_type[i8] = sub_mb_type;
1159     
1160                 fill_rectangle(&h->mv_cache[0][scan8[i8*4]], 2, 2, 8, pack16to32(mv[0][0],mv[0][1]), 4);
1161                 fill_rectangle(&h->mv_cache[1][scan8[i8*4]], 2, 2, 8, pack16to32(mv[1][0],mv[1][1]), 4);
1162                 fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, ref[0], 1);
1163                 fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, ref[1], 1);
1164     
1165                 /* col_zero_flag */
1166                 if(!IS_INTRA(mb_type_col) && l1ref0[x8 + y8*h->b8_stride] == 0){
1167                     for(i4=0; i4<4; i4++){
1168                         const int16_t *mv_col = l1mv0[x8*2 + (i4&1) + (y8*2 + (i4>>1))*h->b_stride];
1169                         if(ABS(mv_col[0]) <= 1 && ABS(mv_col[1]) <= 1){
1170                             if(ref[0] == 0)
1171                                 *(uint32_t*)h->mv_cache[0][scan8[i8*4+i4]] = 0;
1172                             if(ref[1] == 0)
1173                                 *(uint32_t*)h->mv_cache[1][scan8[i8*4+i4]] = 0;
1174                         }
1175                     }
1176                 }
1177             }
1178         }
1179     }else{ /* direct temporal mv pred */
1180         /* FIXME assumes that L1ref0 used the same ref lists as current frame */
1181         if(IS_16X16(*mb_type)){
1182             fill_rectangle(&h->ref_cache[1][scan8[0]], 4, 4, 8, 0, 1);
1183             if(IS_INTRA(mb_type_col)){
1184                 fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, 0, 1);
1185                 fill_rectangle(&h-> mv_cache[0][scan8[0]], 4, 4, 8, 0, 4);
1186                 fill_rectangle(&h-> mv_cache[1][scan8[0]], 4, 4, 8, 0, 4);
1187             }else{
1188                 const int ref0 = l1ref0[0];
1189                 const int dist_scale_factor = h->dist_scale_factor[ref0];
1190                 const int16_t *mv_col = l1mv0[0];
1191                 int mv_l0[2];
1192                 mv_l0[0] = (dist_scale_factor * mv_col[0] + 128) >> 8;
1193                 mv_l0[1] = (dist_scale_factor * mv_col[1] + 128) >> 8;
1194                 fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, ref0, 1);
1195                 fill_rectangle(&h-> mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mv_l0[0],mv_l0[1]), 4);
1196                 fill_rectangle(&h-> mv_cache[1][scan8[0]], 4, 4, 8, pack16to32(mv_l0[0]-mv_col[0],mv_l0[1]-mv_col[1]), 4);
1197             }
1198         }else{
1199             for(i8=0; i8<4; i8++){
1200                 const int x8 = i8&1;
1201                 const int y8 = i8>>1;
1202                 int ref0, dist_scale_factor;
1203     
1204                 if(is_b8x8 && !IS_DIRECT(h->sub_mb_type[i8]))
1205                     continue;
1206                 h->sub_mb_type[i8] = sub_mb_type;
1207                 if(IS_INTRA(mb_type_col)){
1208                     fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, 0, 1);
1209                     fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, 0, 1);
1210                     fill_rectangle(&h-> mv_cache[0][scan8[i8*4]], 2, 2, 8, 0, 4);
1211                     fill_rectangle(&h-> mv_cache[1][scan8[i8*4]], 2, 2, 8, 0, 4);
1212                     continue;
1213                 }
1214     
1215                 ref0 = l1ref0[x8 + y8*h->b8_stride];
1216                 dist_scale_factor = h->dist_scale_factor[ref0];
1217     
1218                 fill_rectangle(&h->ref_cache[0][scan8[i8*4]], 2, 2, 8, ref0, 1);
1219                 fill_rectangle(&h->ref_cache[1][scan8[i8*4]], 2, 2, 8, 0, 1);
1220                 for(i4=0; i4<4; i4++){
1221                     const int16_t *mv_col = l1mv0[x8*2 + (i4&1) + (y8*2 + (i4>>1))*h->b_stride];
1222                     int16_t *mv_l0 = h->mv_cache[0][scan8[i8*4+i4]];
1223                     mv_l0[0] = (dist_scale_factor * mv_col[0] + 128) >> 8;
1224                     mv_l0[1] = (dist_scale_factor * mv_col[1] + 128) >> 8;
1225                     *(uint32_t*)h->mv_cache[1][scan8[i8*4+i4]] =
1226                         pack16to32(mv_l0[0]-mv_col[0],mv_l0[1]-mv_col[1]);
1227                 }
1228             }
1229         }
1230     }
1231 }
1232
1233 static inline void write_back_motion(H264Context *h, int mb_type){
1234     MpegEncContext * const s = &h->s;
1235     const int b_xy = 4*s->mb_x + 4*s->mb_y*h->b_stride;
1236     const int b8_xy= 2*s->mb_x + 2*s->mb_y*h->b8_stride;
1237     int list;
1238
1239     for(list=0; list<2; list++){
1240         int y;
1241         if((!IS_8X8(mb_type)) && !USES_LIST(mb_type, list)){
1242             if(1){ //FIXME skip or never read if mb_type doesnt use it
1243                 for(y=0; y<4; y++){
1244                     *(uint64_t*)s->current_picture.motion_val[list][b_xy + 0 + y*h->b_stride]=
1245                     *(uint64_t*)s->current_picture.motion_val[list][b_xy + 2 + y*h->b_stride]= 0;
1246                 }
1247                 if( h->pps.cabac ) {
1248                     /* FIXME needed ? */
1249                     for(y=0; y<4; y++){
1250                         *(uint64_t*)h->mvd_table[list][b_xy + 0 + y*h->b_stride]=
1251                         *(uint64_t*)h->mvd_table[list][b_xy + 2 + y*h->b_stride]= 0;
1252                     }
1253                 }
1254                 for(y=0; y<2; y++){
1255                     *(uint16_t*)&s->current_picture.ref_index[list][b8_xy + y*h->b8_stride]= (LIST_NOT_USED&0xFF)*0x0101;
1256                 }
1257             }
1258             continue;
1259         }
1260         
1261         for(y=0; y<4; y++){
1262             *(uint64_t*)s->current_picture.motion_val[list][b_xy + 0 + y*h->b_stride]= *(uint64_t*)h->mv_cache[list][scan8[0]+0 + 8*y];
1263             *(uint64_t*)s->current_picture.motion_val[list][b_xy + 2 + y*h->b_stride]= *(uint64_t*)h->mv_cache[list][scan8[0]+2 + 8*y];
1264         }
1265         if( h->pps.cabac ) {
1266             for(y=0; y<4; y++){
1267                 *(uint64_t*)h->mvd_table[list][b_xy + 0 + y*h->b_stride]= *(uint64_t*)h->mvd_cache[list][scan8[0]+0 + 8*y];
1268                 *(uint64_t*)h->mvd_table[list][b_xy + 2 + y*h->b_stride]= *(uint64_t*)h->mvd_cache[list][scan8[0]+2 + 8*y];
1269             }
1270         }
1271         for(y=0; y<2; y++){
1272             s->current_picture.ref_index[list][b8_xy + 0 + y*h->b8_stride]= h->ref_cache[list][scan8[0]+0 + 16*y];
1273             s->current_picture.ref_index[list][b8_xy + 1 + y*h->b8_stride]= h->ref_cache[list][scan8[0]+2 + 16*y];
1274         }
1275     }
1276     
1277     if(h->slice_type == B_TYPE && h->pps.cabac){
1278         if(IS_8X8(mb_type)){
1279             h->direct_table[b8_xy+1+0*h->b8_stride] = IS_DIRECT(h->sub_mb_type[1]) ? 1 : 0;
1280             h->direct_table[b8_xy+0+1*h->b8_stride] = IS_DIRECT(h->sub_mb_type[2]) ? 1 : 0;
1281             h->direct_table[b8_xy+1+1*h->b8_stride] = IS_DIRECT(h->sub_mb_type[3]) ? 1 : 0;
1282         }
1283     }
1284 }
1285
1286 /**
1287  * Decodes a network abstraction layer unit.
1288  * @param consumed is the number of bytes used as input
1289  * @param length is the length of the array
1290  * @param dst_length is the number of decoded bytes FIXME here or a decode rbsp ttailing?
1291  * @returns decoded bytes, might be src+1 if no escapes 
1292  */
1293 static uint8_t *decode_nal(H264Context *h, uint8_t *src, int *dst_length, int *consumed, int length){
1294     int i, si, di;
1295     uint8_t *dst;
1296
1297 //    src[0]&0x80;              //forbidden bit
1298     h->nal_ref_idc= src[0]>>5;
1299     h->nal_unit_type= src[0]&0x1F;
1300
1301     src++; length--;
1302 #if 0    
1303     for(i=0; i<length; i++)
1304         printf("%2X ", src[i]);
1305 #endif
1306     for(i=0; i+1<length; i+=2){
1307         if(src[i]) continue;
1308         if(i>0 && src[i-1]==0) i--;
1309         if(i+2<length && src[i+1]==0 && src[i+2]<=3){
1310             if(src[i+2]!=3){
1311                 /* startcode, so we must be past the end */
1312                 length=i;
1313             }
1314             break;
1315         }
1316     }
1317
1318     if(i>=length-1){ //no escaped 0
1319         *dst_length= length;
1320         *consumed= length+1; //+1 for the header
1321         return src; 
1322     }
1323
1324     h->rbsp_buffer= av_fast_realloc(h->rbsp_buffer, &h->rbsp_buffer_size, length);
1325     dst= h->rbsp_buffer;
1326
1327 //printf("deoding esc\n");
1328     si=di=0;
1329     while(si<length){ 
1330         //remove escapes (very rare 1:2^22)
1331         if(si+2<length && src[si]==0 && src[si+1]==0 && src[si+2]<=3){
1332             if(src[si+2]==3){ //escape
1333                 dst[di++]= 0;
1334                 dst[di++]= 0;
1335                 si+=3;
1336                 continue;
1337             }else //next start code
1338                 break;
1339         }
1340
1341         dst[di++]= src[si++];
1342     }
1343
1344     *dst_length= di;
1345     *consumed= si + 1;//+1 for the header
1346 //FIXME store exact number of bits in the getbitcontext (its needed for decoding)
1347     return dst;
1348 }
1349
1350 #if 0
1351 /**
1352  * @param src the data which should be escaped
1353  * @param dst the target buffer, dst+1 == src is allowed as a special case
1354  * @param length the length of the src data
1355  * @param dst_length the length of the dst array
1356  * @returns length of escaped data in bytes or -1 if an error occured
1357  */
1358 static int encode_nal(H264Context *h, uint8_t *dst, uint8_t *src, int length, int dst_length){
1359     int i, escape_count, si, di;
1360     uint8_t *temp;
1361     
1362     assert(length>=0);
1363     assert(dst_length>0);
1364     
1365     dst[0]= (h->nal_ref_idc<<5) + h->nal_unit_type;
1366
1367     if(length==0) return 1;
1368
1369     escape_count= 0;
1370     for(i=0; i<length; i+=2){
1371         if(src[i]) continue;
1372         if(i>0 && src[i-1]==0) 
1373             i--;
1374         if(i+2<length && src[i+1]==0 && src[i+2]<=3){
1375             escape_count++;
1376             i+=2;
1377         }
1378     }
1379     
1380     if(escape_count==0){ 
1381         if(dst+1 != src)
1382             memcpy(dst+1, src, length);
1383         return length + 1;
1384     }
1385     
1386     if(length + escape_count + 1> dst_length)
1387         return -1;
1388
1389     //this should be damn rare (hopefully)
1390
1391     h->rbsp_buffer= av_fast_realloc(h->rbsp_buffer, &h->rbsp_buffer_size, length + escape_count);
1392     temp= h->rbsp_buffer;
1393 //printf("encoding esc\n");
1394     
1395     si= 0;
1396     di= 0;
1397     while(si < length){
1398         if(si+2<length && src[si]==0 && src[si+1]==0 && src[si+2]<=3){
1399             temp[di++]= 0; si++;
1400             temp[di++]= 0; si++;
1401             temp[di++]= 3; 
1402             temp[di++]= src[si++];
1403         }
1404         else
1405             temp[di++]= src[si++];
1406     }
1407     memcpy(dst+1, temp, length+escape_count);
1408     
1409     assert(di == length+escape_count);
1410     
1411     return di + 1;
1412 }
1413
1414 /**
1415  * write 1,10,100,1000,... for alignment, yes its exactly inverse to mpeg4
1416  */
1417 static void encode_rbsp_trailing(PutBitContext *pb){
1418     int length;
1419     put_bits(pb, 1, 1);
1420     length= (-put_bits_count(pb))&7;
1421     if(length) put_bits(pb, length, 0);
1422 }
1423 #endif
1424
1425 /**
1426  * identifies the exact end of the bitstream
1427  * @return the length of the trailing, or 0 if damaged
1428  */
1429 static int decode_rbsp_trailing(uint8_t *src){
1430     int v= *src;
1431     int r;
1432
1433     tprintf("rbsp trailing %X\n", v);
1434
1435     for(r=1; r<9; r++){
1436         if(v&1) return r;
1437         v>>=1;
1438     }
1439     return 0;
1440 }
1441
1442 /**
1443  * idct tranforms the 16 dc values and dequantize them.
1444  * @param qp quantization parameter
1445  */
1446 static void h264_luma_dc_dequant_idct_c(DCTELEM *block, int qp){
1447     const int qmul= dequant_coeff[qp][0];
1448 #define stride 16
1449     int i;
1450     int temp[16]; //FIXME check if this is a good idea
1451     static const int x_offset[4]={0, 1*stride, 4* stride,  5*stride};
1452     static const int y_offset[4]={0, 2*stride, 8* stride, 10*stride};
1453
1454 //memset(block, 64, 2*256);
1455 //return;
1456     for(i=0; i<4; i++){
1457         const int offset= y_offset[i];
1458         const int z0= block[offset+stride*0] + block[offset+stride*4];
1459         const int z1= block[offset+stride*0] - block[offset+stride*4];
1460         const int z2= block[offset+stride*1] - block[offset+stride*5];
1461         const int z3= block[offset+stride*1] + block[offset+stride*5];
1462
1463         temp[4*i+0]= z0+z3;
1464         temp[4*i+1]= z1+z2;
1465         temp[4*i+2]= z1-z2;
1466         temp[4*i+3]= z0-z3;
1467     }
1468
1469     for(i=0; i<4; i++){
1470         const int offset= x_offset[i];
1471         const int z0= temp[4*0+i] + temp[4*2+i];
1472         const int z1= temp[4*0+i] - temp[4*2+i];
1473         const int z2= temp[4*1+i] - temp[4*3+i];
1474         const int z3= temp[4*1+i] + temp[4*3+i];
1475
1476         block[stride*0 +offset]= ((z0 + z3)*qmul + 2)>>2; //FIXME think about merging this into decode_resdual
1477         block[stride*2 +offset]= ((z1 + z2)*qmul + 2)>>2;
1478         block[stride*8 +offset]= ((z1 - z2)*qmul + 2)>>2;
1479         block[stride*10+offset]= ((z0 - z3)*qmul + 2)>>2;
1480     }
1481 }
1482
1483 #if 0
1484 /**
1485  * dct tranforms the 16 dc values.
1486  * @param qp quantization parameter ??? FIXME
1487  */
1488 static void h264_luma_dc_dct_c(DCTELEM *block/*, int qp*/){
1489 //    const int qmul= dequant_coeff[qp][0];
1490     int i;
1491     int temp[16]; //FIXME check if this is a good idea
1492     static const int x_offset[4]={0, 1*stride, 4* stride,  5*stride};
1493     static const int y_offset[4]={0, 2*stride, 8* stride, 10*stride};
1494
1495     for(i=0; i<4; i++){
1496         const int offset= y_offset[i];
1497         const int z0= block[offset+stride*0] + block[offset+stride*4];
1498         const int z1= block[offset+stride*0] - block[offset+stride*4];
1499         const int z2= block[offset+stride*1] - block[offset+stride*5];
1500         const int z3= block[offset+stride*1] + block[offset+stride*5];
1501
1502         temp[4*i+0]= z0+z3;
1503         temp[4*i+1]= z1+z2;
1504         temp[4*i+2]= z1-z2;
1505         temp[4*i+3]= z0-z3;
1506     }
1507
1508     for(i=0; i<4; i++){
1509         const int offset= x_offset[i];
1510         const int z0= temp[4*0+i] + temp[4*2+i];
1511         const int z1= temp[4*0+i] - temp[4*2+i];
1512         const int z2= temp[4*1+i] - temp[4*3+i];
1513         const int z3= temp[4*1+i] + temp[4*3+i];
1514
1515         block[stride*0 +offset]= (z0 + z3)>>1;
1516         block[stride*2 +offset]= (z1 + z2)>>1;
1517         block[stride*8 +offset]= (z1 - z2)>>1;
1518         block[stride*10+offset]= (z0 - z3)>>1;
1519     }
1520 }
1521 #endif
1522
1523 #undef xStride
1524 #undef stride
1525
1526 static void chroma_dc_dequant_idct_c(DCTELEM *block, int qp){
1527     const int qmul= dequant_coeff[qp][0];
1528     const int stride= 16*2;
1529     const int xStride= 16;
1530     int a,b,c,d,e;
1531
1532     a= block[stride*0 + xStride*0];
1533     b= block[stride*0 + xStride*1];
1534     c= block[stride*1 + xStride*0];
1535     d= block[stride*1 + xStride*1];
1536
1537     e= a-b;
1538     a= a+b;
1539     b= c-d;
1540     c= c+d;
1541
1542     block[stride*0 + xStride*0]= ((a+c)*qmul + 0)>>1;
1543     block[stride*0 + xStride*1]= ((e+b)*qmul + 0)>>1;
1544     block[stride*1 + xStride*0]= ((a-c)*qmul + 0)>>1;
1545     block[stride*1 + xStride*1]= ((e-b)*qmul + 0)>>1;
1546 }
1547
1548 #if 0
1549 static void chroma_dc_dct_c(DCTELEM *block){
1550     const int stride= 16*2;
1551     const int xStride= 16;
1552     int a,b,c,d,e;
1553
1554     a= block[stride*0 + xStride*0];
1555     b= block[stride*0 + xStride*1];
1556     c= block[stride*1 + xStride*0];
1557     d= block[stride*1 + xStride*1];
1558
1559     e= a-b;
1560     a= a+b;
1561     b= c-d;
1562     c= c+d;
1563
1564     block[stride*0 + xStride*0]= (a+c);
1565     block[stride*0 + xStride*1]= (e+b);
1566     block[stride*1 + xStride*0]= (a-c);
1567     block[stride*1 + xStride*1]= (e-b);
1568 }
1569 #endif
1570
1571 /**
1572  * gets the chroma qp.
1573  */
1574 static inline int get_chroma_qp(H264Context *h, int qscale){
1575     
1576     return chroma_qp[clip(qscale + h->pps.chroma_qp_index_offset, 0, 51)];
1577 }
1578
1579
1580 #if 0
1581 static void h264_diff_dct_c(DCTELEM *block, uint8_t *src1, uint8_t *src2, int stride){
1582     int i;
1583     //FIXME try int temp instead of block
1584     
1585     for(i=0; i<4; i++){
1586         const int d0= src1[0 + i*stride] - src2[0 + i*stride];
1587         const int d1= src1[1 + i*stride] - src2[1 + i*stride];
1588         const int d2= src1[2 + i*stride] - src2[2 + i*stride];
1589         const int d3= src1[3 + i*stride] - src2[3 + i*stride];
1590         const int z0= d0 + d3;
1591         const int z3= d0 - d3;
1592         const int z1= d1 + d2;
1593         const int z2= d1 - d2;
1594         
1595         block[0 + 4*i]=   z0 +   z1;
1596         block[1 + 4*i]= 2*z3 +   z2;
1597         block[2 + 4*i]=   z0 -   z1;
1598         block[3 + 4*i]=   z3 - 2*z2;
1599     }    
1600
1601     for(i=0; i<4; i++){
1602         const int z0= block[0*4 + i] + block[3*4 + i];
1603         const int z3= block[0*4 + i] - block[3*4 + i];
1604         const int z1= block[1*4 + i] + block[2*4 + i];
1605         const int z2= block[1*4 + i] - block[2*4 + i];
1606         
1607         block[0*4 + i]=   z0 +   z1;
1608         block[1*4 + i]= 2*z3 +   z2;
1609         block[2*4 + i]=   z0 -   z1;
1610         block[3*4 + i]=   z3 - 2*z2;
1611     }
1612 }
1613 #endif
1614
1615 //FIXME need to check that this doesnt overflow signed 32 bit for low qp, iam not sure, its very close
1616 //FIXME check that gcc inlines this (and optimizes intra & seperate_dc stuff away)
1617 static inline int quantize_c(DCTELEM *block, uint8_t *scantable, int qscale, int intra, int seperate_dc){
1618     int i;
1619     const int * const quant_table= quant_coeff[qscale];
1620     const int bias= intra ? (1<<QUANT_SHIFT)/3 : (1<<QUANT_SHIFT)/6;
1621     const unsigned int threshold1= (1<<QUANT_SHIFT) - bias - 1;
1622     const unsigned int threshold2= (threshold1<<1);
1623     int last_non_zero;
1624
1625     if(seperate_dc){
1626         if(qscale<=18){
1627             //avoid overflows
1628             const int dc_bias= intra ? (1<<(QUANT_SHIFT-2))/3 : (1<<(QUANT_SHIFT-2))/6;
1629             const unsigned int dc_threshold1= (1<<(QUANT_SHIFT-2)) - dc_bias - 1;
1630             const unsigned int dc_threshold2= (dc_threshold1<<1);
1631
1632             int level= block[0]*quant_coeff[qscale+18][0];
1633             if(((unsigned)(level+dc_threshold1))>dc_threshold2){
1634                 if(level>0){
1635                     level= (dc_bias + level)>>(QUANT_SHIFT-2);
1636                     block[0]= level;
1637                 }else{
1638                     level= (dc_bias - level)>>(QUANT_SHIFT-2);
1639                     block[0]= -level;
1640                 }
1641 //                last_non_zero = i;
1642             }else{
1643                 block[0]=0;
1644             }
1645         }else{
1646             const int dc_bias= intra ? (1<<(QUANT_SHIFT+1))/3 : (1<<(QUANT_SHIFT+1))/6;
1647             const unsigned int dc_threshold1= (1<<(QUANT_SHIFT+1)) - dc_bias - 1;
1648             const unsigned int dc_threshold2= (dc_threshold1<<1);
1649
1650             int level= block[0]*quant_table[0];
1651             if(((unsigned)(level+dc_threshold1))>dc_threshold2){
1652                 if(level>0){
1653                     level= (dc_bias + level)>>(QUANT_SHIFT+1);
1654                     block[0]= level;
1655                 }else{
1656                     level= (dc_bias - level)>>(QUANT_SHIFT+1);
1657                     block[0]= -level;
1658                 }
1659 //                last_non_zero = i;
1660             }else{
1661                 block[0]=0;
1662             }
1663         }
1664         last_non_zero= 0;
1665         i=1;
1666     }else{
1667         last_non_zero= -1;
1668         i=0;
1669     }
1670
1671     for(; i<16; i++){
1672         const int j= scantable[i];
1673         int level= block[j]*quant_table[j];
1674
1675 //        if(   bias+level >= (1<<(QMAT_SHIFT - 3))
1676 //           || bias-level >= (1<<(QMAT_SHIFT - 3))){
1677         if(((unsigned)(level+threshold1))>threshold2){
1678             if(level>0){
1679                 level= (bias + level)>>QUANT_SHIFT;
1680                 block[j]= level;
1681             }else{
1682                 level= (bias - level)>>QUANT_SHIFT;
1683                 block[j]= -level;
1684             }
1685             last_non_zero = i;
1686         }else{
1687             block[j]=0;
1688         }
1689     }
1690
1691     return last_non_zero;
1692 }
1693
1694 static void pred4x4_vertical_c(uint8_t *src, uint8_t *topright, int stride){
1695     const uint32_t a= ((uint32_t*)(src-stride))[0];
1696     ((uint32_t*)(src+0*stride))[0]= a;
1697     ((uint32_t*)(src+1*stride))[0]= a;
1698     ((uint32_t*)(src+2*stride))[0]= a;
1699     ((uint32_t*)(src+3*stride))[0]= a;
1700 }
1701
1702 static void pred4x4_horizontal_c(uint8_t *src, uint8_t *topright, int stride){
1703     ((uint32_t*)(src+0*stride))[0]= src[-1+0*stride]*0x01010101;
1704     ((uint32_t*)(src+1*stride))[0]= src[-1+1*stride]*0x01010101;
1705     ((uint32_t*)(src+2*stride))[0]= src[-1+2*stride]*0x01010101;
1706     ((uint32_t*)(src+3*stride))[0]= src[-1+3*stride]*0x01010101;
1707 }
1708
1709 static void pred4x4_dc_c(uint8_t *src, uint8_t *topright, int stride){
1710     const int dc= (  src[-stride] + src[1-stride] + src[2-stride] + src[3-stride]
1711                    + src[-1+0*stride] + src[-1+1*stride] + src[-1+2*stride] + src[-1+3*stride] + 4) >>3;
1712     
1713     ((uint32_t*)(src+0*stride))[0]= 
1714     ((uint32_t*)(src+1*stride))[0]= 
1715     ((uint32_t*)(src+2*stride))[0]= 
1716     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1717 }
1718
1719 static void pred4x4_left_dc_c(uint8_t *src, uint8_t *topright, int stride){
1720     const int dc= (  src[-1+0*stride] + src[-1+1*stride] + src[-1+2*stride] + src[-1+3*stride] + 2) >>2;
1721     
1722     ((uint32_t*)(src+0*stride))[0]= 
1723     ((uint32_t*)(src+1*stride))[0]= 
1724     ((uint32_t*)(src+2*stride))[0]= 
1725     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1726 }
1727
1728 static void pred4x4_top_dc_c(uint8_t *src, uint8_t *topright, int stride){
1729     const int dc= (  src[-stride] + src[1-stride] + src[2-stride] + src[3-stride] + 2) >>2;
1730     
1731     ((uint32_t*)(src+0*stride))[0]= 
1732     ((uint32_t*)(src+1*stride))[0]= 
1733     ((uint32_t*)(src+2*stride))[0]= 
1734     ((uint32_t*)(src+3*stride))[0]= dc* 0x01010101; 
1735 }
1736
1737 static void pred4x4_128_dc_c(uint8_t *src, uint8_t *topright, int stride){
1738     ((uint32_t*)(src+0*stride))[0]= 
1739     ((uint32_t*)(src+1*stride))[0]= 
1740     ((uint32_t*)(src+2*stride))[0]= 
1741     ((uint32_t*)(src+3*stride))[0]= 128U*0x01010101U;
1742 }
1743
1744
1745 #define LOAD_TOP_RIGHT_EDGE\
1746     const int t4= topright[0];\
1747     const int t5= topright[1];\
1748     const int t6= topright[2];\
1749     const int t7= topright[3];\
1750
1751 #define LOAD_LEFT_EDGE\
1752     const int l0= src[-1+0*stride];\
1753     const int l1= src[-1+1*stride];\
1754     const int l2= src[-1+2*stride];\
1755     const int l3= src[-1+3*stride];\
1756
1757 #define LOAD_TOP_EDGE\
1758     const int t0= src[ 0-1*stride];\
1759     const int t1= src[ 1-1*stride];\
1760     const int t2= src[ 2-1*stride];\
1761     const int t3= src[ 3-1*stride];\
1762
1763 static void pred4x4_down_right_c(uint8_t *src, uint8_t *topright, int stride){
1764     const int lt= src[-1-1*stride];
1765     LOAD_TOP_EDGE
1766     LOAD_LEFT_EDGE
1767
1768     src[0+3*stride]=(l3 + 2*l2 + l1 + 2)>>2; 
1769     src[0+2*stride]=
1770     src[1+3*stride]=(l2 + 2*l1 + l0 + 2)>>2; 
1771     src[0+1*stride]=
1772     src[1+2*stride]=
1773     src[2+3*stride]=(l1 + 2*l0 + lt + 2)>>2; 
1774     src[0+0*stride]=
1775     src[1+1*stride]=
1776     src[2+2*stride]=
1777     src[3+3*stride]=(l0 + 2*lt + t0 + 2)>>2; 
1778     src[1+0*stride]=
1779     src[2+1*stride]=
1780     src[3+2*stride]=(lt + 2*t0 + t1 + 2)>>2;
1781     src[2+0*stride]=
1782     src[3+1*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1783     src[3+0*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1784 }
1785
1786 static void pred4x4_down_left_c(uint8_t *src, uint8_t *topright, int stride){
1787     LOAD_TOP_EDGE    
1788     LOAD_TOP_RIGHT_EDGE    
1789 //    LOAD_LEFT_EDGE    
1790
1791     src[0+0*stride]=(t0 + t2 + 2*t1 + 2)>>2;
1792     src[1+0*stride]=
1793     src[0+1*stride]=(t1 + t3 + 2*t2 + 2)>>2;
1794     src[2+0*stride]=
1795     src[1+1*stride]=
1796     src[0+2*stride]=(t2 + t4 + 2*t3 + 2)>>2;
1797     src[3+0*stride]=
1798     src[2+1*stride]=
1799     src[1+2*stride]=
1800     src[0+3*stride]=(t3 + t5 + 2*t4 + 2)>>2;
1801     src[3+1*stride]=
1802     src[2+2*stride]=
1803     src[1+3*stride]=(t4 + t6 + 2*t5 + 2)>>2;
1804     src[3+2*stride]=
1805     src[2+3*stride]=(t5 + t7 + 2*t6 + 2)>>2;
1806     src[3+3*stride]=(t6 + 3*t7 + 2)>>2;
1807 }
1808
1809 static void pred4x4_vertical_right_c(uint8_t *src, uint8_t *topright, int stride){
1810     const int lt= src[-1-1*stride];
1811     LOAD_TOP_EDGE    
1812     LOAD_LEFT_EDGE    
1813     const __attribute__((unused)) int unu= l3;
1814
1815     src[0+0*stride]=
1816     src[1+2*stride]=(lt + t0 + 1)>>1;
1817     src[1+0*stride]=
1818     src[2+2*stride]=(t0 + t1 + 1)>>1;
1819     src[2+0*stride]=
1820     src[3+2*stride]=(t1 + t2 + 1)>>1;
1821     src[3+0*stride]=(t2 + t3 + 1)>>1;
1822     src[0+1*stride]=
1823     src[1+3*stride]=(l0 + 2*lt + t0 + 2)>>2;
1824     src[1+1*stride]=
1825     src[2+3*stride]=(lt + 2*t0 + t1 + 2)>>2;
1826     src[2+1*stride]=
1827     src[3+3*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1828     src[3+1*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1829     src[0+2*stride]=(lt + 2*l0 + l1 + 2)>>2;
1830     src[0+3*stride]=(l0 + 2*l1 + l2 + 2)>>2;
1831 }
1832
1833 static void pred4x4_vertical_left_c(uint8_t *src, uint8_t *topright, int stride){
1834     LOAD_TOP_EDGE    
1835     LOAD_TOP_RIGHT_EDGE    
1836     const __attribute__((unused)) int unu= t7;
1837
1838     src[0+0*stride]=(t0 + t1 + 1)>>1;
1839     src[1+0*stride]=
1840     src[0+2*stride]=(t1 + t2 + 1)>>1;
1841     src[2+0*stride]=
1842     src[1+2*stride]=(t2 + t3 + 1)>>1;
1843     src[3+0*stride]=
1844     src[2+2*stride]=(t3 + t4+ 1)>>1;
1845     src[3+2*stride]=(t4 + t5+ 1)>>1;
1846     src[0+1*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1847     src[1+1*stride]=
1848     src[0+3*stride]=(t1 + 2*t2 + t3 + 2)>>2;
1849     src[2+1*stride]=
1850     src[1+3*stride]=(t2 + 2*t3 + t4 + 2)>>2;
1851     src[3+1*stride]=
1852     src[2+3*stride]=(t3 + 2*t4 + t5 + 2)>>2;
1853     src[3+3*stride]=(t4 + 2*t5 + t6 + 2)>>2;
1854 }
1855
1856 static void pred4x4_horizontal_up_c(uint8_t *src, uint8_t *topright, int stride){
1857     LOAD_LEFT_EDGE    
1858
1859     src[0+0*stride]=(l0 + l1 + 1)>>1;
1860     src[1+0*stride]=(l0 + 2*l1 + l2 + 2)>>2;
1861     src[2+0*stride]=
1862     src[0+1*stride]=(l1 + l2 + 1)>>1;
1863     src[3+0*stride]=
1864     src[1+1*stride]=(l1 + 2*l2 + l3 + 2)>>2;
1865     src[2+1*stride]=
1866     src[0+2*stride]=(l2 + l3 + 1)>>1;
1867     src[3+1*stride]=
1868     src[1+2*stride]=(l2 + 2*l3 + l3 + 2)>>2;
1869     src[3+2*stride]=
1870     src[1+3*stride]=
1871     src[0+3*stride]=
1872     src[2+2*stride]=
1873     src[2+3*stride]=
1874     src[3+3*stride]=l3;
1875 }
1876     
1877 static void pred4x4_horizontal_down_c(uint8_t *src, uint8_t *topright, int stride){
1878     const int lt= src[-1-1*stride];
1879     LOAD_TOP_EDGE    
1880     LOAD_LEFT_EDGE    
1881     const __attribute__((unused)) int unu= t3;
1882
1883     src[0+0*stride]=
1884     src[2+1*stride]=(lt + l0 + 1)>>1;
1885     src[1+0*stride]=
1886     src[3+1*stride]=(l0 + 2*lt + t0 + 2)>>2;
1887     src[2+0*stride]=(lt + 2*t0 + t1 + 2)>>2;
1888     src[3+0*stride]=(t0 + 2*t1 + t2 + 2)>>2;
1889     src[0+1*stride]=
1890     src[2+2*stride]=(l0 + l1 + 1)>>1;
1891     src[1+1*stride]=
1892     src[3+2*stride]=(lt + 2*l0 + l1 + 2)>>2;
1893     src[0+2*stride]=
1894     src[2+3*stride]=(l1 + l2+ 1)>>1;
1895     src[1+2*stride]=
1896     src[3+3*stride]=(l0 + 2*l1 + l2 + 2)>>2;
1897     src[0+3*stride]=(l2 + l3 + 1)>>1;
1898     src[1+3*stride]=(l1 + 2*l2 + l3 + 2)>>2;
1899 }
1900
1901 static void pred16x16_vertical_c(uint8_t *src, int stride){
1902     int i;
1903     const uint32_t a= ((uint32_t*)(src-stride))[0];
1904     const uint32_t b= ((uint32_t*)(src-stride))[1];
1905     const uint32_t c= ((uint32_t*)(src-stride))[2];
1906     const uint32_t d= ((uint32_t*)(src-stride))[3];
1907     
1908     for(i=0; i<16; i++){
1909         ((uint32_t*)(src+i*stride))[0]= a;
1910         ((uint32_t*)(src+i*stride))[1]= b;
1911         ((uint32_t*)(src+i*stride))[2]= c;
1912         ((uint32_t*)(src+i*stride))[3]= d;
1913     }
1914 }
1915
1916 static void pred16x16_horizontal_c(uint8_t *src, int stride){
1917     int i;
1918
1919     for(i=0; i<16; i++){
1920         ((uint32_t*)(src+i*stride))[0]=
1921         ((uint32_t*)(src+i*stride))[1]=
1922         ((uint32_t*)(src+i*stride))[2]=
1923         ((uint32_t*)(src+i*stride))[3]= src[-1+i*stride]*0x01010101;
1924     }
1925 }
1926
1927 static void pred16x16_dc_c(uint8_t *src, int stride){
1928     int i, dc=0;
1929
1930     for(i=0;i<16; i++){
1931         dc+= src[-1+i*stride];
1932     }
1933     
1934     for(i=0;i<16; i++){
1935         dc+= src[i-stride];
1936     }
1937
1938     dc= 0x01010101*((dc + 16)>>5);
1939
1940     for(i=0; i<16; i++){
1941         ((uint32_t*)(src+i*stride))[0]=
1942         ((uint32_t*)(src+i*stride))[1]=
1943         ((uint32_t*)(src+i*stride))[2]=
1944         ((uint32_t*)(src+i*stride))[3]= dc;
1945     }
1946 }
1947
1948 static void pred16x16_left_dc_c(uint8_t *src, int stride){
1949     int i, dc=0;
1950
1951     for(i=0;i<16; i++){
1952         dc+= src[-1+i*stride];
1953     }
1954     
1955     dc= 0x01010101*((dc + 8)>>4);
1956
1957     for(i=0; i<16; i++){
1958         ((uint32_t*)(src+i*stride))[0]=
1959         ((uint32_t*)(src+i*stride))[1]=
1960         ((uint32_t*)(src+i*stride))[2]=
1961         ((uint32_t*)(src+i*stride))[3]= dc;
1962     }
1963 }
1964
1965 static void pred16x16_top_dc_c(uint8_t *src, int stride){
1966     int i, dc=0;
1967
1968     for(i=0;i<16; i++){
1969         dc+= src[i-stride];
1970     }
1971     dc= 0x01010101*((dc + 8)>>4);
1972
1973     for(i=0; i<16; i++){
1974         ((uint32_t*)(src+i*stride))[0]=
1975         ((uint32_t*)(src+i*stride))[1]=
1976         ((uint32_t*)(src+i*stride))[2]=
1977         ((uint32_t*)(src+i*stride))[3]= dc;
1978     }
1979 }
1980
1981 static void pred16x16_128_dc_c(uint8_t *src, int stride){
1982     int i;
1983
1984     for(i=0; i<16; i++){
1985         ((uint32_t*)(src+i*stride))[0]=
1986         ((uint32_t*)(src+i*stride))[1]=
1987         ((uint32_t*)(src+i*stride))[2]=
1988         ((uint32_t*)(src+i*stride))[3]= 0x01010101U*128U;
1989     }
1990 }
1991
1992 static inline void pred16x16_plane_compat_c(uint8_t *src, int stride, const int svq3){
1993   int i, j, k;
1994   int a;
1995   uint8_t *cm = cropTbl + MAX_NEG_CROP;
1996   const uint8_t * const src0 = src+7-stride;
1997   const uint8_t *src1 = src+8*stride-1;
1998   const uint8_t *src2 = src1-2*stride;      // == src+6*stride-1;
1999   int H = src0[1] - src0[-1];
2000   int V = src1[0] - src2[ 0];
2001   for(k=2; k<=8; ++k) {
2002     src1 += stride; src2 -= stride;
2003     H += k*(src0[k] - src0[-k]);
2004     V += k*(src1[0] - src2[ 0]);
2005   }
2006   if(svq3){
2007     H = ( 5*(H/4) ) / 16;
2008     V = ( 5*(V/4) ) / 16;
2009
2010     /* required for 100% accuracy */
2011     i = H; H = V; V = i;
2012   }else{
2013     H = ( 5*H+32 ) >> 6;
2014     V = ( 5*V+32 ) >> 6;
2015   }
2016
2017   a = 16*(src1[0] + src2[16] + 1) - 7*(V+H);
2018   for(j=16; j>0; --j) {
2019     int b = a;
2020     a += V;
2021     for(i=-16; i<0; i+=4) {
2022       src[16+i] = cm[ (b    ) >> 5 ];
2023       src[17+i] = cm[ (b+  H) >> 5 ];
2024       src[18+i] = cm[ (b+2*H) >> 5 ];
2025       src[19+i] = cm[ (b+3*H) >> 5 ];
2026       b += 4*H;
2027     }
2028     src += stride;
2029   }
2030 }
2031
2032 static void pred16x16_plane_c(uint8_t *src, int stride){
2033     pred16x16_plane_compat_c(src, stride, 0);
2034 }
2035
2036 static void pred8x8_vertical_c(uint8_t *src, int stride){
2037     int i;
2038     const uint32_t a= ((uint32_t*)(src-stride))[0];
2039     const uint32_t b= ((uint32_t*)(src-stride))[1];
2040     
2041     for(i=0; i<8; i++){
2042         ((uint32_t*)(src+i*stride))[0]= a;
2043         ((uint32_t*)(src+i*stride))[1]= b;
2044     }
2045 }
2046
2047 static void pred8x8_horizontal_c(uint8_t *src, int stride){
2048     int i;
2049
2050     for(i=0; i<8; i++){
2051         ((uint32_t*)(src+i*stride))[0]=
2052         ((uint32_t*)(src+i*stride))[1]= src[-1+i*stride]*0x01010101;
2053     }
2054 }
2055
2056 static void pred8x8_128_dc_c(uint8_t *src, int stride){
2057     int i;
2058
2059     for(i=0; i<4; i++){
2060         ((uint32_t*)(src+i*stride))[0]= 
2061         ((uint32_t*)(src+i*stride))[1]= 0x01010101U*128U;
2062     }
2063     for(i=4; i<8; i++){
2064         ((uint32_t*)(src+i*stride))[0]= 
2065         ((uint32_t*)(src+i*stride))[1]= 0x01010101U*128U;
2066     }
2067 }
2068
2069 static void pred8x8_left_dc_c(uint8_t *src, int stride){
2070     int i;
2071     int dc0, dc2;
2072
2073     dc0=dc2=0;
2074     for(i=0;i<4; i++){
2075         dc0+= src[-1+i*stride];
2076         dc2+= src[-1+(i+4)*stride];
2077     }
2078     dc0= 0x01010101*((dc0 + 2)>>2);
2079     dc2= 0x01010101*((dc2 + 2)>>2);
2080
2081     for(i=0; i<4; i++){
2082         ((uint32_t*)(src+i*stride))[0]=
2083         ((uint32_t*)(src+i*stride))[1]= dc0;
2084     }
2085     for(i=4; i<8; i++){
2086         ((uint32_t*)(src+i*stride))[0]=
2087         ((uint32_t*)(src+i*stride))[1]= dc2;
2088     }
2089 }
2090
2091 static void pred8x8_top_dc_c(uint8_t *src, int stride){
2092     int i;
2093     int dc0, dc1;
2094
2095     dc0=dc1=0;
2096     for(i=0;i<4; i++){
2097         dc0+= src[i-stride];
2098         dc1+= src[4+i-stride];
2099     }
2100     dc0= 0x01010101*((dc0 + 2)>>2);
2101     dc1= 0x01010101*((dc1 + 2)>>2);
2102
2103     for(i=0; i<4; i++){
2104         ((uint32_t*)(src+i*stride))[0]= dc0;
2105         ((uint32_t*)(src+i*stride))[1]= dc1;
2106     }
2107     for(i=4; i<8; i++){
2108         ((uint32_t*)(src+i*stride))[0]= dc0;
2109         ((uint32_t*)(src+i*stride))[1]= dc1;
2110     }
2111 }
2112
2113
2114 static void pred8x8_dc_c(uint8_t *src, int stride){
2115     int i;
2116     int dc0, dc1, dc2, dc3;
2117
2118     dc0=dc1=dc2=0;
2119     for(i=0;i<4; i++){
2120         dc0+= src[-1+i*stride] + src[i-stride];
2121         dc1+= src[4+i-stride];
2122         dc2+= src[-1+(i+4)*stride];
2123     }
2124     dc3= 0x01010101*((dc1 + dc2 + 4)>>3);
2125     dc0= 0x01010101*((dc0 + 4)>>3);
2126     dc1= 0x01010101*((dc1 + 2)>>2);
2127     dc2= 0x01010101*((dc2 + 2)>>2);
2128
2129     for(i=0; i<4; i++){
2130         ((uint32_t*)(src+i*stride))[0]= dc0;
2131         ((uint32_t*)(src+i*stride))[1]= dc1;
2132     }
2133     for(i=4; i<8; i++){
2134         ((uint32_t*)(src+i*stride))[0]= dc2;
2135         ((uint32_t*)(src+i*stride))[1]= dc3;
2136     }
2137 }
2138
2139 static void pred8x8_plane_c(uint8_t *src, int stride){
2140   int j, k;
2141   int a;
2142   uint8_t *cm = cropTbl + MAX_NEG_CROP;
2143   const uint8_t * const src0 = src+3-stride;
2144   const uint8_t *src1 = src+4*stride-1;
2145   const uint8_t *src2 = src1-2*stride;      // == src+2*stride-1;
2146   int H = src0[1] - src0[-1];
2147   int V = src1[0] - src2[ 0];
2148   for(k=2; k<=4; ++k) {
2149     src1 += stride; src2 -= stride;
2150     H += k*(src0[k] - src0[-k]);
2151     V += k*(src1[0] - src2[ 0]);
2152   }
2153   H = ( 17*H+16 ) >> 5;
2154   V = ( 17*V+16 ) >> 5;
2155
2156   a = 16*(src1[0] + src2[8]+1) - 3*(V+H);
2157   for(j=8; j>0; --j) {
2158     int b = a;
2159     a += V;
2160     src[0] = cm[ (b    ) >> 5 ];
2161     src[1] = cm[ (b+  H) >> 5 ];
2162     src[2] = cm[ (b+2*H) >> 5 ];
2163     src[3] = cm[ (b+3*H) >> 5 ];
2164     src[4] = cm[ (b+4*H) >> 5 ];
2165     src[5] = cm[ (b+5*H) >> 5 ];
2166     src[6] = cm[ (b+6*H) >> 5 ];
2167     src[7] = cm[ (b+7*H) >> 5 ];
2168     src += stride;
2169   }
2170 }
2171
2172 static inline void mc_dir_part(H264Context *h, Picture *pic, int n, int square, int chroma_height, int delta, int list,
2173                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2174                            int src_x_offset, int src_y_offset,
2175                            qpel_mc_func *qpix_op, h264_chroma_mc_func chroma_op){
2176     MpegEncContext * const s = &h->s;
2177     const int mx= h->mv_cache[list][ scan8[n] ][0] + src_x_offset*8;
2178     const int my= h->mv_cache[list][ scan8[n] ][1] + src_y_offset*8;
2179     const int luma_xy= (mx&3) + ((my&3)<<2);
2180     uint8_t * src_y = pic->data[0] + (mx>>2) + (my>>2)*s->linesize;
2181     uint8_t * src_cb= pic->data[1] + (mx>>3) + (my>>3)*s->uvlinesize;
2182     uint8_t * src_cr= pic->data[2] + (mx>>3) + (my>>3)*s->uvlinesize;
2183     int extra_width= (s->flags&CODEC_FLAG_EMU_EDGE) ? 0 : 16; //FIXME increase edge?, IMHO not worth it
2184     int extra_height= extra_width;
2185     int emu=0;
2186     const int full_mx= mx>>2;
2187     const int full_my= my>>2;
2188     
2189     assert(pic->data[0]);
2190     
2191     if(mx&7) extra_width -= 3;
2192     if(my&7) extra_height -= 3;
2193     
2194     if(   full_mx < 0-extra_width 
2195        || full_my < 0-extra_height 
2196        || full_mx + 16/*FIXME*/ > s->width + extra_width 
2197        || full_my + 16/*FIXME*/ > s->height + extra_height){
2198         ff_emulated_edge_mc(s->edge_emu_buffer, src_y - 2 - 2*s->linesize, s->linesize, 16+5, 16+5/*FIXME*/, full_mx-2, full_my-2, s->width, s->height);
2199             src_y= s->edge_emu_buffer + 2 + 2*s->linesize;
2200         emu=1;
2201     }
2202     
2203     qpix_op[luma_xy](dest_y, src_y, s->linesize); //FIXME try variable height perhaps?
2204     if(!square){
2205         qpix_op[luma_xy](dest_y + delta, src_y + delta, s->linesize);
2206     }
2207     
2208     if(s->flags&CODEC_FLAG_GRAY) return;
2209     
2210     if(emu){
2211         ff_emulated_edge_mc(s->edge_emu_buffer, src_cb, s->uvlinesize, 9, 9/*FIXME*/, (mx>>3), (my>>3), s->width>>1, s->height>>1);
2212             src_cb= s->edge_emu_buffer;
2213     }
2214     chroma_op(dest_cb, src_cb, s->uvlinesize, chroma_height, mx&7, my&7);
2215
2216     if(emu){
2217         ff_emulated_edge_mc(s->edge_emu_buffer, src_cr, s->uvlinesize, 9, 9/*FIXME*/, (mx>>3), (my>>3), s->width>>1, s->height>>1);
2218             src_cr= s->edge_emu_buffer;
2219     }
2220     chroma_op(dest_cr, src_cr, s->uvlinesize, chroma_height, mx&7, my&7);
2221 }
2222
2223 static inline void mc_part_std(H264Context *h, int n, int square, int chroma_height, int delta,
2224                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2225                            int x_offset, int y_offset,
2226                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2227                            qpel_mc_func *qpix_avg, h264_chroma_mc_func chroma_avg,
2228                            int list0, int list1){
2229     MpegEncContext * const s = &h->s;
2230     qpel_mc_func *qpix_op=  qpix_put;
2231     h264_chroma_mc_func chroma_op= chroma_put;
2232     
2233     dest_y  += 2*x_offset + 2*y_offset*s->  linesize;
2234     dest_cb +=   x_offset +   y_offset*s->uvlinesize;
2235     dest_cr +=   x_offset +   y_offset*s->uvlinesize;
2236     x_offset += 8*s->mb_x;
2237     y_offset += 8*s->mb_y;
2238     
2239     if(list0){
2240         Picture *ref= &h->ref_list[0][ h->ref_cache[0][ scan8[n] ] ];
2241         mc_dir_part(h, ref, n, square, chroma_height, delta, 0,
2242                            dest_y, dest_cb, dest_cr, x_offset, y_offset,
2243                            qpix_op, chroma_op);
2244
2245         qpix_op=  qpix_avg;
2246         chroma_op= chroma_avg;
2247     }
2248
2249     if(list1){
2250         Picture *ref= &h->ref_list[1][ h->ref_cache[1][ scan8[n] ] ];
2251         mc_dir_part(h, ref, n, square, chroma_height, delta, 1,
2252                            dest_y, dest_cb, dest_cr, x_offset, y_offset,
2253                            qpix_op, chroma_op);
2254     }
2255 }
2256
2257 static inline void mc_part_weighted(H264Context *h, int n, int square, int chroma_height, int delta,
2258                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2259                            int x_offset, int y_offset,
2260                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2261                            h264_weight_func luma_weight_op, h264_weight_func chroma_weight_op,
2262                            h264_biweight_func luma_weight_avg, h264_biweight_func chroma_weight_avg,
2263                            int list0, int list1){
2264     MpegEncContext * const s = &h->s;
2265
2266     dest_y  += 2*x_offset + 2*y_offset*s->  linesize;
2267     dest_cb +=   x_offset +   y_offset*s->uvlinesize;
2268     dest_cr +=   x_offset +   y_offset*s->uvlinesize;
2269     x_offset += 8*s->mb_x;
2270     y_offset += 8*s->mb_y;
2271     
2272     if(list0 && list1){
2273         /* don't optimize for luma-only case, since B-frames usually
2274          * use implicit weights => chroma too. */
2275         uint8_t *tmp_cb = s->obmc_scratchpad;
2276         uint8_t *tmp_cr = tmp_cb + 8*s->uvlinesize;
2277         uint8_t *tmp_y  = tmp_cr + 8*s->uvlinesize;
2278         int refn0 = h->ref_cache[0][ scan8[n] ];
2279         int refn1 = h->ref_cache[1][ scan8[n] ];
2280
2281         mc_dir_part(h, &h->ref_list[0][refn0], n, square, chroma_height, delta, 0,
2282                     dest_y, dest_cb, dest_cr,
2283                     x_offset, y_offset, qpix_put, chroma_put);
2284         mc_dir_part(h, &h->ref_list[1][refn1], n, square, chroma_height, delta, 1,
2285                     tmp_y, tmp_cb, tmp_cr,
2286                     x_offset, y_offset, qpix_put, chroma_put);
2287
2288         if(h->use_weight == 2){
2289             int weight0 = h->implicit_weight[refn0][refn1];
2290             int weight1 = 64 - weight0;
2291             luma_weight_avg(  dest_y,  tmp_y,  s->  linesize, 5, weight0, weight1, 0, 0);
2292             chroma_weight_avg(dest_cb, tmp_cb, s->uvlinesize, 5, weight0, weight1, 0, 0);
2293             chroma_weight_avg(dest_cr, tmp_cr, s->uvlinesize, 5, weight0, weight1, 0, 0);
2294         }else{
2295             luma_weight_avg(dest_y, tmp_y, s->linesize, h->luma_log2_weight_denom,
2296                             h->luma_weight[0][refn0], h->luma_weight[1][refn1], 
2297                             h->luma_offset[0][refn0], h->luma_offset[1][refn1]);
2298             chroma_weight_avg(dest_cb, tmp_cb, s->uvlinesize, h->chroma_log2_weight_denom,
2299                             h->chroma_weight[0][refn0][0], h->chroma_weight[1][refn1][0], 
2300                             h->chroma_offset[0][refn0][0], h->chroma_offset[1][refn1][0]);
2301             chroma_weight_avg(dest_cr, tmp_cr, s->uvlinesize, h->chroma_log2_weight_denom,
2302                             h->chroma_weight[0][refn0][1], h->chroma_weight[1][refn1][1], 
2303                             h->chroma_offset[0][refn0][1], h->chroma_offset[1][refn1][1]);
2304         }
2305     }else{
2306         int list = list1 ? 1 : 0;
2307         int refn = h->ref_cache[list][ scan8[n] ];
2308         Picture *ref= &h->ref_list[list][refn];
2309         mc_dir_part(h, ref, n, square, chroma_height, delta, list,
2310                     dest_y, dest_cb, dest_cr, x_offset, y_offset,
2311                     qpix_put, chroma_put);
2312
2313         luma_weight_op(dest_y, s->linesize, h->luma_log2_weight_denom,
2314                        h->luma_weight[list][refn], h->luma_offset[list][refn]);
2315         if(h->use_weight_chroma){
2316             chroma_weight_op(dest_cb, s->uvlinesize, h->chroma_log2_weight_denom,
2317                              h->chroma_weight[list][refn][0], h->chroma_offset[list][refn][0]);
2318             chroma_weight_op(dest_cr, s->uvlinesize, h->chroma_log2_weight_denom,
2319                              h->chroma_weight[list][refn][1], h->chroma_offset[list][refn][1]);
2320         }
2321     }
2322 }
2323
2324 static inline void mc_part(H264Context *h, int n, int square, int chroma_height, int delta,
2325                            uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2326                            int x_offset, int y_offset,
2327                            qpel_mc_func *qpix_put, h264_chroma_mc_func chroma_put,
2328                            qpel_mc_func *qpix_avg, h264_chroma_mc_func chroma_avg,
2329                            h264_weight_func *weight_op, h264_biweight_func *weight_avg, 
2330                            int list0, int list1){
2331     if((h->use_weight==2 && list0 && list1
2332         && (h->implicit_weight[ h->ref_cache[0][scan8[n]] ][ h->ref_cache[1][scan8[n]] ] != 32))
2333        || h->use_weight==1)
2334         mc_part_weighted(h, n, square, chroma_height, delta, dest_y, dest_cb, dest_cr,
2335                          x_offset, y_offset, qpix_put, chroma_put,
2336                          weight_op[0], weight_op[3], weight_avg[0], weight_avg[3], list0, list1);
2337     else
2338         mc_part_std(h, n, square, chroma_height, delta, dest_y, dest_cb, dest_cr,
2339                     x_offset, y_offset, qpix_put, chroma_put, qpix_avg, chroma_avg, list0, list1);
2340 }
2341
2342 static void hl_motion(H264Context *h, uint8_t *dest_y, uint8_t *dest_cb, uint8_t *dest_cr,
2343                       qpel_mc_func (*qpix_put)[16], h264_chroma_mc_func (*chroma_put),
2344                       qpel_mc_func (*qpix_avg)[16], h264_chroma_mc_func (*chroma_avg),
2345                       h264_weight_func *weight_op, h264_biweight_func *weight_avg){
2346     MpegEncContext * const s = &h->s;
2347     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
2348     const int mb_type= s->current_picture.mb_type[mb_xy];
2349     
2350     assert(IS_INTER(mb_type));
2351     
2352     if(IS_16X16(mb_type)){
2353         mc_part(h, 0, 1, 8, 0, dest_y, dest_cb, dest_cr, 0, 0,
2354                 qpix_put[0], chroma_put[0], qpix_avg[0], chroma_avg[0],
2355                 &weight_op[0], &weight_avg[0],
2356                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2357     }else if(IS_16X8(mb_type)){
2358         mc_part(h, 0, 0, 4, 8, dest_y, dest_cb, dest_cr, 0, 0,
2359                 qpix_put[1], chroma_put[0], qpix_avg[1], chroma_avg[0],
2360                 &weight_op[1], &weight_avg[1],
2361                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2362         mc_part(h, 8, 0, 4, 8, dest_y, dest_cb, dest_cr, 0, 4,
2363                 qpix_put[1], chroma_put[0], qpix_avg[1], chroma_avg[0],
2364                 &weight_op[1], &weight_avg[1],
2365                 IS_DIR(mb_type, 1, 0), IS_DIR(mb_type, 1, 1));
2366     }else if(IS_8X16(mb_type)){
2367         mc_part(h, 0, 0, 8, 8*s->linesize, dest_y, dest_cb, dest_cr, 0, 0,
2368                 qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2369                 &weight_op[2], &weight_avg[2],
2370                 IS_DIR(mb_type, 0, 0), IS_DIR(mb_type, 0, 1));
2371         mc_part(h, 4, 0, 8, 8*s->linesize, dest_y, dest_cb, dest_cr, 4, 0,
2372                 qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2373                 &weight_op[2], &weight_avg[2],
2374                 IS_DIR(mb_type, 1, 0), IS_DIR(mb_type, 1, 1));
2375     }else{
2376         int i;
2377         
2378         assert(IS_8X8(mb_type));
2379
2380         for(i=0; i<4; i++){
2381             const int sub_mb_type= h->sub_mb_type[i];
2382             const int n= 4*i;
2383             int x_offset= (i&1)<<2;
2384             int y_offset= (i&2)<<1;
2385
2386             if(IS_SUB_8X8(sub_mb_type)){
2387                 mc_part(h, n, 1, 4, 0, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2388                     qpix_put[1], chroma_put[1], qpix_avg[1], chroma_avg[1],
2389                     &weight_op[3], &weight_avg[3],
2390                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2391             }else if(IS_SUB_8X4(sub_mb_type)){
2392                 mc_part(h, n  , 0, 2, 4, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2393                     qpix_put[2], chroma_put[1], qpix_avg[2], chroma_avg[1],
2394                     &weight_op[4], &weight_avg[4],
2395                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2396                 mc_part(h, n+2, 0, 2, 4, dest_y, dest_cb, dest_cr, x_offset, y_offset+2,
2397                     qpix_put[2], chroma_put[1], qpix_avg[2], chroma_avg[1],
2398                     &weight_op[4], &weight_avg[4],
2399                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2400             }else if(IS_SUB_4X8(sub_mb_type)){
2401                 mc_part(h, n  , 0, 4, 4*s->linesize, dest_y, dest_cb, dest_cr, x_offset, y_offset,
2402                     qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2403                     &weight_op[5], &weight_avg[5],
2404                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2405                 mc_part(h, n+1, 0, 4, 4*s->linesize, dest_y, dest_cb, dest_cr, x_offset+2, y_offset,
2406                     qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2407                     &weight_op[5], &weight_avg[5],
2408                     IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2409             }else{
2410                 int j;
2411                 assert(IS_SUB_4X4(sub_mb_type));
2412                 for(j=0; j<4; j++){
2413                     int sub_x_offset= x_offset + 2*(j&1);
2414                     int sub_y_offset= y_offset +   (j&2);
2415                     mc_part(h, n+j, 1, 2, 0, dest_y, dest_cb, dest_cr, sub_x_offset, sub_y_offset,
2416                         qpix_put[2], chroma_put[2], qpix_avg[2], chroma_avg[2],
2417                         &weight_op[6], &weight_avg[6],
2418                         IS_DIR(sub_mb_type, 0, 0), IS_DIR(sub_mb_type, 0, 1));
2419                 }
2420             }
2421         }
2422     }
2423 }
2424
2425 static void decode_init_vlc(H264Context *h){
2426     static int done = 0;
2427
2428     if (!done) {
2429         int i;
2430         done = 1;
2431
2432         init_vlc(&chroma_dc_coeff_token_vlc, CHROMA_DC_COEFF_TOKEN_VLC_BITS, 4*5, 
2433                  &chroma_dc_coeff_token_len [0], 1, 1,
2434                  &chroma_dc_coeff_token_bits[0], 1, 1, 1);
2435
2436         for(i=0; i<4; i++){
2437             init_vlc(&coeff_token_vlc[i], COEFF_TOKEN_VLC_BITS, 4*17, 
2438                      &coeff_token_len [i][0], 1, 1,
2439                      &coeff_token_bits[i][0], 1, 1, 1);
2440         }
2441
2442         for(i=0; i<3; i++){
2443             init_vlc(&chroma_dc_total_zeros_vlc[i], CHROMA_DC_TOTAL_ZEROS_VLC_BITS, 4,
2444                      &chroma_dc_total_zeros_len [i][0], 1, 1,
2445                      &chroma_dc_total_zeros_bits[i][0], 1, 1, 1);
2446         }
2447         for(i=0; i<15; i++){
2448             init_vlc(&total_zeros_vlc[i], TOTAL_ZEROS_VLC_BITS, 16, 
2449                      &total_zeros_len [i][0], 1, 1,
2450                      &total_zeros_bits[i][0], 1, 1, 1);
2451         }
2452
2453         for(i=0; i<6; i++){
2454             init_vlc(&run_vlc[i], RUN_VLC_BITS, 7, 
2455                      &run_len [i][0], 1, 1,
2456                      &run_bits[i][0], 1, 1, 1);
2457         }
2458         init_vlc(&run7_vlc, RUN7_VLC_BITS, 16, 
2459                  &run_len [6][0], 1, 1,
2460                  &run_bits[6][0], 1, 1, 1);
2461     }
2462 }
2463
2464 /**
2465  * Sets the intra prediction function pointers.
2466  */
2467 static void init_pred_ptrs(H264Context *h){
2468 //    MpegEncContext * const s = &h->s;
2469
2470     h->pred4x4[VERT_PRED           ]= pred4x4_vertical_c;
2471     h->pred4x4[HOR_PRED            ]= pred4x4_horizontal_c;
2472     h->pred4x4[DC_PRED             ]= pred4x4_dc_c;
2473     h->pred4x4[DIAG_DOWN_LEFT_PRED ]= pred4x4_down_left_c;
2474     h->pred4x4[DIAG_DOWN_RIGHT_PRED]= pred4x4_down_right_c;
2475     h->pred4x4[VERT_RIGHT_PRED     ]= pred4x4_vertical_right_c;
2476     h->pred4x4[HOR_DOWN_PRED       ]= pred4x4_horizontal_down_c;
2477     h->pred4x4[VERT_LEFT_PRED      ]= pred4x4_vertical_left_c;
2478     h->pred4x4[HOR_UP_PRED         ]= pred4x4_horizontal_up_c;
2479     h->pred4x4[LEFT_DC_PRED        ]= pred4x4_left_dc_c;
2480     h->pred4x4[TOP_DC_PRED         ]= pred4x4_top_dc_c;
2481     h->pred4x4[DC_128_PRED         ]= pred4x4_128_dc_c;
2482
2483     h->pred8x8[DC_PRED8x8     ]= pred8x8_dc_c;
2484     h->pred8x8[VERT_PRED8x8   ]= pred8x8_vertical_c;
2485     h->pred8x8[HOR_PRED8x8    ]= pred8x8_horizontal_c;
2486     h->pred8x8[PLANE_PRED8x8  ]= pred8x8_plane_c;
2487     h->pred8x8[LEFT_DC_PRED8x8]= pred8x8_left_dc_c;
2488     h->pred8x8[TOP_DC_PRED8x8 ]= pred8x8_top_dc_c;
2489     h->pred8x8[DC_128_PRED8x8 ]= pred8x8_128_dc_c;
2490
2491     h->pred16x16[DC_PRED8x8     ]= pred16x16_dc_c;
2492     h->pred16x16[VERT_PRED8x8   ]= pred16x16_vertical_c;
2493     h->pred16x16[HOR_PRED8x8    ]= pred16x16_horizontal_c;
2494     h->pred16x16[PLANE_PRED8x8  ]= pred16x16_plane_c;
2495     h->pred16x16[LEFT_DC_PRED8x8]= pred16x16_left_dc_c;
2496     h->pred16x16[TOP_DC_PRED8x8 ]= pred16x16_top_dc_c;
2497     h->pred16x16[DC_128_PRED8x8 ]= pred16x16_128_dc_c;
2498 }
2499
2500 static void free_tables(H264Context *h){
2501     av_freep(&h->intra4x4_pred_mode);
2502     av_freep(&h->chroma_pred_mode_table);
2503     av_freep(&h->cbp_table);
2504     av_freep(&h->mvd_table[0]);
2505     av_freep(&h->mvd_table[1]);
2506     av_freep(&h->direct_table);
2507     av_freep(&h->non_zero_count);
2508     av_freep(&h->slice_table_base);
2509     av_freep(&h->top_border);
2510     h->slice_table= NULL;
2511
2512     av_freep(&h->mb2b_xy);
2513     av_freep(&h->mb2b8_xy);
2514
2515     av_freep(&h->s.obmc_scratchpad);
2516 }
2517
2518 /**
2519  * allocates tables.
2520  * needs widzh/height
2521  */
2522 static int alloc_tables(H264Context *h){
2523     MpegEncContext * const s = &h->s;
2524     const int big_mb_num= s->mb_stride * (s->mb_height+1);
2525     int x,y;
2526
2527     CHECKED_ALLOCZ(h->intra4x4_pred_mode, big_mb_num * 8  * sizeof(uint8_t))
2528
2529     CHECKED_ALLOCZ(h->non_zero_count    , big_mb_num * 16 * sizeof(uint8_t))
2530     CHECKED_ALLOCZ(h->slice_table_base  , big_mb_num * sizeof(uint8_t))
2531     CHECKED_ALLOCZ(h->top_border       , s->mb_width * (16+8+8) * sizeof(uint8_t))
2532     CHECKED_ALLOCZ(h->cbp_table, big_mb_num * sizeof(uint16_t))
2533
2534     if( h->pps.cabac ) {
2535         CHECKED_ALLOCZ(h->chroma_pred_mode_table, big_mb_num * sizeof(uint8_t))
2536         CHECKED_ALLOCZ(h->mvd_table[0], 32*big_mb_num * sizeof(uint16_t));
2537         CHECKED_ALLOCZ(h->mvd_table[1], 32*big_mb_num * sizeof(uint16_t));
2538         CHECKED_ALLOCZ(h->direct_table, 32*big_mb_num * sizeof(uint8_t));
2539     }
2540
2541     memset(h->slice_table_base, -1, big_mb_num  * sizeof(uint8_t));
2542     h->slice_table= h->slice_table_base + s->mb_stride + 1;
2543
2544     CHECKED_ALLOCZ(h->mb2b_xy  , big_mb_num * sizeof(uint16_t));
2545     CHECKED_ALLOCZ(h->mb2b8_xy , big_mb_num * sizeof(uint16_t));
2546     for(y=0; y<s->mb_height; y++){
2547         for(x=0; x<s->mb_width; x++){
2548             const int mb_xy= x + y*s->mb_stride;
2549             const int b_xy = 4*x + 4*y*h->b_stride;
2550             const int b8_xy= 2*x + 2*y*h->b8_stride;
2551         
2552             h->mb2b_xy [mb_xy]= b_xy;
2553             h->mb2b8_xy[mb_xy]= b8_xy;
2554         }
2555     }
2556
2557     s->obmc_scratchpad = NULL;
2558
2559     return 0;
2560 fail:
2561     free_tables(h);
2562     return -1;
2563 }
2564
2565 static void common_init(H264Context *h){
2566     MpegEncContext * const s = &h->s;
2567
2568     s->width = s->avctx->width;
2569     s->height = s->avctx->height;
2570     s->codec_id= s->avctx->codec->id;
2571     
2572     init_pred_ptrs(h);
2573
2574     s->unrestricted_mv=1;
2575     s->decode=1; //FIXME
2576 }
2577
2578 static int decode_init(AVCodecContext *avctx){
2579     H264Context *h= avctx->priv_data;
2580     MpegEncContext * const s = &h->s;
2581
2582     MPV_decode_defaults(s);
2583     
2584     s->avctx = avctx;
2585     common_init(h);
2586
2587     s->out_format = FMT_H264;
2588     s->workaround_bugs= avctx->workaround_bugs;
2589
2590     // set defaults
2591 //    s->decode_mb= ff_h263_decode_mb;
2592     s->low_delay= 1;
2593     avctx->pix_fmt= PIX_FMT_YUV420P;
2594
2595     decode_init_vlc(h);
2596     
2597     if(avctx->codec_tag != 0x31637661 && avctx->codec_tag != 0x31435641) // avc1
2598         h->is_avc = 0;
2599     else {
2600         if((avctx->extradata_size == 0) || (avctx->extradata == NULL)) {
2601             av_log(avctx, AV_LOG_ERROR, "AVC codec requires avcC data\n");
2602             return -1;
2603         }
2604         h->is_avc = 1;
2605         h->got_avcC = 0;
2606     }
2607
2608     return 0;
2609 }
2610
2611 static void frame_start(H264Context *h){
2612     MpegEncContext * const s = &h->s;
2613     int i;
2614
2615     MPV_frame_start(s, s->avctx);
2616     ff_er_frame_start(s);
2617
2618     assert(s->linesize && s->uvlinesize);
2619
2620     for(i=0; i<16; i++){
2621         h->block_offset[i]= 4*((scan8[i] - scan8[0])&7) + 4*s->linesize*((scan8[i] - scan8[0])>>3);
2622         h->chroma_subblock_offset[i]= 2*((scan8[i] - scan8[0])&7) + 2*s->uvlinesize*((scan8[i] - scan8[0])>>3);
2623     }
2624     for(i=0; i<4; i++){
2625         h->block_offset[16+i]=
2626         h->block_offset[20+i]= 4*((scan8[i] - scan8[0])&7) + 4*s->uvlinesize*((scan8[i] - scan8[0])>>3);
2627     }
2628
2629     /* can't be in alloc_tables because linesize isn't known there.
2630      * FIXME: redo bipred weight to not require extra buffer? */
2631     if(!s->obmc_scratchpad)
2632         s->obmc_scratchpad = av_malloc(16*s->linesize + 2*8*s->uvlinesize);
2633
2634 //    s->decode= (s->flags&CODEC_FLAG_PSNR) || !s->encoding || s->current_picture.reference /*|| h->contains_intra*/ || 1;
2635 }
2636
2637 static inline void backup_mb_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize){
2638     MpegEncContext * const s = &h->s;
2639     int i;
2640     
2641     src_y  -=   linesize;
2642     src_cb -= uvlinesize;
2643     src_cr -= uvlinesize;
2644
2645     h->left_border[0]= h->top_border[s->mb_x][15];
2646     for(i=1; i<17; i++){
2647         h->left_border[i]= src_y[15+i*  linesize];
2648     }
2649     
2650     *(uint64_t*)(h->top_border[s->mb_x]+0)= *(uint64_t*)(src_y +  16*linesize);
2651     *(uint64_t*)(h->top_border[s->mb_x]+8)= *(uint64_t*)(src_y +8+16*linesize);
2652
2653     if(!(s->flags&CODEC_FLAG_GRAY)){
2654         h->left_border[17  ]= h->top_border[s->mb_x][16+7];
2655         h->left_border[17+9]= h->top_border[s->mb_x][24+7];
2656         for(i=1; i<9; i++){
2657             h->left_border[i+17  ]= src_cb[7+i*uvlinesize];
2658             h->left_border[i+17+9]= src_cr[7+i*uvlinesize];
2659         }
2660         *(uint64_t*)(h->top_border[s->mb_x]+16)= *(uint64_t*)(src_cb+8*uvlinesize);
2661         *(uint64_t*)(h->top_border[s->mb_x]+24)= *(uint64_t*)(src_cr+8*uvlinesize);
2662     }
2663 }
2664
2665 static inline void xchg_mb_border(H264Context *h, uint8_t *src_y, uint8_t *src_cb, uint8_t *src_cr, int linesize, int uvlinesize, int xchg){
2666     MpegEncContext * const s = &h->s;
2667     int temp8, i;
2668     uint64_t temp64;
2669     int deblock_left = (s->mb_x > 0);
2670     int deblock_top  = (s->mb_y > 0);
2671
2672     src_y  -=   linesize + 1;
2673     src_cb -= uvlinesize + 1;
2674     src_cr -= uvlinesize + 1;
2675
2676 #define XCHG(a,b,t,xchg)\
2677 t= a;\
2678 if(xchg)\
2679     a= b;\
2680 b= t;
2681
2682     if(deblock_left){
2683         for(i = !deblock_top; i<17; i++){
2684             XCHG(h->left_border[i     ], src_y [i*  linesize], temp8, xchg);
2685         }
2686     }
2687
2688     if(deblock_top){
2689         XCHG(*(uint64_t*)(h->top_border[s->mb_x]+0), *(uint64_t*)(src_y +1), temp64, xchg);
2690         XCHG(*(uint64_t*)(h->top_border[s->mb_x]+8), *(uint64_t*)(src_y +9), temp64, 1);
2691     }
2692
2693     if(!(s->flags&CODEC_FLAG_GRAY)){
2694         if(deblock_left){
2695             for(i = !deblock_top; i<9; i++){
2696                 XCHG(h->left_border[i+17  ], src_cb[i*uvlinesize], temp8, xchg);
2697                 XCHG(h->left_border[i+17+9], src_cr[i*uvlinesize], temp8, xchg);
2698             }
2699         }
2700         if(deblock_top){
2701             XCHG(*(uint64_t*)(h->top_border[s->mb_x]+16), *(uint64_t*)(src_cb+1), temp64, 1);
2702             XCHG(*(uint64_t*)(h->top_border[s->mb_x]+24), *(uint64_t*)(src_cr+1), temp64, 1);
2703         }
2704     }
2705 }
2706
2707 static void hl_decode_mb(H264Context *h){
2708     MpegEncContext * const s = &h->s;
2709     const int mb_x= s->mb_x;
2710     const int mb_y= s->mb_y;
2711     const int mb_xy= mb_x + mb_y*s->mb_stride;
2712     const int mb_type= s->current_picture.mb_type[mb_xy];
2713     uint8_t  *dest_y, *dest_cb, *dest_cr;
2714     int linesize, uvlinesize /*dct_offset*/;
2715     int i;
2716
2717     if(!s->decode)
2718         return;
2719
2720     if(s->mb_skiped){
2721     }
2722
2723     dest_y  = s->current_picture.data[0] + (mb_y * 16* s->linesize  ) + mb_x * 16;
2724     dest_cb = s->current_picture.data[1] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
2725     dest_cr = s->current_picture.data[2] + (mb_y * 8 * s->uvlinesize) + mb_x * 8;
2726
2727     if (h->mb_field_decoding_flag) {
2728         linesize = s->linesize * 2;
2729         uvlinesize = s->uvlinesize * 2;
2730         if(mb_y&1){ //FIXME move out of this func?
2731             dest_y -= s->linesize*15;
2732             dest_cb-= s->linesize*7;
2733             dest_cr-= s->linesize*7;
2734         }
2735     } else {
2736         linesize = s->linesize;
2737         uvlinesize = s->uvlinesize;
2738 //        dct_offset = s->linesize * 16;
2739     }
2740
2741     if(IS_INTRA(mb_type)){
2742         if(h->deblocking_filter)
2743             xchg_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize, 1);
2744
2745         if(!(s->flags&CODEC_FLAG_GRAY)){
2746             h->pred8x8[ h->chroma_pred_mode ](dest_cb, uvlinesize);
2747             h->pred8x8[ h->chroma_pred_mode ](dest_cr, uvlinesize);
2748         }
2749
2750         if(IS_INTRA4x4(mb_type)){
2751             if(!s->encoding){
2752                 for(i=0; i<16; i++){
2753                     uint8_t * const ptr= dest_y + h->block_offset[i];
2754                     uint8_t *topright;
2755                     const int dir= h->intra4x4_pred_mode_cache[ scan8[i] ];
2756                     int tr;
2757
2758                     if(dir == DIAG_DOWN_LEFT_PRED || dir == VERT_LEFT_PRED){
2759                         const int topright_avail= (h->topright_samples_available<<i)&0x8000;
2760                         assert(mb_y || linesize <= h->block_offset[i]);
2761                         if(!topright_avail){
2762                             tr= ptr[3 - linesize]*0x01010101;
2763                             topright= (uint8_t*) &tr;
2764                         }else if(i==5 && h->deblocking_filter){
2765                             tr= *(uint32_t*)h->top_border[mb_x+1];
2766                             topright= (uint8_t*) &tr;
2767                         }else
2768                             topright= ptr + 4 - linesize;
2769                     }else
2770                         topright= NULL;
2771
2772                     h->pred4x4[ dir ](ptr, topright, linesize);
2773                     if(h->non_zero_count_cache[ scan8[i] ]){
2774                         if(s->codec_id == CODEC_ID_H264)
2775                             s->dsp.h264_idct_add(ptr, h->mb + i*16, linesize);
2776                         else
2777                             svq3_add_idct_c(ptr, h->mb + i*16, linesize, s->qscale, 0);
2778                     }
2779                 }
2780             }
2781         }else{
2782             h->pred16x16[ h->intra16x16_pred_mode ](dest_y , linesize);
2783             if(s->codec_id == CODEC_ID_H264)
2784                 h264_luma_dc_dequant_idct_c(h->mb, s->qscale);
2785             else
2786                 svq3_luma_dc_dequant_idct_c(h->mb, s->qscale);
2787         }
2788         if(h->deblocking_filter)
2789             xchg_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize, 0);
2790     }else if(s->codec_id == CODEC_ID_H264){
2791         hl_motion(h, dest_y, dest_cb, dest_cr,
2792                   s->dsp.put_h264_qpel_pixels_tab, s->dsp.put_h264_chroma_pixels_tab, 
2793                   s->dsp.avg_h264_qpel_pixels_tab, s->dsp.avg_h264_chroma_pixels_tab,
2794                   s->dsp.weight_h264_pixels_tab, s->dsp.biweight_h264_pixels_tab);
2795     }
2796
2797
2798     if(!IS_INTRA4x4(mb_type)){
2799         if(s->codec_id == CODEC_ID_H264){
2800             for(i=0; i<16; i++){
2801                 if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){ //FIXME benchmark weird rule, & below
2802                     uint8_t * const ptr= dest_y + h->block_offset[i];
2803                     s->dsp.h264_idct_add(ptr, h->mb + i*16, linesize);
2804                 }
2805             }
2806         }else{
2807             for(i=0; i<16; i++){
2808                 if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){ //FIXME benchmark weird rule, & below
2809                     uint8_t * const ptr= dest_y + h->block_offset[i];
2810                     svq3_add_idct_c(ptr, h->mb + i*16, linesize, s->qscale, IS_INTRA(mb_type) ? 1 : 0);
2811                 }
2812             }
2813         }
2814     }
2815
2816     if(!(s->flags&CODEC_FLAG_GRAY)){
2817         chroma_dc_dequant_idct_c(h->mb + 16*16, h->chroma_qp);
2818         chroma_dc_dequant_idct_c(h->mb + 16*16+4*16, h->chroma_qp);
2819         if(s->codec_id == CODEC_ID_H264){
2820             for(i=16; i<16+4; i++){
2821                 if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
2822                     uint8_t * const ptr= dest_cb + h->block_offset[i];
2823                     s->dsp.h264_idct_add(ptr, h->mb + i*16, uvlinesize);
2824                 }
2825             }
2826             for(i=20; i<20+4; i++){
2827                 if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
2828                     uint8_t * const ptr= dest_cr + h->block_offset[i];
2829                     s->dsp.h264_idct_add(ptr, h->mb + i*16, uvlinesize);
2830                 }
2831             }
2832         }else{
2833             for(i=16; i<16+4; i++){
2834                 if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
2835                     uint8_t * const ptr= dest_cb + h->block_offset[i];
2836                     svq3_add_idct_c(ptr, h->mb + i*16, uvlinesize, chroma_qp[s->qscale + 12] - 12, 2);
2837                 }
2838             }
2839             for(i=20; i<20+4; i++){
2840                 if(h->non_zero_count_cache[ scan8[i] ] || h->mb[i*16]){
2841                     uint8_t * const ptr= dest_cr + h->block_offset[i];
2842                     svq3_add_idct_c(ptr, h->mb + i*16, uvlinesize, chroma_qp[s->qscale + 12] - 12, 2);
2843                 }
2844             }
2845         }
2846     }
2847     if(h->deblocking_filter) {
2848         backup_mb_border(h, dest_y, dest_cb, dest_cr, linesize, uvlinesize);
2849         fill_caches(h, mb_type, 1); //FIXME dont fill stuff which isnt used by filter_mb
2850         filter_mb(h, mb_x, mb_y, dest_y, dest_cb, dest_cr);
2851     }
2852 }
2853
2854 /**
2855  * fills the default_ref_list.
2856  */
2857 static int fill_default_ref_list(H264Context *h){
2858     MpegEncContext * const s = &h->s;
2859     int i;
2860     int smallest_poc_greater_than_current = -1;
2861     Picture sorted_short_ref[16];
2862     
2863     if(h->slice_type==B_TYPE){
2864         int out_i;
2865         int limit= -1;
2866
2867         /* sort frame according to poc in B slice */
2868         for(out_i=0; out_i<h->short_ref_count; out_i++){
2869             int best_i=-1;
2870             int best_poc=INT_MAX;
2871
2872             for(i=0; i<h->short_ref_count; i++){
2873                 const int poc= h->short_ref[i]->poc;
2874                 if(poc > limit && poc < best_poc){
2875                     best_poc= poc;
2876                     best_i= i;
2877                 }
2878             }
2879             
2880             assert(best_i != -1);
2881             
2882             limit= best_poc;
2883             sorted_short_ref[out_i]= *h->short_ref[best_i];
2884             tprintf("sorted poc: %d->%d poc:%d fn:%d\n", best_i, out_i, sorted_short_ref[out_i].poc, sorted_short_ref[out_i].frame_num);
2885             if (-1 == smallest_poc_greater_than_current) {
2886                 if (h->short_ref[best_i]->poc >= s->current_picture_ptr->poc) {
2887                     smallest_poc_greater_than_current = out_i;
2888                 }
2889             }
2890         }
2891     }
2892
2893     if(s->picture_structure == PICT_FRAME){
2894         if(h->slice_type==B_TYPE){
2895             int list;
2896             tprintf("current poc: %d, smallest_poc_greater_than_current: %d\n", s->current_picture_ptr->poc, smallest_poc_greater_than_current);
2897
2898             // find the largest poc
2899             for(list=0; list<2; list++){
2900                 int index = 0;
2901                 int j= -99;
2902                 int step= list ? -1 : 1;
2903
2904                 for(i=0; i<h->short_ref_count && index < h->ref_count[list]; i++, j+=step) {
2905                     while(j<0 || j>= h->short_ref_count){
2906                         step = -step;
2907                         j= smallest_poc_greater_than_current + (step>>1);
2908                     }
2909                     if(sorted_short_ref[j].reference != 3) continue;
2910                     h->default_ref_list[list][index  ]= sorted_short_ref[j];
2911                     h->default_ref_list[list][index++].pic_id= sorted_short_ref[j].frame_num;
2912                 }
2913
2914                 for(i = 0; i < 16 && index < h->ref_count[ list ]; i++){
2915                     if(h->long_ref[i] == NULL) continue;
2916                     if(h->long_ref[i]->reference != 3) continue;
2917
2918                     h->default_ref_list[ list ][index  ]= *h->long_ref[i];
2919                     h->default_ref_list[ list ][index++].pic_id= i;;
2920                 }
2921                 
2922                 if(list && (smallest_poc_greater_than_current<=0 || smallest_poc_greater_than_current>=h->short_ref_count) && (1 < index)){
2923                     // swap the two first elements of L1 when
2924                     // L0 and L1 are identical
2925                     Picture temp= h->default_ref_list[1][0];
2926                     h->default_ref_list[1][0] = h->default_ref_list[1][1];
2927                     h->default_ref_list[1][0] = temp;
2928                 }
2929
2930                 if(index < h->ref_count[ list ])
2931                     memset(&h->default_ref_list[list][index], 0, sizeof(Picture)*(h->ref_count[ list ] - index));
2932             }
2933         }else{
2934             int index=0;
2935             for(i=0; i<h->short_ref_count && index < h->ref_count[0]; i++){
2936                 if(h->short_ref[i]->reference != 3) continue; //FIXME refernce field shit
2937                 h->default_ref_list[0][index  ]= *h->short_ref[i];
2938                 h->default_ref_list[0][index++].pic_id= h->short_ref[i]->frame_num;
2939             }
2940             for(i = 0; i < 16 && index < h->ref_count[0]; i++){
2941                 if(h->long_ref[i] == NULL) continue;
2942                 if(h->long_ref[i]->reference != 3) continue;
2943                 h->default_ref_list[0][index  ]= *h->long_ref[i];
2944                 h->default_ref_list[0][index++].pic_id= i;;
2945             }
2946             if(index < h->ref_count[0])
2947                 memset(&h->default_ref_list[0][index], 0, sizeof(Picture)*(h->ref_count[0] - index));
2948         }
2949     }else{ //FIELD
2950         if(h->slice_type==B_TYPE){
2951         }else{
2952             //FIXME second field balh
2953         }
2954     }
2955 #ifdef TRACE
2956     for (i=0; i<h->ref_count[0]; i++) {
2957         tprintf("List0: %s fn:%d 0x%p\n", (h->default_ref_list[0][i].long_ref ? "LT" : "ST"), h->default_ref_list[0][i].pic_id, h->default_ref_list[0][i].data[0]);
2958     }
2959     if(h->slice_type==B_TYPE){
2960         for (i=0; i<h->ref_count[1]; i++) {
2961             tprintf("List1: %s fn:%d 0x%p\n", (h->default_ref_list[1][i].long_ref ? "LT" : "ST"), h->default_ref_list[1][i].pic_id, h->default_ref_list[0][i].data[0]);
2962         }
2963     }
2964 #endif
2965     return 0;
2966 }
2967
2968 static void print_short_term(H264Context *h);
2969 static void print_long_term(H264Context *h);
2970
2971 static int decode_ref_pic_list_reordering(H264Context *h){
2972     MpegEncContext * const s = &h->s;
2973     int list;
2974     
2975     print_short_term(h);
2976     print_long_term(h);
2977     if(h->slice_type==I_TYPE || h->slice_type==SI_TYPE) return 0; //FIXME move beofre func
2978     
2979     for(list=0; list<2; list++){
2980         memcpy(h->ref_list[list], h->default_ref_list[list], sizeof(Picture)*h->ref_count[list]);
2981
2982         if(get_bits1(&s->gb)){
2983             int pred= h->curr_pic_num;
2984             int index;
2985
2986             for(index=0; ; index++){
2987                 int reordering_of_pic_nums_idc= get_ue_golomb(&s->gb);
2988                 int pic_id;
2989                 int i;
2990                 
2991                 if(reordering_of_pic_nums_idc==3) 
2992                     break;
2993                 
2994                 if(index >= h->ref_count[list]){
2995                     av_log(h->s.avctx, AV_LOG_ERROR, "reference count overflow\n");
2996                     return -1;
2997                 }
2998                 
2999                 if(reordering_of_pic_nums_idc<3){
3000                     if(reordering_of_pic_nums_idc<2){
3001                         const int abs_diff_pic_num= get_ue_golomb(&s->gb) + 1;
3002
3003                         if(abs_diff_pic_num >= h->max_pic_num){
3004                             av_log(h->s.avctx, AV_LOG_ERROR, "abs_diff_pic_num overflow\n");
3005                             return -1;
3006                         }
3007
3008                         if(reordering_of_pic_nums_idc == 0) pred-= abs_diff_pic_num;
3009                         else                                pred+= abs_diff_pic_num;
3010                         pred &= h->max_pic_num - 1;
3011                     
3012                         for(i= h->ref_count[list]-1; i>=index; i--){
3013                             if(h->ref_list[list][i].pic_id == pred && h->ref_list[list][i].long_ref==0)
3014                                 break;
3015                         }
3016                     }else{
3017                         pic_id= get_ue_golomb(&s->gb); //long_term_pic_idx
3018
3019                         for(i= h->ref_count[list]-1; i>=index; i--){
3020                             if(h->ref_list[list][i].pic_id == pic_id && h->ref_list[list][i].long_ref==1)
3021                                 break;
3022                         }
3023                     }
3024
3025                     if(i < index){
3026                         av_log(h->s.avctx, AV_LOG_ERROR, "reference picture missing during reorder\n");
3027                         memset(&h->ref_list[list][index], 0, sizeof(Picture)); //FIXME
3028                     }else if(i > index){
3029                         Picture tmp= h->ref_list[list][i];
3030                         for(; i>index; i--){
3031                             h->ref_list[list][i]= h->ref_list[list][i-1];
3032                         }
3033                         h->ref_list[list][index]= tmp;
3034                     }
3035                 }else{
3036                     av_log(h->s.avctx, AV_LOG_ERROR, "illegal reordering_of_pic_nums_idc\n");
3037                     return -1;
3038                 }
3039             }
3040         }
3041
3042         if(h->slice_type!=B_TYPE) break;
3043     }
3044     
3045     if(h->slice_type==B_TYPE && !h->direct_spatial_mv_pred)
3046         direct_dist_scale_factor(h);
3047     return 0;    
3048 }
3049
3050 static int pred_weight_table(H264Context *h){
3051     MpegEncContext * const s = &h->s;
3052     int list, i;
3053     int luma_def, chroma_def;
3054     
3055     h->use_weight= 0;
3056     h->use_weight_chroma= 0;
3057     h->luma_log2_weight_denom= get_ue_golomb(&s->gb);
3058     h->chroma_log2_weight_denom= get_ue_golomb(&s->gb);
3059     luma_def = 1<<h->luma_log2_weight_denom;
3060     chroma_def = 1<<h->chroma_log2_weight_denom;
3061
3062     for(list=0; list<2; list++){
3063         for(i=0; i<h->ref_count[list]; i++){
3064             int luma_weight_flag, chroma_weight_flag;
3065             
3066             luma_weight_flag= get_bits1(&s->gb);
3067             if(luma_weight_flag){
3068                 h->luma_weight[list][i]= get_se_golomb(&s->gb);
3069                 h->luma_offset[list][i]= get_se_golomb(&s->gb);
3070                 if(   h->luma_weight[list][i] != luma_def
3071                    || h->luma_offset[list][i] != 0)
3072                     h->use_weight= 1;
3073             }else{
3074                 h->luma_weight[list][i]= luma_def;
3075                 h->luma_offset[list][i]= 0;
3076             }
3077
3078             chroma_weight_flag= get_bits1(&s->gb);
3079             if(chroma_weight_flag){
3080                 int j;
3081                 for(j=0; j<2; j++){
3082                     h->chroma_weight[list][i][j]= get_se_golomb(&s->gb);
3083                     h->chroma_offset[list][i][j]= get_se_golomb(&s->gb);
3084                     if(   h->chroma_weight[list][i][j] != chroma_def
3085                        || h->chroma_offset[list][i][j] != 0)
3086                         h->use_weight_chroma= 1;
3087                 }
3088             }else{
3089                 int j;
3090                 for(j=0; j<2; j++){
3091                     h->chroma_weight[list][i][j]= chroma_def;
3092                     h->chroma_offset[list][i][j]= 0;
3093                 }
3094             }
3095         }
3096         if(h->slice_type != B_TYPE) break;
3097     }
3098     h->use_weight= h->use_weight || h->use_weight_chroma;
3099     return 0;
3100 }
3101
3102 static void implicit_weight_table(H264Context *h){
3103     MpegEncContext * const s = &h->s;
3104     int ref0, ref1;
3105     int cur_poc = s->current_picture_ptr->poc;
3106
3107     if(   h->ref_count[0] == 1 && h->ref_count[1] == 1
3108        && h->ref_list[0][0].poc + h->ref_list[1][0].poc == 2*cur_poc){
3109         h->use_weight= 0;
3110         h->use_weight_chroma= 0;
3111         return;
3112     }
3113
3114     h->use_weight= 2;
3115     h->use_weight_chroma= 2;
3116     h->luma_log2_weight_denom= 5;
3117     h->chroma_log2_weight_denom= 5;
3118
3119     /* FIXME: MBAFF */
3120     for(ref0=0; ref0 < h->ref_count[0]; ref0++){
3121         int poc0 = h->ref_list[0][ref0].poc;
3122         for(ref1=0; ref1 < h->ref_count[1]; ref1++){
3123             int poc1 = h->ref_list[0][ref1].poc;
3124             int td = clip(poc1 - poc0, -128, 127);
3125             if(td){
3126                 int tb = clip(cur_poc - poc0, -128, 127);
3127                 int tx = (16384 + (ABS(td) >> 1)) / td;
3128                 int dist_scale_factor = clip((tb*tx + 32) >> 6, -1024, 1023) >> 2;
3129                 if(dist_scale_factor < -64 || dist_scale_factor > 128)
3130                     h->implicit_weight[ref0][ref1] = 32;
3131                 else
3132                     h->implicit_weight[ref0][ref1] = 64 - dist_scale_factor;
3133             }else
3134                 h->implicit_weight[ref0][ref1] = 32;
3135         }
3136     }
3137 }
3138
3139 /**
3140  * instantaneous decoder refresh.
3141  */
3142 static void idr(H264Context *h){
3143     int i,j;
3144
3145 #define CHECK_DELAY(pic) \
3146     for(j = 0; h->delayed_pic[j]; j++) \
3147         if(pic == h->delayed_pic[j]){ \
3148             pic->reference=1; \
3149             break; \
3150         }
3151
3152     for(i=0; i<h->long_ref_count; i++){
3153         h->long_ref[i]->reference=0;
3154         CHECK_DELAY(h->long_ref[i]);
3155         h->long_ref[i]= NULL;
3156     }
3157     h->long_ref_count=0;
3158
3159     for(i=0; i<h->short_ref_count; i++){
3160         h->short_ref[i]->reference=0;
3161         CHECK_DELAY(h->short_ref[i]);
3162         h->short_ref[i]= NULL;
3163     }
3164     h->short_ref_count=0;
3165 }
3166 #undef CHECK_DELAY
3167
3168 /**
3169  *
3170  * @return the removed picture or NULL if an error occures
3171  */
3172 static Picture * remove_short(H264Context *h, int frame_num){
3173     MpegEncContext * const s = &h->s;
3174     int i;
3175     
3176     if(s->avctx->debug&FF_DEBUG_MMCO)
3177         av_log(h->s.avctx, AV_LOG_DEBUG, "remove short %d count %d\n", frame_num, h->short_ref_count);
3178     
3179     for(i=0; i<h->short_ref_count; i++){
3180         Picture *pic= h->short_ref[i];
3181         if(s->avctx->debug&FF_DEBUG_MMCO)
3182             av_log(h->s.avctx, AV_LOG_DEBUG, "%d %d %p\n", i, pic->frame_num, pic);
3183         if(pic->frame_num == frame_num){
3184             h->short_ref[i]= NULL;
3185             memmove(&h->short_ref[i], &h->short_ref[i+1], (h->short_ref_count - i - 1)*sizeof(Picture*));
3186             h->short_ref_count--;
3187             return pic;
3188         }
3189     }
3190     return NULL;
3191 }
3192
3193 /**
3194  *
3195  * @return the removed picture or NULL if an error occures
3196  */
3197 static Picture * remove_long(H264Context *h, int i){
3198     Picture *pic;
3199
3200     pic= h->long_ref[i];
3201     h->long_ref[i]= NULL;
3202     if(pic) h->long_ref_count--;
3203
3204     return pic;
3205 }
3206
3207 /**
3208  * print short term list
3209  */
3210 static void print_short_term(H264Context *h) {
3211     uint32_t i;
3212     if(h->s.avctx->debug&FF_DEBUG_MMCO) {
3213         av_log(h->s.avctx, AV_LOG_DEBUG, "short term list:\n");
3214         for(i=0; i<h->short_ref_count; i++){
3215             Picture *pic= h->short_ref[i];
3216             av_log(h->s.avctx, AV_LOG_DEBUG, "%d fn:%d poc:%d %p\n", i, pic->frame_num, pic->poc, pic->data[0]);
3217         }
3218     }
3219 }
3220
3221 /**
3222  * print long term list
3223  */
3224 static void print_long_term(H264Context *h) {
3225     uint32_t i;
3226     if(h->s.avctx->debug&FF_DEBUG_MMCO) {
3227         av_log(h->s.avctx, AV_LOG_DEBUG, "long term list:\n");
3228         for(i = 0; i < 16; i++){
3229             Picture *pic= h->long_ref[i];
3230             if (pic) {
3231                 av_log(h->s.avctx, AV_LOG_DEBUG, "%d fn:%d poc:%d %p\n", i, pic->frame_num, pic->poc, pic->data[0]);
3232             }
3233         }
3234     }
3235 }
3236
3237 /**
3238  * Executes the reference picture marking (memory management control operations).
3239  */
3240 static int execute_ref_pic_marking(H264Context *h, MMCO *mmco, int mmco_count){
3241     MpegEncContext * const s = &h->s;
3242     int i, j;
3243     int current_is_long=0;
3244     Picture *pic;
3245     
3246     if((s->avctx->debug&FF_DEBUG_MMCO) && mmco_count==0)
3247         av_log(h->s.avctx, AV_LOG_DEBUG, "no mmco here\n");
3248         
3249     for(i=0; i<mmco_count; i++){
3250         if(s->avctx->debug&FF_DEBUG_MMCO)
3251             av_log(h->s.avctx, AV_LOG_DEBUG, "mmco:%d %d %d\n", h->mmco[i].opcode, h->mmco[i].short_frame_num, h->mmco[i].long_index);
3252
3253         switch(mmco[i].opcode){
3254         case MMCO_SHORT2UNUSED:
3255             pic= remove_short(h, mmco[i].short_frame_num);
3256             if(pic==NULL) return -1;
3257             pic->reference= 0;
3258             break;
3259         case MMCO_SHORT2LONG:
3260             pic= remove_long(h, mmco[i].long_index);
3261             if(pic) pic->reference=0;
3262             
3263             h->long_ref[ mmco[i].long_index ]= remove_short(h, mmco[i].short_frame_num);
3264             h->long_ref[ mmco[i].long_index ]->long_ref=1;
3265             break;
3266         case MMCO_LONG2UNUSED:
3267             pic= remove_long(h, mmco[i].long_index);
3268             if(pic==NULL) return -1;
3269             pic->reference= 0;
3270             break;
3271         case MMCO_LONG:
3272             pic= remove_long(h, mmco[i].long_index);
3273             if(pic) pic->reference=0;
3274             
3275             h->long_ref[ mmco[i].long_index ]= s->current_picture_ptr;
3276             h->long_ref[ mmco[i].long_index ]->long_ref=1;
3277             h->long_ref_count++;
3278             
3279             current_is_long=1;
3280             break;
3281         case MMCO_SET_MAX_LONG:
3282             assert(mmco[i].long_index <= 16);
3283             // just remove the long term which index is greater than new max
3284             for(j = mmco[i].long_index; j<16; j++){
3285                 pic = remove_long(h, j);
3286                 if (pic) pic->reference=0;
3287             }
3288             break;
3289         case MMCO_RESET:
3290             while(h->short_ref_count){
3291                 pic= remove_short(h, h->short_ref[0]->frame_num);
3292                 pic->reference=0;
3293             }
3294             for(j = 0; j < 16; j++) {
3295                 pic= remove_long(h, j);
3296                 if(pic) pic->reference=0;
3297             }
3298             break;
3299         default: assert(0);
3300         }
3301     }
3302     
3303     if(!current_is_long){
3304         pic= remove_short(h, s->current_picture_ptr->frame_num);
3305         if(pic){
3306             pic->reference=0;
3307             av_log(h->s.avctx, AV_LOG_ERROR, "illegal short term buffer state detected\n");
3308         }
3309         
3310         if(h->short_ref_count)
3311             memmove(&h->short_ref[1], &h->short_ref[0], h->short_ref_count*sizeof(Picture*));
3312
3313         h->short_ref[0]= s->current_picture_ptr;
3314         h->short_ref[0]->long_ref=0;
3315         h->short_ref_count++;
3316     }
3317     
3318     print_short_term(h);
3319     print_long_term(h);
3320     return 0; 
3321 }
3322
3323 static int decode_ref_pic_marking(H264Context *h){
3324     MpegEncContext * const s = &h->s;
3325     int i;
3326     
3327     if(h->nal_unit_type == NAL_IDR_SLICE){ //FIXME fields
3328         s->broken_link= get_bits1(&s->gb) -1;
3329         h->mmco[0].long_index= get_bits1(&s->gb) - 1; // current_long_term_idx
3330         if(h->mmco[0].long_index == -1)
3331             h->mmco_index= 0;
3332         else{
3333             h->mmco[0].opcode= MMCO_LONG;
3334             h->mmco_index= 1;
3335         } 
3336     }else{
3337         if(get_bits1(&s->gb)){ // adaptive_ref_pic_marking_mode_flag
3338             for(i= 0; i<MAX_MMCO_COUNT; i++) { 
3339                 MMCOOpcode opcode= get_ue_golomb(&s->gb);;
3340
3341                 h->mmco[i].opcode= opcode;
3342                 if(opcode==MMCO_SHORT2UNUSED || opcode==MMCO_SHORT2LONG){
3343                     h->mmco[i].short_frame_num= (h->frame_num - get_ue_golomb(&s->gb) - 1) & ((1<<h->sps.log2_max_frame_num)-1); //FIXME fields
3344 /*                    if(h->mmco[i].short_frame_num >= h->short_ref_count || h->short_ref[ h->mmco[i].short_frame_num ] == NULL){
3345                         fprintf(stderr, "illegal short ref in memory management control operation %d\n", mmco);
3346                         return -1;
3347                     }*/
3348                 }
3349                 if(opcode==MMCO_SHORT2LONG || opcode==MMCO_LONG2UNUSED || opcode==MMCO_LONG || opcode==MMCO_SET_MAX_LONG){
3350                     h->mmco[i].long_index= get_ue_golomb(&s->gb);
3351                     if(/*h->mmco[i].long_index >= h->long_ref_count || h->long_ref[ h->mmco[i].long_index ] == NULL*/ h->mmco[i].long_index >= 16){
3352                         av_log(h->s.avctx, AV_LOG_ERROR, "illegal long ref in memory management control operation %d\n", opcode);
3353                         return -1;
3354                     }
3355                 }
3356                     
3357                 if(opcode > MMCO_LONG){
3358                     av_log(h->s.avctx, AV_LOG_ERROR, "illegal memory management control operation %d\n", opcode);
3359                     return -1;
3360                 }
3361                 if(opcode == MMCO_END)
3362                     break;
3363             }
3364             h->mmco_index= i;
3365         }else{
3366             assert(h->long_ref_count + h->short_ref_count <= h->sps.ref_frame_count);
3367
3368             if(h->long_ref_count + h->short_ref_count == h->sps.ref_frame_count){ //FIXME fields
3369                 h->mmco[0].opcode= MMCO_SHORT2UNUSED;
3370                 h->mmco[0].short_frame_num= h->short_ref[ h->short_ref_count - 1 ]->frame_num;
3371                 h->mmco_index= 1;
3372             }else
3373                 h->mmco_index= 0;
3374         }
3375     }
3376     
3377     return 0; 
3378 }
3379
3380 static int init_poc(H264Context *h){
3381     MpegEncContext * const s = &h->s;
3382     const int max_frame_num= 1<<h->sps.log2_max_frame_num;
3383     int field_poc[2];
3384
3385     if(h->nal_unit_type == NAL_IDR_SLICE){
3386         h->frame_num_offset= 0;
3387     }else{
3388         if(h->frame_num < h->prev_frame_num)
3389             h->frame_num_offset= h->prev_frame_num_offset + max_frame_num;
3390         else
3391             h->frame_num_offset= h->prev_frame_num_offset;
3392     }
3393
3394     if(h->sps.poc_type==0){
3395         const int max_poc_lsb= 1<<h->sps.log2_max_poc_lsb;
3396
3397         if     (h->poc_lsb < h->prev_poc_lsb && h->prev_poc_lsb - h->poc_lsb >= max_poc_lsb/2)
3398             h->poc_msb = h->prev_poc_msb + max_poc_lsb;
3399         else if(h->poc_lsb > h->prev_poc_lsb && h->prev_poc_lsb - h->poc_lsb < -max_poc_lsb/2)
3400             h->poc_msb = h->prev_poc_msb - max_poc_lsb;
3401         else
3402             h->poc_msb = h->prev_poc_msb;
3403 //printf("poc: %d %d\n", h->poc_msb, h->poc_lsb);
3404         field_poc[0] = 
3405         field_poc[1] = h->poc_msb + h->poc_lsb;
3406         if(s->picture_structure == PICT_FRAME) 
3407             field_poc[1] += h->delta_poc_bottom;
3408     }else if(h->sps.poc_type==1){
3409         int abs_frame_num, expected_delta_per_poc_cycle, expectedpoc;
3410         int i;
3411
3412         if(h->sps.poc_cycle_length != 0)
3413             abs_frame_num = h->frame_num_offset + h->frame_num;
3414         else
3415             abs_frame_num = 0;
3416
3417         if(h->nal_ref_idc==0 && abs_frame_num > 0)
3418             abs_frame_num--;
3419             
3420         expected_delta_per_poc_cycle = 0;
3421         for(i=0; i < h->sps.poc_cycle_length; i++)
3422             expected_delta_per_poc_cycle += h->sps.offset_for_ref_frame[ i ]; //FIXME integrate during sps parse
3423
3424         if(abs_frame_num > 0){
3425             int poc_cycle_cnt          = (abs_frame_num - 1) / h->sps.poc_cycle_length;
3426             int frame_num_in_poc_cycle = (abs_frame_num - 1) % h->sps.poc_cycle_length;
3427
3428             expectedpoc = poc_cycle_cnt * expected_delta_per_poc_cycle;
3429             for(i = 0; i <= frame_num_in_poc_cycle; i++)
3430                 expectedpoc = expectedpoc + h->sps.offset_for_ref_frame[ i ];
3431         } else
3432             expectedpoc = 0;
3433
3434         if(h->nal_ref_idc == 0) 
3435             expectedpoc = expectedpoc + h->sps.offset_for_non_ref_pic;
3436         
3437         field_poc[0] = expectedpoc + h->delta_poc[0];
3438         field_poc[1] = field_poc[0] + h->sps.offset_for_top_to_bottom_field;
3439
3440         if(s->picture_structure == PICT_FRAME)
3441             field_poc[1] += h->delta_poc[1];
3442     }else{
3443         int poc;
3444         if(h->nal_unit_type == NAL_IDR_SLICE){
3445             poc= 0;
3446         }else{
3447             if(h->nal_ref_idc) poc= 2*(h->frame_num_offset + h->frame_num);
3448             else               poc= 2*(h->frame_num_offset + h->frame_num) - 1;
3449         }
3450         field_poc[0]= poc;
3451         field_poc[1]= poc;
3452     }
3453     
3454     if(s->picture_structure != PICT_BOTTOM_FIELD)
3455         s->current_picture_ptr->field_poc[0]= field_poc[0];
3456     if(s->picture_structure != PICT_TOP_FIELD)
3457         s->current_picture_ptr->field_poc[1]= field_poc[1];
3458     if(s->picture_structure == PICT_FRAME) // FIXME field pix?
3459         s->current_picture_ptr->poc= FFMIN(field_poc[0], field_poc[1]);
3460
3461     return 0;
3462 }
3463
3464 /**
3465  * decodes a slice header.
3466  * this will allso call MPV_common_init() and frame_start() as needed
3467  */
3468 static int decode_slice_header(H264Context *h){
3469     MpegEncContext * const s = &h->s;
3470     int first_mb_in_slice, pps_id;
3471     int num_ref_idx_active_override_flag;
3472     static const uint8_t slice_type_map[5]= {P_TYPE, B_TYPE, I_TYPE, SP_TYPE, SI_TYPE};
3473
3474     s->current_picture.reference= h->nal_ref_idc != 0;
3475
3476     first_mb_in_slice= get_ue_golomb(&s->gb);
3477
3478     h->slice_type= get_ue_golomb(&s->gb);
3479     if(h->slice_type > 9){
3480         av_log(h->s.avctx, AV_LOG_ERROR, "slice type too large (%d) at %d %d\n", h->slice_type, s->mb_x, s->mb_y);
3481         return -1;
3482     }
3483     if(h->slice_type > 4){
3484         h->slice_type -= 5;
3485         h->slice_type_fixed=1;
3486     }else
3487         h->slice_type_fixed=0;
3488     
3489     h->slice_type= slice_type_map[ h->slice_type ];
3490     
3491     s->pict_type= h->slice_type; // to make a few old func happy, its wrong though
3492         
3493     pps_id= get_ue_golomb(&s->gb);
3494     if(pps_id>255){
3495         av_log(h->s.avctx, AV_LOG_ERROR, "pps_id out of range\n");
3496         return -1;
3497     }
3498     h->pps= h->pps_buffer[pps_id];
3499     if(h->pps.slice_group_count == 0){
3500         av_log(h->s.avctx, AV_LOG_ERROR, "non existing PPS referenced\n");
3501         return -1;
3502     }
3503
3504     h->sps= h->sps_buffer[ h->pps.sps_id ];
3505     if(h->sps.log2_max_frame_num == 0){
3506         av_log(h->s.avctx, AV_LOG_ERROR, "non existing SPS referenced\n");
3507         return -1;
3508     }
3509     
3510     s->mb_width= h->sps.mb_width;
3511     s->mb_height= h->sps.mb_height;
3512     
3513     h->b_stride=  s->mb_width*4 + 1;
3514     h->b8_stride= s->mb_width*2 + 1;
3515
3516     s->resync_mb_x = s->mb_x = first_mb_in_slice % s->mb_width;
3517     s->resync_mb_y = s->mb_y = first_mb_in_slice / s->mb_width; //FIXME AFFW
3518     
3519     s->width = 16*s->mb_width - 2*(h->sps.crop_left + h->sps.crop_right );
3520     if(h->sps.frame_mbs_only_flag)
3521         s->height= 16*s->mb_height - 2*(h->sps.crop_top  + h->sps.crop_bottom);
3522     else
3523         s->height= 16*s->mb_height - 4*(h->sps.crop_top  + h->sps.crop_bottom); //FIXME recheck
3524     
3525     if (s->context_initialized 
3526         && (   s->width != s->avctx->width || s->height != s->avctx->height)) {
3527         free_tables(h);
3528         MPV_common_end(s);
3529     }
3530     if (!s->context_initialized) {
3531         if (MPV_common_init(s) < 0)
3532             return -1;
3533
3534         alloc_tables(h);
3535
3536         s->avctx->width = s->width;
3537         s->avctx->height = s->height;
3538         s->avctx->sample_aspect_ratio= h->sps.sar;
3539         if(!s->avctx->sample_aspect_ratio.den)
3540             s->avctx->sample_aspect_ratio.den = 1;
3541
3542         if(h->sps.timing_info_present_flag && h->sps.fixed_frame_rate_flag){
3543             s->avctx->frame_rate = h->sps.time_scale;
3544             s->avctx->frame_rate_base = h->sps.num_units_in_tick;
3545         }
3546     }
3547
3548     if(h->slice_num == 0){
3549         frame_start(h);
3550     }
3551
3552     s->current_picture_ptr->frame_num= //FIXME frame_num cleanup
3553     h->frame_num= get_bits(&s->gb, h->sps.log2_max_frame_num);
3554
3555     if(h->sps.frame_mbs_only_flag){
3556         s->picture_structure= PICT_FRAME;
3557     }else{
3558         if(get_bits1(&s->gb)) //field_pic_flag
3559             s->picture_structure= PICT_TOP_FIELD + get_bits1(&s->gb); //bottom_field_flag
3560         else
3561             s->picture_structure= PICT_FRAME;
3562     }
3563
3564     if(s->picture_structure==PICT_FRAME){
3565         h->curr_pic_num=   h->frame_num;
3566         h->max_pic_num= 1<< h->sps.log2_max_frame_num;
3567     }else{
3568         h->curr_pic_num= 2*h->frame_num;
3569         h->max_pic_num= 1<<(h->sps.log2_max_frame_num + 1);
3570     }
3571         
3572     if(h->nal_unit_type == NAL_IDR_SLICE){
3573         get_ue_golomb(&s->gb); /* idr_pic_id */
3574     }
3575    
3576     if(h->sps.poc_type==0){
3577         h->poc_lsb= get_bits(&s->gb, h->sps.log2_max_poc_lsb);
3578         
3579         if(h->pps.pic_order_present==1 && s->picture_structure==PICT_FRAME){
3580             h->delta_poc_bottom= get_se_golomb(&s->gb);
3581         }
3582     }
3583     
3584     if(h->sps.poc_type==1 && !h->sps.delta_pic_order_always_zero_flag){
3585         h->delta_poc[0]= get_se_golomb(&s->gb);
3586         
3587         if(h->pps.pic_order_present==1 && s->picture_structure==PICT_FRAME)
3588             h->delta_poc[1]= get_se_golomb(&s->gb);
3589     }
3590     
3591     init_poc(h);
3592     
3593     if(h->pps.redundant_pic_cnt_present){
3594         h->redundant_pic_count= get_ue_golomb(&s->gb);
3595     }
3596
3597     //set defaults, might be overriden a few line later
3598     h->ref_count[0]= h->pps.ref_count[0];
3599     h->ref_count[1]= h->pps.ref_count[1];
3600
3601     if(h->slice_type == P_TYPE || h->slice_type == SP_TYPE || h->slice_type == B_TYPE){
3602         if(h->slice_type == B_TYPE){
3603             h->direct_spatial_mv_pred= get_bits1(&s->gb);
3604         }
3605         num_ref_idx_active_override_flag= get_bits1(&s->gb);
3606     
3607         if(num_ref_idx_active_override_flag){
3608             h->ref_count[0]= get_ue_golomb(&s->gb) + 1;
3609             if(h->slice_type==B_TYPE)
3610                 h->ref_count[1]= get_ue_golomb(&s->gb) + 1;
3611
3612             if(h->ref_count[0] > 32 || h->ref_count[1] > 32){
3613                 av_log(h->s.avctx, AV_LOG_ERROR, "reference overflow\n");
3614                 return -1;
3615             }
3616         }
3617     }
3618
3619     if(h->slice_num == 0){
3620         fill_default_ref_list(h);
3621     }
3622
3623     decode_ref_pic_list_reordering(h);
3624
3625     if(   (h->pps.weighted_pred          && (h->slice_type == P_TYPE || h->slice_type == SP_TYPE )) 
3626        || (h->pps.weighted_bipred_idc==1 && h->slice_type==B_TYPE ) )
3627         pred_weight_table(h);
3628     else if(h->pps.weighted_bipred_idc==2 && h->slice_type==B_TYPE)
3629         implicit_weight_table(h);
3630     else
3631         h->use_weight = 0;
3632     
3633     if(s->current_picture.reference)
3634         decode_ref_pic_marking(h);
3635
3636     if( h->slice_type != I_TYPE && h->slice_type != SI_TYPE && h->pps.cabac )
3637         h->cabac_init_idc = get_ue_golomb(&s->gb);
3638
3639     h->last_qscale_diff = 0;
3640     s->qscale = h->pps.init_qp + get_se_golomb(&s->gb);
3641     if(s->qscale<0 || s->qscale>51){
3642         av_log(s->avctx, AV_LOG_ERROR, "QP %d out of range\n", s->qscale);
3643         return -1;
3644     }
3645     h->chroma_qp = get_chroma_qp(h, s->qscale);
3646     //FIXME qscale / qp ... stuff
3647     if(h->slice_type == SP_TYPE){
3648         get_bits1(&s->gb); /* sp_for_switch_flag */
3649     }
3650     if(h->slice_type==SP_TYPE || h->slice_type == SI_TYPE){
3651         get_se_golomb(&s->gb); /* slice_qs_delta */
3652     }
3653
3654     h->deblocking_filter = 1;
3655     h->slice_alpha_c0_offset = 0;
3656     h->slice_beta_offset = 0;
3657     if( h->pps.deblocking_filter_parameters_present ) {
3658         h->deblocking_filter= get_ue_golomb(&s->gb);
3659         if(h->deblocking_filter < 2) 
3660             h->deblocking_filter^= 1; // 1<->0
3661
3662         if( h->deblocking_filter ) {
3663             h->slice_alpha_c0_offset = get_se_golomb(&s->gb) << 1;
3664             h->slice_beta_offset = get_se_golomb(&s->gb) << 1;
3665         }
3666     }
3667
3668 #if 0 //FMO
3669     if( h->pps.num_slice_groups > 1  && h->pps.mb_slice_group_map_type >= 3 && h->pps.mb_slice_group_map_type <= 5)
3670         slice_group_change_cycle= get_bits(&s->gb, ?);
3671 #endif
3672
3673     h->slice_num++;
3674
3675     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
3676         av_log(h->s.avctx, AV_LOG_DEBUG, "slice:%d mb:%d %c pps:%d frame:%d poc:%d/%d ref:%d/%d qp:%d loop:%d weight:%d%s\n", 
3677                h->slice_num, first_mb_in_slice, 
3678                av_get_pict_type_char(h->slice_type),
3679                pps_id, h->frame_num,
3680                s->current_picture_ptr->field_poc[0], s->current_picture_ptr->field_poc[1],
3681                h->ref_count[0], h->ref_count[1],
3682                s->qscale,
3683                h->deblocking_filter,
3684                h->use_weight,
3685                h->use_weight==1 && h->use_weight_chroma ? "c" : ""
3686                );
3687     }
3688
3689     return 0;
3690 }
3691
3692 /**
3693  *
3694  */
3695 static inline int get_level_prefix(GetBitContext *gb){
3696     unsigned int buf;
3697     int log;
3698     
3699     OPEN_READER(re, gb);
3700     UPDATE_CACHE(re, gb);
3701     buf=GET_CACHE(re, gb);
3702     
3703     log= 32 - av_log2(buf);
3704 #ifdef TRACE
3705     print_bin(buf>>(32-log), log);
3706     av_log(NULL, AV_LOG_DEBUG, "%5d %2d %3d lpr @%5d in %s get_level_prefix\n", buf>>(32-log), log, log-1, get_bits_count(gb), __FILE__);
3707 #endif
3708
3709     LAST_SKIP_BITS(re, gb, log);
3710     CLOSE_READER(re, gb);
3711
3712     return log-1;
3713 }
3714
3715 /**
3716  * decodes a residual block.
3717  * @param n block index
3718  * @param scantable scantable
3719  * @param max_coeff number of coefficients in the block
3720  * @return <0 if an error occured
3721  */
3722 static int decode_residual(H264Context *h, GetBitContext *gb, DCTELEM *block, int n, const uint8_t *scantable, int qp, int max_coeff){
3723     MpegEncContext * const s = &h->s;
3724     const uint16_t *qmul= dequant_coeff[qp];
3725     static const int coeff_token_table_index[17]= {0, 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3};
3726     int level[16], run[16];
3727     int suffix_length, zeros_left, coeff_num, coeff_token, total_coeff, i, trailing_ones;
3728
3729     //FIXME put trailing_onex into the context
3730
3731     if(n == CHROMA_DC_BLOCK_INDEX){
3732         coeff_token= get_vlc2(gb, chroma_dc_coeff_token_vlc.table, CHROMA_DC_COEFF_TOKEN_VLC_BITS, 1);
3733         total_coeff= coeff_token>>2;
3734     }else{    
3735         if(n == LUMA_DC_BLOCK_INDEX){
3736             total_coeff= pred_non_zero_count(h, 0);
3737             coeff_token= get_vlc2(gb, coeff_token_vlc[ coeff_token_table_index[total_coeff] ].table, COEFF_TOKEN_VLC_BITS, 2);
3738             total_coeff= coeff_token>>2;
3739         }else{
3740             total_coeff= pred_non_zero_count(h, n);
3741             coeff_token= get_vlc2(gb, coeff_token_vlc[ coeff_token_table_index[total_coeff] ].table, COEFF_TOKEN_VLC_BITS, 2);
3742             total_coeff= coeff_token>>2;
3743             h->non_zero_count_cache[ scan8[n] ]= total_coeff;
3744         }
3745     }
3746
3747     //FIXME set last_non_zero?
3748
3749     if(total_coeff==0)
3750         return 0;
3751         
3752     trailing_ones= coeff_token&3;
3753     tprintf("trailing:%d, total:%d\n", trailing_ones, total_coeff);
3754     assert(total_coeff<=16);
3755     
3756     for(i=0; i<trailing_ones; i++){
3757         level[i]= 1 - 2*get_bits1(gb);
3758     }
3759
3760     suffix_length= total_coeff > 10 && trailing_ones < 3;
3761
3762     for(; i<total_coeff; i++){
3763         const int prefix= get_level_prefix(gb);
3764         int level_code, mask;
3765
3766         if(prefix<14){ //FIXME try to build a large unified VLC table for all this
3767             if(suffix_length)
3768                 level_code= (prefix<<suffix_length) + get_bits(gb, suffix_length); //part
3769             else
3770                 level_code= (prefix<<suffix_length); //part
3771         }else if(prefix==14){
3772             if(suffix_length)
3773                 level_code= (prefix<<suffix_length) + get_bits(gb, suffix_length); //part
3774             else
3775                 level_code= prefix + get_bits(gb, 4); //part
3776         }else if(prefix==15){
3777             level_code= (prefix<<suffix_length) + get_bits(gb, 12); //part
3778             if(suffix_length==0) level_code+=15; //FIXME doesnt make (much)sense
3779         }else{
3780             av_log(h->s.avctx, AV_LOG_ERROR, "prefix too large at %d %d\n", s->mb_x, s->mb_y);
3781             return -1;
3782         }
3783
3784         if(i==trailing_ones && i<3) level_code+= 2; //FIXME split first iteration
3785
3786         mask= -(level_code&1);
3787         level[i]= (((2+level_code)>>1) ^ mask) - mask;
3788
3789         if(suffix_length==0) suffix_length=1; //FIXME split first iteration
3790
3791 #if 1
3792         if(ABS(level[i]) > (3<<(suffix_length-1)) && suffix_length<6) suffix_length++;
3793 #else        
3794         if((2+level_code)>>1) > (3<<(suffix_length-1)) && suffix_length<6) suffix_length++;
3795         /* ? == prefix > 2 or sth */
3796 #endif
3797         tprintf("level: %d suffix_length:%d\n", level[i], suffix_length);
3798     }
3799
3800     if(total_coeff == max_coeff)
3801         zeros_left=0;
3802     else{
3803         if(n == CHROMA_DC_BLOCK_INDEX)
3804             zeros_left= get_vlc2(gb, chroma_dc_total_zeros_vlc[ total_coeff-1 ].table, CHROMA_DC_TOTAL_ZEROS_VLC_BITS, 1);
3805         else
3806             zeros_left= get_vlc2(gb, total_zeros_vlc[ total_coeff-1 ].table, TOTAL_ZEROS_VLC_BITS, 1);
3807     }
3808     
3809     for(i=0; i<total_coeff-1; i++){
3810         if(zeros_left <=0)
3811             break;
3812         else if(zeros_left < 7){
3813             run[i]= get_vlc2(gb, run_vlc[zeros_left-1].table, RUN_VLC_BITS, 1);
3814         }else{
3815             run[i]= get_vlc2(gb, run7_vlc.table, RUN7_VLC_BITS, 2);
3816         }
3817         zeros_left -= run[i];
3818     }
3819
3820     if(zeros_left<0){
3821         av_log(h->s.avctx, AV_LOG_ERROR, "negative number of zero coeffs at %d %d\n", s->mb_x, s->mb_y);
3822         return -1;
3823     }
3824     
3825     for(; i<total_coeff-1; i++){
3826         run[i]= 0;
3827     }
3828
3829     run[i]= zeros_left;
3830
3831     coeff_num=-1;
3832     if(n > 24){
3833         for(i=total_coeff-1; i>=0; i--){ //FIXME merge into rundecode?
3834             int j;
3835
3836             coeff_num += run[i] + 1; //FIXME add 1 earlier ?
3837             j= scantable[ coeff_num ];
3838
3839             block[j]= level[i];
3840         }
3841     }else{
3842         for(i=total_coeff-1; i>=0; i--){ //FIXME merge into  rundecode?
3843             int j;
3844
3845             coeff_num += run[i] + 1; //FIXME add 1 earlier ?
3846             j= scantable[ coeff_num ];
3847
3848             block[j]= level[i] * qmul[j];
3849 //            printf("%d %d  ", block[j], qmul[j]);
3850         }
3851     }
3852     return 0;
3853 }
3854
3855 /**
3856  * decodes a P_SKIP or B_SKIP macroblock
3857  */
3858 static void decode_mb_skip(H264Context *h){
3859     MpegEncContext * const s = &h->s;
3860     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
3861     int mb_type;
3862     
3863     memset(h->non_zero_count[mb_xy], 0, 16);
3864     memset(h->non_zero_count_cache + 8, 0, 8*5); //FIXME ugly, remove pfui
3865
3866     if( h->slice_type == B_TYPE )
3867     {
3868         // just for fill_caches. pred_direct_motion will set the real mb_type
3869         mb_type= MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P0L1|MB_TYPE_DIRECT2|MB_TYPE_SKIP;
3870         //FIXME mbaff
3871
3872         fill_caches(h, mb_type, 0); //FIXME check what is needed and what not ...
3873         pred_direct_motion(h, &mb_type);
3874         if(h->pps.cabac){
3875             fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
3876             fill_rectangle(h->mvd_cache[1][scan8[0]], 4, 4, 8, 0, 4);
3877         }
3878     }
3879     else
3880     {
3881         int mx, my;
3882         mb_type= MB_TYPE_16x16|MB_TYPE_P0L0|MB_TYPE_P1L0|MB_TYPE_SKIP;
3883
3884         if(h->sps.mb_aff && s->mb_skip_run==0 && (s->mb_y&1)==0){
3885             h->mb_field_decoding_flag= get_bits1(&s->gb);
3886         }
3887         if(h->mb_field_decoding_flag)
3888             mb_type|= MB_TYPE_INTERLACED;
3889         
3890         fill_caches(h, mb_type, 0); //FIXME check what is needed and what not ...
3891         pred_pskip_motion(h, &mx, &my);
3892         fill_rectangle(&h->ref_cache[0][scan8[0]], 4, 4, 8, 0, 1);
3893         fill_rectangle(  h->mv_cache[0][scan8[0]], 4, 4, 8, pack16to32(mx,my), 4);
3894         if(h->pps.cabac)
3895             fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
3896     }
3897
3898     write_back_motion(h, mb_type);
3899     s->current_picture.mb_type[mb_xy]= mb_type|MB_TYPE_SKIP;
3900     s->current_picture.qscale_table[mb_xy]= s->qscale;
3901     h->slice_table[ mb_xy ]= h->slice_num;
3902     h->prev_mb_skiped= 1;
3903 }
3904
3905 /**
3906  * decodes a macroblock
3907  * @returns 0 if ok, AC_ERROR / DC_ERROR / MV_ERROR if an error is noticed
3908  */
3909 static int decode_mb_cavlc(H264Context *h){
3910     MpegEncContext * const s = &h->s;
3911     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
3912     int mb_type, partition_count, cbp;
3913
3914     s->dsp.clear_blocks(h->mb); //FIXME avoid if allready clear (move after skip handlong?    
3915
3916     tprintf("pic:%d mb:%d/%d\n", h->frame_num, s->mb_x, s->mb_y);
3917     cbp = 0; /* avoid warning. FIXME: find a solution without slowing
3918                 down the code */
3919     if(h->slice_type != I_TYPE && h->slice_type != SI_TYPE){
3920         if(s->mb_skip_run==-1)
3921             s->mb_skip_run= get_ue_golomb(&s->gb);
3922         
3923         if (s->mb_skip_run--) {
3924             decode_mb_skip(h);
3925             return 0;
3926         }
3927     }
3928     if(h->sps.mb_aff /* && !field pic FIXME needed? */){
3929         if((s->mb_y&1)==0)
3930             h->mb_field_decoding_flag = get_bits1(&s->gb);
3931     }else
3932         h->mb_field_decoding_flag=0; //FIXME som ed note ?!
3933     
3934     h->prev_mb_skiped= 0;
3935     
3936     mb_type= get_ue_golomb(&s->gb);
3937     if(h->slice_type == B_TYPE){
3938         if(mb_type < 23){
3939             partition_count= b_mb_type_info[mb_type].partition_count;
3940             mb_type=         b_mb_type_info[mb_type].type;
3941         }else{
3942             mb_type -= 23;
3943             goto decode_intra_mb;
3944         }
3945     }else if(h->slice_type == P_TYPE /*|| h->slice_type == SP_TYPE */){
3946         if(mb_type < 5){
3947             partition_count= p_mb_type_info[mb_type].partition_count;
3948             mb_type=         p_mb_type_info[mb_type].type;
3949         }else{
3950             mb_type -= 5;
3951             goto decode_intra_mb;
3952         }
3953     }else{
3954        assert(h->slice_type == I_TYPE);
3955 decode_intra_mb:
3956         if(mb_type > 25){
3957             av_log(h->s.avctx, AV_LOG_ERROR, "mb_type %d in %c slice to large at %d %d\n", mb_type, av_get_pict_type_char(h->slice_type), s->mb_x, s->mb_y);
3958             return -1;
3959         }
3960         partition_count=0;
3961         cbp= i_mb_type_info[mb_type].cbp;
3962         h->intra16x16_pred_mode= i_mb_type_info[mb_type].pred_mode;
3963         mb_type= i_mb_type_info[mb_type].type;
3964     }
3965
3966     if(h->mb_field_decoding_flag)
3967         mb_type |= MB_TYPE_INTERLACED;
3968
3969     s->current_picture.mb_type[mb_xy]= mb_type;
3970     h->slice_table[ mb_xy ]= h->slice_num;
3971     
3972     if(IS_INTRA_PCM(mb_type)){
3973         const uint8_t *ptr;
3974         int x, y;
3975         
3976         // we assume these blocks are very rare so we dont optimize it
3977         align_get_bits(&s->gb);
3978         
3979         ptr= s->gb.buffer + get_bits_count(&s->gb);
3980     
3981         for(y=0; y<16; y++){
3982             const int index= 4*(y&3) + 64*(y>>2);
3983             for(x=0; x<16; x++){
3984                 h->mb[index + (x&3) + 16*(x>>2)]= *(ptr++);
3985             }
3986         }
3987         for(y=0; y<8; y++){
3988             const int index= 256 + 4*(y&3) + 32*(y>>2);
3989             for(x=0; x<8; x++){
3990                 h->mb[index + (x&3) + 16*(x>>2)]= *(ptr++);
3991             }
3992         }
3993         for(y=0; y<8; y++){
3994             const int index= 256 + 64 + 4*(y&3) + 32*(y>>2);
3995             for(x=0; x<8; x++){
3996                 h->mb[index + (x&3) + 16*(x>>2)]= *(ptr++);
3997             }
3998         }
3999     
4000         skip_bits(&s->gb, 384); //FIXME check /fix the bitstream readers
4001         
4002         //FIXME deblock filter, non_zero_count_cache init ...
4003         memset(h->non_zero_count[mb_xy], 16, 16);
4004         s->current_picture.qscale_table[mb_xy]= s->qscale;
4005         
4006         return 0;
4007     }
4008         
4009     fill_caches(h, mb_type, 0);
4010
4011     //mb_pred
4012     if(IS_INTRA(mb_type)){
4013 //            init_top_left_availability(h);
4014             if(IS_INTRA4x4(mb_type)){
4015                 int i;
4016
4017 //                fill_intra4x4_pred_table(h);
4018                 for(i=0; i<16; i++){
4019                     const int mode_coded= !get_bits1(&s->gb);
4020                     const int predicted_mode=  pred_intra_mode(h, i);
4021                     int mode;
4022
4023                     if(mode_coded){
4024                         const int rem_mode= get_bits(&s->gb, 3);
4025                         if(rem_mode<predicted_mode)
4026                             mode= rem_mode;
4027                         else
4028                             mode= rem_mode + 1;
4029                     }else{
4030                         mode= predicted_mode;
4031                     }
4032                     
4033                     h->intra4x4_pred_mode_cache[ scan8[i] ] = mode;
4034                 }
4035                 write_back_intra_pred_mode(h);
4036                 if( check_intra4x4_pred_mode(h) < 0)
4037                     return -1;
4038             }else{
4039                 h->intra16x16_pred_mode= check_intra_pred_mode(h, h->intra16x16_pred_mode);
4040                 if(h->intra16x16_pred_mode < 0)
4041                     return -1;
4042             }
4043             h->chroma_pred_mode= get_ue_golomb(&s->gb);
4044
4045             h->chroma_pred_mode= check_intra_pred_mode(h, h->chroma_pred_mode);
4046             if(h->chroma_pred_mode < 0)
4047                 return -1;
4048     }else if(partition_count==4){
4049         int i, j, sub_partition_count[4], list, ref[2][4];
4050         
4051         if(h->slice_type == B_TYPE){
4052             for(i=0; i<4; i++){
4053                 h->sub_mb_type[i]= get_ue_golomb(&s->gb);
4054                 if(h->sub_mb_type[i] >=13){
4055                     av_log(h->s.avctx, AV_LOG_ERROR, "B sub_mb_type %d out of range at %d %d\n", h->sub_mb_type[i], s->mb_x, s->mb_y);
4056                     return -1;
4057                 }
4058                 sub_partition_count[i]= b_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
4059                 h->sub_mb_type[i]=      b_sub_mb_type_info[ h->sub_mb_type[i] ].type;
4060             }
4061             if(   IS_DIRECT(h->sub_mb_type[0]) || IS_DIRECT(h->sub_mb_type[1])
4062                || IS_DIRECT(h->sub_mb_type[2]) || IS_DIRECT(h->sub_mb_type[3]))
4063                 pred_direct_motion(h, &mb_type);
4064         }else{
4065             assert(h->slice_type == P_TYPE || h->slice_type == SP_TYPE); //FIXME SP correct ?
4066             for(i=0; i<4; i++){
4067                 h->sub_mb_type[i]= get_ue_golomb(&s->gb);
4068                 if(h->sub_mb_type[i] >=4){
4069                     av_log(h->s.avctx, AV_LOG_ERROR, "P sub_mb_type %d out of range at %d %d\n", h->sub_mb_type[i], s->mb_x, s->mb_y);
4070                     return -1;
4071                 }
4072                 sub_partition_count[i]= p_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
4073                 h->sub_mb_type[i]=      p_sub_mb_type_info[ h->sub_mb_type[i] ].type;
4074             }
4075         }
4076         
4077         for(list=0; list<2; list++){
4078             const int ref_count= IS_REF0(mb_type) ? 1 : h->ref_count[list];
4079             if(ref_count == 0) continue;
4080             for(i=0; i<4; i++){
4081                 if(IS_DIRECT(h->sub_mb_type[i])) continue;
4082                 if(IS_DIR(h->sub_mb_type[i], 0, list)){
4083                     ref[list][i] = get_te0_golomb(&s->gb, ref_count); //FIXME init to 0 before and skip?
4084                 }else{
4085                  //FIXME
4086                     ref[list][i] = -1;
4087                 }
4088             }
4089         }
4090         
4091         for(list=0; list<2; list++){
4092             const int ref_count= IS_REF0(mb_type) ? 1 : h->ref_count[list];
4093             if(ref_count == 0) continue;
4094
4095             for(i=0; i<4; i++){
4096                 if(IS_DIRECT(h->sub_mb_type[i])) continue;
4097                 h->ref_cache[list][ scan8[4*i]   ]=h->ref_cache[list][ scan8[4*i]+1 ]=
4098                 h->ref_cache[list][ scan8[4*i]+8 ]=h->ref_cache[list][ scan8[4*i]+9 ]= ref[list][i];
4099
4100                 if(IS_DIR(h->sub_mb_type[i], 0, list)){
4101                     const int sub_mb_type= h->sub_mb_type[i];
4102                     const int block_width= (sub_mb_type & (MB_TYPE_16x16|MB_TYPE_16x8)) ? 2 : 1;
4103                     for(j=0; j<sub_partition_count[i]; j++){
4104                         int mx, my;
4105                         const int index= 4*i + block_width*j;
4106                         int16_t (* mv_cache)[2]= &h->mv_cache[list][ scan8[index] ];
4107                         pred_motion(h, index, block_width, list, h->ref_cache[list][ scan8[index] ], &mx, &my);
4108                         mx += get_se_golomb(&s->gb);
4109                         my += get_se_golomb(&s->gb);
4110                         tprintf("final mv:%d %d\n", mx, my);
4111
4112                         if(IS_SUB_8X8(sub_mb_type)){
4113                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= 
4114                             mv_cache[ 8 ][0]= mv_cache[ 9 ][0]= mx;
4115                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= 
4116                             mv_cache[ 8 ][1]= mv_cache[ 9 ][1]= my;
4117                         }else if(IS_SUB_8X4(sub_mb_type)){
4118                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= mx;
4119                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= my;
4120                         }else if(IS_SUB_4X8(sub_mb_type)){
4121                             mv_cache[ 0 ][0]= mv_cache[ 8 ][0]= mx;
4122                             mv_cache[ 0 ][1]= mv_cache[ 8 ][1]= my;
4123                         }else{
4124                             assert(IS_SUB_4X4(sub_mb_type));
4125                             mv_cache[ 0 ][0]= mx;
4126                             mv_cache[ 0 ][1]= my;
4127                         }
4128                     }
4129                 }else{
4130                     uint32_t *p= (uint32_t *)&h->mv_cache[list][ scan8[4*i] ][0];
4131                     p[0] = p[1]=
4132                     p[8] = p[9]= 0;
4133                 }
4134             }
4135         }
4136     }else if(IS_DIRECT(mb_type)){
4137         pred_direct_motion(h, &mb_type);
4138         s->current_picture.mb_type[mb_xy]= mb_type;
4139     }else{
4140         int list, mx, my, i;
4141          //FIXME we should set ref_idx_l? to 0 if we use that later ...
4142         if(IS_16X16(mb_type)){
4143             for(list=0; list<2; list++){
4144                 if(h->ref_count[list]>0){
4145                     if(IS_DIR(mb_type, 0, list)){
4146                         const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4147                         fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, val, 1);
4148                     }
4149                 }
4150             }
4151             for(list=0; list<2; list++){
4152                 if(IS_DIR(mb_type, 0, list)){
4153                     pred_motion(h, 0, 4, list, h->ref_cache[list][ scan8[0] ], &mx, &my);
4154                     mx += get_se_golomb(&s->gb);
4155                     my += get_se_golomb(&s->gb);
4156                     tprintf("final mv:%d %d\n", mx, my);
4157
4158                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx,my), 4);
4159                 }
4160             }
4161         }
4162         else if(IS_16X8(mb_type)){
4163             for(list=0; list<2; list++){
4164                 if(h->ref_count[list]>0){
4165                     for(i=0; i<2; i++){
4166                         if(IS_DIR(mb_type, i, list)){
4167                             const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4168                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, val, 1);
4169                         }else // needed only for mixed refs (e.g. B_L0_L1_16x8)
4170                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, (LIST_NOT_USED&0xFF), 1);
4171                     }
4172                 }
4173             }
4174             for(list=0; list<2; list++){
4175                 for(i=0; i<2; i++){
4176                     if(IS_DIR(mb_type, i, list)){
4177                         pred_16x8_motion(h, 8*i, list, h->ref_cache[list][scan8[0] + 16*i], &mx, &my);
4178                         mx += get_se_golomb(&s->gb);
4179                         my += get_se_golomb(&s->gb);
4180                         tprintf("final mv:%d %d\n", mx, my);
4181
4182                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx,my), 4);
4183                     }else
4184                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
4185                 }
4186             }
4187         }else{
4188             assert(IS_8X16(mb_type));
4189             for(list=0; list<2; list++){
4190                 if(h->ref_count[list]>0){
4191                     for(i=0; i<2; i++){
4192                         if(IS_DIR(mb_type, i, list)){ //FIXME optimize
4193                             const int val= get_te0_golomb(&s->gb, h->ref_count[list]);
4194                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, val, 1);
4195                         }else // needed only for mixed refs
4196                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, (LIST_NOT_USED&0xFF), 1);
4197                     }
4198                 }
4199             }
4200             for(list=0; list<2; list++){
4201                 for(i=0; i<2; i++){
4202                     if(IS_DIR(mb_type, i, list)){
4203                         pred_8x16_motion(h, i*4, list, h->ref_cache[list][ scan8[0] + 2*i ], &mx, &my);
4204                         mx += get_se_golomb(&s->gb);
4205                         my += get_se_golomb(&s->gb);
4206                         tprintf("final mv:%d %d\n", mx, my);
4207
4208                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx,my), 4);
4209                     }else
4210                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
4211                 }
4212             }
4213         }
4214     }
4215     
4216     if(IS_INTER(mb_type))
4217         write_back_motion(h, mb_type);
4218     
4219     if(!IS_INTRA16x16(mb_type)){
4220         cbp= get_ue_golomb(&s->gb);
4221         if(cbp > 47){
4222             av_log(h->s.avctx, AV_LOG_ERROR, "cbp too large (%d) at %d %d\n", cbp, s->mb_x, s->mb_y);
4223             return -1;
4224         }
4225         
4226         if(IS_INTRA4x4(mb_type))
4227             cbp= golomb_to_intra4x4_cbp[cbp];
4228         else
4229             cbp= golomb_to_inter_cbp[cbp];
4230     }
4231
4232     if(cbp || IS_INTRA16x16(mb_type)){
4233         int i8x8, i4x4, chroma_idx;
4234         int chroma_qp, dquant;
4235         GetBitContext *gb= IS_INTRA(mb_type) ? h->intra_gb_ptr : h->inter_gb_ptr;
4236         const uint8_t *scan, *dc_scan;
4237         
4238 //        fill_non_zero_count_cache(h);
4239
4240         if(IS_INTERLACED(mb_type)){
4241             scan= field_scan;
4242             dc_scan= luma_dc_field_scan;
4243         }else{
4244             scan= zigzag_scan;
4245             dc_scan= luma_dc_zigzag_scan;
4246         }
4247
4248         dquant= get_se_golomb(&s->gb);
4249
4250         if( dquant > 25 || dquant < -26 ){
4251             av_log(h->s.avctx, AV_LOG_ERROR, "dquant out of range (%d) at %d %d\n", dquant, s->mb_x, s->mb_y);
4252             return -1;
4253         }
4254         
4255         s->qscale += dquant;
4256         if(((unsigned)s->qscale) > 51){
4257             if(s->qscale<0) s->qscale+= 52;
4258             else            s->qscale-= 52;
4259         }
4260         
4261         h->chroma_qp= chroma_qp= get_chroma_qp(h, s->qscale);
4262         if(IS_INTRA16x16(mb_type)){
4263             if( decode_residual(h, h->intra_gb_ptr, h->mb, LUMA_DC_BLOCK_INDEX, dc_scan, s->qscale, 16) < 0){
4264                 return -1; //FIXME continue if partotioned and other retirn -1 too
4265             }
4266
4267             assert((cbp&15) == 0 || (cbp&15) == 15);
4268
4269             if(cbp&15){
4270                 for(i8x8=0; i8x8<4; i8x8++){
4271                     for(i4x4=0; i4x4<4; i4x4++){
4272                         const int index= i4x4 + 4*i8x8;
4273                         if( decode_residual(h, h->intra_gb_ptr, h->mb + 16*index, index, scan + 1, s->qscale, 15) < 0 ){
4274                             return -1;
4275                         }
4276                     }
4277                 }
4278             }else{
4279                 fill_rectangle(&h->non_zero_count_cache[scan8[0]], 4, 4, 8, 0, 1);
4280             }
4281         }else{
4282             for(i8x8=0; i8x8<4; i8x8++){
4283                 if(cbp & (1<<i8x8)){
4284                     for(i4x4=0; i4x4<4; i4x4++){
4285                         const int index= i4x4 + 4*i8x8;
4286                         
4287                         if( decode_residual(h, gb, h->mb + 16*index, index, scan, s->qscale, 16) <0 ){
4288                             return -1;
4289                         }
4290                     }
4291                 }else{
4292                     uint8_t * const nnz= &h->non_zero_count_cache[ scan8[4*i8x8] ];
4293                     nnz[0] = nnz[1] = nnz[8] = nnz[9] = 0;
4294                 }
4295             }
4296         }
4297         
4298         if(cbp&0x30){
4299             for(chroma_idx=0; chroma_idx<2; chroma_idx++)
4300                 if( decode_residual(h, gb, h->mb + 256 + 16*4*chroma_idx, CHROMA_DC_BLOCK_INDEX, chroma_dc_scan, chroma_qp, 4) < 0){
4301                     return -1;
4302                 }
4303         }
4304
4305         if(cbp&0x20){
4306             for(chroma_idx=0; chroma_idx<2; chroma_idx++){
4307                 for(i4x4=0; i4x4<4; i4x4++){
4308                     const int index= 16 + 4*chroma_idx + i4x4;
4309                     if( decode_residual(h, gb, h->mb + 16*index, index, scan + 1, chroma_qp, 15) < 0){
4310                         return -1;
4311                     }
4312                 }
4313             }
4314         }else{
4315             uint8_t * const nnz= &h->non_zero_count_cache[0];
4316             nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
4317             nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
4318         }
4319     }else{
4320         uint8_t * const nnz= &h->non_zero_count_cache[0];
4321         fill_rectangle(&nnz[scan8[0]], 4, 4, 8, 0, 1);
4322         nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
4323         nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
4324     }
4325     s->current_picture.qscale_table[mb_xy]= s->qscale;
4326     write_back_non_zero_count(h);
4327
4328     return 0;
4329 }
4330
4331 static int decode_cabac_intra_mb_type(H264Context *h, int ctx_base, int intra_slice) {
4332     uint8_t *state= &h->cabac_state[ctx_base];
4333     int mb_type;
4334     
4335     if(intra_slice){
4336         MpegEncContext * const s = &h->s;
4337         const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
4338         int ctx=0;
4339         if( s->mb_x > 0 && !IS_INTRA4x4( s->current_picture.mb_type[mb_xy-1] ) )
4340             ctx++;
4341         if( s->mb_y > 0 && !IS_INTRA4x4( s->current_picture.mb_type[mb_xy-s->mb_stride] ) )
4342             ctx++;
4343         if( get_cabac( &h->cabac, &state[ctx] ) == 0 )
4344             return 0;   /* I4x4 */
4345         state += 2;
4346     }else{
4347         if( get_cabac( &h->cabac, &state[0] ) == 0 )
4348             return 0;   /* I4x4 */
4349     }
4350
4351     if( get_cabac_terminate( &h->cabac ) )
4352         return 25;  /* PCM */
4353
4354     mb_type = 1; /* I16x16 */
4355     if( get_cabac( &h->cabac, &state[1] ) )
4356         mb_type += 12;  /* cbp_luma != 0 */
4357
4358     if( get_cabac( &h->cabac, &state[2] ) ) {
4359         if( get_cabac( &h->cabac, &state[2+intra_slice] ) )
4360             mb_type += 4 * 2;   /* cbp_chroma == 2 */
4361         else
4362             mb_type += 4 * 1;   /* cbp_chroma == 1 */
4363     }
4364     if( get_cabac( &h->cabac, &state[3+intra_slice] ) )
4365         mb_type += 2;
4366     if( get_cabac( &h->cabac, &state[3+2*intra_slice] ) )
4367         mb_type += 1;
4368     return mb_type;
4369 }
4370
4371 static int decode_cabac_mb_type( H264Context *h ) {
4372     MpegEncContext * const s = &h->s;
4373
4374     if( h->slice_type == I_TYPE ) {
4375         return decode_cabac_intra_mb_type(h, 3, 1);
4376     } else if( h->slice_type == P_TYPE ) {
4377         if( get_cabac( &h->cabac, &h->cabac_state[14] ) == 0 ) {
4378             /* P-type */
4379             if( get_cabac( &h->cabac, &h->cabac_state[15] ) == 0 ) {
4380                 if( get_cabac( &h->cabac, &h->cabac_state[16] ) == 0 )
4381                     return 0; /* P_L0_D16x16; */
4382                 else
4383                     return 3; /* P_8x8; */
4384             } else {
4385                 if( get_cabac( &h->cabac, &h->cabac_state[17] ) == 0 )
4386                     return 2; /* P_L0_D8x16; */
4387                 else
4388                     return 1; /* P_L0_D16x8; */
4389             }
4390         } else {
4391             return decode_cabac_intra_mb_type(h, 17, 0) + 5;
4392         }
4393     } else if( h->slice_type == B_TYPE ) {
4394         const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
4395         int ctx = 0;
4396         int bits;
4397
4398         if( s->mb_x > 0 && !IS_SKIP( s->current_picture.mb_type[mb_xy-1] )
4399                       && !IS_DIRECT( s->current_picture.mb_type[mb_xy-1] ) )
4400             ctx++;
4401         if( s->mb_y > 0 && !IS_SKIP( s->current_picture.mb_type[mb_xy-s->mb_stride] )
4402                       && !IS_DIRECT( s->current_picture.mb_type[mb_xy-s->mb_stride] ) )
4403             ctx++;
4404
4405         if( !get_cabac( &h->cabac, &h->cabac_state[27+ctx] ) )
4406             return 0; /* B_Direct_16x16 */
4407
4408         if( !get_cabac( &h->cabac, &h->cabac_state[27+3] ) ) {
4409             return 1 + get_cabac( &h->cabac, &h->cabac_state[27+5] ); /* B_L[01]_16x16 */
4410         }
4411
4412         bits = get_cabac( &h->cabac, &h->cabac_state[27+4] ) << 3;
4413         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] ) << 2;
4414         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] ) << 1;
4415         bits|= get_cabac( &h->cabac, &h->cabac_state[27+5] );
4416         if( bits < 8 )
4417             return bits + 3; /* B_Bi_16x16 through B_L1_L0_16x8 */
4418         else if( bits == 13 ) {
4419             return decode_cabac_intra_mb_type(h, 32, 0) + 23;
4420         } else if( bits == 14 )
4421             return 11; /* B_L1_L0_8x16 */
4422         else if( bits == 15 )
4423             return 22; /* B_8x8 */
4424
4425         bits= ( bits<<1 ) | get_cabac( &h->cabac, &h->cabac_state[27+5] );
4426         return bits - 4; /* B_L0_Bi_* through B_Bi_Bi_* */
4427     } else {
4428         /* TODO SI/SP frames? */
4429         return -1;
4430     }
4431 }
4432
4433 static int decode_cabac_mb_skip( H264Context *h) {
4434     MpegEncContext * const s = &h->s;
4435     const int mb_xy = s->mb_x + s->mb_y*s->mb_stride;
4436     const int mba_xy = mb_xy - 1;
4437     const int mbb_xy = mb_xy - s->mb_stride;
4438     int ctx = 0;
4439
4440     if( s->mb_x > 0 && !IS_SKIP( s->current_picture.mb_type[mba_xy] ) )
4441         ctx++;
4442     if( s->mb_y > 0 && !IS_SKIP( s->current_picture.mb_type[mbb_xy] ) )
4443         ctx++;
4444
4445     if( h->slice_type == P_TYPE || h->slice_type == SP_TYPE)
4446         return get_cabac( &h->cabac, &h->cabac_state[11+ctx] );
4447     else /* B-frame */
4448         return get_cabac( &h->cabac, &h->cabac_state[24+ctx] );
4449 }
4450
4451 static int decode_cabac_mb_intra4x4_pred_mode( H264Context *h, int pred_mode ) {
4452     int mode = 0;
4453
4454     if( get_cabac( &h->cabac, &h->cabac_state[68] ) )
4455         return pred_mode;
4456
4457     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4458         mode += 1;
4459     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4460         mode += 2;
4461     if( get_cabac( &h->cabac, &h->cabac_state[69] ) )
4462         mode += 4;
4463     if( mode >= pred_mode )
4464         return mode + 1;
4465     else
4466         return mode;
4467 }
4468
4469 static int decode_cabac_mb_chroma_pre_mode( H264Context *h) {
4470     MpegEncContext * const s = &h->s;
4471     const int mb_xy = s->mb_x + s->mb_y*s->mb_stride;
4472     const int mba_xy = mb_xy - 1;
4473     const int mbb_xy = mb_xy - s->mb_stride;
4474
4475     int ctx = 0;
4476
4477     /* No need to test for IS_INTRA4x4 and IS_INTRA16x16, as we set chroma_pred_mode_table to 0 */
4478     if( s->mb_x > 0 && h->chroma_pred_mode_table[mba_xy] != 0 )
4479         ctx++;
4480
4481     if( s->mb_y > 0 && h->chroma_pred_mode_table[mbb_xy] != 0 )
4482         ctx++;
4483
4484     if( get_cabac( &h->cabac, &h->cabac_state[64+ctx] ) == 0 )
4485         return 0;
4486
4487     if( get_cabac( &h->cabac, &h->cabac_state[64+3] ) == 0 )
4488         return 1;
4489     if( get_cabac( &h->cabac, &h->cabac_state[64+3] ) == 0 )
4490         return 2;
4491     else
4492         return 3;
4493 }
4494
4495 static const uint8_t block_idx_x[16] = {
4496     0, 1, 0, 1, 2, 3, 2, 3, 0, 1, 0, 1, 2, 3, 2, 3
4497 };
4498 static const uint8_t block_idx_y[16] = {
4499     0, 0, 1, 1, 0, 0, 1, 1, 2, 2, 3, 3, 2, 2, 3, 3
4500 };
4501 static const uint8_t block_idx_xy[4][4] = {
4502     { 0, 2, 8,  10},
4503     { 1, 3, 9,  11},
4504     { 4, 6, 12, 14},
4505     { 5, 7, 13, 15}
4506 };
4507
4508 static int decode_cabac_mb_cbp_luma( H264Context *h) {
4509     MpegEncContext * const s = &h->s;
4510     const int mb_xy = s->mb_x + s->mb_y*s->mb_stride;
4511
4512     int cbp = 0;
4513     int i8x8;
4514
4515     h->cbp_table[mb_xy] = 0;  /* FIXME aaahahahah beurk */
4516
4517     for( i8x8 = 0; i8x8 < 4; i8x8++ ) {
4518         int mba_xy = -1;
4519         int mbb_xy = -1;
4520         int x, y;
4521         int ctx = 0;
4522
4523         x = block_idx_x[4*i8x8];
4524         y = block_idx_y[4*i8x8];
4525
4526         if( x > 0 )
4527             mba_xy = mb_xy;
4528         else if( s->mb_x > 0 )
4529             mba_xy = mb_xy - 1;
4530
4531         if( y > 0 )
4532             mbb_xy = mb_xy;
4533         else if( s->mb_y > 0 )
4534             mbb_xy = mb_xy - s->mb_stride;
4535
4536         /* No need to test for skip as we put 0 for skip block */
4537         if( mba_xy >= 0 ) {
4538             int i8x8a = block_idx_xy[(x-1)&0x03][y]/4;
4539             if( ((h->cbp_table[mba_xy] >> i8x8a)&0x01) == 0 )
4540                 ctx++;
4541         }
4542
4543         if( mbb_xy >= 0 ) {
4544             int i8x8b = block_idx_xy[x][(y-1)&0x03]/4;
4545             if( ((h->cbp_table[mbb_xy] >> i8x8b)&0x01) == 0 )
4546                 ctx += 2;
4547         }
4548
4549         if( get_cabac( &h->cabac, &h->cabac_state[73 + ctx] ) ) {
4550             cbp |= 1 << i8x8;
4551             h->cbp_table[mb_xy] = cbp;  /* FIXME aaahahahah beurk */
4552         }
4553     }
4554     return cbp;
4555 }
4556 static int decode_cabac_mb_cbp_chroma( H264Context *h) {
4557     int ctx;
4558     int cbp_a, cbp_b;
4559
4560     cbp_a = (h->left_cbp>>4)&0x03;
4561     cbp_b = (h-> top_cbp>>4)&0x03;
4562
4563     ctx = 0;
4564     if( cbp_a > 0 ) ctx++;
4565     if( cbp_b > 0 ) ctx += 2;
4566     if( get_cabac( &h->cabac, &h->cabac_state[77 + ctx] ) == 0 )
4567         return 0;
4568
4569     ctx = 4;
4570     if( cbp_a == 2 ) ctx++;
4571     if( cbp_b == 2 ) ctx += 2;
4572     return 1 + get_cabac( &h->cabac, &h->cabac_state[77 + ctx] );
4573 }
4574 static int decode_cabac_mb_dqp( H264Context *h) {
4575     MpegEncContext * const s = &h->s;
4576     int mbn_xy;
4577     int   ctx = 0;
4578     int   val = 0;
4579
4580     if( s->mb_x > 0 )
4581         mbn_xy = s->mb_x + s->mb_y*s->mb_stride - 1;
4582     else
4583         mbn_xy = s->mb_width - 1 + (s->mb_y-1)*s->mb_stride;
4584
4585     if( mbn_xy >= 0 && h->last_qscale_diff != 0 && ( IS_INTRA16x16(s->current_picture.mb_type[mbn_xy] ) || (h->cbp_table[mbn_xy]&0x3f) ) )
4586         ctx++;
4587
4588     while( get_cabac( &h->cabac, &h->cabac_state[60 + ctx] ) ) {
4589         if( ctx < 2 )
4590             ctx = 2;
4591         else
4592             ctx = 3;
4593         val++;
4594     }
4595
4596     if( val&0x01 )
4597         return (val + 1)/2;
4598     else
4599         return -(val + 1)/2;
4600 }
4601 static int decode_cabac_p_mb_sub_type( H264Context *h ) {
4602     if( get_cabac( &h->cabac, &h->cabac_state[21] ) )
4603         return 0;   /* 8x8 */
4604     if( !get_cabac( &h->cabac, &h->cabac_state[22] ) )
4605         return 1;   /* 8x4 */
4606     if( get_cabac( &h->cabac, &h->cabac_state[23] ) )
4607         return 2;   /* 4x8 */
4608     return 3;       /* 4x4 */
4609 }
4610 static int decode_cabac_b_mb_sub_type( H264Context *h ) {
4611     int type;
4612     if( !get_cabac( &h->cabac, &h->cabac_state[36] ) )
4613         return 0;   /* B_Direct_8x8 */
4614     if( !get_cabac( &h->cabac, &h->cabac_state[37] ) )
4615         return 1 + get_cabac( &h->cabac, &h->cabac_state[39] ); /* B_L0_8x8, B_L1_8x8 */
4616     type = 3;
4617     if( get_cabac( &h->cabac, &h->cabac_state[38] ) ) {
4618         if( get_cabac( &h->cabac, &h->cabac_state[39] ) )
4619             return 11 + get_cabac( &h->cabac, &h->cabac_state[39] ); /* B_L1_4x4, B_Bi_4x4 */
4620         type += 4;
4621     }
4622     type += 2*get_cabac( &h->cabac, &h->cabac_state[39] );
4623     type +=   get_cabac( &h->cabac, &h->cabac_state[39] );
4624     return type;
4625 }
4626
4627 static int decode_cabac_mb_ref( H264Context *h, int list, int n ) {
4628     int refa = h->ref_cache[list][scan8[n] - 1];
4629     int refb = h->ref_cache[list][scan8[n] - 8];
4630     int ref  = 0;
4631     int ctx  = 0;
4632
4633     if( h->slice_type == B_TYPE) {
4634         if( refa > 0 && !h->direct_cache[scan8[n] - 1] )
4635             ctx++;
4636         if( refb > 0 && !h->direct_cache[scan8[n] - 8] )
4637             ctx += 2;
4638     } else {
4639         if( refa > 0 )
4640             ctx++;
4641         if( refb > 0 )
4642             ctx += 2;
4643     }
4644
4645     while( get_cabac( &h->cabac, &h->cabac_state[54+ctx] ) ) {
4646         ref++;
4647         if( ctx < 4 )
4648             ctx = 4;
4649         else
4650             ctx = 5;
4651     }
4652     return ref;
4653 }
4654
4655 static int decode_cabac_mb_mvd( H264Context *h, int list, int n, int l ) {
4656     int amvd = abs( h->mvd_cache[list][scan8[n] - 1][l] ) +
4657                abs( h->mvd_cache[list][scan8[n] - 8][l] );
4658     int ctxbase = (l == 0) ? 40 : 47;
4659     int ctx, mvd;
4660
4661     if( amvd < 3 )
4662         ctx = 0;
4663     else if( amvd > 32 )
4664         ctx = 2;
4665     else
4666         ctx = 1;
4667
4668     if(!get_cabac(&h->cabac, &h->cabac_state[ctxbase+ctx]))
4669         return 0;
4670
4671     mvd= 1;
4672     ctx= 3;
4673     while( mvd < 9 && get_cabac( &h->cabac, &h->cabac_state[ctxbase+ctx] ) ) {
4674         mvd++;
4675         if( ctx < 6 )
4676             ctx++;
4677     }
4678
4679     if( mvd >= 9 ) {
4680         int k = 3;
4681         while( get_cabac_bypass( &h->cabac ) ) {
4682             mvd += 1 << k;
4683             k++;
4684         }
4685         while( k-- ) {
4686             if( get_cabac_bypass( &h->cabac ) )
4687                 mvd += 1 << k;
4688         }
4689     }
4690     if( get_cabac_bypass( &h->cabac ) )  return -mvd;
4691     else                                 return  mvd;
4692 }
4693
4694 static int inline get_cabac_cbf_ctx( H264Context *h, int cat, int idx ) {
4695     int nza, nzb;
4696     int ctx = 0;
4697
4698     if( cat == 0 ) {
4699         nza = h->left_cbp&0x100;
4700         nzb = h-> top_cbp&0x100;
4701     } else if( cat == 1 || cat == 2 ) {
4702         nza = h->non_zero_count_cache[scan8[idx] - 1];
4703         nzb = h->non_zero_count_cache[scan8[idx] - 8];
4704     } else if( cat == 3 ) {
4705         nza = (h->left_cbp>>(6+idx))&0x01;
4706         nzb = (h-> top_cbp>>(6+idx))&0x01;
4707     } else {
4708         assert(cat == 4);
4709         nza = h->non_zero_count_cache[scan8[16+idx] - 1];
4710         nzb = h->non_zero_count_cache[scan8[16+idx] - 8];
4711     }
4712
4713     if( nza > 0 )
4714         ctx++;
4715
4716     if( nzb > 0 )
4717         ctx += 2;
4718
4719     return ctx + 4 * cat;
4720 }
4721
4722 static int inline decode_cabac_residual( H264Context *h, DCTELEM *block, int cat, int n, const uint8_t *scantable, int qp, int max_coeff) {
4723     const int mb_xy  = h->s.mb_x + h->s.mb_y*h->s.mb_stride;
4724     const uint16_t *qmul= dequant_coeff[qp];
4725     static const int significant_coeff_flag_offset[5] = { 0, 15, 29, 44, 47 };
4726     static const int coeff_abs_level_m1_offset[5] = {227+ 0, 227+10, 227+20, 227+30, 227+39 };
4727
4728     int index[16];
4729
4730     int i, last;
4731     int coeff_count = 0;
4732
4733     int abslevel1 = 1;
4734     int abslevelgt1 = 0;
4735
4736     /* cat: 0-> DC 16x16  n = 0
4737      *      1-> AC 16x16  n = luma4x4idx
4738      *      2-> Luma4x4   n = luma4x4idx
4739      *      3-> DC Chroma n = iCbCr
4740      *      4-> AC Chroma n = 4 * iCbCr + chroma4x4idx
4741      */
4742
4743     /* read coded block flag */
4744     if( get_cabac( &h->cabac, &h->cabac_state[85 + get_cabac_cbf_ctx( h, cat, n ) ] ) == 0 ) {
4745         if( cat == 1 || cat == 2 )
4746             h->non_zero_count_cache[scan8[n]] = 0;
4747         else if( cat == 4 )
4748             h->non_zero_count_cache[scan8[16+n]] = 0;
4749
4750         return 0;
4751     }
4752
4753     for(last= 0; last < max_coeff - 1; last++) {
4754         if( get_cabac( &h->cabac, &h->cabac_state[105+significant_coeff_flag_offset[cat]+last] )) {
4755             index[coeff_count++] = last;
4756             if( get_cabac( &h->cabac, &h->cabac_state[166+significant_coeff_flag_offset[cat]+last] ) ) {
4757                 last= max_coeff;
4758                 break;
4759             }
4760         }
4761     }
4762     if( last == max_coeff -1 ) {
4763         index[coeff_count++] = last;
4764     }
4765     assert(coeff_count > 0);
4766
4767     if( cat == 0 )
4768         h->cbp_table[mb_xy] |= 0x100;
4769     else if( cat == 1 || cat == 2 )
4770         h->non_zero_count_cache[scan8[n]] = coeff_count;
4771     else if( cat == 3 )
4772         h->cbp_table[mb_xy] |= 0x40 << n;
4773     else {
4774         assert( cat == 4 );
4775         h->non_zero_count_cache[scan8[16+n]] = coeff_count;
4776     }
4777
4778     for( i = coeff_count - 1; i >= 0; i-- ) {
4779         int ctx = (abslevelgt1 != 0 ? 0 : FFMIN( 4, abslevel1 )) + coeff_abs_level_m1_offset[cat];
4780         int j= scantable[index[i]];
4781
4782         if( get_cabac( &h->cabac, &h->cabac_state[ctx] ) == 0 ) {
4783             if( cat == 0 || cat == 3 ) {
4784                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -1;
4785                 else                                block[j] =  1;
4786             }else{
4787                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -qmul[j];
4788                 else                                block[j] =  qmul[j];
4789             }
4790     
4791             abslevel1++;
4792         } else {
4793             int coeff_abs = 2;
4794             ctx = 5 + FFMIN( 4, abslevelgt1 ) + coeff_abs_level_m1_offset[cat];
4795             while( coeff_abs < 15 && get_cabac( &h->cabac, &h->cabac_state[ctx] ) ) {
4796                 coeff_abs++;
4797             }
4798
4799             if( coeff_abs >= 15 ) {
4800                 int j = 0;
4801                 while( get_cabac_bypass( &h->cabac ) ) {
4802                     coeff_abs += 1 << j;
4803                     j++;
4804                 }
4805     
4806                 while( j-- ) {
4807                     if( get_cabac_bypass( &h->cabac ) )
4808                         coeff_abs += 1 << j ;
4809                 }
4810             }
4811
4812             if( cat == 0 || cat == 3 ) {
4813                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -coeff_abs;
4814                 else                                block[j] =  coeff_abs;
4815             }else{
4816                 if( get_cabac_bypass( &h->cabac ) ) block[j] = -coeff_abs * qmul[j];
4817                 else                                block[j] =  coeff_abs * qmul[j];
4818             }
4819     
4820             abslevelgt1++;
4821         }
4822     }
4823     return 0;
4824 }
4825
4826 /**
4827  * decodes a macroblock
4828  * @returns 0 if ok, AC_ERROR / DC_ERROR / MV_ERROR if an error is noticed
4829  */
4830 static int decode_mb_cabac(H264Context *h) {
4831     MpegEncContext * const s = &h->s;
4832     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
4833     int mb_type, partition_count, cbp = 0;
4834
4835     s->dsp.clear_blocks(h->mb); //FIXME avoid if allready clear (move after skip handlong?)
4836
4837     if( h->sps.mb_aff ) {
4838         av_log( h->s.avctx, AV_LOG_ERROR, "Fields not supported with CABAC\n" );
4839         return -1;
4840     }
4841
4842     tprintf("pic:%d mb:%d/%d\n", h->frame_num, s->mb_x, s->mb_y);
4843     if( h->slice_type != I_TYPE && h->slice_type != SI_TYPE ) {
4844         /* read skip flags */
4845         if( decode_cabac_mb_skip( h ) ) {
4846             decode_mb_skip(h);
4847
4848             h->cbp_table[mb_xy] = 0;
4849             h->chroma_pred_mode_table[mb_xy] = 0;
4850             h->last_qscale_diff = 0;
4851
4852             return 0;
4853
4854         }
4855     }
4856     h->prev_mb_skiped = 0;
4857
4858     if( ( mb_type = decode_cabac_mb_type( h ) ) < 0 ) {
4859         av_log( h->s.avctx, AV_LOG_ERROR, "decode_cabac_mb_type failed\n" );
4860         return -1;
4861     }
4862
4863     if( h->slice_type == B_TYPE ) {
4864         if( mb_type < 23 ){
4865             partition_count= b_mb_type_info[mb_type].partition_count;
4866             mb_type=         b_mb_type_info[mb_type].type;
4867         }else{
4868             mb_type -= 23;
4869             goto decode_intra_mb;
4870         }
4871     } else if( h->slice_type == P_TYPE ) {
4872         if( mb_type < 5) {
4873             partition_count= p_mb_type_info[mb_type].partition_count;
4874             mb_type=         p_mb_type_info[mb_type].type;
4875         } else {
4876             mb_type -= 5;
4877             goto decode_intra_mb;
4878         }
4879     } else {
4880        assert(h->slice_type == I_TYPE);
4881 decode_intra_mb:
4882         partition_count = 0;
4883         cbp= i_mb_type_info[mb_type].cbp;
4884         h->intra16x16_pred_mode= i_mb_type_info[mb_type].pred_mode;
4885         mb_type= i_mb_type_info[mb_type].type;
4886     }
4887 #if 0
4888     if(h->mb_field_decoding_flag)
4889         mb_type |= MB_TYPE_INTERLACED;
4890 #endif
4891
4892     s->current_picture.mb_type[mb_xy]= mb_type;
4893     h->slice_table[ mb_xy ]= h->slice_num;
4894
4895     if(IS_INTRA_PCM(mb_type)) {
4896         /* TODO */
4897         assert(0);
4898         h->cbp_table[mb_xy] = 0xf +4*2; //FIXME ?!
4899         h->cbp_table[mb_xy] |= 0x1C0;
4900         h->chroma_pred_mode_table[mb_xy] = 0;
4901         s->current_picture.qscale_table[mb_xy]= s->qscale;
4902         return -1;
4903     }
4904
4905     fill_caches(h, mb_type, 0);
4906
4907     if( IS_INTRA( mb_type ) ) {
4908         if( IS_INTRA4x4( mb_type ) ) {
4909             int i;
4910             for( i = 0; i < 16; i++ ) {
4911                 int pred = pred_intra_mode( h, i );
4912                 h->intra4x4_pred_mode_cache[ scan8[i] ] = decode_cabac_mb_intra4x4_pred_mode( h, pred );
4913
4914                 //av_log( s->avctx, AV_LOG_ERROR, "i4x4 pred=%d mode=%d\n", pred, h->intra4x4_pred_mode_cache[ scan8[i] ] );
4915             }
4916             write_back_intra_pred_mode(h);
4917             if( check_intra4x4_pred_mode(h) < 0 ) return -1;
4918         } else {
4919             h->intra16x16_pred_mode= check_intra_pred_mode( h, h->intra16x16_pred_mode );
4920             if( h->intra16x16_pred_mode < 0 ) return -1;
4921         }
4922         h->chroma_pred_mode_table[mb_xy] =
4923             h->chroma_pred_mode          = decode_cabac_mb_chroma_pre_mode( h );
4924
4925         h->chroma_pred_mode= check_intra_pred_mode( h, h->chroma_pred_mode );
4926         if( h->chroma_pred_mode < 0 ) return -1;
4927     } else if( partition_count == 4 ) {
4928         int i, j, sub_partition_count[4], list, ref[2][4];
4929
4930         if( h->slice_type == B_TYPE ) {
4931             for( i = 0; i < 4; i++ ) {
4932                 h->sub_mb_type[i] = decode_cabac_b_mb_sub_type( h );
4933                 sub_partition_count[i]= b_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
4934                 h->sub_mb_type[i]=      b_sub_mb_type_info[ h->sub_mb_type[i] ].type;
4935             }
4936             if(   IS_DIRECT(h->sub_mb_type[0]) || IS_DIRECT(h->sub_mb_type[1])
4937                || IS_DIRECT(h->sub_mb_type[2]) || IS_DIRECT(h->sub_mb_type[3])) {
4938                 pred_direct_motion(h, &mb_type);
4939                 if( h->ref_count[0] > 1 || h->ref_count[1] > 1 ) {
4940                     for( i = 0; i < 4; i++ )
4941                         if( IS_DIRECT(h->sub_mb_type[i]) )
4942                             fill_rectangle( &h->direct_cache[scan8[4*i]], 2, 2, 8, 1, 1 );
4943                 }
4944             }
4945         } else {
4946             for( i = 0; i < 4; i++ ) {
4947                 h->sub_mb_type[i] = decode_cabac_p_mb_sub_type( h );
4948                 sub_partition_count[i]= p_sub_mb_type_info[ h->sub_mb_type[i] ].partition_count;
4949                 h->sub_mb_type[i]=      p_sub_mb_type_info[ h->sub_mb_type[i] ].type;
4950             }
4951         }
4952
4953         for( list = 0; list < 2; list++ ) {
4954             if( h->ref_count[list] > 0 ) {
4955                 for( i = 0; i < 4; i++ ) {
4956                     if(IS_DIRECT(h->sub_mb_type[i])) continue;
4957                     if(IS_DIR(h->sub_mb_type[i], 0, list)){
4958                         if( h->ref_count[list] > 1 )
4959                             ref[list][i] = decode_cabac_mb_ref( h, list, 4*i );
4960                         else
4961                             ref[list][i] = 0;
4962                     } else {
4963                         ref[list][i] = -1;
4964                     }
4965                                                        h->ref_cache[list][ scan8[4*i]+1 ]=
4966                     h->ref_cache[list][ scan8[4*i]+8 ]=h->ref_cache[list][ scan8[4*i]+9 ]= ref[list][i];
4967                 }
4968             }
4969         }
4970
4971         for(list=0; list<2; list++){
4972             for(i=0; i<4; i++){
4973                 if(IS_DIRECT(h->sub_mb_type[i])){
4974                     fill_rectangle(h->mvd_cache[list][scan8[4*i]], 2, 2, 8, 0, 4);
4975                     continue;
4976                 }
4977                 h->ref_cache[list][ scan8[4*i]   ]=h->ref_cache[list][ scan8[4*i]+1 ];
4978
4979                 if(IS_DIR(h->sub_mb_type[i], 0, list) && !IS_DIRECT(h->sub_mb_type[i])){
4980                     const int sub_mb_type= h->sub_mb_type[i];
4981                     const int block_width= (sub_mb_type & (MB_TYPE_16x16|MB_TYPE_16x8)) ? 2 : 1;
4982                     for(j=0; j<sub_partition_count[i]; j++){
4983                         int mpx, mpy;
4984                         int mx, my;
4985                         const int index= 4*i + block_width*j;
4986                         int16_t (* mv_cache)[2]= &h->mv_cache[list][ scan8[index] ];
4987                         int16_t (* mvd_cache)[2]= &h->mvd_cache[list][ scan8[index] ];
4988                         pred_motion(h, index, block_width, list, h->ref_cache[list][ scan8[index] ], &mpx, &mpy);
4989
4990                         mx = mpx + decode_cabac_mb_mvd( h, list, index, 0 );
4991                         my = mpy + decode_cabac_mb_mvd( h, list, index, 1 );
4992                         tprintf("final mv:%d %d\n", mx, my);
4993
4994                         if(IS_SUB_8X8(sub_mb_type)){
4995                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]=
4996                             mv_cache[ 8 ][0]= mv_cache[ 9 ][0]= mx;
4997                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]=
4998                             mv_cache[ 8 ][1]= mv_cache[ 9 ][1]= my;
4999
5000                             mvd_cache[ 0 ][0]= mvd_cache[ 1 ][0]=
5001                             mvd_cache[ 8 ][0]= mvd_cache[ 9 ][0]= mx - mpx;
5002                             mvd_cache[ 0 ][1]= mvd_cache[ 1 ][1]=
5003                             mvd_cache[ 8 ][1]= mvd_cache[ 9 ][1]= my - mpy;
5004                         }else if(IS_SUB_8X4(sub_mb_type)){
5005                             mv_cache[ 0 ][0]= mv_cache[ 1 ][0]= mx;
5006                             mv_cache[ 0 ][1]= mv_cache[ 1 ][1]= my;
5007
5008                             mvd_cache[ 0 ][0]= mvd_cache[ 1 ][0]= mx- mpx;
5009                             mvd_cache[ 0 ][1]= mvd_cache[ 1 ][1]= my - mpy;
5010                         }else if(IS_SUB_4X8(sub_mb_type)){
5011                             mv_cache[ 0 ][0]= mv_cache[ 8 ][0]= mx;
5012                             mv_cache[ 0 ][1]= mv_cache[ 8 ][1]= my;
5013
5014                             mvd_cache[ 0 ][0]= mvd_cache[ 8 ][0]= mx - mpx;
5015                             mvd_cache[ 0 ][1]= mvd_cache[ 8 ][1]= my - mpy;
5016                         }else{
5017                             assert(IS_SUB_4X4(sub_mb_type));
5018                             mv_cache[ 0 ][0]= mx;
5019                             mv_cache[ 0 ][1]= my;
5020
5021                             mvd_cache[ 0 ][0]= mx - mpx;
5022                             mvd_cache[ 0 ][1]= my - mpy;
5023                         }
5024                     }
5025                 }else{
5026                     uint32_t *p= (uint32_t *)&h->mv_cache[list][ scan8[4*i] ][0];
5027                     uint32_t *pd= (uint32_t *)&h->mvd_cache[list][ scan8[4*i] ][0];
5028                     p[0] = p[1] = p[8] = p[9] = 0;
5029                     pd[0]= pd[1]= pd[8]= pd[9]= 0;
5030                 }
5031             }
5032         }
5033     } else if( IS_DIRECT(mb_type) ) {
5034         pred_direct_motion(h, &mb_type);
5035         s->current_picture.mb_type[mb_xy]= mb_type;
5036         fill_rectangle(h->mvd_cache[0][scan8[0]], 4, 4, 8, 0, 4);
5037         fill_rectangle(h->mvd_cache[1][scan8[0]], 4, 4, 8, 0, 4);
5038     } else {
5039         int list, mx, my, i, mpx, mpy;
5040         if(IS_16X16(mb_type)){
5041             for(list=0; list<2; list++){
5042                 if(IS_DIR(mb_type, 0, list)){
5043                     if(h->ref_count[list] > 0 ){
5044                         const int ref = h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 0 ) : 0;
5045                         fill_rectangle(&h->ref_cache[list][ scan8[0] ], 4, 4, 8, ref, 1);
5046                     }
5047                 }
5048             }
5049             for(list=0; list<2; list++){
5050                 if(IS_DIR(mb_type, 0, list)){
5051                     pred_motion(h, 0, 4, list, h->ref_cache[list][ scan8[0] ], &mpx, &mpy);
5052
5053                     mx = mpx + decode_cabac_mb_mvd( h, list, 0, 0 );
5054                     my = mpy + decode_cabac_mb_mvd( h, list, 0, 1 );
5055                     tprintf("final mv:%d %d\n", mx, my);
5056
5057                     fill_rectangle(h->mvd_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx-mpx,my-mpy), 4);
5058                     fill_rectangle(h->mv_cache[list][ scan8[0] ], 4, 4, 8, pack16to32(mx,my), 4);
5059                 }
5060             }
5061         }
5062         else if(IS_16X8(mb_type)){
5063             for(list=0; list<2; list++){
5064                 if(h->ref_count[list]>0){
5065                     for(i=0; i<2; i++){
5066                         if(IS_DIR(mb_type, i, list)){
5067                             const int ref= h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 8*i ) : 0;
5068                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, ref, 1);
5069                         }else
5070                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 16*i ], 4, 2, 8, (LIST_NOT_USED&0xFF), 1);
5071                     }
5072                 }
5073             }
5074             for(list=0; list<2; list++){
5075                 for(i=0; i<2; i++){
5076                     if(IS_DIR(mb_type, i, list)){
5077                         pred_16x8_motion(h, 8*i, list, h->ref_cache[list][scan8[0] + 16*i], &mpx, &mpy);
5078                         mx = mpx + decode_cabac_mb_mvd( h, list, 8*i, 0 );
5079                         my = mpy + decode_cabac_mb_mvd( h, list, 8*i, 1 );
5080                         tprintf("final mv:%d %d\n", mx, my);
5081
5082                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx-mpx,my-mpy), 4);
5083                         fill_rectangle(h->mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, pack16to32(mx,my), 4);
5084                     }else{ // needed only for mixed refs
5085                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
5086                         fill_rectangle(h-> mv_cache[list][ scan8[0] + 16*i ], 4, 2, 8, 0, 4);
5087                     }
5088                 }
5089             }
5090         }else{
5091             assert(IS_8X16(mb_type));
5092             for(list=0; list<2; list++){
5093                 if(h->ref_count[list]>0){
5094                     for(i=0; i<2; i++){
5095                         if(IS_DIR(mb_type, i, list)){ //FIXME optimize
5096                             const int ref= h->ref_count[list] > 1 ? decode_cabac_mb_ref( h, list, 4*i ) : 0;
5097                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, ref, 1);
5098                         }else
5099                             fill_rectangle(&h->ref_cache[list][ scan8[0] + 2*i ], 2, 4, 8, (LIST_NOT_USED&0xFF), 1);
5100                     }
5101                 }
5102             }
5103             for(list=0; list<2; list++){
5104                 for(i=0; i<2; i++){
5105                     if(IS_DIR(mb_type, i, list)){
5106                         pred_8x16_motion(h, i*4, list, h->ref_cache[list][ scan8[0] + 2*i ], &mpx, &mpy);
5107                         mx = mpx + decode_cabac_mb_mvd( h, list, 4*i, 0 );
5108                         my = mpy + decode_cabac_mb_mvd( h, list, 4*i, 1 );
5109
5110                         tprintf("final mv:%d %d\n", mx, my);
5111                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx-mpx,my-mpy), 4);
5112                         fill_rectangle(h->mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, pack16to32(mx,my), 4);
5113                     }else{ // needed only for mixed refs
5114                         fill_rectangle(h->mvd_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
5115                         fill_rectangle(h-> mv_cache[list][ scan8[0] + 2*i ], 2, 4, 8, 0, 4);
5116                     }
5117                 }
5118             }
5119         }
5120     }
5121
5122    if( IS_INTER( mb_type ) ) {
5123         h->chroma_pred_mode_table[mb_xy] = 0;
5124         write_back_motion( h, mb_type );
5125    }
5126
5127     if( !IS_INTRA16x16( mb_type ) ) {
5128         cbp  = decode_cabac_mb_cbp_luma( h );
5129         cbp |= decode_cabac_mb_cbp_chroma( h ) << 4;
5130     }
5131
5132     h->cbp_table[mb_xy] = cbp;
5133
5134     if( cbp || IS_INTRA16x16( mb_type ) ) {
5135         const uint8_t *scan, *dc_scan;
5136         int dqp;
5137
5138         if(IS_INTERLACED(mb_type)){
5139             scan= field_scan;
5140             dc_scan= luma_dc_field_scan;
5141         }else{
5142             scan= zigzag_scan;
5143             dc_scan= luma_dc_zigzag_scan;
5144         }
5145
5146         h->last_qscale_diff = dqp = decode_cabac_mb_dqp( h );
5147         s->qscale += dqp;
5148         if(((unsigned)s->qscale) > 51){
5149             if(s->qscale<0) s->qscale+= 52;
5150             else            s->qscale-= 52;
5151         }
5152         h->chroma_qp = get_chroma_qp(h, s->qscale);
5153
5154         if( IS_INTRA16x16( mb_type ) ) {
5155             int i;
5156             //av_log( s->avctx, AV_LOG_ERROR, "INTRA16x16 DC\n" );
5157             if( decode_cabac_residual( h, h->mb, 0, 0, dc_scan, s->qscale, 16) < 0)
5158                 return -1;
5159             if( cbp&15 ) {
5160                 for( i = 0; i < 16; i++ ) {
5161                     //av_log( s->avctx, AV_LOG_ERROR, "INTRA16x16 AC:%d\n", i );
5162                     if( decode_cabac_residual(h, h->mb + 16*i, 1, i, scan + 1, s->qscale, 15) < 0 )
5163                         return -1;
5164                 }
5165             } else {
5166                 fill_rectangle(&h->non_zero_count_cache[scan8[0]], 4, 4, 8, 0, 1);
5167             }
5168         } else {
5169             int i8x8, i4x4;
5170             for( i8x8 = 0; i8x8 < 4; i8x8++ ) {
5171                 if( cbp & (1<<i8x8) ) {
5172                     for( i4x4 = 0; i4x4 < 4; i4x4++ ) {
5173                         const int index = 4*i8x8 + i4x4;
5174                         //av_log( s->avctx, AV_LOG_ERROR, "Luma4x4: %d\n", index );
5175                         if( decode_cabac_residual(h, h->mb + 16*index, 2, index, scan, s->qscale, 16) < 0 )
5176                             return -1;
5177                     }
5178                 } else {
5179                     uint8_t * const nnz= &h->non_zero_count_cache[ scan8[4*i8x8] ];
5180                     nnz[0] = nnz[1] = nnz[8] = nnz[9] = 0;
5181                 }
5182             }
5183         }
5184
5185         if( cbp&0x30 ){
5186             int c;
5187             for( c = 0; c < 2; c++ ) {
5188                 //av_log( s->avctx, AV_LOG_ERROR, "INTRA C%d-DC\n",c );
5189                 if( decode_cabac_residual(h, h->mb + 256 + 16*4*c, 3, c, chroma_dc_scan, h->chroma_qp, 4) < 0)
5190                     return -1;
5191             }
5192         }
5193
5194         if( cbp&0x20 ) {
5195             int c, i;
5196             for( c = 0; c < 2; c++ ) {
5197                 for( i = 0; i < 4; i++ ) {
5198                     const int index = 16 + 4 * c + i;
5199                     //av_log( s->avctx, AV_LOG_ERROR, "INTRA C%d-AC %d\n",c, index - 16 );
5200                     if( decode_cabac_residual(h, h->mb + 16*index, 4, index - 16, scan + 1, h->chroma_qp, 15) < 0)
5201                         return -1;
5202                 }
5203             }
5204         } else {
5205             uint8_t * const nnz= &h->non_zero_count_cache[0];
5206             nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
5207             nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
5208         }
5209     } else {
5210         uint8_t * const nnz= &h->non_zero_count_cache[0];
5211         fill_rectangle(&nnz[scan8[0]], 4, 4, 8, 0, 1);
5212         nnz[ scan8[16]+0 ] = nnz[ scan8[16]+1 ] =nnz[ scan8[16]+8 ] =nnz[ scan8[16]+9 ] =
5213         nnz[ scan8[20]+0 ] = nnz[ scan8[20]+1 ] =nnz[ scan8[20]+8 ] =nnz[ scan8[20]+9 ] = 0;
5214     }
5215
5216     s->current_picture.qscale_table[mb_xy]= s->qscale;
5217     write_back_non_zero_count(h);
5218
5219     return 0;
5220 }
5221
5222
5223 static void filter_mb_edgev( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5224     int i, d;
5225     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5226     const int alpha = alpha_table[index_a];
5227     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5228
5229     for( i = 0; i < 4; i++ ) {
5230         if( bS[i] == 0 ) {
5231             pix += 4 * stride;
5232             continue;
5233         }
5234
5235         if( bS[i] < 4 ) {
5236             const int tc0 = tc0_table[index_a][bS[i] - 1];
5237             /* 4px edge length */
5238             for( d = 0; d < 4; d++ ) {
5239                 const int p0 = pix[-1];
5240                 const int p1 = pix[-2];
5241                 const int p2 = pix[-3];
5242                 const int q0 = pix[0];
5243                 const int q1 = pix[1];
5244                 const int q2 = pix[2];
5245
5246                 if( ABS( p0 - q0 ) < alpha &&
5247                     ABS( p1 - p0 ) < beta &&
5248                     ABS( q1 - q0 ) < beta ) {
5249                     int tc = tc0;
5250                     int i_delta;
5251
5252                     if( ABS( p2 - p0 ) < beta ) {
5253                         pix[-2] = p1 + clip( ( p2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( p1 << 1 ) ) >> 1, -tc0, tc0 );
5254                         tc++;
5255                     }
5256                     if( ABS( q2 - q0 ) < beta ) {
5257                         pix[1] = q1 + clip( ( q2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( q1 << 1 ) ) >> 1, -tc0, tc0 );
5258                         tc++;
5259                     }
5260
5261                     i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5262                     pix[-1] = clip_uint8( p0 + i_delta );    /* p0' */
5263                     pix[0]  = clip_uint8( q0 - i_delta );    /* q0' */
5264                 }
5265                 pix += stride;
5266             }
5267         }else{
5268             /* 4px edge length */
5269             for( d = 0; d < 4; d++ ) {
5270                 const int p0 = pix[-1];
5271                 const int p1 = pix[-2];
5272                 const int p2 = pix[-3];
5273
5274                 const int q0 = pix[0];
5275                 const int q1 = pix[1];
5276                 const int q2 = pix[2];
5277
5278                 if( ABS( p0 - q0 ) < alpha &&
5279                     ABS( p1 - p0 ) < beta &&
5280                     ABS( q1 - q0 ) < beta ) {
5281
5282                     if(ABS( p0 - q0 ) < (( alpha >> 2 ) + 2 )){
5283                         if( ABS( p2 - p0 ) < beta)
5284                         {
5285                             const int p3 = pix[-4];
5286                             /* p0', p1', p2' */
5287                             pix[-1] = ( p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4 ) >> 3;
5288                             pix[-2] = ( p2 + p1 + p0 + q0 + 2 ) >> 2;
5289                             pix[-3] = ( 2*p3 + 3*p2 + p1 + p0 + q0 + 4 ) >> 3;
5290                         } else {
5291                             /* p0' */
5292                             pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5293                         }
5294                         if( ABS( q2 - q0 ) < beta)
5295                         {
5296                             const int q3 = pix[3];
5297                             /* q0', q1', q2' */
5298                             pix[0] = ( p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4 ) >> 3;
5299                             pix[1] = ( p0 + q0 + q1 + q2 + 2 ) >> 2;
5300                             pix[2] = ( 2*q3 + 3*q2 + q1 + q0 + p0 + 4 ) >> 3;
5301                         } else {
5302                             /* q0' */
5303                             pix[0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5304                         }
5305                     }else{
5306                         /* p0', q0' */
5307                         pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5308                         pix[ 0] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5309                     }
5310                 }
5311                 pix += stride;
5312             }
5313         }
5314     }
5315 }
5316 static void filter_mb_edgecv( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5317     int i, d;
5318     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5319     const int alpha = alpha_table[index_a];
5320     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5321
5322     for( i = 0; i < 4; i++ ) {
5323         if( bS[i] == 0 ) {
5324             pix += 2 * stride;
5325             continue;
5326         }
5327
5328         if( bS[i] < 4 ) {
5329             const int tc = tc0_table[index_a][bS[i] - 1] + 1;
5330             /* 2px edge length (because we use same bS than the one for luma) */
5331             for( d = 0; d < 2; d++ ){
5332                 const int p0 = pix[-1];
5333                 const int p1 = pix[-2];
5334                 const int q0 = pix[0];
5335                 const int q1 = pix[1];
5336
5337                 if( ABS( p0 - q0 ) < alpha &&
5338                     ABS( p1 - p0 ) < beta &&
5339                     ABS( q1 - q0 ) < beta ) {
5340                     const int i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5341
5342                     pix[-1] = clip_uint8( p0 + i_delta );    /* p0' */
5343                     pix[0]  = clip_uint8( q0 - i_delta );    /* q0' */
5344                     //tprintf("filter_mb_edgecv i:%d d:%d, qp:%d, indexA:%d, alpha:%d, beta:%d, tc:%d\n# bS:%d -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, qp, index_a, alpha, beta, tc, bS[i], pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5345                 }
5346                 pix += stride;
5347             }
5348         }else{
5349             /* 2px edge length (because we use same bS than the one for luma) */
5350             for( d = 0; d < 2; d++ ){
5351                 const int p0 = pix[-1];
5352                 const int p1 = pix[-2];
5353                 const int q0 = pix[0];
5354                 const int q1 = pix[1];
5355
5356                 if( ABS( p0 - q0 ) < alpha &&
5357                     ABS( p1 - p0 ) < beta &&
5358                     ABS( q1 - q0 ) < beta ) {
5359
5360                     pix[-1] = ( 2*p1 + p0 + q1 + 2 ) >> 2;   /* p0' */
5361                     pix[0]  = ( 2*q1 + q0 + p1 + 2 ) >> 2;   /* q0' */
5362                     //tprintf("filter_mb_edgecv i:%d d:%d\n# bS:4 -> [%02x, %02x, %02x, %02x, %02x, %02x] =>[%02x, %02x, %02x, %02x]\n", i, d, pix[-3], p1, p0, q0, q1, pix[2], p1, pix[-1], pix[0], q1);
5363                 }
5364                 pix += stride;
5365             }
5366         }
5367     }
5368 }
5369
5370 static void filter_mb_edgeh( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5371     int i, d;
5372     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5373     const int alpha = alpha_table[index_a];
5374     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5375     const int pix_next  = stride;
5376
5377     for( i = 0; i < 4; i++ ) {
5378         if( bS[i] == 0 ) {
5379             pix += 4;
5380             continue;
5381         }
5382
5383         if( bS[i] < 4 ) {
5384             const int tc0 = tc0_table[index_a][bS[i] - 1];
5385             /* 4px edge length */
5386             for( d = 0; d < 4; d++ ) {
5387                 const int p0 = pix[-1*pix_next];
5388                 const int p1 = pix[-2*pix_next];
5389                 const int p2 = pix[-3*pix_next];
5390                 const int q0 = pix[0];
5391                 const int q1 = pix[1*pix_next];
5392                 const int q2 = pix[2*pix_next];
5393
5394                 if( ABS( p0 - q0 ) < alpha &&
5395                     ABS( p1 - p0 ) < beta &&
5396                     ABS( q1 - q0 ) < beta ) {
5397
5398                     int tc = tc0;
5399                     int i_delta;
5400
5401                     if( ABS( p2 - p0 ) < beta ) {
5402                         pix[-2*pix_next] = p1 + clip( ( p2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( p1 << 1 ) ) >> 1, -tc0, tc0 );
5403                         tc++;
5404                     }
5405                     if( ABS( q2 - q0 ) < beta ) {
5406                         pix[pix_next] = q1 + clip( ( q2 + ( ( p0 + q0 + 1 ) >> 1 ) - ( q1 << 1 ) ) >> 1, -tc0, tc0 );
5407                         tc++;
5408                     }
5409
5410                     i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5411                     pix[-pix_next] = clip_uint8( p0 + i_delta );    /* p0' */
5412                     pix[0]         = clip_uint8( q0 - i_delta );    /* q0' */
5413                 }
5414                 pix++;
5415             }
5416         }else{
5417             /* 4px edge length */
5418             for( d = 0; d < 4; d++ ) {
5419                 const int p0 = pix[-1*pix_next];
5420                 const int p1 = pix[-2*pix_next];
5421                 const int p2 = pix[-3*pix_next];
5422                 const int q0 = pix[0];
5423                 const int q1 = pix[1*pix_next];
5424                 const int q2 = pix[2*pix_next];
5425
5426                 if( ABS( p0 - q0 ) < alpha &&
5427                     ABS( p1 - p0 ) < beta &&
5428                     ABS( q1 - q0 ) < beta ) {
5429
5430                     const int p3 = pix[-4*pix_next];
5431                     const int q3 = pix[ 3*pix_next];
5432
5433                     if(ABS( p0 - q0 ) < (( alpha >> 2 ) + 2 )){
5434                         if( ABS( p2 - p0 ) < beta) {
5435                             /* p0', p1', p2' */
5436                             pix[-1*pix_next] = ( p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4 ) >> 3;
5437                             pix[-2*pix_next] = ( p2 + p1 + p0 + q0 + 2 ) >> 2;
5438                             pix[-3*pix_next] = ( 2*p3 + 3*p2 + p1 + p0 + q0 + 4 ) >> 3;
5439                         } else {
5440                             /* p0' */
5441                             pix[-1*pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5442                         }
5443                         if( ABS( q2 - q0 ) < beta) {
5444                             /* q0', q1', q2' */
5445                             pix[0*pix_next] = ( p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4 ) >> 3;
5446                             pix[1*pix_next] = ( p0 + q0 + q1 + q2 + 2 ) >> 2;
5447                             pix[2*pix_next] = ( 2*q3 + 3*q2 + q1 + q0 + p0 + 4 ) >> 3;
5448                         } else {
5449                             /* q0' */
5450                             pix[0*pix_next] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5451                         }
5452                     }else{
5453                         /* p0', q0' */
5454                         pix[-1*pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;
5455                         pix[ 0*pix_next] = ( 2*q1 + q0 + p1 + 2 ) >> 2;
5456                     }
5457                 }
5458                 pix++;
5459             }
5460         }
5461     }
5462 }
5463
5464 static void filter_mb_edgech( H264Context *h, uint8_t *pix, int stride, int bS[4], int qp ) {
5465     int i, d;
5466     const int index_a = clip( qp + h->slice_alpha_c0_offset, 0, 51 );
5467     const int alpha = alpha_table[index_a];
5468     const int beta  = beta_table[clip( qp + h->slice_beta_offset, 0, 51 )];
5469     const int pix_next  = stride;
5470
5471     for( i = 0; i < 4; i++ )
5472     {
5473         if( bS[i] == 0 ) {
5474             pix += 2;
5475             continue;
5476         }
5477
5478         if( bS[i] < 4 ) {
5479             int tc = tc0_table[index_a][bS[i] - 1] + 1;
5480             /* 2px edge length (see deblocking_filter_edgecv) */
5481             for( d = 0; d < 2; d++ ) {
5482                 const int p0 = pix[-1*pix_next];
5483                 const int p1 = pix[-2*pix_next];
5484                 const int q0 = pix[0];
5485                 const int q1 = pix[1*pix_next];
5486
5487                 if( ABS( p0 - q0 ) < alpha &&
5488                     ABS( p1 - p0 ) < beta &&
5489                     ABS( q1 - q0 ) < beta ) {
5490
5491                     int i_delta = clip( (((q0 - p0 ) << 2) + (p1 - q1) + 4) >> 3, -tc, tc );
5492
5493                     pix[-pix_next] = clip_uint8( p0 + i_delta );    /* p0' */
5494                     pix[0]         = clip_uint8( q0 - i_delta );    /* q0' */
5495                 }
5496                 pix++;
5497             }
5498         }else{
5499             /* 2px edge length (see deblocking_filter_edgecv) */
5500             for( d = 0; d < 2; d++ ) {
5501                 const int p0 = pix[-1*pix_next];
5502                 const int p1 = pix[-2*pix_next];
5503                 const int q0 = pix[0];
5504                 const int q1 = pix[1*pix_next];
5505
5506                 if( ABS( p0 - q0 ) < alpha &&
5507                     ABS( p1 - p0 ) < beta &&
5508                     ABS( q1 - q0 ) < beta ) {
5509
5510                     pix[-pix_next] = ( 2*p1 + p0 + q1 + 2 ) >> 2;   /* p0' */
5511                     pix[0]         = ( 2*q1 + q0 + p1 + 2 ) >> 2;   /* q0' */
5512                 }
5513                 pix++;
5514             }
5515         }
5516     }
5517 }
5518
5519 static void filter_mb( H264Context *h, int mb_x, int mb_y, uint8_t *img_y, uint8_t *img_cb, uint8_t *img_cr) {
5520     MpegEncContext * const s = &h->s;
5521     const int mb_xy= mb_x + mb_y*s->mb_stride;
5522     int linesize, uvlinesize;
5523     int dir;
5524
5525     /* FIXME Implement deblocking filter for field MB */
5526     if( h->sps.mb_aff ) {
5527         return;
5528     }
5529     linesize = s->linesize;
5530     uvlinesize = s->uvlinesize;
5531
5532     /* dir : 0 -> vertical edge, 1 -> horizontal edge */
5533     for( dir = 0; dir < 2; dir++ )
5534     {
5535         int start = 0;
5536         int edge;
5537
5538         /* test picture boundary */
5539         if( ( dir == 0 && mb_x == 0 ) || ( dir == 1 && mb_y == 0 ) ) {
5540             start = 1;
5541         }
5542         if( 0 == start && 2 == h->deblocking_filter) {
5543             const int mbn_xy = dir == 0 ? mb_xy -1 : mb_xy - s->mb_stride;
5544             if (h->slice_table[mbn_xy] != h->slice_table[mb_xy]) {
5545                 start = 1;
5546             }
5547         }
5548
5549         /* Calculate bS */
5550         for( edge = start; edge < 4; edge++ ) {
5551             /* mbn_xy: neighbour macroblock (how that works for field ?) */
5552             int mbn_xy = edge > 0 ? mb_xy : ( dir == 0 ? mb_xy -1 : mb_xy - s->mb_stride );
5553             int bS[4];
5554             int qp;
5555
5556             if( IS_INTRA( s->current_picture.mb_type[mb_xy] ) ||
5557                 IS_INTRA( s->current_picture.mb_type[mbn_xy] ) ) {
5558                 bS[0] = bS[1] = bS[2] = bS[3] = ( edge == 0 ? 4 : 3 );
5559             } else {
5560                 int i;
5561                 for( i = 0; i < 4; i++ ) {
5562                     int x = dir == 0 ? edge : i;
5563                     int y = dir == 0 ? i    : edge;
5564                     int b_idx= 8 + 4 + x + 8*y;
5565                     int bn_idx= b_idx - (dir ? 8:1);
5566
5567                     if( h->non_zero_count_cache[b_idx] != 0 ||
5568                         h->non_zero_count_cache[bn_idx] != 0 ) {
5569                         bS[i] = 2;
5570                     }
5571                     else if( h->slice_type == P_TYPE ) {
5572                         if( h->ref_cache[0][b_idx] != h->ref_cache[0][bn_idx] ||
5573                             ABS( h->mv_cache[0][b_idx][0] - h->mv_cache[0][bn_idx][0] ) >= 4 ||
5574                             ABS( h->mv_cache[0][b_idx][1] - h->mv_cache[0][bn_idx][1] ) >= 4 )
5575                             bS[i] = 1;
5576                         else
5577                             bS[i] = 0;
5578                     } else {
5579                         /* FIXME Add support for B frame */
5580                         return;
5581                     }
5582                 }
5583
5584                 if(bS[0]+bS[1]+bS[2]+bS[3] == 0)
5585                     continue;
5586             }
5587
5588             /* Filter edge */
5589             qp = ( s->qscale + s->current_picture.qscale_table[mbn_xy] + 1 ) >> 1;
5590             //tprintf("filter mb:%d/%d dir:%d edge:%d, QPy:%d, QPc:%d, QPcn:%d\n", mb_x, mb_y, dir, edge, qp, h->chroma_qp, s->current_picture.qscale_table[mbn_xy]);
5591             if( dir == 0 ) {
5592                 filter_mb_edgev( h, &img_y[4*edge], linesize, bS, qp );
5593                 if( (edge&1) == 0 ) {
5594                     int chroma_qp = ( h->chroma_qp +
5595                                       get_chroma_qp( h, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
5596                     filter_mb_edgecv( h, &img_cb[2*edge], uvlinesize, bS, chroma_qp );
5597                     filter_mb_edgecv( h, &img_cr[2*edge], uvlinesize, bS, chroma_qp );
5598                 }
5599             } else {
5600                 filter_mb_edgeh( h, &img_y[4*edge*linesize], linesize, bS, qp );
5601                 if( (edge&1) == 0 ) {
5602                     int chroma_qp = ( h->chroma_qp +
5603                                       get_chroma_qp( h, s->current_picture.qscale_table[mbn_xy] ) + 1 ) >> 1;
5604                     filter_mb_edgech( h, &img_cb[2*edge*uvlinesize], uvlinesize, bS, chroma_qp );
5605                     filter_mb_edgech( h, &img_cr[2*edge*uvlinesize], uvlinesize, bS, chroma_qp );
5606                 }
5607             }
5608         }
5609     }
5610 }
5611
5612 static int decode_slice(H264Context *h){
5613     MpegEncContext * const s = &h->s;
5614     const int part_mask= s->partitioned_frame ? (AC_END|AC_ERROR) : 0x7F;
5615
5616     s->mb_skip_run= -1;
5617
5618     if( h->pps.cabac ) {
5619         int i;
5620
5621         /* realign */
5622         align_get_bits( &s->gb );
5623
5624         /* init cabac */
5625         ff_init_cabac_states( &h->cabac, ff_h264_lps_range, ff_h264_mps_state, ff_h264_lps_state, 64 );
5626         ff_init_cabac_decoder( &h->cabac,
5627                                s->gb.buffer + get_bits_count(&s->gb)/8,
5628                                ( s->gb.size_in_bits - get_bits_count(&s->gb) + 7)/8);
5629         /* calculate pre-state */
5630         for( i= 0; i < 399; i++ ) {
5631             int pre;
5632             if( h->slice_type == I_TYPE )
5633                 pre = clip( ((cabac_context_init_I[i][0] * s->qscale) >>4 ) + cabac_context_init_I[i][1], 1, 126 );
5634             else
5635                 pre = clip( ((cabac_context_init_PB[h->cabac_init_idc][i][0] * s->qscale) >>4 ) + cabac_context_init_PB[h->cabac_init_idc][i][1], 1, 126 );
5636
5637             if( pre <= 63 )
5638                 h->cabac_state[i] = 2 * ( 63 - pre ) + 0;
5639             else
5640                 h->cabac_state[i] = 2 * ( pre - 64 ) + 1;
5641         }
5642
5643         for(;;){
5644             int ret = decode_mb_cabac(h);
5645             int eos = get_cabac_terminate( &h->cabac ); /* End of Slice flag */
5646
5647             if(ret>=0) hl_decode_mb(h);
5648
5649             /* XXX: useless as decode_mb_cabac it doesn't support that ... */
5650             if( ret >= 0 && h->sps.mb_aff ) { //FIXME optimal? or let mb_decode decode 16x32 ?
5651                 s->mb_y++;
5652
5653                 if(ret>=0) ret = decode_mb_cabac(h);
5654                 eos = get_cabac_terminate( &h->cabac );
5655
5656                 hl_decode_mb(h);
5657                 s->mb_y--;
5658             }
5659
5660             if( ret < 0 || h->cabac.bytestream > h->cabac.bytestream_end + 1) {
5661                 av_log(h->s.avctx, AV_LOG_ERROR, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
5662                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
5663                 return -1;
5664             }
5665
5666             if( ++s->mb_x >= s->mb_width ) {
5667                 s->mb_x = 0;
5668                 ff_draw_horiz_band(s, 16*s->mb_y, 16);
5669                 ++s->mb_y;
5670             }
5671
5672             if( eos || s->mb_y >= s->mb_height ) {
5673                 tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
5674                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
5675                 return 0;
5676             }
5677 #if 0
5678             /* TODO test over-reading in cabac code */
5679             else if( read too much in h->cabac ) {
5680                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
5681                 return -1;
5682             }
5683 #endif
5684         }
5685
5686     } else {
5687         for(;;){
5688             int ret = decode_mb_cavlc(h);
5689
5690             if(ret>=0) hl_decode_mb(h);
5691
5692             if(ret>=0 && h->sps.mb_aff){ //FIXME optimal? or let mb_decode decode 16x32 ?
5693                 s->mb_y++;
5694                 ret = decode_mb_cavlc(h);
5695
5696                 if(ret>=0) hl_decode_mb(h);
5697                 s->mb_y--;
5698             }
5699
5700             if(ret<0){
5701                 av_log(h->s.avctx, AV_LOG_ERROR, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
5702                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
5703
5704                 return -1;
5705             }
5706
5707             if(++s->mb_x >= s->mb_width){
5708                 s->mb_x=0;
5709                 ff_draw_horiz_band(s, 16*s->mb_y, 16);
5710                 if(++s->mb_y >= s->mb_height){
5711                     tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
5712
5713                     if(get_bits_count(&s->gb) == s->gb.size_in_bits ) {
5714                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
5715
5716                         return 0;
5717                     }else{
5718                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
5719
5720                         return -1;
5721                     }
5722                 }
5723             }
5724
5725             if(get_bits_count(&s->gb) >= s->gb.size_in_bits && s->mb_skip_run<=0){
5726                 tprintf("slice end %d %d\n", get_bits_count(&s->gb), s->gb.size_in_bits);
5727                 if(get_bits_count(&s->gb) == s->gb.size_in_bits ){
5728                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
5729
5730                     return 0;
5731                 }else{
5732                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
5733
5734                     return -1;
5735                 }
5736             }
5737         }
5738     }
5739
5740 #if 0
5741     for(;s->mb_y < s->mb_height; s->mb_y++){
5742         for(;s->mb_x < s->mb_width; s->mb_x++){
5743             int ret= decode_mb(h);
5744             
5745             hl_decode_mb(h);
5746
5747             if(ret<0){
5748                 fprintf(stderr, "error while decoding MB %d %d\n", s->mb_x, s->mb_y);
5749                 ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
5750
5751                 return -1;
5752             }
5753         
5754             if(++s->mb_x >= s->mb_width){
5755                 s->mb_x=0;
5756                 if(++s->mb_y >= s->mb_height){
5757                     if(get_bits_count(s->gb) == s->gb.size_in_bits){
5758                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
5759
5760                         return 0;
5761                     }else{
5762                         ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
5763
5764                         return -1;
5765                     }
5766                 }
5767             }
5768         
5769             if(get_bits_count(s->?gb) >= s->gb?.size_in_bits){
5770                 if(get_bits_count(s->gb) == s->gb.size_in_bits){
5771                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x-1, s->mb_y, (AC_END|DC_END|MV_END)&part_mask);
5772
5773                     return 0;
5774                 }else{
5775                     ff_er_add_slice(s, s->resync_mb_x, s->resync_mb_y, s->mb_x, s->mb_y, (AC_ERROR|DC_ERROR|MV_ERROR)&part_mask);
5776
5777                     return -1;
5778                 }
5779             }
5780         }
5781         s->mb_x=0;
5782         ff_draw_horiz_band(s, 16*s->mb_y, 16);
5783     }
5784 #endif
5785     return -1; //not reached
5786 }
5787
5788 static inline int decode_vui_parameters(H264Context *h, SPS *sps){
5789     MpegEncContext * const s = &h->s;
5790     int aspect_ratio_info_present_flag, aspect_ratio_idc;
5791
5792     aspect_ratio_info_present_flag= get_bits1(&s->gb);
5793     
5794     if( aspect_ratio_info_present_flag ) {
5795         aspect_ratio_idc= get_bits(&s->gb, 8);
5796         if( aspect_ratio_idc == EXTENDED_SAR ) {
5797             sps->sar.num= get_bits(&s->gb, 16);
5798             sps->sar.den= get_bits(&s->gb, 16);
5799         }else if(aspect_ratio_idc < 16){
5800             sps->sar=  pixel_aspect[aspect_ratio_idc];
5801         }else{
5802             av_log(h->s.avctx, AV_LOG_ERROR, "illegal aspect ratio\n");
5803             return -1;
5804         }
5805     }else{
5806         sps->sar.num= 
5807         sps->sar.den= 0;
5808     }
5809 //            s->avctx->aspect_ratio= sar_width*s->width / (float)(s->height*sar_height);
5810
5811     if(get_bits1(&s->gb)){      /* overscan_info_present_flag */
5812         get_bits1(&s->gb);      /* overscan_appropriate_flag */
5813     }
5814
5815     if(get_bits1(&s->gb)){      /* video_signal_type_present_flag */
5816         get_bits(&s->gb, 3);    /* video_format */
5817         get_bits1(&s->gb);      /* video_full_range_flag */
5818         if(get_bits1(&s->gb)){  /* colour_description_present_flag */
5819             get_bits(&s->gb, 8); /* colour_primaries */
5820             get_bits(&s->gb, 8); /* transfer_characteristics */
5821             get_bits(&s->gb, 8); /* matrix_coefficients */
5822         }
5823     }
5824
5825     if(get_bits1(&s->gb)){      /* chroma_location_info_present_flag */
5826         get_ue_golomb(&s->gb);  /* chroma_sample_location_type_top_field */
5827         get_ue_golomb(&s->gb);  /* chroma_sample_location_type_bottom_field */
5828     }
5829
5830     sps->timing_info_present_flag = get_bits1(&s->gb);
5831     if(sps->timing_info_present_flag){
5832         sps->num_units_in_tick = get_bits_long(&s->gb, 32);
5833         sps->time_scale = get_bits_long(&s->gb, 32);
5834         sps->fixed_frame_rate_flag = get_bits1(&s->gb);
5835     }
5836
5837 #if 0
5838 | nal_hrd_parameters_present_flag                   |0  |u(1)    |
5839 | if( nal_hrd_parameters_present_flag  = =  1)      |   |        |
5840 |  hrd_parameters( )                                |   |        |
5841 | vcl_hrd_parameters_present_flag                   |0  |u(1)    |
5842 | if( vcl_hrd_parameters_present_flag  = =  1)      |   |        |
5843 |  hrd_parameters( )                                |   |        |
5844 | if( ( nal_hrd_parameters_present_flag  = =  1  | ||   |        |
5845 |                                                   |   |        |
5846 |( vcl_hrd_parameters_present_flag  = =  1 ) )      |   |        |
5847 |  low_delay_hrd_flag                               |0  |u(1)    |
5848 | bitstream_restriction_flag                        |0  |u(1)    |
5849 | if( bitstream_restriction_flag ) {                |0  |u(1)    |
5850 |  motion_vectors_over_pic_boundaries_flag          |0  |u(1)    |
5851 |  max_bytes_per_pic_denom                          |0  |ue(v)   |
5852 |  max_bits_per_mb_denom                            |0  |ue(v)   |
5853 |  log2_max_mv_length_horizontal                    |0  |ue(v)   |
5854 |  log2_max_mv_length_vertical                      |0  |ue(v)   |
5855 |  num_reorder_frames                               |0  |ue(v)   |
5856 |  max_dec_frame_buffering                          |0  |ue(v)   |
5857 | }                                                 |   |        |
5858 |}                                                  |   |        |
5859 #endif
5860     return 0;
5861 }
5862
5863 static inline int decode_seq_parameter_set(H264Context *h){
5864     MpegEncContext * const s = &h->s;
5865     int profile_idc, level_idc;
5866     int sps_id, i;
5867     SPS *sps;
5868     
5869     profile_idc= get_bits(&s->gb, 8);
5870     get_bits1(&s->gb);   //constraint_set0_flag
5871     get_bits1(&s->gb);   //constraint_set1_flag
5872     get_bits1(&s->gb);   //constraint_set2_flag
5873     get_bits1(&s->gb);   //constraint_set3_flag
5874     get_bits(&s->gb, 4); // reserved
5875     level_idc= get_bits(&s->gb, 8);
5876     sps_id= get_ue_golomb(&s->gb);
5877     
5878     sps= &h->sps_buffer[ sps_id ];
5879     sps->profile_idc= profile_idc;
5880     sps->level_idc= level_idc;
5881
5882     sps->log2_max_frame_num= get_ue_golomb(&s->gb) + 4;
5883     sps->poc_type= get_ue_golomb(&s->gb);
5884     
5885     if(sps->poc_type == 0){ //FIXME #define
5886         sps->log2_max_poc_lsb= get_ue_golomb(&s->gb) + 4;
5887     } else if(sps->poc_type == 1){//FIXME #define
5888         sps->delta_pic_order_always_zero_flag= get_bits1(&s->gb);
5889         sps->offset_for_non_ref_pic= get_se_golomb(&s->gb);
5890         sps->offset_for_top_to_bottom_field= get_se_golomb(&s->gb);
5891         sps->poc_cycle_length= get_ue_golomb(&s->gb);
5892         
5893         for(i=0; i<sps->poc_cycle_length; i++)
5894             sps->offset_for_ref_frame[i]= get_se_golomb(&s->gb);
5895     }
5896     if(sps->poc_type > 2){
5897         av_log(h->s.avctx, AV_LOG_ERROR, "illegal POC type %d\n", sps->poc_type);
5898         return -1;
5899     }
5900
5901     sps->ref_frame_count= get_ue_golomb(&s->gb);
5902     if(sps->ref_frame_count > MAX_PICTURE_COUNT-2){
5903         av_log(h->s.avctx, AV_LOG_ERROR, "too many reference frames\n");
5904     }
5905     sps->gaps_in_frame_num_allowed_flag= get_bits1(&s->gb);
5906     sps->mb_width= get_ue_golomb(&s->gb) + 1;
5907     sps->mb_height= get_ue_golomb(&s->gb) + 1;
5908     if((unsigned)sps->mb_width >= INT_MAX/16 || (unsigned)sps->mb_height >= INT_MAX/16 || 
5909        avcodec_check_dimensions(NULL, 16*sps->mb_width, 16*sps->mb_height))
5910         return -1;
5911
5912     sps->frame_mbs_only_flag= get_bits1(&s->gb);
5913     if(!sps->frame_mbs_only_flag)
5914         sps->mb_aff= get_bits1(&s->gb);
5915     else
5916         sps->mb_aff= 0;
5917
5918     sps->direct_8x8_inference_flag= get_bits1(&s->gb);
5919
5920     sps->crop= get_bits1(&s->gb);
5921     if(sps->crop){
5922         sps->crop_left  = get_ue_golomb(&s->gb);
5923         sps->crop_right = get_ue_golomb(&s->gb);
5924         sps->crop_top   = get_ue_golomb(&s->gb);
5925         sps->crop_bottom= get_ue_golomb(&s->gb);
5926         if(sps->crop_left || sps->crop_top){
5927             av_log(h->s.avctx, AV_LOG_ERROR, "insane cropping not completly supported, this could look slightly wrong ...\n");
5928         }
5929     }else{
5930         sps->crop_left  = 
5931         sps->crop_right = 
5932         sps->crop_top   = 
5933         sps->crop_bottom= 0;
5934     }
5935
5936     sps->vui_parameters_present_flag= get_bits1(&s->gb);
5937     if( sps->vui_parameters_present_flag )
5938         decode_vui_parameters(h, sps);
5939     
5940     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
5941         av_log(h->s.avctx, AV_LOG_DEBUG, "sps:%d profile:%d/%d poc:%d ref:%d %dx%d %s %s crop:%d/%d/%d/%d %s\n", 
5942                sps_id, sps->profile_idc, sps->level_idc,
5943                sps->poc_type,
5944                sps->ref_frame_count,
5945                sps->mb_width, sps->mb_height,
5946                sps->frame_mbs_only_flag ? "FRM" : (sps->mb_aff ? "MB-AFF" : "PIC-AFF"),
5947                sps->direct_8x8_inference_flag ? "8B8" : "",
5948                sps->crop_left, sps->crop_right, 
5949                sps->crop_top, sps->crop_bottom, 
5950                sps->vui_parameters_present_flag ? "VUI" : ""
5951                );
5952     }
5953     return 0;
5954 }
5955
5956 static inline int decode_picture_parameter_set(H264Context *h){
5957     MpegEncContext * const s = &h->s;
5958     int pps_id= get_ue_golomb(&s->gb);
5959     PPS *pps= &h->pps_buffer[pps_id];
5960     
5961     pps->sps_id= get_ue_golomb(&s->gb);
5962     pps->cabac= get_bits1(&s->gb);
5963     pps->pic_order_present= get_bits1(&s->gb);
5964     pps->slice_group_count= get_ue_golomb(&s->gb) + 1;
5965     if(pps->slice_group_count > 1 ){
5966         pps->mb_slice_group_map_type= get_ue_golomb(&s->gb);
5967         av_log(h->s.avctx, AV_LOG_ERROR, "FMO not supported\n");
5968         switch(pps->mb_slice_group_map_type){
5969         case 0:
5970 #if 0
5971 |   for( i = 0; i <= num_slice_groups_minus1; i++ ) |   |        |
5972 |    run_length[ i ]                                |1  |ue(v)   |
5973 #endif
5974             break;
5975         case 2:
5976 #if 0
5977 |   for( i = 0; i < num_slice_groups_minus1; i++ )  |   |        |
5978 |{                                                  |   |        |
5979 |    top_left_mb[ i ]                               |1  |ue(v)   |
5980 |    bottom_right_mb[ i ]                           |1  |ue(v)   |
5981 |   }                                               |   |        |
5982 #endif
5983             break;
5984         case 3:
5985         case 4:
5986         case 5:
5987 #if 0
5988 |   slice_group_change_direction_flag               |1  |u(1)    |
5989 |   slice_group_change_rate_minus1                  |1  |ue(v)   |
5990 #endif
5991             break;
5992         case 6:
5993 #if 0
5994 |   slice_group_id_cnt_minus1                       |1  |ue(v)   |
5995 |   for( i = 0; i <= slice_group_id_cnt_minus1; i++ |   |        |
5996 |)                                                  |   |        |
5997 |    slice_group_id[ i ]                            |1  |u(v)    |
5998 #endif
5999             break;
6000         }
6001     }
6002     pps->ref_count[0]= get_ue_golomb(&s->gb) + 1;
6003     pps->ref_count[1]= get_ue_golomb(&s->gb) + 1;
6004     if(pps->ref_count[0] > 32 || pps->ref_count[1] > 32){
6005         av_log(h->s.avctx, AV_LOG_ERROR, "reference overflow (pps)\n");
6006         return -1;
6007     }
6008     
6009     pps->weighted_pred= get_bits1(&s->gb);
6010     pps->weighted_bipred_idc= get_bits(&s->gb, 2);
6011     pps->init_qp= get_se_golomb(&s->gb) + 26;
6012     pps->init_qs= get_se_golomb(&s->gb) + 26;
6013     pps->chroma_qp_index_offset= get_se_golomb(&s->gb);
6014     pps->deblocking_filter_parameters_present= get_bits1(&s->gb);
6015     pps->constrained_intra_pred= get_bits1(&s->gb);
6016     pps->redundant_pic_cnt_present = get_bits1(&s->gb);
6017     
6018     if(s->avctx->debug&FF_DEBUG_PICT_INFO){
6019         av_log(h->s.avctx, AV_LOG_DEBUG, "pps:%d sps:%d %s slice_groups:%d ref:%d/%d %s qp:%d/%d/%d %s %s %s\n", 
6020                pps_id, pps->sps_id,
6021                pps->cabac ? "CABAC" : "CAVLC",
6022                pps->slice_group_count,
6023                pps->ref_count[0], pps->ref_count[1],
6024                pps->weighted_pred ? "weighted" : "",
6025                pps->init_qp, pps->init_qs, pps->chroma_qp_index_offset,
6026                pps->deblocking_filter_parameters_present ? "LPAR" : "",
6027                pps->constrained_intra_pred ? "CONSTR" : "",
6028                pps->redundant_pic_cnt_present ? "REDU" : ""
6029                );
6030     }
6031     
6032     return 0;
6033 }
6034
6035 /**
6036  * finds the end of the current frame in the bitstream.
6037  * @return the position of the first byte of the next frame, or -1
6038  */
6039 static int find_frame_end(H264Context *h, const uint8_t *buf, int buf_size){
6040     int i;
6041     uint32_t state;
6042     ParseContext *pc = &(h->s.parse_context);
6043 //printf("first %02X%02X%02X%02X\n", buf[0], buf[1],buf[2],buf[3]);
6044 //    mb_addr= pc->mb_addr - 1;
6045     state= pc->state;
6046     for(i=0; i<=buf_size; i++){
6047         if((state&0xFFFFFF1F) == 0x101 || (state&0xFFFFFF1F) == 0x102 || (state&0xFFFFFF1F) == 0x105){
6048             tprintf("find_frame_end new startcode = %08x, frame_start_found = %d, pos = %d\n", state, pc->frame_start_found, i);
6049             if(pc->frame_start_found){
6050                 // If there isn't one more byte in the buffer
6051                 // the test on first_mb_in_slice cannot be done yet
6052                 // do it at next call.
6053                 if (i >= buf_size) break;
6054                 if (buf[i] & 0x80) {
6055                     // first_mb_in_slice is 0, probably the first nal of a new
6056                     // slice
6057                     tprintf("find_frame_end frame_end_found, state = %08x, pos = %d\n", state, i);
6058                     pc->state=-1; 
6059                     pc->frame_start_found= 0;
6060                     return i-4;
6061                 }
6062             }
6063             pc->frame_start_found = 1;
6064         }
6065         if (i<buf_size)
6066             state= (state<<8) | buf[i];
6067     }
6068     
6069     pc->state= state;
6070     return END_NOT_FOUND;
6071 }
6072
6073 static int h264_parse(AVCodecParserContext *s,
6074                       AVCodecContext *avctx,
6075                       uint8_t **poutbuf, int *poutbuf_size, 
6076                       const uint8_t *buf, int buf_size)
6077 {
6078     H264Context *h = s->priv_data;
6079     ParseContext *pc = &h->s.parse_context;
6080     int next;
6081     
6082     next= find_frame_end(h, buf, buf_size);
6083
6084     if (ff_combine_frame(pc, next, (uint8_t **)&buf, &buf_size) < 0) {
6085         *poutbuf = NULL;
6086         *poutbuf_size = 0;
6087         return buf_size;
6088     }
6089
6090     *poutbuf = (uint8_t *)buf;
6091     *poutbuf_size = buf_size;
6092     return next;
6093 }
6094
6095 static int decode_nal_units(H264Context *h, uint8_t *buf, int buf_size){
6096     MpegEncContext * const s = &h->s;
6097     AVCodecContext * const avctx= s->avctx;
6098     int buf_index=0;
6099 #if 0
6100     int i;
6101     for(i=0; i<32; i++){
6102         printf("%X ", buf[i]);
6103     }
6104 #endif
6105     h->slice_num = 0;
6106     for(;;){
6107         int consumed;
6108         int dst_length;
6109         int bit_length;
6110         uint8_t *ptr;
6111         int i, nalsize = 0;
6112         
6113       if(h->is_avc) {
6114         if(buf_index >= buf_size) break;
6115         nalsize = 0;
6116         for(i = 0; i < h->nal_length_size; i++)
6117             nalsize = (nalsize << 8) | buf[buf_index++];
6118       } else {
6119         // start code prefix search
6120         for(; buf_index + 3 < buf_size; buf_index++){
6121             // this should allways succeed in the first iteration
6122             if(buf[buf_index] == 0 && buf[buf_index+1] == 0 && buf[buf_index+2] == 1)
6123                 break;
6124         }
6125         
6126         if(buf_index+3 >= buf_size) break;
6127         
6128         buf_index+=3;
6129       }  
6130         
6131         ptr= decode_nal(h, buf + buf_index, &dst_length, &consumed, h->is_avc ? nalsize : buf_size - buf_index);
6132         if(ptr[dst_length - 1] == 0) dst_length--;
6133         bit_length= 8*dst_length - decode_rbsp_trailing(ptr + dst_length - 1);
6134
6135         if(s->avctx->debug&FF_DEBUG_STARTCODE){
6136             av_log(h->s.avctx, AV_LOG_DEBUG, "NAL %d at %d/%d length %d\n", h->nal_unit_type, buf_index, buf_size, dst_length);
6137         }
6138         
6139         if (h->is_avc && (nalsize != consumed))
6140             av_log(h->s.avctx, AV_LOG_ERROR, "AVC: Consumed only %d bytes instead of %d\n", consumed, nalsize);
6141
6142         buf_index += consumed;
6143
6144         if( s->hurry_up == 1 && h->nal_ref_idc  == 0 )
6145             continue;
6146         
6147         switch(h->nal_unit_type){
6148         case NAL_IDR_SLICE:
6149             idr(h); //FIXME ensure we dont loose some frames if there is reordering
6150         case NAL_SLICE:
6151             init_get_bits(&s->gb, ptr, bit_length);
6152             h->intra_gb_ptr=
6153             h->inter_gb_ptr= &s->gb;
6154             s->data_partitioning = 0;
6155             
6156             if(decode_slice_header(h) < 0) return -1;
6157             if(h->redundant_pic_count==0 && s->hurry_up < 5 )
6158                 decode_slice(h);
6159             break;
6160         case NAL_DPA:
6161             init_get_bits(&s->gb, ptr, bit_length);
6162             h->intra_gb_ptr=
6163             h->inter_gb_ptr= NULL;
6164             s->data_partitioning = 1;
6165             
6166             if(decode_slice_header(h) < 0) return -1;
6167             break;
6168         case NAL_DPB:
6169             init_get_bits(&h->intra_gb, ptr, bit_length);
6170             h->intra_gb_ptr= &h->intra_gb;
6171             break;
6172         case NAL_DPC:
6173             init_get_bits(&h->inter_gb, ptr, bit_length);
6174             h->inter_gb_ptr= &h->inter_gb;
6175
6176             if(h->redundant_pic_count==0 && h->intra_gb_ptr && s->data_partitioning && s->hurry_up < 5 )
6177                 decode_slice(h);
6178             break;
6179         case NAL_SEI:
6180             break;
6181         case NAL_SPS:
6182             init_get_bits(&s->gb, ptr, bit_length);
6183             decode_seq_parameter_set(h);
6184             
6185             if(s->flags& CODEC_FLAG_LOW_DELAY)
6186                 s->low_delay=1;
6187       
6188             avctx->has_b_frames= !s->low_delay;
6189             break;
6190         case NAL_PPS:
6191             init_get_bits(&s->gb, ptr, bit_length);
6192             
6193             decode_picture_parameter_set(h);
6194
6195             break;
6196         case NAL_PICTURE_DELIMITER:
6197             break;
6198         case NAL_FILTER_DATA:
6199             break;
6200         default:
6201             av_log(avctx, AV_LOG_ERROR, "Unknown NAL code: %d\n", h->nal_unit_type);
6202         }        
6203
6204         //FIXME move after where irt is set
6205         s->current_picture.pict_type= s->pict_type;
6206         s->current_picture.key_frame= s->pict_type == I_TYPE;
6207     }
6208     
6209     if(!s->current_picture_ptr) return buf_index; //no frame
6210     
6211     h->prev_frame_num_offset= h->frame_num_offset;
6212     h->prev_frame_num= h->frame_num;
6213     if(s->current_picture_ptr->reference){
6214         h->prev_poc_msb= h->poc_msb;
6215         h->prev_poc_lsb= h->poc_lsb;
6216     }
6217     if(s->current_picture_ptr->reference)
6218         execute_ref_pic_marking(h, h->mmco, h->mmco_index);
6219
6220     ff_er_frame_end(s);
6221
6222     MPV_frame_end(s);
6223
6224     return buf_index;
6225 }
6226
6227 /**
6228  * retunrs the number of bytes consumed for building the current frame
6229  */
6230 static int get_consumed_bytes(MpegEncContext *s, int pos, int buf_size){
6231     if(s->flags&CODEC_FLAG_TRUNCATED){
6232         pos -= s->parse_context.last_index;
6233         if(pos<0) pos=0; // FIXME remove (uneeded?)
6234         
6235         return pos;
6236     }else{
6237         if(pos==0) pos=1; //avoid infinite loops (i doubt thats needed but ...)
6238         if(pos+10>buf_size) pos=buf_size; // oops ;)
6239
6240         return pos;
6241     }
6242 }
6243
6244 static int decode_frame(AVCodecContext *avctx, 
6245                              void *data, int *data_size,
6246                              uint8_t *buf, int buf_size)
6247 {
6248     H264Context *h = avctx->priv_data;
6249     MpegEncContext *s = &h->s;
6250     AVFrame *pict = data; 
6251     int buf_index;
6252     
6253     s->flags= avctx->flags;
6254     s->flags2= avctx->flags2;
6255
6256    /* no supplementary picture */
6257     if (buf_size == 0) {
6258         return 0;
6259     }
6260     
6261     if(s->flags&CODEC_FLAG_TRUNCATED){
6262         int next= find_frame_end(h, buf, buf_size);
6263         
6264         if( ff_combine_frame(&s->parse_context, next, &buf, &buf_size) < 0 )
6265             return buf_size;
6266 //printf("next:%d buf_size:%d last_index:%d\n", next, buf_size, s->parse_context.last_index);
6267     }
6268
6269     if(h->is_avc && !h->got_avcC) {
6270         int i, cnt, nalsize;
6271         unsigned char *p = avctx->extradata;
6272         if(avctx->extradata_size < 7) {
6273             av_log(avctx, AV_LOG_ERROR, "avcC too short\n");
6274             return -1;
6275         }
6276         if(*p != 1) {
6277             av_log(avctx, AV_LOG_ERROR, "Unknown avcC version %d\n", *p);
6278             return -1;
6279         }
6280         /* sps and pps in the avcC always have length coded with 2 bytes,
6281            so put a fake nal_length_size = 2 while parsing them */
6282         h->nal_length_size = 2;
6283         // Decode sps from avcC
6284         cnt = *(p+5) & 0x1f; // Number of sps
6285         p += 6;
6286         for (i = 0; i < cnt; i++) {
6287             nalsize = BE_16(p) + 2;
6288             if(decode_nal_units(h, p, nalsize) != nalsize) {
6289                 av_log(avctx, AV_LOG_ERROR, "Decoding sps %d from avcC failed\n", i);
6290                 return -1;
6291             }
6292             p += nalsize;
6293         }        
6294         // Decode pps from avcC
6295         cnt = *(p++); // Number of pps
6296         for (i = 0; i < cnt; i++) {
6297             nalsize = BE_16(p) + 2;
6298             if(decode_nal_units(h, p, nalsize)  != nalsize) {
6299                 av_log(avctx, AV_LOG_ERROR, "Decoding pps %d from avcC failed\n", i);
6300                 return -1;
6301             }
6302             p += nalsize;
6303         }        
6304         // Now store right nal length size, that will be use to parse all other nals
6305         h->nal_length_size = ((*(((char*)(avctx->extradata))+4))&0x03)+1;
6306         // Do not reparse avcC
6307         h->got_avcC = 1;
6308     }
6309
6310     if(!h->is_avc && s->avctx->extradata_size && s->picture_number==0){
6311         if(0 < decode_nal_units(h, s->avctx->extradata, s->avctx->extradata_size) ) 
6312             return -1;
6313     }
6314
6315     buf_index=decode_nal_units(h, buf, buf_size);
6316     if(buf_index < 0) 
6317         return -1;
6318
6319     //FIXME do something with unavailable reference frames    
6320  
6321 //    if(ret==FRAME_SKIPED) return get_consumed_bytes(s, buf_index, buf_size);
6322     if(!s->current_picture_ptr){
6323         av_log(h->s.avctx, AV_LOG_DEBUG, "error, NO frame\n");
6324         return -1;
6325     }
6326
6327     {
6328 //#define DECODE_ORDER
6329         Picture *out = s->current_picture_ptr;
6330 #ifndef DECODE_ORDER
6331         /* Sort B-frames into display order
6332          * FIXME doesn't allow for multiple delayed frames */
6333         Picture *cur = s->current_picture_ptr;
6334         Picture *prev = h->delayed_pic[0];
6335
6336         if(s->low_delay
6337            && (cur->pict_type == B_TYPE
6338            || (!h->sps.gaps_in_frame_num_allowed_flag
6339                && prev && cur->poc - prev->poc > 2))){
6340             s->low_delay = 0;
6341             s->avctx->has_b_frames = 1;
6342             if(prev && prev->poc > cur->poc)
6343                 // too late to display this frame
6344                 cur = prev;
6345         }
6346
6347         if(s->low_delay || !prev || cur->pict_type == B_TYPE)
6348             out = cur;
6349         else
6350             out = prev;
6351         if(s->low_delay || !prev || out == prev){
6352             if(prev && prev->reference == 1)
6353                 prev->reference = 0;
6354             h->delayed_pic[0] = cur;
6355         }
6356 #endif
6357
6358         *pict= *(AVFrame*)out;
6359     }
6360
6361     ff_print_debug_info(s, pict);
6362     assert(pict->data[0]);
6363 //printf("out %d\n", (int)pict->data[0]);
6364 #if 0 //?
6365
6366     /* Return the Picture timestamp as the frame number */
6367     /* we substract 1 because it is added on utils.c    */
6368     avctx->frame_number = s->picture_number - 1;
6369 #endif
6370 #if 0
6371     /* dont output the last pic after seeking */
6372     if(s->last_picture_ptr || s->low_delay)
6373     //Note this isnt a issue as a IDR pic should flush the buffers
6374 #endif
6375         *data_size = sizeof(AVFrame);
6376     return get_consumed_bytes(s, buf_index, buf_size);
6377 }
6378 #if 0
6379 static inline void fill_mb_avail(H264Context *h){
6380     MpegEncContext * const s = &h->s;
6381     const int mb_xy= s->mb_x + s->mb_y*s->mb_stride;
6382
6383     if(s->mb_y){
6384         h->mb_avail[0]= s->mb_x                 && h->slice_table[mb_xy - s->mb_stride - 1] == h->slice_num;
6385         h->mb_avail[1]=                            h->slice_table[mb_xy - s->mb_stride    ] == h->slice_num;
6386         h->mb_avail[2]= s->mb_x+1 < s->mb_width && h->slice_table[mb_xy - s->mb_stride + 1] == h->slice_num;
6387     }else{
6388         h->mb_avail[0]=
6389         h->mb_avail[1]=
6390         h->mb_avail[2]= 0;
6391     }
6392     h->mb_avail[3]= s->mb_x && h->slice_table[mb_xy - 1] == h->slice_num;
6393     h->mb_avail[4]= 1; //FIXME move out
6394     h->mb_avail[5]= 0; //FIXME move out
6395 }
6396 #endif
6397
6398 #if 0 //selftest
6399 #define COUNT 8000
6400 #define SIZE (COUNT*40)
6401 int main(){
6402     int i;
6403     uint8_t temp[SIZE];
6404     PutBitContext pb;
6405     GetBitContext gb;
6406 //    int int_temp[10000];
6407     DSPContext dsp;
6408     AVCodecContext avctx;
6409     
6410     dsputil_init(&dsp, &avctx);
6411
6412     init_put_bits(&pb, temp, SIZE);
6413     printf("testing unsigned exp golomb\n");
6414     for(i=0; i<COUNT; i++){
6415         START_TIMER
6416         set_ue_golomb(&pb, i);
6417         STOP_TIMER("set_ue_golomb");
6418     }
6419     flush_put_bits(&pb);
6420     
6421     init_get_bits(&gb, temp, 8*SIZE);
6422     for(i=0; i<COUNT; i++){
6423         int j, s;
6424         
6425         s= show_bits(&gb, 24);
6426         
6427         START_TIMER
6428         j= get_ue_golomb(&gb);
6429         if(j != i){
6430             printf("missmatch! at %d (%d should be %d) bits:%6X\n", i, j, i, s);
6431 //            return -1;
6432         }
6433         STOP_TIMER("get_ue_golomb");
6434     }
6435     
6436     
6437     init_put_bits(&pb, temp, SIZE);
6438     printf("testing signed exp golomb\n");
6439     for(i=0; i<COUNT; i++){
6440         START_TIMER
6441         set_se_golomb(&pb, i - COUNT/2);
6442         STOP_TIMER("set_se_golomb");
6443     }
6444     flush_put_bits(&pb);
6445     
6446     init_get_bits(&gb, temp, 8*SIZE);
6447     for(i=0; i<COUNT; i++){
6448         int j, s;
6449         
6450         s= show_bits(&gb, 24);
6451         
6452         START_TIMER
6453         j= get_se_golomb(&gb);
6454         if(j != i - COUNT/2){
6455             printf("missmatch! at %d (%d should be %d) bits:%6X\n", i, j, i, s);
6456 //            return -1;
6457         }
6458         STOP_TIMER("get_se_golomb");
6459     }
6460
6461     printf("testing 4x4 (I)DCT\n");
6462     
6463     DCTELEM block[16];
6464     uint8_t src[16], ref[16];
6465     uint64_t error= 0, max_error=0;
6466
6467     for(i=0; i<COUNT; i++){
6468         int j;
6469 //        printf("%d %d %d\n", r1, r2, (r2-r1)*16);
6470         for(j=0; j<16; j++){
6471             ref[j]= random()%255;
6472             src[j]= random()%255;
6473         }
6474
6475         h264_diff_dct_c(block, src, ref, 4);
6476         
6477         //normalize
6478         for(j=0; j<16; j++){
6479 //            printf("%d ", block[j]);
6480             block[j]= block[j]*4;
6481             if(j&1) block[j]= (block[j]*4 + 2)/5;
6482             if(j&4) block[j]= (block[j]*4 + 2)/5;
6483         }
6484 //        printf("\n");
6485         
6486         s->dsp.h264_idct_add(ref, block, 4);
6487 /*        for(j=0; j<16; j++){
6488             printf("%d ", ref[j]);
6489         }
6490         printf("\n");*/
6491             
6492         for(j=0; j<16; j++){
6493             int diff= ABS(src[j] - ref[j]);
6494             
6495             error+= diff*diff;
6496             max_error= FFMAX(max_error, diff);
6497         }
6498     }
6499     printf("error=%f max_error=%d\n", ((float)error)/COUNT/16, (int)max_error );
6500 #if 0
6501     printf("testing quantizer\n");
6502     for(qp=0; qp<52; qp++){
6503         for(i=0; i<16; i++)
6504             src1_block[i]= src2_block[i]= random()%255;
6505         
6506     }
6507 #endif
6508     printf("Testing NAL layer\n");
6509     
6510     uint8_t bitstream[COUNT];
6511     uint8_t nal[COUNT*2];
6512     H264Context h;
6513     memset(&h, 0, sizeof(H264Context));
6514     
6515     for(i=0; i<COUNT; i++){
6516         int zeros= i;
6517         int nal_length;
6518         int consumed;
6519         int out_length;
6520         uint8_t *out;
6521         int j;
6522         
6523         for(j=0; j<COUNT; j++){
6524             bitstream[j]= (random() % 255) + 1;
6525         }
6526         
6527         for(j=0; j<zeros; j++){
6528             int pos= random() % COUNT;
6529             while(bitstream[pos] == 0){
6530                 pos++;
6531                 pos %= COUNT;
6532             }
6533             bitstream[pos]=0;
6534         }
6535         
6536         START_TIMER
6537         
6538         nal_length= encode_nal(&h, nal, bitstream, COUNT, COUNT*2);
6539         if(nal_length<0){
6540             printf("encoding failed\n");
6541             return -1;
6542         }
6543         
6544         out= decode_nal(&h, nal, &out_length, &consumed, nal_length);
6545
6546         STOP_TIMER("NAL")
6547         
6548         if(out_length != COUNT){
6549             printf("incorrect length %d %d\n", out_length, COUNT);
6550             return -1;
6551         }
6552         
6553         if(consumed != nal_length){
6554             printf("incorrect consumed length %d %d\n", nal_length, consumed);
6555             return -1;
6556         }
6557         
6558         if(memcmp(bitstream, out, COUNT)){
6559             printf("missmatch\n");
6560             return -1;
6561         }
6562     }
6563     
6564     printf("Testing RBSP\n");
6565     
6566     
6567     return 0;
6568 }
6569 #endif
6570
6571
6572 static int decode_end(AVCodecContext *avctx)
6573 {
6574     H264Context *h = avctx->priv_data;
6575     MpegEncContext *s = &h->s;
6576     
6577     free_tables(h); //FIXME cleanup init stuff perhaps
6578     MPV_common_end(s);
6579
6580 //    memset(h, 0, sizeof(H264Context));
6581         
6582     return 0;
6583 }
6584
6585
6586 AVCodec h264_decoder = {
6587     "h264",
6588     CODEC_TYPE_VIDEO,
6589     CODEC_ID_H264,
6590     sizeof(H264Context),
6591     decode_init,
6592     NULL,
6593     decode_end,
6594     decode_frame,
6595     /*CODEC_CAP_DRAW_HORIZ_BAND |*/ CODEC_CAP_DR1 | CODEC_CAP_TRUNCATED | CODEC_CAP_DELAY,
6596 };
6597
6598 AVCodecParser h264_parser = {
6599     { CODEC_ID_H264 },
6600     sizeof(H264Context),
6601     NULL,
6602     h264_parse,
6603     ff_parse_close,
6604 };
6605
6606 #include "svq3.c"