git.sesse.net Git - ffmpeg/blob - libavcodec/h264pred_template.c

   1 /*
   2  * H.26L/H.264/AVC/JVT/14496-10/... encoder/decoder
   3  * Copyright (c) 2003-2011 Michael Niedermayer <michaelni@gmx.at>
   4  *
   5  * This file is part of Libav.
   6  *
   7  * Libav is free software; you can redistribute it and/or
   8  * modify it under the terms of the GNU Lesser General Public
   9  * License as published by the Free Software Foundation; either
  10  * version 2.1 of the License, or (at your option) any later version.
  11  *
  12  * Libav is distributed in the hope that it will be useful,
  13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15  * Lesser General Public License for more details.
  16  *
  17  * You should have received a copy of the GNU Lesser General Public
  18  * License along with Libav; if not, write to the Free Software
  19  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20  */
  21
  22 /**
  23  * @file
  24  * H.264 / AVC / MPEG4 part10 prediction functions.
  25  * @author Michael Niedermayer <michaelni@gmx.at>
  26  */
  27
  28 #include "mathops.h"
  29
  30 #include "bit_depth_template.c"
  31
  32 static void FUNCC(pred4x4_vertical)(uint8_t *_src, const uint8_t *topright, int _stride){
  33     pixel *src = (pixel*)_src;
  34     int stride = _stride/sizeof(pixel);
  35     const pixel4 a= AV_RN4PA(src-stride);
  36
  37     AV_WN4PA(src+0*stride, a);
  38     AV_WN4PA(src+1*stride, a);
  39     AV_WN4PA(src+2*stride, a);
  40     AV_WN4PA(src+3*stride, a);
  41 }
  42
  43 static void FUNCC(pred4x4_horizontal)(uint8_t *_src, const uint8_t *topright, int _stride){
  44     pixel *src = (pixel*)_src;
  45     int stride = _stride/sizeof(pixel);
  46     AV_WN4PA(src+0*stride, PIXEL_SPLAT_X4(src[-1+0*stride]));
  47     AV_WN4PA(src+1*stride, PIXEL_SPLAT_X4(src[-1+1*stride]));
  48     AV_WN4PA(src+2*stride, PIXEL_SPLAT_X4(src[-1+2*stride]));
  49     AV_WN4PA(src+3*stride, PIXEL_SPLAT_X4(src[-1+3*stride]));
  50 }
  51
  52 static void FUNCC(pred4x4_dc)(uint8_t *_src, const uint8_t *topright, int _stride){
  53     pixel *src = (pixel*)_src;
  54     int stride = _stride/sizeof(pixel);
  55     const int dc= (  src[-stride] + src[1-stride] + src[2-stride] + src[3-stride]
  56                    + src[-1+0*stride] + src[-1+1*stride] + src[-1+2*stride] + src[-1+3*stride] + 4) >>3;
  57     const pixel4 a = PIXEL_SPLAT_X4(dc);
  58
  59     AV_WN4PA(src+0*stride, a);
  60     AV_WN4PA(src+1*stride, a);
  61     AV_WN4PA(src+2*stride, a);
  62     AV_WN4PA(src+3*stride, a);
  63 }
  64
  65 static void FUNCC(pred4x4_left_dc)(uint8_t *_src, const uint8_t *topright, int _stride){
  66     pixel *src = (pixel*)_src;
  67     int stride = _stride/sizeof(pixel);
  68     const int dc= (  src[-1+0*stride] + src[-1+1*stride] + src[-1+2*stride] + src[-1+3*stride] + 2) >>2;
  69     const pixel4 a = PIXEL_SPLAT_X4(dc);
  70
  71     AV_WN4PA(src+0*stride, a);
  72     AV_WN4PA(src+1*stride, a);
  73     AV_WN4PA(src+2*stride, a);
  74     AV_WN4PA(src+3*stride, a);
  75 }
  76
  77 static void FUNCC(pred4x4_top_dc)(uint8_t *_src, const uint8_t *topright, int _stride){
  78     pixel *src = (pixel*)_src;
  79     int stride = _stride/sizeof(pixel);
  80     const int dc= (  src[-stride] + src[1-stride] + src[2-stride] + src[3-stride] + 2) >>2;
  81     const pixel4 a = PIXEL_SPLAT_X4(dc);
  82
  83     AV_WN4PA(src+0*stride, a);
  84     AV_WN4PA(src+1*stride, a);
  85     AV_WN4PA(src+2*stride, a);
  86     AV_WN4PA(src+3*stride, a);
  87 }
  88
  89 static void FUNCC(pred4x4_128_dc)(uint8_t *_src, const uint8_t *topright, int _stride){
  90     pixel *src = (pixel*)_src;
  91     int stride = _stride/sizeof(pixel);
  92     const pixel4 a = PIXEL_SPLAT_X4(1<<(BIT_DEPTH-1));
  93
  94     AV_WN4PA(src+0*stride, a);
  95     AV_WN4PA(src+1*stride, a);
  96     AV_WN4PA(src+2*stride, a);
  97     AV_WN4PA(src+3*stride, a);
  98 }
  99
 100 static void FUNCC(pred4x4_127_dc)(uint8_t *_src, const uint8_t *topright, int _stride){
 101     pixel *src = (pixel*)_src;
 102     int stride = _stride/sizeof(pixel);
 103     const pixel4 a = PIXEL_SPLAT_X4((1<<(BIT_DEPTH-1))-1);
 104
 105     AV_WN4PA(src+0*stride, a);
 106     AV_WN4PA(src+1*stride, a);
 107     AV_WN4PA(src+2*stride, a);
 108     AV_WN4PA(src+3*stride, a);
 109 }
 110
 111 static void FUNCC(pred4x4_129_dc)(uint8_t *_src, const uint8_t *topright, int _stride){
 112     pixel *src = (pixel*)_src;
 113     int stride = _stride/sizeof(pixel);
 114     const pixel4 a = PIXEL_SPLAT_X4((1<<(BIT_DEPTH-1))+1);
 115
 116     AV_WN4PA(src+0*stride, a);
 117     AV_WN4PA(src+1*stride, a);
 118     AV_WN4PA(src+2*stride, a);
 119     AV_WN4PA(src+3*stride, a);
 120 }
 121
 122
 123 #define LOAD_TOP_RIGHT_EDGE\
 124     const unsigned av_unused t4 = topright[0];\
 125     const unsigned av_unused t5 = topright[1];\
 126     const unsigned av_unused t6 = topright[2];\
 127     const unsigned av_unused t7 = topright[3];\
 128
 129 #define LOAD_DOWN_LEFT_EDGE\
 130     const unsigned av_unused l4 = src[-1+4*stride];\
 131     const unsigned av_unused l5 = src[-1+5*stride];\
 132     const unsigned av_unused l6 = src[-1+6*stride];\
 133     const unsigned av_unused l7 = src[-1+7*stride];\
 134
 135 #define LOAD_LEFT_EDGE\
 136     const unsigned av_unused l0 = src[-1+0*stride];\
 137     const unsigned av_unused l1 = src[-1+1*stride];\
 138     const unsigned av_unused l2 = src[-1+2*stride];\
 139     const unsigned av_unused l3 = src[-1+3*stride];\
 140
 141 #define LOAD_TOP_EDGE\
 142     const unsigned av_unused t0 = src[ 0-1*stride];\
 143     const unsigned av_unused t1 = src[ 1-1*stride];\
 144     const unsigned av_unused t2 = src[ 2-1*stride];\
 145     const unsigned av_unused t3 = src[ 3-1*stride];\
 146
 147 static void FUNCC(pred4x4_down_right)(uint8_t *_src, const uint8_t *topright, int _stride){
 148     pixel *src = (pixel*)_src;
 149     int stride = _stride/sizeof(pixel);
 150     const int lt= src[-1-1*stride];
 151     LOAD_TOP_EDGE
 152     LOAD_LEFT_EDGE
 153
 154     src[0+3*stride]=(l3 + 2*l2 + l1 + 2)>>2;
 155     src[0+2*stride]=
 156     src[1+3*stride]=(l2 + 2*l1 + l0 + 2)>>2;
 157     src[0+1*stride]=
 158     src[1+2*stride]=
 159     src[2+3*stride]=(l1 + 2*l0 + lt + 2)>>2;
 160     src[0+0*stride]=
 161     src[1+1*stride]=
 162     src[2+2*stride]=
 163     src[3+3*stride]=(l0 + 2*lt + t0 + 2)>>2;
 164     src[1+0*stride]=
 165     src[2+1*stride]=
 166     src[3+2*stride]=(lt + 2*t0 + t1 + 2)>>2;
 167     src[2+0*stride]=
 168     src[3+1*stride]=(t0 + 2*t1 + t2 + 2)>>2;
 169     src[3+0*stride]=(t1 + 2*t2 + t3 + 2)>>2;
 170 }
 171
 172 static void FUNCC(pred4x4_down_left)(uint8_t *_src, const uint8_t *_topright, int _stride){
 173     pixel *src = (pixel*)_src;
 174     const pixel *topright = (const pixel*)_topright;
 175     int stride = _stride/sizeof(pixel);
 176     LOAD_TOP_EDGE
 177     LOAD_TOP_RIGHT_EDGE
 178 //    LOAD_LEFT_EDGE
 179
 180     src[0+0*stride]=(t0 + t2 + 2*t1 + 2)>>2;
 181     src[1+0*stride]=
 182     src[0+1*stride]=(t1 + t3 + 2*t2 + 2)>>2;
 183     src[2+0*stride]=
 184     src[1+1*stride]=
 185     src[0+2*stride]=(t2 + t4 + 2*t3 + 2)>>2;
 186     src[3+0*stride]=
 187     src[2+1*stride]=
 188     src[1+2*stride]=
 189     src[0+3*stride]=(t3 + t5 + 2*t4 + 2)>>2;
 190     src[3+1*stride]=
 191     src[2+2*stride]=
 192     src[1+3*stride]=(t4 + t6 + 2*t5 + 2)>>2;
 193     src[3+2*stride]=
 194     src[2+3*stride]=(t5 + t7 + 2*t6 + 2)>>2;
 195     src[3+3*stride]=(t6 + 3*t7 + 2)>>2;
 196 }
 197
 198 static void FUNCC(pred4x4_vertical_right)(uint8_t *_src, const uint8_t *topright, int _stride){
 199     pixel *src = (pixel*)_src;
 200     int stride = _stride/sizeof(pixel);
 201     const int lt= src[-1-1*stride];
 202     LOAD_TOP_EDGE
 203     LOAD_LEFT_EDGE
 204
 205     src[0+0*stride]=
 206     src[1+2*stride]=(lt + t0 + 1)>>1;
 207     src[1+0*stride]=
 208     src[2+2*stride]=(t0 + t1 + 1)>>1;
 209     src[2+0*stride]=
 210     src[3+2*stride]=(t1 + t2 + 1)>>1;
 211     src[3+0*stride]=(t2 + t3 + 1)>>1;
 212     src[0+1*stride]=
 213     src[1+3*stride]=(l0 + 2*lt + t0 + 2)>>2;
 214     src[1+1*stride]=
 215     src[2+3*stride]=(lt + 2*t0 + t1 + 2)>>2;
 216     src[2+1*stride]=
 217     src[3+3*stride]=(t0 + 2*t1 + t2 + 2)>>2;
 218     src[3+1*stride]=(t1 + 2*t2 + t3 + 2)>>2;
 219     src[0+2*stride]=(lt + 2*l0 + l1 + 2)>>2;
 220     src[0+3*stride]=(l0 + 2*l1 + l2 + 2)>>2;
 221 }
 222
 223 static void FUNCC(pred4x4_vertical_left)(uint8_t *_src, const uint8_t *_topright, int _stride){
 224     pixel *src = (pixel*)_src;
 225     const pixel *topright = (const pixel*)_topright;
 226     int stride = _stride/sizeof(pixel);
 227     LOAD_TOP_EDGE
 228     LOAD_TOP_RIGHT_EDGE
 229
 230     src[0+0*stride]=(t0 + t1 + 1)>>1;
 231     src[1+0*stride]=
 232     src[0+2*stride]=(t1 + t2 + 1)>>1;
 233     src[2+0*stride]=
 234     src[1+2*stride]=(t2 + t3 + 1)>>1;
 235     src[3+0*stride]=
 236     src[2+2*stride]=(t3 + t4+ 1)>>1;
 237     src[3+2*stride]=(t4 + t5+ 1)>>1;
 238     src[0+1*stride]=(t0 + 2*t1 + t2 + 2)>>2;
 239     src[1+1*stride]=
 240     src[0+3*stride]=(t1 + 2*t2 + t3 + 2)>>2;
 241     src[2+1*stride]=
 242     src[1+3*stride]=(t2 + 2*t3 + t4 + 2)>>2;
 243     src[3+1*stride]=
 244     src[2+3*stride]=(t3 + 2*t4 + t5 + 2)>>2;
 245     src[3+3*stride]=(t4 + 2*t5 + t6 + 2)>>2;
 246 }
 247
 248 static void FUNCC(pred4x4_horizontal_up)(uint8_t *_src, const uint8_t *topright, int _stride){
 249     pixel *src = (pixel*)_src;
 250     int stride = _stride/sizeof(pixel);
 251     LOAD_LEFT_EDGE
 252
 253     src[0+0*stride]=(l0 + l1 + 1)>>1;
 254     src[1+0*stride]=(l0 + 2*l1 + l2 + 2)>>2;
 255     src[2+0*stride]=
 256     src[0+1*stride]=(l1 + l2 + 1)>>1;
 257     src[3+0*stride]=
 258     src[1+1*stride]=(l1 + 2*l2 + l3 + 2)>>2;
 259     src[2+1*stride]=
 260     src[0+2*stride]=(l2 + l3 + 1)>>1;
 261     src[3+1*stride]=
 262     src[1+2*stride]=(l2 + 2*l3 + l3 + 2)>>2;
 263     src[3+2*stride]=
 264     src[1+3*stride]=
 265     src[0+3*stride]=
 266     src[2+2*stride]=
 267     src[2+3*stride]=
 268     src[3+3*stride]=l3;
 269 }
 270
 271 static void FUNCC(pred4x4_horizontal_down)(uint8_t *_src, const uint8_t *topright, int _stride){
 272     pixel *src = (pixel*)_src;
 273     int stride = _stride/sizeof(pixel);
 274     const int lt= src[-1-1*stride];
 275     LOAD_TOP_EDGE
 276     LOAD_LEFT_EDGE
 277
 278     src[0+0*stride]=
 279     src[2+1*stride]=(lt + l0 + 1)>>1;
 280     src[1+0*stride]=
 281     src[3+1*stride]=(l0 + 2*lt + t0 + 2)>>2;
 282     src[2+0*stride]=(lt + 2*t0 + t1 + 2)>>2;
 283     src[3+0*stride]=(t0 + 2*t1 + t2 + 2)>>2;
 284     src[0+1*stride]=
 285     src[2+2*stride]=(l0 + l1 + 1)>>1;
 286     src[1+1*stride]=
 287     src[3+2*stride]=(lt + 2*l0 + l1 + 2)>>2;
 288     src[0+2*stride]=
 289     src[2+3*stride]=(l1 + l2+ 1)>>1;
 290     src[1+2*stride]=
 291     src[3+3*stride]=(l0 + 2*l1 + l2 + 2)>>2;
 292     src[0+3*stride]=(l2 + l3 + 1)>>1;
 293     src[1+3*stride]=(l1 + 2*l2 + l3 + 2)>>2;
 294 }
 295
 296 static void FUNCC(pred16x16_vertical)(uint8_t *_src, int _stride){
 297     int i;
 298     pixel *src = (pixel*)_src;
 299     int stride = _stride/sizeof(pixel);
 300     const pixel4 a = AV_RN4PA(((pixel4*)(src-stride))+0);
 301     const pixel4 b = AV_RN4PA(((pixel4*)(src-stride))+1);
 302     const pixel4 c = AV_RN4PA(((pixel4*)(src-stride))+2);
 303     const pixel4 d = AV_RN4PA(((pixel4*)(src-stride))+3);
 304
 305     for(i=0; i<16; i++){
 306         AV_WN4PA(((pixel4*)(src+i*stride))+0, a);
 307         AV_WN4PA(((pixel4*)(src+i*stride))+1, b);
 308         AV_WN4PA(((pixel4*)(src+i*stride))+2, c);
 309         AV_WN4PA(((pixel4*)(src+i*stride))+3, d);
 310     }
 311 }
 312
 313 static void FUNCC(pred16x16_horizontal)(uint8_t *_src, int stride){
 314     int i;
 315     pixel *src = (pixel*)_src;
 316     stride /= sizeof(pixel);
 317
 318     for(i=0; i<16; i++){
 319         const pixel4 a = PIXEL_SPLAT_X4(src[-1+i*stride]);
 320
 321         AV_WN4PA(((pixel4*)(src+i*stride))+0, a);
 322         AV_WN4PA(((pixel4*)(src+i*stride))+1, a);
 323         AV_WN4PA(((pixel4*)(src+i*stride))+2, a);
 324         AV_WN4PA(((pixel4*)(src+i*stride))+3, a);
 325     }
 326 }
 327
 328 #define PREDICT_16x16_DC(v)\
 329     for(i=0; i<16; i++){\
 330         AV_WN4PA(src+ 0, v);\
 331         AV_WN4PA(src+ 4, v);\
 332         AV_WN4PA(src+ 8, v);\
 333         AV_WN4PA(src+12, v);\
 334         src += stride;\
 335     }
 336
 337 static void FUNCC(pred16x16_dc)(uint8_t *_src, int stride){
 338     int i, dc=0;
 339     pixel *src = (pixel*)_src;
 340     pixel4 dcsplat;
 341     stride /= sizeof(pixel);
 342
 343     for(i=0;i<16; i++){
 344         dc+= src[-1+i*stride];
 345     }
 346
 347     for(i=0;i<16; i++){
 348         dc+= src[i-stride];
 349     }
 350
 351     dcsplat = PIXEL_SPLAT_X4((dc+16)>>5);
 352     PREDICT_16x16_DC(dcsplat);
 353 }
 354
 355 static void FUNCC(pred16x16_left_dc)(uint8_t *_src, int stride){
 356     int i, dc=0;
 357     pixel *src = (pixel*)_src;
 358     pixel4 dcsplat;
 359     stride /= sizeof(pixel);
 360
 361     for(i=0;i<16; i++){
 362         dc+= src[-1+i*stride];
 363     }
 364
 365     dcsplat = PIXEL_SPLAT_X4((dc+8)>>4);
 366     PREDICT_16x16_DC(dcsplat);
 367 }
 368
 369 static void FUNCC(pred16x16_top_dc)(uint8_t *_src, int stride){
 370     int i, dc=0;
 371     pixel *src = (pixel*)_src;
 372     pixel4 dcsplat;
 373     stride /= sizeof(pixel);
 374
 375     for(i=0;i<16; i++){
 376         dc+= src[i-stride];
 377     }
 378
 379     dcsplat = PIXEL_SPLAT_X4((dc+8)>>4);
 380     PREDICT_16x16_DC(dcsplat);
 381 }
 382
 383 #define PRED16x16_X(n, v) \
 384 static void FUNCC(pred16x16_##n##_dc)(uint8_t *_src, int stride){\
 385     int i;\
 386     pixel *src = (pixel*)_src;\
 387     stride /= sizeof(pixel);\
 388     PREDICT_16x16_DC(PIXEL_SPLAT_X4(v));\
 389 }
 390
 391 PRED16x16_X(127, (1<<(BIT_DEPTH-1))-1);
 392 PRED16x16_X(128, (1<<(BIT_DEPTH-1))+0);
 393 PRED16x16_X(129, (1<<(BIT_DEPTH-1))+1);
 394
 395 static inline void FUNCC(pred16x16_plane_compat)(uint8_t *_src, int _stride, const int svq3, const int rv40){
 396   int i, j, k;
 397   int a;
 398   INIT_CLIP
 399   pixel *src = (pixel*)_src;
 400   int stride = _stride/sizeof(pixel);
 401   const pixel * const src0 = src +7-stride;
 402   const pixel *       src1 = src +8*stride-1;
 403   const pixel *       src2 = src1-2*stride;    // == src+6*stride-1;
 404   int H = src0[1] - src0[-1];
 405   int V = src1[0] - src2[ 0];
 406   for(k=2; k<=8; ++k) {
 407     src1 += stride; src2 -= stride;
 408     H += k*(src0[k] - src0[-k]);
 409     V += k*(src1[0] - src2[ 0]);
 410   }
 411   if(svq3){
 412     H = ( 5*(H/4) ) / 16;
 413     V = ( 5*(V/4) ) / 16;
 414
 415     /* required for 100% accuracy */
 416     i = H; H = V; V = i;
 417   }else if(rv40){
 418     H = ( H + (H>>2) ) >> 4;
 419     V = ( V + (V>>2) ) >> 4;
 420   }else{
 421     H = ( 5*H+32 ) >> 6;
 422     V = ( 5*V+32 ) >> 6;
 423   }
 424
 425   a = 16*(src1[0] + src2[16] + 1) - 7*(V+H);
 426   for(j=16; j>0; --j) {
 427     int b = a;
 428     a += V;
 429     for(i=-16; i<0; i+=4) {
 430       src[16+i] = CLIP((b    ) >> 5);
 431       src[17+i] = CLIP((b+  H) >> 5);
 432       src[18+i] = CLIP((b+2*H) >> 5);
 433       src[19+i] = CLIP((b+3*H) >> 5);
 434       b += 4*H;
 435     }
 436     src += stride;
 437   }
 438 }
 439
 440 static void FUNCC(pred16x16_plane)(uint8_t *src, int stride){
 441     FUNCC(pred16x16_plane_compat)(src, stride, 0, 0);
 442 }
 443
 444 static void FUNCC(pred8x8_vertical)(uint8_t *_src, int _stride){
 445     int i;
 446     pixel *src = (pixel*)_src;
 447     int stride = _stride/sizeof(pixel);
 448     const pixel4 a= AV_RN4PA(((pixel4*)(src-stride))+0);
 449     const pixel4 b= AV_RN4PA(((pixel4*)(src-stride))+1);
 450
 451     for(i=0; i<8; i++){
 452         AV_WN4PA(((pixel4*)(src+i*stride))+0, a);
 453         AV_WN4PA(((pixel4*)(src+i*stride))+1, b);
 454     }
 455 }
 456
 457 static void FUNCC(pred8x8_horizontal)(uint8_t *_src, int stride){
 458     int i;
 459     pixel *src = (pixel*)_src;
 460     stride /= sizeof(pixel);
 461
 462     for(i=0; i<8; i++){
 463         const pixel4 a = PIXEL_SPLAT_X4(src[-1+i*stride]);
 464         AV_WN4PA(((pixel4*)(src+i*stride))+0, a);
 465         AV_WN4PA(((pixel4*)(src+i*stride))+1, a);
 466     }
 467 }
 468
 469 #define PRED8x8_X(n, v)\
 470 static void FUNCC(pred8x8_##n##_dc)(uint8_t *_src, int stride){\
 471     int i;\
 472     const pixel4 a = PIXEL_SPLAT_X4(v);\
 473     pixel *src = (pixel*)_src;\
 474     stride /= sizeof(pixel);\
 475     for(i=0; i<8; i++){\
 476         AV_WN4PA(((pixel4*)(src+i*stride))+0, a);\
 477         AV_WN4PA(((pixel4*)(src+i*stride))+1, a);\
 478     }\
 479 }
 480
 481 PRED8x8_X(127, (1<<(BIT_DEPTH-1))-1);
 482 PRED8x8_X(128, (1<<(BIT_DEPTH-1))+0);
 483 PRED8x8_X(129, (1<<(BIT_DEPTH-1))+1);
 484
 485 static void FUNCC(pred8x8_left_dc)(uint8_t *_src, int stride){
 486     int i;
 487     int dc0, dc2;
 488     pixel4 dc0splat, dc2splat;
 489     pixel *src = (pixel*)_src;
 490     stride /= sizeof(pixel);
 491
 492     dc0=dc2=0;
 493     for(i=0;i<4; i++){
 494         dc0+= src[-1+i*stride];
 495         dc2+= src[-1+(i+4)*stride];
 496     }
 497     dc0splat = PIXEL_SPLAT_X4((dc0 + 2)>>2);
 498     dc2splat = PIXEL_SPLAT_X4((dc2 + 2)>>2);
 499
 500     for(i=0; i<4; i++){
 501         AV_WN4PA(((pixel4*)(src+i*stride))+0, dc0splat);
 502         AV_WN4PA(((pixel4*)(src+i*stride))+1, dc0splat);
 503     }
 504     for(i=4; i<8; i++){
 505         AV_WN4PA(((pixel4*)(src+i*stride))+0, dc2splat);
 506         AV_WN4PA(((pixel4*)(src+i*stride))+1, dc2splat);
 507     }
 508 }
 509
 510 static void FUNCC(pred8x8_top_dc)(uint8_t *_src, int stride){
 511     int i;
 512     int dc0, dc1;
 513     pixel4 dc0splat, dc1splat;
 514     pixel *src = (pixel*)_src;
 515     stride /= sizeof(pixel);
 516
 517     dc0=dc1=0;
 518     for(i=0;i<4; i++){
 519         dc0+= src[i-stride];
 520         dc1+= src[4+i-stride];
 521     }
 522     dc0splat = PIXEL_SPLAT_X4((dc0 + 2)>>2);
 523     dc1splat = PIXEL_SPLAT_X4((dc1 + 2)>>2);
 524
 525     for(i=0; i<4; i++){
 526         AV_WN4PA(((pixel4*)(src+i*stride))+0, dc0splat);
 527         AV_WN4PA(((pixel4*)(src+i*stride))+1, dc1splat);
 528     }
 529     for(i=4; i<8; i++){
 530         AV_WN4PA(((pixel4*)(src+i*stride))+0, dc0splat);
 531         AV_WN4PA(((pixel4*)(src+i*stride))+1, dc1splat);
 532     }
 533 }
 534
 535 static void FUNCC(pred8x8_dc)(uint8_t *_src, int stride){
 536     int i;
 537     int dc0, dc1, dc2;
 538     pixel4 dc0splat, dc1splat, dc2splat, dc3splat;
 539     pixel *src = (pixel*)_src;
 540     stride /= sizeof(pixel);
 541
 542     dc0=dc1=dc2=0;
 543     for(i=0;i<4; i++){
 544         dc0+= src[-1+i*stride] + src[i-stride];
 545         dc1+= src[4+i-stride];
 546         dc2+= src[-1+(i+4)*stride];
 547     }
 548     dc0splat = PIXEL_SPLAT_X4((dc0 + 4)>>3);
 549     dc1splat = PIXEL_SPLAT_X4((dc1 + 2)>>2);
 550     dc2splat = PIXEL_SPLAT_X4((dc2 + 2)>>2);
 551     dc3splat = PIXEL_SPLAT_X4((dc1 + dc2 + 4)>>3);
 552
 553     for(i=0; i<4; i++){
 554         AV_WN4PA(((pixel4*)(src+i*stride))+0, dc0splat);
 555         AV_WN4PA(((pixel4*)(src+i*stride))+1, dc1splat);
 556     }
 557     for(i=4; i<8; i++){
 558         AV_WN4PA(((pixel4*)(src+i*stride))+0, dc2splat);
 559         AV_WN4PA(((pixel4*)(src+i*stride))+1, dc3splat);
 560     }
 561 }
 562
 563 //the following 4 function should not be optimized!
 564 static void FUNC(pred8x8_mad_cow_dc_l0t)(uint8_t *src, int stride){
 565     FUNCC(pred8x8_top_dc)(src, stride);
 566     FUNCC(pred4x4_dc)(src, NULL, stride);
 567 }
 568
 569 static void FUNC(pred8x8_mad_cow_dc_0lt)(uint8_t *src, int stride){
 570     FUNCC(pred8x8_dc)(src, stride);
 571     FUNCC(pred4x4_top_dc)(src, NULL, stride);
 572 }
 573
 574 static void FUNC(pred8x8_mad_cow_dc_l00)(uint8_t *src, int stride){
 575     FUNCC(pred8x8_left_dc)(src, stride);
 576     FUNCC(pred4x4_128_dc)(src + 4*stride                  , NULL, stride);
 577     FUNCC(pred4x4_128_dc)(src + 4*stride + 4*sizeof(pixel), NULL, stride);
 578 }
 579
 580 static void FUNC(pred8x8_mad_cow_dc_0l0)(uint8_t *src, int stride){
 581     FUNCC(pred8x8_left_dc)(src, stride);
 582     FUNCC(pred4x4_128_dc)(src                  , NULL, stride);
 583     FUNCC(pred4x4_128_dc)(src + 4*sizeof(pixel), NULL, stride);
 584 }
 585
 586 static void FUNCC(pred8x8_plane)(uint8_t *_src, int _stride){
 587   int j, k;
 588   int a;
 589   INIT_CLIP
 590   pixel *src = (pixel*)_src;
 591   int stride = _stride/sizeof(pixel);
 592   const pixel * const src0 = src +3-stride;
 593   const pixel *       src1 = src +4*stride-1;
 594   const pixel *       src2 = src1-2*stride;    // == src+2*stride-1;
 595   int H = src0[1] - src0[-1];
 596   int V = src1[0] - src2[ 0];
 597   for(k=2; k<=4; ++k) {
 598     src1 += stride; src2 -= stride;
 599     H += k*(src0[k] - src0[-k]);
 600     V += k*(src1[0] - src2[ 0]);
 601   }
 602   H = ( 17*H+16 ) >> 5;
 603   V = ( 17*V+16 ) >> 5;
 604
 605   a = 16*(src1[0] + src2[8]+1) - 3*(V+H);
 606   for(j=8; j>0; --j) {
 607     int b = a;
 608     a += V;
 609     src[0] = CLIP((b    ) >> 5);
 610     src[1] = CLIP((b+  H) >> 5);
 611     src[2] = CLIP((b+2*H) >> 5);
 612     src[3] = CLIP((b+3*H) >> 5);
 613     src[4] = CLIP((b+4*H) >> 5);
 614     src[5] = CLIP((b+5*H) >> 5);
 615     src[6] = CLIP((b+6*H) >> 5);
 616     src[7] = CLIP((b+7*H) >> 5);
 617     src += stride;
 618   }
 619 }
 620
 621 #define SRC(x,y) src[(x)+(y)*stride]
 622 #define PL(y) \
 623     const int l##y = (SRC(-1,y-1) + 2*SRC(-1,y) + SRC(-1,y+1) + 2) >> 2;
 624 #define PREDICT_8x8_LOAD_LEFT \
 625     const int l0 = ((has_topleft ? SRC(-1,-1) : SRC(-1,0)) \
 626                      + 2*SRC(-1,0) + SRC(-1,1) + 2) >> 2; \
 627     PL(1) PL(2) PL(3) PL(4) PL(5) PL(6) \
 628     const int l7 av_unused = (SRC(-1,6) + 3*SRC(-1,7) + 2) >> 2
 629
 630 #define PT(x) \
 631     const int t##x = (SRC(x-1,-1) + 2*SRC(x,-1) + SRC(x+1,-1) + 2) >> 2;
 632 #define PREDICT_8x8_LOAD_TOP \
 633     const int t0 = ((has_topleft ? SRC(-1,-1) : SRC(0,-1)) \
 634                      + 2*SRC(0,-1) + SRC(1,-1) + 2) >> 2; \
 635     PT(1) PT(2) PT(3) PT(4) PT(5) PT(6) \
 636     const int t7 av_unused = ((has_topright ? SRC(8,-1) : SRC(7,-1)) \
 637                      + 2*SRC(7,-1) + SRC(6,-1) + 2) >> 2
 638
 639 #define PTR(x) \
 640     t##x = (SRC(x-1,-1) + 2*SRC(x,-1) + SRC(x+1,-1) + 2) >> 2;
 641 #define PREDICT_8x8_LOAD_TOPRIGHT \
 642     int t8, t9, t10, t11, t12, t13, t14, t15; \
 643     if(has_topright) { \
 644         PTR(8) PTR(9) PTR(10) PTR(11) PTR(12) PTR(13) PTR(14) \
 645         t15 = (SRC(14,-1) + 3*SRC(15,-1) + 2) >> 2; \
 646     } else t8=t9=t10=t11=t12=t13=t14=t15= SRC(7,-1);
 647
 648 #define PREDICT_8x8_LOAD_TOPLEFT \
 649     const int lt = (SRC(-1,0) + 2*SRC(-1,-1) + SRC(0,-1) + 2) >> 2
 650
 651 #define PREDICT_8x8_DC(v) \
 652     int y; \
 653     for( y = 0; y < 8; y++ ) { \
 654         AV_WN4PA(((pixel4*)src)+0, v); \
 655         AV_WN4PA(((pixel4*)src)+1, v); \
 656         src += stride; \
 657     }
 658
 659 static void FUNCC(pred8x8l_128_dc)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 660 {
 661     pixel *src = (pixel*)_src;
 662     int stride = _stride/sizeof(pixel);
 663
 664     PREDICT_8x8_DC(PIXEL_SPLAT_X4(1<<(BIT_DEPTH-1)));
 665 }
 666 static void FUNCC(pred8x8l_left_dc)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 667 {
 668     pixel *src = (pixel*)_src;
 669     int stride = _stride/sizeof(pixel);
 670
 671     PREDICT_8x8_LOAD_LEFT;
 672     const pixel4 dc = PIXEL_SPLAT_X4((l0+l1+l2+l3+l4+l5+l6+l7+4) >> 3);
 673     PREDICT_8x8_DC(dc);
 674 }
 675 static void FUNCC(pred8x8l_top_dc)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 676 {
 677     pixel *src = (pixel*)_src;
 678     int stride = _stride/sizeof(pixel);
 679
 680     PREDICT_8x8_LOAD_TOP;
 681     const pixel4 dc = PIXEL_SPLAT_X4((t0+t1+t2+t3+t4+t5+t6+t7+4) >> 3);
 682     PREDICT_8x8_DC(dc);
 683 }
 684 static void FUNCC(pred8x8l_dc)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 685 {
 686     pixel *src = (pixel*)_src;
 687     int stride = _stride/sizeof(pixel);
 688
 689     PREDICT_8x8_LOAD_LEFT;
 690     PREDICT_8x8_LOAD_TOP;
 691     const pixel4 dc = PIXEL_SPLAT_X4((l0+l1+l2+l3+l4+l5+l6+l7
 692                                      +t0+t1+t2+t3+t4+t5+t6+t7+8) >> 4);
 693     PREDICT_8x8_DC(dc);
 694 }
 695 static void FUNCC(pred8x8l_horizontal)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 696 {
 697     pixel *src = (pixel*)_src;
 698     int stride = _stride/sizeof(pixel);
 699     pixel4 a;
 700
 701     PREDICT_8x8_LOAD_LEFT;
 702 #define ROW(y) a = PIXEL_SPLAT_X4(l##y); \
 703                AV_WN4PA(src+y*stride, a); \
 704                AV_WN4PA(src+y*stride+4, a);
 705     ROW(0); ROW(1); ROW(2); ROW(3); ROW(4); ROW(5); ROW(6); ROW(7);
 706 #undef ROW
 707 }
 708 static void FUNCC(pred8x8l_vertical)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 709 {
 710     int y;
 711     pixel *src = (pixel*)_src;
 712     int stride = _stride/sizeof(pixel);
 713     pixel4 a, b;
 714
 715     PREDICT_8x8_LOAD_TOP;
 716     src[0] = t0;
 717     src[1] = t1;
 718     src[2] = t2;
 719     src[3] = t3;
 720     src[4] = t4;
 721     src[5] = t5;
 722     src[6] = t6;
 723     src[7] = t7;
 724     a = AV_RN4PA(((pixel4*)src)+0);
 725     b = AV_RN4PA(((pixel4*)src)+1);
 726     for( y = 1; y < 8; y++ ) {
 727         AV_WN4PA(((pixel4*)(src+y*stride))+0, a);
 728         AV_WN4PA(((pixel4*)(src+y*stride))+1, b);
 729     }
 730 }
 731 static void FUNCC(pred8x8l_down_left)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 732 {
 733     pixel *src = (pixel*)_src;
 734     int stride = _stride/sizeof(pixel);
 735     PREDICT_8x8_LOAD_TOP;
 736     PREDICT_8x8_LOAD_TOPRIGHT;
 737     SRC(0,0)= (t0 + 2*t1 + t2 + 2) >> 2;
 738     SRC(0,1)=SRC(1,0)= (t1 + 2*t2 + t3 + 2) >> 2;
 739     SRC(0,2)=SRC(1,1)=SRC(2,0)= (t2 + 2*t3 + t4 + 2) >> 2;
 740     SRC(0,3)=SRC(1,2)=SRC(2,1)=SRC(3,0)= (t3 + 2*t4 + t5 + 2) >> 2;
 741     SRC(0,4)=SRC(1,3)=SRC(2,2)=SRC(3,1)=SRC(4,0)= (t4 + 2*t5 + t6 + 2) >> 2;
 742     SRC(0,5)=SRC(1,4)=SRC(2,3)=SRC(3,2)=SRC(4,1)=SRC(5,0)= (t5 + 2*t6 + t7 + 2) >> 2;
 743     SRC(0,6)=SRC(1,5)=SRC(2,4)=SRC(3,3)=SRC(4,2)=SRC(5,1)=SRC(6,0)= (t6 + 2*t7 + t8 + 2) >> 2;
 744     SRC(0,7)=SRC(1,6)=SRC(2,5)=SRC(3,4)=SRC(4,3)=SRC(5,2)=SRC(6,1)=SRC(7,0)= (t7 + 2*t8 + t9 + 2) >> 2;
 745     SRC(1,7)=SRC(2,6)=SRC(3,5)=SRC(4,4)=SRC(5,3)=SRC(6,2)=SRC(7,1)= (t8 + 2*t9 + t10 + 2) >> 2;
 746     SRC(2,7)=SRC(3,6)=SRC(4,5)=SRC(5,4)=SRC(6,3)=SRC(7,2)= (t9 + 2*t10 + t11 + 2) >> 2;
 747     SRC(3,7)=SRC(4,6)=SRC(5,5)=SRC(6,4)=SRC(7,3)= (t10 + 2*t11 + t12 + 2) >> 2;
 748     SRC(4,7)=SRC(5,6)=SRC(6,5)=SRC(7,4)= (t11 + 2*t12 + t13 + 2) >> 2;
 749     SRC(5,7)=SRC(6,6)=SRC(7,5)= (t12 + 2*t13 + t14 + 2) >> 2;
 750     SRC(6,7)=SRC(7,6)= (t13 + 2*t14 + t15 + 2) >> 2;
 751     SRC(7,7)= (t14 + 3*t15 + 2) >> 2;
 752 }
 753 static void FUNCC(pred8x8l_down_right)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 754 {
 755     pixel *src = (pixel*)_src;
 756     int stride = _stride/sizeof(pixel);
 757     PREDICT_8x8_LOAD_TOP;
 758     PREDICT_8x8_LOAD_LEFT;
 759     PREDICT_8x8_LOAD_TOPLEFT;
 760     SRC(0,7)= (l7 + 2*l6 + l5 + 2) >> 2;
 761     SRC(0,6)=SRC(1,7)= (l6 + 2*l5 + l4 + 2) >> 2;
 762     SRC(0,5)=SRC(1,6)=SRC(2,7)= (l5 + 2*l4 + l3 + 2) >> 2;
 763     SRC(0,4)=SRC(1,5)=SRC(2,6)=SRC(3,7)= (l4 + 2*l3 + l2 + 2) >> 2;
 764     SRC(0,3)=SRC(1,4)=SRC(2,5)=SRC(3,6)=SRC(4,7)= (l3 + 2*l2 + l1 + 2) >> 2;
 765     SRC(0,2)=SRC(1,3)=SRC(2,4)=SRC(3,5)=SRC(4,6)=SRC(5,7)= (l2 + 2*l1 + l0 + 2) >> 2;
 766     SRC(0,1)=SRC(1,2)=SRC(2,3)=SRC(3,4)=SRC(4,5)=SRC(5,6)=SRC(6,7)= (l1 + 2*l0 + lt + 2) >> 2;
 767     SRC(0,0)=SRC(1,1)=SRC(2,2)=SRC(3,3)=SRC(4,4)=SRC(5,5)=SRC(6,6)=SRC(7,7)= (l0 + 2*lt + t0 + 2) >> 2;
 768     SRC(1,0)=SRC(2,1)=SRC(3,2)=SRC(4,3)=SRC(5,4)=SRC(6,5)=SRC(7,6)= (lt + 2*t0 + t1 + 2) >> 2;
 769     SRC(2,0)=SRC(3,1)=SRC(4,2)=SRC(5,3)=SRC(6,4)=SRC(7,5)= (t0 + 2*t1 + t2 + 2) >> 2;
 770     SRC(3,0)=SRC(4,1)=SRC(5,2)=SRC(6,3)=SRC(7,4)= (t1 + 2*t2 + t3 + 2) >> 2;
 771     SRC(4,0)=SRC(5,1)=SRC(6,2)=SRC(7,3)= (t2 + 2*t3 + t4 + 2) >> 2;
 772     SRC(5,0)=SRC(6,1)=SRC(7,2)= (t3 + 2*t4 + t5 + 2) >> 2;
 773     SRC(6,0)=SRC(7,1)= (t4 + 2*t5 + t6 + 2) >> 2;
 774     SRC(7,0)= (t5 + 2*t6 + t7 + 2) >> 2;
 775 }
 776 static void FUNCC(pred8x8l_vertical_right)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 777 {
 778     pixel *src = (pixel*)_src;
 779     int stride = _stride/sizeof(pixel);
 780     PREDICT_8x8_LOAD_TOP;
 781     PREDICT_8x8_LOAD_LEFT;
 782     PREDICT_8x8_LOAD_TOPLEFT;
 783     SRC(0,6)= (l5 + 2*l4 + l3 + 2) >> 2;
 784     SRC(0,7)= (l6 + 2*l5 + l4 + 2) >> 2;
 785     SRC(0,4)=SRC(1,6)= (l3 + 2*l2 + l1 + 2) >> 2;
 786     SRC(0,5)=SRC(1,7)= (l4 + 2*l3 + l2 + 2) >> 2;
 787     SRC(0,2)=SRC(1,4)=SRC(2,6)= (l1 + 2*l0 + lt + 2) >> 2;
 788     SRC(0,3)=SRC(1,5)=SRC(2,7)= (l2 + 2*l1 + l0 + 2) >> 2;
 789     SRC(0,1)=SRC(1,3)=SRC(2,5)=SRC(3,7)= (l0 + 2*lt + t0 + 2) >> 2;
 790     SRC(0,0)=SRC(1,2)=SRC(2,4)=SRC(3,6)= (lt + t0 + 1) >> 1;
 791     SRC(1,1)=SRC(2,3)=SRC(3,5)=SRC(4,7)= (lt + 2*t0 + t1 + 2) >> 2;
 792     SRC(1,0)=SRC(2,2)=SRC(3,4)=SRC(4,6)= (t0 + t1 + 1) >> 1;
 793     SRC(2,1)=SRC(3,3)=SRC(4,5)=SRC(5,7)= (t0 + 2*t1 + t2 + 2) >> 2;
 794     SRC(2,0)=SRC(3,2)=SRC(4,4)=SRC(5,6)= (t1 + t2 + 1) >> 1;
 795     SRC(3,1)=SRC(4,3)=SRC(5,5)=SRC(6,7)= (t1 + 2*t2 + t3 + 2) >> 2;
 796     SRC(3,0)=SRC(4,2)=SRC(5,4)=SRC(6,6)= (t2 + t3 + 1) >> 1;
 797     SRC(4,1)=SRC(5,3)=SRC(6,5)=SRC(7,7)= (t2 + 2*t3 + t4 + 2) >> 2;
 798     SRC(4,0)=SRC(5,2)=SRC(6,4)=SRC(7,6)= (t3 + t4 + 1) >> 1;
 799     SRC(5,1)=SRC(6,3)=SRC(7,5)= (t3 + 2*t4 + t5 + 2) >> 2;
 800     SRC(5,0)=SRC(6,2)=SRC(7,4)= (t4 + t5 + 1) >> 1;
 801     SRC(6,1)=SRC(7,3)= (t4 + 2*t5 + t6 + 2) >> 2;
 802     SRC(6,0)=SRC(7,2)= (t5 + t6 + 1) >> 1;
 803     SRC(7,1)= (t5 + 2*t6 + t7 + 2) >> 2;
 804     SRC(7,0)= (t6 + t7 + 1) >> 1;
 805 }
 806 static void FUNCC(pred8x8l_horizontal_down)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 807 {
 808     pixel *src = (pixel*)_src;
 809     int stride = _stride/sizeof(pixel);
 810     PREDICT_8x8_LOAD_TOP;
 811     PREDICT_8x8_LOAD_LEFT;
 812     PREDICT_8x8_LOAD_TOPLEFT;
 813     SRC(0,7)= (l6 + l7 + 1) >> 1;
 814     SRC(1,7)= (l5 + 2*l6 + l7 + 2) >> 2;
 815     SRC(0,6)=SRC(2,7)= (l5 + l6 + 1) >> 1;
 816     SRC(1,6)=SRC(3,7)= (l4 + 2*l5 + l6 + 2) >> 2;
 817     SRC(0,5)=SRC(2,6)=SRC(4,7)= (l4 + l5 + 1) >> 1;
 818     SRC(1,5)=SRC(3,6)=SRC(5,7)= (l3 + 2*l4 + l5 + 2) >> 2;
 819     SRC(0,4)=SRC(2,5)=SRC(4,6)=SRC(6,7)= (l3 + l4 + 1) >> 1;
 820     SRC(1,4)=SRC(3,5)=SRC(5,6)=SRC(7,7)= (l2 + 2*l3 + l4 + 2) >> 2;
 821     SRC(0,3)=SRC(2,4)=SRC(4,5)=SRC(6,6)= (l2 + l3 + 1) >> 1;
 822     SRC(1,3)=SRC(3,4)=SRC(5,5)=SRC(7,6)= (l1 + 2*l2 + l3 + 2) >> 2;
 823     SRC(0,2)=SRC(2,3)=SRC(4,4)=SRC(6,5)= (l1 + l2 + 1) >> 1;
 824     SRC(1,2)=SRC(3,3)=SRC(5,4)=SRC(7,5)= (l0 + 2*l1 + l2 + 2) >> 2;
 825     SRC(0,1)=SRC(2,2)=SRC(4,3)=SRC(6,4)= (l0 + l1 + 1) >> 1;
 826     SRC(1,1)=SRC(3,2)=SRC(5,3)=SRC(7,4)= (lt + 2*l0 + l1 + 2) >> 2;
 827     SRC(0,0)=SRC(2,1)=SRC(4,2)=SRC(6,3)= (lt + l0 + 1) >> 1;
 828     SRC(1,0)=SRC(3,1)=SRC(5,2)=SRC(7,3)= (l0 + 2*lt + t0 + 2) >> 2;
 829     SRC(2,0)=SRC(4,1)=SRC(6,2)= (t1 + 2*t0 + lt + 2) >> 2;
 830     SRC(3,0)=SRC(5,1)=SRC(7,2)= (t2 + 2*t1 + t0 + 2) >> 2;
 831     SRC(4,0)=SRC(6,1)= (t3 + 2*t2 + t1 + 2) >> 2;
 832     SRC(5,0)=SRC(7,1)= (t4 + 2*t3 + t2 + 2) >> 2;
 833     SRC(6,0)= (t5 + 2*t4 + t3 + 2) >> 2;
 834     SRC(7,0)= (t6 + 2*t5 + t4 + 2) >> 2;
 835 }
 836 static void FUNCC(pred8x8l_vertical_left)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 837 {
 838     pixel *src = (pixel*)_src;
 839     int stride = _stride/sizeof(pixel);
 840     PREDICT_8x8_LOAD_TOP;
 841     PREDICT_8x8_LOAD_TOPRIGHT;
 842     SRC(0,0)= (t0 + t1 + 1) >> 1;
 843     SRC(0,1)= (t0 + 2*t1 + t2 + 2) >> 2;
 844     SRC(0,2)=SRC(1,0)= (t1 + t2 + 1) >> 1;
 845     SRC(0,3)=SRC(1,1)= (t1 + 2*t2 + t3 + 2) >> 2;
 846     SRC(0,4)=SRC(1,2)=SRC(2,0)= (t2 + t3 + 1) >> 1;
 847     SRC(0,5)=SRC(1,3)=SRC(2,1)= (t2 + 2*t3 + t4 + 2) >> 2;
 848     SRC(0,6)=SRC(1,4)=SRC(2,2)=SRC(3,0)= (t3 + t4 + 1) >> 1;
 849     SRC(0,7)=SRC(1,5)=SRC(2,3)=SRC(3,1)= (t3 + 2*t4 + t5 + 2) >> 2;
 850     SRC(1,6)=SRC(2,4)=SRC(3,2)=SRC(4,0)= (t4 + t5 + 1) >> 1;
 851     SRC(1,7)=SRC(2,5)=SRC(3,3)=SRC(4,1)= (t4 + 2*t5 + t6 + 2) >> 2;
 852     SRC(2,6)=SRC(3,4)=SRC(4,2)=SRC(5,0)= (t5 + t6 + 1) >> 1;
 853     SRC(2,7)=SRC(3,5)=SRC(4,3)=SRC(5,1)= (t5 + 2*t6 + t7 + 2) >> 2;
 854     SRC(3,6)=SRC(4,4)=SRC(5,2)=SRC(6,0)= (t6 + t7 + 1) >> 1;
 855     SRC(3,7)=SRC(4,5)=SRC(5,3)=SRC(6,1)= (t6 + 2*t7 + t8 + 2) >> 2;
 856     SRC(4,6)=SRC(5,4)=SRC(6,2)=SRC(7,0)= (t7 + t8 + 1) >> 1;
 857     SRC(4,7)=SRC(5,5)=SRC(6,3)=SRC(7,1)= (t7 + 2*t8 + t9 + 2) >> 2;
 858     SRC(5,6)=SRC(6,4)=SRC(7,2)= (t8 + t9 + 1) >> 1;
 859     SRC(5,7)=SRC(6,5)=SRC(7,3)= (t8 + 2*t9 + t10 + 2) >> 2;
 860     SRC(6,6)=SRC(7,4)= (t9 + t10 + 1) >> 1;
 861     SRC(6,7)=SRC(7,5)= (t9 + 2*t10 + t11 + 2) >> 2;
 862     SRC(7,6)= (t10 + t11 + 1) >> 1;
 863     SRC(7,7)= (t10 + 2*t11 + t12 + 2) >> 2;
 864 }
 865 static void FUNCC(pred8x8l_horizontal_up)(uint8_t *_src, int has_topleft, int has_topright, int _stride)
 866 {
 867     pixel *src = (pixel*)_src;
 868     int stride = _stride/sizeof(pixel);
 869     PREDICT_8x8_LOAD_LEFT;
 870     SRC(0,0)= (l0 + l1 + 1) >> 1;
 871     SRC(1,0)= (l0 + 2*l1 + l2 + 2) >> 2;
 872     SRC(0,1)=SRC(2,0)= (l1 + l2 + 1) >> 1;
 873     SRC(1,1)=SRC(3,0)= (l1 + 2*l2 + l3 + 2) >> 2;
 874     SRC(0,2)=SRC(2,1)=SRC(4,0)= (l2 + l3 + 1) >> 1;
 875     SRC(1,2)=SRC(3,1)=SRC(5,0)= (l2 + 2*l3 + l4 + 2) >> 2;
 876     SRC(0,3)=SRC(2,2)=SRC(4,1)=SRC(6,0)= (l3 + l4 + 1) >> 1;
 877     SRC(1,3)=SRC(3,2)=SRC(5,1)=SRC(7,0)= (l3 + 2*l4 + l5 + 2) >> 2;
 878     SRC(0,4)=SRC(2,3)=SRC(4,2)=SRC(6,1)= (l4 + l5 + 1) >> 1;
 879     SRC(1,4)=SRC(3,3)=SRC(5,2)=SRC(7,1)= (l4 + 2*l5 + l6 + 2) >> 2;
 880     SRC(0,5)=SRC(2,4)=SRC(4,3)=SRC(6,2)= (l5 + l6 + 1) >> 1;
 881     SRC(1,5)=SRC(3,4)=SRC(5,3)=SRC(7,2)= (l5 + 2*l6 + l7 + 2) >> 2;
 882     SRC(0,6)=SRC(2,5)=SRC(4,4)=SRC(6,3)= (l6 + l7 + 1) >> 1;
 883     SRC(1,6)=SRC(3,5)=SRC(5,4)=SRC(7,3)= (l6 + 3*l7 + 2) >> 2;
 884     SRC(0,7)=SRC(1,7)=SRC(2,6)=SRC(2,7)=SRC(3,6)=
 885     SRC(3,7)=SRC(4,5)=SRC(4,6)=SRC(4,7)=SRC(5,5)=
 886     SRC(5,6)=SRC(5,7)=SRC(6,4)=SRC(6,5)=SRC(6,6)=
 887     SRC(6,7)=SRC(7,4)=SRC(7,5)=SRC(7,6)=SRC(7,7)= l7;
 888 }
 889 #undef PREDICT_8x8_LOAD_LEFT
 890 #undef PREDICT_8x8_LOAD_TOP
 891 #undef PREDICT_8x8_LOAD_TOPLEFT
 892 #undef PREDICT_8x8_LOAD_TOPRIGHT
 893 #undef PREDICT_8x8_DC
 894 #undef PTR
 895 #undef PT
 896 #undef PL
 897 #undef SRC
 898
 899 static void FUNCC(pred4x4_vertical_add)(uint8_t *_pix, const DCTELEM *_block, int stride){
 900     int i;
 901     pixel *pix = (pixel*)_pix;
 902     const dctcoef *block = (const dctcoef*)_block;
 903     stride /= sizeof(pixel);
 904     pix -= stride;
 905     for(i=0; i<4; i++){
 906         pixel v = pix[0];
 907         pix[1*stride]= v += block[0];
 908         pix[2*stride]= v += block[4];
 909         pix[3*stride]= v += block[8];
 910         pix[4*stride]= v +  block[12];
 911         pix++;
 912         block++;
 913     }
 914 }
 915
 916 static void FUNCC(pred4x4_horizontal_add)(uint8_t *_pix, const DCTELEM *_block, int stride){
 917     int i;
 918     pixel *pix = (pixel*)_pix;
 919     const dctcoef *block = (const dctcoef*)_block;
 920     stride /= sizeof(pixel);
 921     for(i=0; i<4; i++){
 922         pixel v = pix[-1];
 923         pix[0]= v += block[0];
 924         pix[1]= v += block[1];
 925         pix[2]= v += block[2];
 926         pix[3]= v +  block[3];
 927         pix+= stride;
 928         block+= 4;
 929     }
 930 }
 931
 932 static void FUNCC(pred8x8l_vertical_add)(uint8_t *_pix, const DCTELEM *_block, int stride){
 933     int i;
 934     pixel *pix = (pixel*)_pix;
 935     const dctcoef *block = (const dctcoef*)_block;
 936     stride /= sizeof(pixel);
 937     pix -= stride;
 938     for(i=0; i<8; i++){
 939         pixel v = pix[0];
 940         pix[1*stride]= v += block[0];
 941         pix[2*stride]= v += block[8];
 942         pix[3*stride]= v += block[16];
 943         pix[4*stride]= v += block[24];
 944         pix[5*stride]= v += block[32];
 945         pix[6*stride]= v += block[40];
 946         pix[7*stride]= v += block[48];
 947         pix[8*stride]= v +  block[56];
 948         pix++;
 949         block++;
 950     }
 951 }
 952
 953 static void FUNCC(pred8x8l_horizontal_add)(uint8_t *_pix, const DCTELEM *_block, int stride){
 954     int i;
 955     pixel *pix = (pixel*)_pix;
 956     const dctcoef *block = (const dctcoef*)_block;
 957     stride /= sizeof(pixel);
 958     for(i=0; i<8; i++){
 959         pixel v = pix[-1];
 960         pix[0]= v += block[0];
 961         pix[1]= v += block[1];
 962         pix[2]= v += block[2];
 963         pix[3]= v += block[3];
 964         pix[4]= v += block[4];
 965         pix[5]= v += block[5];
 966         pix[6]= v += block[6];
 967         pix[7]= v +  block[7];
 968         pix+= stride;
 969         block+= 8;
 970     }
 971 }
 972
 973 static void FUNCC(pred16x16_vertical_add)(uint8_t *pix, const int *block_offset, const DCTELEM *block, int stride){
 974     int i;
 975     for(i=0; i<16; i++)
 976         FUNCC(pred4x4_vertical_add)(pix + block_offset[i], block + i*16*sizeof(pixel), stride);
 977 }
 978
 979 static void FUNCC(pred16x16_horizontal_add)(uint8_t *pix, const int *block_offset, const DCTELEM *block, int stride){
 980     int i;
 981     for(i=0; i<16; i++)
 982         FUNCC(pred4x4_horizontal_add)(pix + block_offset[i], block + i*16*sizeof(pixel), stride);
 983 }
 984
 985 static void FUNCC(pred8x8_vertical_add)(uint8_t *pix, const int *block_offset, const DCTELEM *block, int stride){
 986     int i;
 987     for(i=0; i<4; i++)
 988         FUNCC(pred4x4_vertical_add)(pix + block_offset[i], block + i*16*sizeof(pixel), stride);
 989 }
 990
 991 static void FUNCC(pred8x8_horizontal_add)(uint8_t *pix, const int *block_offset, const DCTELEM *block, int stride){
 992     int i;
 993     for(i=0; i<4; i++)
 994         FUNCC(pred4x4_horizontal_add)(pix + block_offset[i], block + i*16*sizeof(pixel), stride);
 995 }