git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_intrapred_10bit.asm

   1 ;*****************************************************************************
   2 ;* MMX/SSE2/AVX-optimized 10-bit H.264 intra prediction code
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2005-2011 x264 project
   5 ;*
   6 ;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
   7 ;*
   8 ;* This file is part of FFmpeg.
   9 ;*
  10 ;* FFmpeg is free software; you can redistribute it and/or
  11 ;* modify it under the terms of the GNU Lesser General Public
  12 ;* License as published by the Free Software Foundation; either
  13 ;* version 2.1 of the License, or (at your option) any later version.
  14 ;*
  15 ;* FFmpeg is distributed in the hope that it will be useful,
  16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  18 ;* Lesser General Public License for more details.
  19 ;*
  20 ;* You should have received a copy of the GNU Lesser General Public
  21 ;* License along with FFmpeg; if not, write to the Free Software
  22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  23 ;******************************************************************************
  24
  25 %include "libavutil/x86/x86util.asm"
  26
  27 SECTION_RODATA
  28
  29 cextern pw_16
  30 cextern pw_8
  31 cextern pw_4
  32 cextern pw_2
  33 cextern pw_1
  34
  35 pw_m32101234: dw -3, -2, -1, 0, 1, 2, 3, 4
  36 pw_m3:        times 8 dw -3
  37 pw_pixel_max: times 8 dw ((1 << 10)-1)
  38 pw_512:       times 8 dw 512
  39 pd_17:        times 4 dd 17
  40 pd_16:        times 4 dd 16
  41
  42 SECTION .text
  43
  44 ; dest, left, right, src
  45 ; output: %1 = (t[n-1] + t[n]*2 + t[n+1] + 2) >> 2
  46 %macro PRED4x4_LOWPASS 4
  47     paddw       %2, %3
  48     psrlw       %2, 1
  49     pavgw       %1, %4, %2
  50 %endmacro
  51
  52 ;-----------------------------------------------------------------------------
  53 ; void pred4x4_down_right(pixel *src, const pixel *topright, int stride)
  54 ;-----------------------------------------------------------------------------
  55 %macro PRED4x4_DR 0
  56 cglobal pred4x4_down_right_10, 3, 3
  57     sub       r0, r2
  58     lea       r1, [r0+r2*2]
  59     movhps    m1, [r1-8]
  60     movhps    m2, [r0+r2*1-8]
  61     movhps    m4, [r0-8]
  62     punpckhwd m2, m4
  63     movq      m3, [r0]
  64     punpckhdq m1, m2
  65     PALIGNR   m3, m1, 10, m1
  66     movhps    m4, [r1+r2*1-8]
  67     PALIGNR   m0, m3, m4, 14, m4
  68     movhps    m4, [r1+r2*2-8]
  69     PALIGNR   m2, m0, m4, 14, m4
  70     PRED4x4_LOWPASS m0, m2, m3, m0
  71     movq      [r1+r2*2], m0
  72     psrldq    m0, 2
  73     movq      [r1+r2*1], m0
  74     psrldq    m0, 2
  75     movq      [r0+r2*2], m0
  76     psrldq    m0, 2
  77     movq      [r0+r2*1], m0
  78     RET
  79 %endmacro
  80
  81 INIT_XMM sse2
  82 PRED4x4_DR
  83 INIT_XMM ssse3
  84 PRED4x4_DR
  85 %if HAVE_AVX_EXTERNAL
  86 INIT_XMM avx
  87 PRED4x4_DR
  88 %endif
  89
  90 ;-----------------------------------------------------------------------------
  91 ; void pred4x4_vertical_right(pixel *src, const pixel *topright, int stride)
  92 ;-----------------------------------------------------------------------------
  93 %macro PRED4x4_VR 0
  94 cglobal pred4x4_vertical_right_10, 3, 3, 6
  95     sub     r0, r2
  96     lea     r1, [r0+r2*2]
  97     movq    m5, [r0]            ; ........t3t2t1t0
  98     movhps  m1, [r0-8]
  99     PALIGNR m0, m5, m1, 14, m1  ; ......t3t2t1t0lt
 100     pavgw   m5, m0
 101     movhps  m1, [r0+r2*1-8]
 102     PALIGNR m0, m1, 14, m1      ; ....t3t2t1t0ltl0
 103     movhps  m2, [r0+r2*2-8]
 104     PALIGNR m1, m0, m2, 14, m2  ; ..t3t2t1t0ltl0l1
 105     movhps  m3, [r1+r2*1-8]
 106     PALIGNR m2, m1, m3, 14, m3  ; t3t2t1t0ltl0l1l2
 107     PRED4x4_LOWPASS m1, m0, m2, m1
 108     pslldq  m0, m1, 12
 109     psrldq  m1, 4
 110     movq    [r0+r2*1], m5
 111     movq    [r0+r2*2], m1
 112     PALIGNR m5, m0, 14, m2
 113     pslldq  m0, 2
 114     movq    [r1+r2*1], m5
 115     PALIGNR m1, m0, 14, m0
 116     movq    [r1+r2*2], m1
 117     RET
 118 %endmacro
 119
 120 INIT_XMM sse2
 121 PRED4x4_VR
 122 INIT_XMM ssse3
 123 PRED4x4_VR
 124 %if HAVE_AVX_EXTERNAL
 125 INIT_XMM avx
 126 PRED4x4_VR
 127 %endif
 128
 129 ;-----------------------------------------------------------------------------
 130 ; void pred4x4_horizontal_down(pixel *src, const pixel *topright, int stride)
 131 ;-----------------------------------------------------------------------------
 132 %macro PRED4x4_HD 0
 133 cglobal pred4x4_horizontal_down_10, 3, 3
 134     sub        r0, r2
 135     lea        r1, [r0+r2*2]
 136     movq       m0, [r0-8]      ; lt ..
 137     movhps     m0, [r0]
 138     pslldq     m0, 2           ; t2 t1 t0 lt .. .. .. ..
 139     movq       m1, [r1+r2*2-8] ; l3
 140     movq       m3, [r1+r2*1-8]
 141     punpcklwd  m1, m3          ; l2 l3
 142     movq       m2, [r0+r2*2-8] ; l1
 143     movq       m3, [r0+r2*1-8]
 144     punpcklwd  m2, m3          ; l0 l1
 145     punpckhdq  m1, m2          ; l0 l1 l2 l3
 146     punpckhqdq m1, m0          ; t2 t1 t0 lt l0 l1 l2 l3
 147     psrldq     m0, m1, 4       ; .. .. t2 t1 t0 lt l0 l1
 148     psrldq     m3, m1, 2       ; .. t2 t1 t0 lt l0 l1 l2
 149     pavgw      m5, m1, m3
 150     PRED4x4_LOWPASS m3, m1, m0, m3
 151     punpcklwd  m5, m3
 152     psrldq     m3, 8
 153     PALIGNR    m3, m5, 12, m4
 154     movq       [r1+r2*2], m5
 155     movhps     [r0+r2*2], m5
 156     psrldq     m5, 4
 157     movq       [r1+r2*1], m5
 158     movq       [r0+r2*1], m3
 159     RET
 160 %endmacro
 161
 162 INIT_XMM sse2
 163 PRED4x4_HD
 164 INIT_XMM ssse3
 165 PRED4x4_HD
 166 %if HAVE_AVX_EXTERNAL
 167 INIT_XMM avx
 168 PRED4x4_HD
 169 %endif
 170
 171 ;-----------------------------------------------------------------------------
 172 ; void pred4x4_dc(pixel *src, const pixel *topright, int stride)
 173 ;-----------------------------------------------------------------------------
 174 %macro HADDD 2 ; sum junk
 175 %if mmsize == 16
 176     movhlps %2, %1
 177     paddd   %1, %2
 178     pshuflw %2, %1, 0xE
 179     paddd   %1, %2
 180 %else
 181     pshufw  %2, %1, 0xE
 182     paddd   %1, %2
 183 %endif
 184 %endmacro
 185
 186 %macro HADDW 2
 187     pmaddwd %1, [pw_1]
 188     HADDD   %1, %2
 189 %endmacro
 190
 191 INIT_MMX mmxext
 192 cglobal pred4x4_dc_10, 3, 3
 193     sub    r0, r2
 194     lea    r1, [r0+r2*2]
 195     movq   m2, [r0+r2*1-8]
 196     paddw  m2, [r0+r2*2-8]
 197     paddw  m2, [r1+r2*1-8]
 198     paddw  m2, [r1+r2*2-8]
 199     psrlq  m2, 48
 200     movq   m0, [r0]
 201     HADDW  m0, m1
 202     paddw  m0, [pw_4]
 203     paddw  m0, m2
 204     psrlw  m0, 3
 205     SPLATW m0, m0, 0
 206     movq   [r0+r2*1], m0
 207     movq   [r0+r2*2], m0
 208     movq   [r1+r2*1], m0
 209     movq   [r1+r2*2], m0
 210     RET
 211
 212 ;-----------------------------------------------------------------------------
 213 ; void pred4x4_down_left(pixel *src, const pixel *topright, int stride)
 214 ;-----------------------------------------------------------------------------
 215 %macro PRED4x4_DL 0
 216 cglobal pred4x4_down_left_10, 3, 3
 217     sub        r0, r2
 218     movq       m0, [r0]
 219     movhps     m0, [r1]
 220     psrldq     m2, m0, 2
 221     pslldq     m3, m0, 2
 222     pshufhw    m2, m2, 10100100b
 223     PRED4x4_LOWPASS m0, m3, m2, m0
 224     lea        r1, [r0+r2*2]
 225     movhps     [r1+r2*2], m0
 226     psrldq     m0, 2
 227     movq       [r0+r2*1], m0
 228     psrldq     m0, 2
 229     movq       [r0+r2*2], m0
 230     psrldq     m0, 2
 231     movq       [r1+r2*1], m0
 232     RET
 233 %endmacro
 234
 235 INIT_XMM sse2
 236 PRED4x4_DL
 237 %if HAVE_AVX_EXTERNAL
 238 INIT_XMM avx
 239 PRED4x4_DL
 240 %endif
 241
 242 ;-----------------------------------------------------------------------------
 243 ; void pred4x4_vertical_left(pixel *src, const pixel *topright, int stride)
 244 ;-----------------------------------------------------------------------------
 245 %macro PRED4x4_VL 0
 246 cglobal pred4x4_vertical_left_10, 3, 3
 247     sub        r0, r2
 248     movu       m1, [r0]
 249     movhps     m1, [r1]
 250     psrldq     m0, m1, 2
 251     psrldq     m2, m1, 4
 252     pavgw      m4, m0, m1
 253     PRED4x4_LOWPASS m0, m1, m2, m0
 254     lea        r1, [r0+r2*2]
 255     movq       [r0+r2*1], m4
 256     movq       [r0+r2*2], m0
 257     psrldq     m4, 2
 258     psrldq     m0, 2
 259     movq       [r1+r2*1], m4
 260     movq       [r1+r2*2], m0
 261     RET
 262 %endmacro
 263
 264 INIT_XMM sse2
 265 PRED4x4_VL
 266 %if HAVE_AVX_EXTERNAL
 267 INIT_XMM avx
 268 PRED4x4_VL
 269 %endif
 270
 271 ;-----------------------------------------------------------------------------
 272 ; void pred4x4_horizontal_up(pixel *src, const pixel *topright, int stride)
 273 ;-----------------------------------------------------------------------------
 274 INIT_MMX mmxext
 275 cglobal pred4x4_horizontal_up_10, 3, 3
 276     sub       r0, r2
 277     lea       r1, [r0+r2*2]
 278     movq      m0, [r0+r2*1-8]
 279     punpckhwd m0, [r0+r2*2-8]
 280     movq      m1, [r1+r2*1-8]
 281     punpckhwd m1, [r1+r2*2-8]
 282     punpckhdq m0, m1
 283     pshufw    m1, m1, 0xFF
 284     movq      [r1+r2*2], m1
 285     movd      [r1+r2*1+4], m1
 286     pshufw    m2, m0, 11111001b
 287     movq      m1, m2
 288     pavgw     m2, m0
 289
 290     pshufw    m5, m0, 11111110b
 291     PRED4x4_LOWPASS m1, m0, m5, m1
 292     movq      m6, m2
 293     punpcklwd m6, m1
 294     movq      [r0+r2*1], m6
 295     psrlq     m2, 16
 296     psrlq     m1, 16
 297     punpcklwd m2, m1
 298     movq      [r0+r2*2], m2
 299     psrlq     m2, 32
 300     movd      [r1+r2*1], m2
 301     RET
 302
 303
 304
 305 ;-----------------------------------------------------------------------------
 306 ; void pred8x8_vertical(pixel *src, int stride)
 307 ;-----------------------------------------------------------------------------
 308 INIT_XMM sse2
 309 cglobal pred8x8_vertical_10, 2, 2
 310     sub  r0, r1
 311     mova m0, [r0]
 312 %rep 3
 313     mova [r0+r1*1], m0
 314     mova [r0+r1*2], m0
 315     lea  r0, [r0+r1*2]
 316 %endrep
 317     mova [r0+r1*1], m0
 318     mova [r0+r1*2], m0
 319     RET
 320
 321 ;-----------------------------------------------------------------------------
 322 ; void pred8x8_horizontal(pixel *src, int stride)
 323 ;-----------------------------------------------------------------------------
 324 INIT_XMM sse2
 325 cglobal pred8x8_horizontal_10, 2, 3
 326     mov         r2d, 4
 327 .loop:
 328     movq         m0, [r0+r1*0-8]
 329     movq         m1, [r0+r1*1-8]
 330     pshuflw      m0, m0, 0xff
 331     pshuflw      m1, m1, 0xff
 332     punpcklqdq   m0, m0
 333     punpcklqdq   m1, m1
 334     mova  [r0+r1*0], m0
 335     mova  [r0+r1*1], m1
 336     lea          r0, [r0+r1*2]
 337     dec          r2d
 338     jg .loop
 339     REP_RET
 340
 341 ;-----------------------------------------------------------------------------
 342 ; void predict_8x8_dc(pixel *src, int stride)
 343 ;-----------------------------------------------------------------------------
 344 %macro MOV8 2-3
 345 ; sort of a hack, but it works
 346 %if mmsize==8
 347     movq    [%1+0], %2
 348     movq    [%1+8], %3
 349 %else
 350     movdqa    [%1], %2
 351 %endif
 352 %endmacro
 353
 354 %macro PRED8x8_DC 1
 355 cglobal pred8x8_dc_10, 2, 6
 356     sub         r0, r1
 357     pxor        m4, m4
 358     movq        m0, [r0+0]
 359     movq        m1, [r0+8]
 360 %if mmsize==16
 361     punpcklwd   m0, m1
 362     movhlps     m1, m0
 363     paddw       m0, m1
 364 %else
 365     pshufw      m2, m0, 00001110b
 366     pshufw      m3, m1, 00001110b
 367     paddw       m0, m2
 368     paddw       m1, m3
 369     punpcklwd   m0, m1
 370 %endif
 371     %1          m2, m0, 00001110b
 372     paddw       m0, m2
 373
 374     lea         r5, [r1*3]
 375     lea         r4, [r0+r1*4]
 376     movzx      r2d, word [r0+r1*1-2]
 377     movzx      r3d, word [r0+r1*2-2]
 378     add        r2d, r3d
 379     movzx      r3d, word [r0+r5*1-2]
 380     add        r2d, r3d
 381     movzx      r3d, word [r4-2]
 382     add        r2d, r3d
 383     movd        m2, r2d            ; s2
 384
 385     movzx      r2d, word [r4+r1*1-2]
 386     movzx      r3d, word [r4+r1*2-2]
 387     add        r2d, r3d
 388     movzx      r3d, word [r4+r5*1-2]
 389     add        r2d, r3d
 390     movzx      r3d, word [r4+r1*4-2]
 391     add        r2d, r3d
 392     movd        m3, r2d            ; s3
 393
 394     punpcklwd   m2, m3
 395     punpckldq   m0, m2            ; s0, s1, s2, s3
 396     %1          m3, m0, 11110110b ; s2, s1, s3, s3
 397     %1          m0, m0, 01110100b ; s0, s1, s3, s1
 398     paddw       m0, m3
 399     psrlw       m0, 2
 400     pavgw       m0, m4            ; s0+s2, s1, s3, s1+s3
 401 %if mmsize==16
 402     punpcklwd   m0, m0
 403     pshufd      m3, m0, 11111010b
 404     punpckldq   m0, m0
 405     SWAP         0,1
 406 %else
 407     pshufw      m1, m0, 0x00
 408     pshufw      m2, m0, 0x55
 409     pshufw      m3, m0, 0xaa
 410     pshufw      m4, m0, 0xff
 411 %endif
 412     MOV8   r0+r1*1, m1, m2
 413     MOV8   r0+r1*2, m1, m2
 414     MOV8   r0+r5*1, m1, m2
 415     MOV8   r0+r1*4, m1, m2
 416     MOV8   r4+r1*1, m3, m4
 417     MOV8   r4+r1*2, m3, m4
 418     MOV8   r4+r5*1, m3, m4
 419     MOV8   r4+r1*4, m3, m4
 420     RET
 421 %endmacro
 422
 423 INIT_MMX mmxext
 424 PRED8x8_DC pshufw
 425 INIT_XMM sse2
 426 PRED8x8_DC pshuflw
 427
 428 ;-----------------------------------------------------------------------------
 429 ; void pred8x8_top_dc(pixel *src, int stride)
 430 ;-----------------------------------------------------------------------------
 431 INIT_XMM sse2
 432 cglobal pred8x8_top_dc_10, 2, 4
 433     sub         r0, r1
 434     mova        m0, [r0]
 435     pshuflw     m1, m0, 0x4e
 436     pshufhw     m1, m1, 0x4e
 437     paddw       m0, m1
 438     pshuflw     m1, m0, 0xb1
 439     pshufhw     m1, m1, 0xb1
 440     paddw       m0, m1
 441     lea         r2, [r1*3]
 442     lea         r3, [r0+r1*4]
 443     paddw       m0, [pw_2]
 444     psrlw       m0, 2
 445     mova [r0+r1*1], m0
 446     mova [r0+r1*2], m0
 447     mova [r0+r2*1], m0
 448     mova [r0+r1*4], m0
 449     mova [r3+r1*1], m0
 450     mova [r3+r1*2], m0
 451     mova [r3+r2*1], m0
 452     mova [r3+r1*4], m0
 453     RET
 454
 455 ;-----------------------------------------------------------------------------
 456 ; void pred8x8_plane(pixel *src, int stride)
 457 ;-----------------------------------------------------------------------------
 458 INIT_XMM sse2
 459 cglobal pred8x8_plane_10, 2, 7, 7
 460     sub       r0, r1
 461     lea       r2, [r1*3]
 462     lea       r3, [r0+r1*4]
 463     mova      m2, [r0]
 464     pmaddwd   m2, [pw_m32101234]
 465     HADDD     m2, m1
 466     movd      m0, [r0-4]
 467     psrld     m0, 14
 468     psubw     m2, m0               ; H
 469     movd      m0, [r3+r1*4-4]
 470     movd      m1, [r0+12]
 471     paddw     m0, m1
 472     psllw     m0, 4                ; 16*(src[7*stride-1] + src[-stride+7])
 473     movzx    r4d, word [r3+r1*1-2] ; src[4*stride-1]
 474     movzx    r5d, word [r0+r2*1-2] ; src[2*stride-1]
 475     sub      r4d, r5d
 476     movzx    r6d, word [r3+r1*2-2] ; src[5*stride-1]
 477     movzx    r5d, word [r0+r1*2-2] ; src[1*stride-1]
 478     sub      r6d, r5d
 479     lea      r4d, [r4+r6*2]
 480     movzx    r5d, word [r3+r2*1-2] ; src[6*stride-1]
 481     movzx    r6d, word [r0+r1*1-2] ; src[0*stride-1]
 482     sub      r5d, r6d
 483     lea      r5d, [r5*3]
 484     add      r4d, r5d
 485     movzx    r6d, word [r3+r1*4-2] ; src[7*stride-1]
 486     movzx    r5d, word [r0+r1*0-2] ; src[ -stride-1]
 487     sub      r6d, r5d
 488     lea      r4d, [r4+r6*4]
 489     movd      m3, r4d              ; V
 490     punpckldq m2, m3
 491     pmaddwd   m2, [pd_17]
 492     paddd     m2, [pd_16]
 493     psrad     m2, 5                ; b, c
 494
 495     mova      m3, [pw_pixel_max]
 496     pxor      m1, m1
 497     SPLATW    m0, m0, 1
 498     SPLATW    m4, m2, 2
 499     SPLATW    m2, m2, 0
 500     pmullw    m2, [pw_m32101234]   ; b
 501     pmullw    m5, m4, [pw_m3]      ; c
 502     paddw     m5, [pw_16]
 503     mov      r2d, 8
 504     add       r0, r1
 505 .loop:
 506     paddsw    m6, m2, m5
 507     paddsw    m6, m0
 508     psraw     m6, 5
 509     CLIPW     m6, m1, m3
 510     mova    [r0], m6
 511     paddw     m5, m4
 512     add       r0, r1
 513     dec r2d
 514     jg .loop
 515     REP_RET
 516
 517
 518 ;-----------------------------------------------------------------------------
 519 ; void pred8x8l_128_dc(pixel *src, int has_topleft, int has_topright, int stride)
 520 ;-----------------------------------------------------------------------------
 521 %macro PRED8x8L_128_DC 0
 522 cglobal pred8x8l_128_dc_10, 4, 4
 523     mova      m0, [pw_512] ; (1<<(BIT_DEPTH-1))
 524     lea       r1, [r3*3]
 525     lea       r2, [r0+r3*4]
 526     MOV8 r0+r3*0, m0, m0
 527     MOV8 r0+r3*1, m0, m0
 528     MOV8 r0+r3*2, m0, m0
 529     MOV8 r0+r1*1, m0, m0
 530     MOV8 r2+r3*0, m0, m0
 531     MOV8 r2+r3*1, m0, m0
 532     MOV8 r2+r3*2, m0, m0
 533     MOV8 r2+r1*1, m0, m0
 534     RET
 535 %endmacro
 536
 537 INIT_MMX mmxext
 538 PRED8x8L_128_DC
 539 INIT_XMM sse2
 540 PRED8x8L_128_DC
 541
 542 ;-----------------------------------------------------------------------------
 543 ; void pred8x8l_top_dc(pixel *src, int has_topleft, int has_topright, int stride)
 544 ;-----------------------------------------------------------------------------
 545 %macro PRED8x8L_TOP_DC 0
 546 cglobal pred8x8l_top_dc_10, 4, 4, 6
 547     sub         r0, r3
 548     mova        m0, [r0]
 549     shr        r1d, 14
 550     shr        r2d, 13
 551     neg         r1
 552     pslldq      m1, m0, 2
 553     psrldq      m2, m0, 2
 554     pinsrw      m1, [r0+r1], 0
 555     pinsrw      m2, [r0+r2+14], 7
 556     lea         r1, [r3*3]
 557     lea         r2, [r0+r3*4]
 558     PRED4x4_LOWPASS m0, m2, m1, m0
 559     HADDW       m0, m1
 560     paddw       m0, [pw_4]
 561     psrlw       m0, 3
 562     SPLATW      m0, m0, 0
 563     mova [r0+r3*1], m0
 564     mova [r0+r3*2], m0
 565     mova [r0+r1*1], m0
 566     mova [r0+r3*4], m0
 567     mova [r2+r3*1], m0
 568     mova [r2+r3*2], m0
 569     mova [r2+r1*1], m0
 570     mova [r2+r3*4], m0
 571     RET
 572 %endmacro
 573
 574 INIT_XMM sse2
 575 PRED8x8L_TOP_DC
 576 %if HAVE_AVX_EXTERNAL
 577 INIT_XMM avx
 578 PRED8x8L_TOP_DC
 579 %endif
 580
 581 ;-----------------------------------------------------------------------------
 582 ;void pred8x8l_dc(pixel *src, int has_topleft, int has_topright, int stride)
 583 ;-----------------------------------------------------------------------------
 584 ;TODO: see if scalar is faster
 585 %macro PRED8x8L_DC 0
 586 cglobal pred8x8l_dc_10, 4, 6, 6
 587     sub         r0, r3
 588     lea         r4, [r0+r3*4]
 589     lea         r5, [r3*3]
 590     mova        m0, [r0+r3*2-16]
 591     punpckhwd   m0, [r0+r3*1-16]
 592     mova        m1, [r4+r3*0-16]
 593     punpckhwd   m1, [r0+r5*1-16]
 594     punpckhdq   m1, m0
 595     mova        m2, [r4+r3*2-16]
 596     punpckhwd   m2, [r4+r3*1-16]
 597     mova        m3, [r4+r3*4-16]
 598     punpckhwd   m3, [r4+r5*1-16]
 599     punpckhdq   m3, m2
 600     punpckhqdq  m3, m1
 601     mova        m0, [r0]
 602     shr        r1d, 14
 603     shr        r2d, 13
 604     neg         r1
 605     pslldq      m1, m0, 2
 606     psrldq      m2, m0, 2
 607     pinsrw      m1, [r0+r1], 0
 608     pinsrw      m2, [r0+r2+14], 7
 609     not         r1
 610     and         r1, r3
 611     pslldq      m4, m3, 2
 612     psrldq      m5, m3, 2
 613     pshuflw     m4, m4, 11100101b
 614     pinsrw      m5, [r0+r1-2], 7
 615     PRED4x4_LOWPASS m3, m4, m5, m3
 616     PRED4x4_LOWPASS m0, m2, m1, m0
 617     paddw       m0, m3
 618     HADDW       m0, m1
 619     paddw       m0, [pw_8]
 620     psrlw       m0, 4
 621     SPLATW      m0, m0
 622     mova [r0+r3*1], m0
 623     mova [r0+r3*2], m0
 624     mova [r0+r5*1], m0
 625     mova [r0+r3*4], m0
 626     mova [r4+r3*1], m0
 627     mova [r4+r3*2], m0
 628     mova [r4+r5*1], m0
 629     mova [r4+r3*4], m0
 630     RET
 631 %endmacro
 632
 633 INIT_XMM sse2
 634 PRED8x8L_DC
 635 %if HAVE_AVX_EXTERNAL
 636 INIT_XMM avx
 637 PRED8x8L_DC
 638 %endif
 639
 640 ;-----------------------------------------------------------------------------
 641 ; void pred8x8l_vertical(pixel *src, int has_topleft, int has_topright, int stride)
 642 ;-----------------------------------------------------------------------------
 643 %macro PRED8x8L_VERTICAL 0
 644 cglobal pred8x8l_vertical_10, 4, 4, 6
 645     sub         r0, r3
 646     mova        m0, [r0]
 647     shr        r1d, 14
 648     shr        r2d, 13
 649     neg         r1
 650     pslldq      m1, m0, 2
 651     psrldq      m2, m0, 2
 652     pinsrw      m1, [r0+r1], 0
 653     pinsrw      m2, [r0+r2+14], 7
 654     lea         r1, [r3*3]
 655     lea         r2, [r0+r3*4]
 656     PRED4x4_LOWPASS m0, m2, m1, m0
 657     mova [r0+r3*1], m0
 658     mova [r0+r3*2], m0
 659     mova [r0+r1*1], m0
 660     mova [r0+r3*4], m0
 661     mova [r2+r3*1], m0
 662     mova [r2+r3*2], m0
 663     mova [r2+r1*1], m0
 664     mova [r2+r3*4], m0
 665     RET
 666 %endmacro
 667
 668 INIT_XMM sse2
 669 PRED8x8L_VERTICAL
 670 %if HAVE_AVX_EXTERNAL
 671 INIT_XMM avx
 672 PRED8x8L_VERTICAL
 673 %endif
 674
 675 ;-----------------------------------------------------------------------------
 676 ; void pred8x8l_horizontal(uint8_t *src, int has_topleft, int has_topright, int stride)
 677 ;-----------------------------------------------------------------------------
 678 %macro PRED8x8L_HORIZONTAL 0
 679 cglobal pred8x8l_horizontal_10, 4, 4, 5
 680     mova        m0, [r0-16]
 681     shr        r1d, 14
 682     dec         r1
 683     and         r1, r3
 684     sub         r1, r3
 685     punpckhwd   m0, [r0+r1-16]
 686     mova        m1, [r0+r3*2-16]
 687     punpckhwd   m1, [r0+r3*1-16]
 688     lea         r2, [r0+r3*4]
 689     lea         r1, [r3*3]
 690     punpckhdq   m1, m0
 691     mova        m2, [r2+r3*0-16]
 692     punpckhwd   m2, [r0+r1-16]
 693     mova        m3, [r2+r3*2-16]
 694     punpckhwd   m3, [r2+r3*1-16]
 695     punpckhdq   m3, m2
 696     punpckhqdq  m3, m1
 697     PALIGNR     m4, m3, [r2+r1-16], 14, m0
 698     pslldq      m0, m4, 2
 699     pshuflw     m0, m0, 11100101b
 700     PRED4x4_LOWPASS m4, m3, m0, m4
 701     punpckhwd   m3, m4, m4
 702     punpcklwd   m4, m4
 703     pshufd      m0, m3, 0xff
 704     pshufd      m1, m3, 0xaa
 705     pshufd      m2, m3, 0x55
 706     pshufd      m3, m3, 0x00
 707     mova [r0+r3*0], m0
 708     mova [r0+r3*1], m1
 709     mova [r0+r3*2], m2
 710     mova [r0+r1*1], m3
 711     pshufd      m0, m4, 0xff
 712     pshufd      m1, m4, 0xaa
 713     pshufd      m2, m4, 0x55
 714     pshufd      m3, m4, 0x00
 715     mova [r2+r3*0], m0
 716     mova [r2+r3*1], m1
 717     mova [r2+r3*2], m2
 718     mova [r2+r1*1], m3
 719     RET
 720 %endmacro
 721
 722 INIT_XMM sse2
 723 PRED8x8L_HORIZONTAL
 724 INIT_XMM ssse3
 725 PRED8x8L_HORIZONTAL
 726 %if HAVE_AVX_EXTERNAL
 727 INIT_XMM avx
 728 PRED8x8L_HORIZONTAL
 729 %endif
 730
 731 ;-----------------------------------------------------------------------------
 732 ;void pred8x8l_down_left(pixel *src, int has_topleft, int has_topright, int stride)
 733 ;-----------------------------------------------------------------------------
 734 %macro PRED8x8L_DOWN_LEFT 0
 735 cglobal pred8x8l_down_left_10, 4, 4, 7
 736     sub         r0, r3
 737     mova        m3, [r0]
 738     shr        r1d, 14
 739     neg         r1
 740     shr        r2d, 13
 741     pslldq      m1, m3, 2
 742     psrldq      m2, m3, 2
 743     pinsrw      m1, [r0+r1], 0
 744     pinsrw      m2, [r0+r2+14], 7
 745     PRED4x4_LOWPASS m6, m2, m1, m3
 746     jz .fix_tr ; flags from shr r2d
 747     mova        m1, [r0+16]
 748     psrldq      m5, m1, 2
 749     PALIGNR     m2, m1, m3, 14, m3
 750     pshufhw     m5, m5, 10100100b
 751     PRED4x4_LOWPASS m1, m2, m5, m1
 752 .do_topright:
 753     lea         r1, [r3*3]
 754     psrldq      m5, m1, 14
 755     lea         r2, [r0+r3*4]
 756     PALIGNR     m2, m1, m6,  2, m0
 757     PALIGNR     m3, m1, m6, 14, m0
 758     PALIGNR     m5, m1,  2, m0
 759     pslldq      m4, m6, 2
 760     PRED4x4_LOWPASS m6, m4, m2, m6
 761     PRED4x4_LOWPASS m1, m3, m5, m1
 762     mova [r2+r3*4], m1
 763     PALIGNR     m1, m6, 14, m2
 764     pslldq      m6, 2
 765     mova [r2+r1*1], m1
 766     PALIGNR     m1, m6, 14, m2
 767     pslldq      m6, 2
 768     mova [r2+r3*2], m1
 769     PALIGNR     m1, m6, 14, m2
 770     pslldq      m6, 2
 771     mova [r2+r3*1], m1
 772     PALIGNR     m1, m6, 14, m2
 773     pslldq      m6, 2
 774     mova [r0+r3*4], m1
 775     PALIGNR     m1, m6, 14, m2
 776     pslldq      m6, 2
 777     mova [r0+r1*1], m1
 778     PALIGNR     m1, m6, 14, m2
 779     pslldq      m6, 2
 780     mova [r0+r3*2], m1
 781     PALIGNR     m1, m6, 14, m6
 782     mova [r0+r3*1], m1
 783     RET
 784 .fix_tr:
 785     punpckhwd   m3, m3
 786     pshufd      m1, m3, 0xFF
 787     jmp .do_topright
 788 %endmacro
 789
 790 INIT_XMM sse2
 791 PRED8x8L_DOWN_LEFT
 792 INIT_XMM ssse3
 793 PRED8x8L_DOWN_LEFT
 794 %if HAVE_AVX_EXTERNAL
 795 INIT_XMM avx
 796 PRED8x8L_DOWN_LEFT
 797 %endif
 798
 799 ;-----------------------------------------------------------------------------
 800 ;void pred8x8l_down_right(pixel *src, int has_topleft, int has_topright, int stride)
 801 ;-----------------------------------------------------------------------------
 802 %macro PRED8x8L_DOWN_RIGHT 0
 803 ; standard forbids this when has_topleft is false
 804 ; no need to check
 805 cglobal pred8x8l_down_right_10, 4, 5, 8
 806     sub         r0, r3
 807     lea         r4, [r0+r3*4]
 808     lea         r1, [r3*3]
 809     mova        m0, [r0+r3*1-16]
 810     punpckhwd   m0, [r0+r3*0-16]
 811     mova        m1, [r0+r1*1-16]
 812     punpckhwd   m1, [r0+r3*2-16]
 813     punpckhdq   m1, m0
 814     mova        m2, [r4+r3*1-16]
 815     punpckhwd   m2, [r4+r3*0-16]
 816     mova        m3, [r4+r1*1-16]
 817     punpckhwd   m3, [r4+r3*2-16]
 818     punpckhdq   m3, m2
 819     punpckhqdq  m3, m1
 820     mova        m0, [r4+r3*4-16]
 821     mova        m1, [r0]
 822     PALIGNR     m4, m3, m0, 14, m0
 823     PALIGNR     m1, m3,  2, m2
 824     pslldq      m0, m4, 2
 825     pshuflw     m0, m0, 11100101b
 826     PRED4x4_LOWPASS m6, m1, m4, m3
 827     PRED4x4_LOWPASS m4, m3, m0, m4
 828     mova        m3, [r0]
 829     shr        r2d, 13
 830     pslldq      m1, m3, 2
 831     psrldq      m2, m3, 2
 832     pinsrw      m1, [r0-2], 0
 833     pinsrw      m2, [r0+r2+14], 7
 834     PRED4x4_LOWPASS m3, m2, m1, m3
 835     PALIGNR     m2, m3, m6,  2, m0
 836     PALIGNR     m5, m3, m6, 14, m0
 837     psrldq      m7, m3, 2
 838     PRED4x4_LOWPASS m6, m4, m2, m6
 839     PRED4x4_LOWPASS m3, m5, m7, m3
 840     mova [r4+r3*4], m6
 841     PALIGNR     m3, m6, 14, m2
 842     pslldq      m6, 2
 843     mova [r0+r3*1], m3
 844     PALIGNR     m3, m6, 14, m2
 845     pslldq      m6, 2
 846     mova [r0+r3*2], m3
 847     PALIGNR     m3, m6, 14, m2
 848     pslldq      m6, 2
 849     mova [r0+r1*1], m3
 850     PALIGNR     m3, m6, 14, m2
 851     pslldq      m6, 2
 852     mova [r0+r3*4], m3
 853     PALIGNR     m3, m6, 14, m2
 854     pslldq      m6, 2
 855     mova [r4+r3*1], m3
 856     PALIGNR     m3, m6, 14, m2
 857     pslldq      m6, 2
 858     mova [r4+r3*2], m3
 859     PALIGNR     m3, m6, 14, m6
 860     mova [r4+r1*1], m3
 861     RET
 862 %endmacro
 863
 864 INIT_XMM sse2
 865 PRED8x8L_DOWN_RIGHT
 866 INIT_XMM ssse3
 867 PRED8x8L_DOWN_RIGHT
 868 %if HAVE_AVX_EXTERNAL
 869 INIT_XMM avx
 870 PRED8x8L_DOWN_RIGHT
 871 %endif
 872
 873 ;-----------------------------------------------------------------------------
 874 ; void pred8x8l_vertical_right(pixel *src, int has_topleft, int has_topright, int stride)
 875 ;-----------------------------------------------------------------------------
 876 %macro PRED8x8L_VERTICAL_RIGHT 0
 877 ; likewise with 8x8l_down_right
 878 cglobal pred8x8l_vertical_right_10, 4, 5, 7
 879     sub         r0, r3
 880     lea         r4, [r0+r3*4]
 881     lea         r1, [r3*3]
 882     mova        m0, [r0+r3*1-16]
 883     punpckhwd   m0, [r0+r3*0-16]
 884     mova        m1, [r0+r1*1-16]
 885     punpckhwd   m1, [r0+r3*2-16]
 886     punpckhdq   m1, m0
 887     mova        m2, [r4+r3*1-16]
 888     punpckhwd   m2, [r4+r3*0-16]
 889     mova        m3, [r4+r1*1-16]
 890     punpckhwd   m3, [r4+r3*2-16]
 891     punpckhdq   m3, m2
 892     punpckhqdq  m3, m1
 893     mova        m0, [r4+r3*4-16]
 894     mova        m1, [r0]
 895     PALIGNR     m4, m3, m0, 14, m0
 896     PALIGNR     m1, m3,  2, m2
 897     PRED4x4_LOWPASS m3, m1, m4, m3
 898     mova        m2, [r0]
 899     shr        r2d, 13
 900     pslldq      m1, m2, 2
 901     psrldq      m5, m2, 2
 902     pinsrw      m1, [r0-2], 0
 903     pinsrw      m5, [r0+r2+14], 7
 904     PRED4x4_LOWPASS m2, m5, m1, m2
 905     PALIGNR     m6, m2, m3, 12, m1
 906     PALIGNR     m5, m2, m3, 14, m0
 907     PRED4x4_LOWPASS m0, m6, m2, m5
 908     pavgw       m2, m5
 909     mova [r0+r3*2], m0
 910     mova [r0+r3*1], m2
 911     pslldq      m6, m3, 4
 912     pslldq      m1, m3, 2
 913     PRED4x4_LOWPASS m1, m3, m6, m1
 914     PALIGNR     m2, m1, 14, m4
 915     mova [r0+r1*1], m2
 916     pslldq      m1, 2
 917     PALIGNR     m0, m1, 14, m3
 918     mova [r0+r3*4], m0
 919     pslldq      m1, 2
 920     PALIGNR     m2, m1, 14, m4
 921     mova [r4+r3*1], m2
 922     pslldq      m1, 2
 923     PALIGNR     m0, m1, 14, m3
 924     mova [r4+r3*2], m0
 925     pslldq      m1, 2
 926     PALIGNR     m2, m1, 14, m4
 927     mova [r4+r1*1], m2
 928     pslldq      m1, 2
 929     PALIGNR     m0, m1, 14, m1
 930     mova [r4+r3*4], m0
 931     RET
 932 %endmacro
 933
 934 INIT_XMM sse2
 935 PRED8x8L_VERTICAL_RIGHT
 936 INIT_XMM ssse3
 937 PRED8x8L_VERTICAL_RIGHT
 938 %if HAVE_AVX_EXTERNAL
 939 INIT_XMM avx
 940 PRED8x8L_VERTICAL_RIGHT
 941 %endif
 942
 943 ;-----------------------------------------------------------------------------
 944 ; void pred8x8l_horizontal_up(pixel *src, int has_topleft, int has_topright, int stride)
 945 ;-----------------------------------------------------------------------------
 946 %macro PRED8x8L_HORIZONTAL_UP 0
 947 cglobal pred8x8l_horizontal_up_10, 4, 4, 6
 948     mova        m0, [r0+r3*0-16]
 949     punpckhwd   m0, [r0+r3*1-16]
 950     shr        r1d, 14
 951     dec         r1
 952     and         r1, r3
 953     sub         r1, r3
 954     mova        m4, [r0+r1*1-16]
 955     lea         r1, [r3*3]
 956     lea         r2, [r0+r3*4]
 957     mova        m1, [r0+r3*2-16]
 958     punpckhwd   m1, [r0+r1*1-16]
 959     punpckhdq   m0, m1
 960     mova        m2, [r2+r3*0-16]
 961     punpckhwd   m2, [r2+r3*1-16]
 962     mova        m3, [r2+r3*2-16]
 963     punpckhwd   m3, [r2+r1*1-16]
 964     punpckhdq   m2, m3
 965     punpckhqdq  m0, m2
 966     PALIGNR     m1, m0, m4, 14, m4
 967     psrldq      m2, m0, 2
 968     pshufhw     m2, m2, 10100100b
 969     PRED4x4_LOWPASS m0, m1, m2, m0
 970     psrldq      m1, m0, 2
 971     psrldq      m2, m0, 4
 972     pshufhw     m1, m1, 10100100b
 973     pshufhw     m2, m2, 01010100b
 974     pavgw       m4, m0, m1
 975     PRED4x4_LOWPASS m1, m2, m0, m1
 976     punpckhwd   m5, m4, m1
 977     punpcklwd   m4, m1
 978     mova [r2+r3*0], m5
 979     mova [r0+r3*0], m4
 980     pshufd      m0, m5, 11111001b
 981     pshufd      m1, m5, 11111110b
 982     pshufd      m2, m5, 11111111b
 983     mova [r2+r3*1], m0
 984     mova [r2+r3*2], m1
 985     mova [r2+r1*1], m2
 986     PALIGNR     m2, m5, m4, 4, m0
 987     PALIGNR     m3, m5, m4, 8, m1
 988     PALIGNR     m5, m5, m4, 12, m4
 989     mova [r0+r3*1], m2
 990     mova [r0+r3*2], m3
 991     mova [r0+r1*1], m5
 992     RET
 993 %endmacro
 994
 995 INIT_XMM sse2
 996 PRED8x8L_HORIZONTAL_UP
 997 INIT_XMM ssse3
 998 PRED8x8L_HORIZONTAL_UP
 999 %if HAVE_AVX_EXTERNAL
1000 INIT_XMM avx
1001 PRED8x8L_HORIZONTAL_UP
1002 %endif
1003
1004
1005 ;-----------------------------------------------------------------------------
1006 ; void pred16x16_vertical(pixel *src, int stride)
1007 ;-----------------------------------------------------------------------------
1008 %macro MOV16 3-5
1009     mova [%1+     0], %2
1010     mova [%1+mmsize], %3
1011 %if mmsize==8
1012     mova [%1+    16], %4
1013     mova [%1+    24], %5
1014 %endif
1015 %endmacro
1016
1017 %macro PRED16x16_VERTICAL 0
1018 cglobal pred16x16_vertical_10, 2, 3
1019     sub   r0, r1
1020     mov  r2d, 8
1021     mova  m0, [r0+ 0]
1022     mova  m1, [r0+mmsize]
1023 %if mmsize==8
1024     mova  m2, [r0+16]
1025     mova  m3, [r0+24]
1026 %endif
1027 .loop:
1028     MOV16 r0+r1*1, m0, m1, m2, m3
1029     MOV16 r0+r1*2, m0, m1, m2, m3
1030     lea   r0, [r0+r1*2]
1031     dec   r2d
1032     jg .loop
1033     REP_RET
1034 %endmacro
1035
1036 INIT_MMX mmxext
1037 PRED16x16_VERTICAL
1038 INIT_XMM sse2
1039 PRED16x16_VERTICAL
1040
1041 ;-----------------------------------------------------------------------------
1042 ; void pred16x16_horizontal(pixel *src, int stride)
1043 ;-----------------------------------------------------------------------------
1044 %macro PRED16x16_HORIZONTAL 0
1045 cglobal pred16x16_horizontal_10, 2, 3
1046     mov   r2d, 8
1047 .vloop:
1048     movd   m0, [r0+r1*0-4]
1049     movd   m1, [r0+r1*1-4]
1050     SPLATW m0, m0, 1
1051     SPLATW m1, m1, 1
1052     MOV16  r0+r1*0, m0, m0, m0, m0
1053     MOV16  r0+r1*1, m1, m1, m1, m1
1054     lea    r0, [r0+r1*2]
1055     dec    r2d
1056     jg .vloop
1057     REP_RET
1058 %endmacro
1059
1060 INIT_MMX mmxext
1061 PRED16x16_HORIZONTAL
1062 INIT_XMM sse2
1063 PRED16x16_HORIZONTAL
1064
1065 ;-----------------------------------------------------------------------------
1066 ; void pred16x16_dc(pixel *src, int stride)
1067 ;-----------------------------------------------------------------------------
1068 %macro PRED16x16_DC 0
1069 cglobal pred16x16_dc_10, 2, 6
1070     mov        r5, r0
1071     sub        r0, r1
1072     mova       m0, [r0+0]
1073     paddw      m0, [r0+mmsize]
1074 %if mmsize==8
1075     paddw      m0, [r0+16]
1076     paddw      m0, [r0+24]
1077 %endif
1078     HADDW      m0, m2
1079
1080     lea        r0, [r0+r1-2]
1081     movzx     r3d, word [r0]
1082     movzx     r4d, word [r0+r1]
1083 %rep 7
1084     lea        r0, [r0+r1*2]
1085     movzx     r2d, word [r0]
1086     add       r3d, r2d
1087     movzx     r2d, word [r0+r1]
1088     add       r4d, r2d
1089 %endrep
1090     lea       r3d, [r3+r4+16]
1091
1092     movd       m1, r3d
1093     paddw      m0, m1
1094     psrlw      m0, 5
1095     SPLATW     m0, m0
1096     mov       r3d, 8
1097 .loop:
1098     MOV16 r5+r1*0, m0, m0, m0, m0
1099     MOV16 r5+r1*1, m0, m0, m0, m0
1100     lea        r5, [r5+r1*2]
1101     dec       r3d
1102     jg .loop
1103     REP_RET
1104 %endmacro
1105
1106 INIT_MMX mmxext
1107 PRED16x16_DC
1108 INIT_XMM sse2
1109 PRED16x16_DC
1110
1111 ;-----------------------------------------------------------------------------
1112 ; void pred16x16_top_dc(pixel *src, int stride)
1113 ;-----------------------------------------------------------------------------
1114 %macro PRED16x16_TOP_DC 0
1115 cglobal pred16x16_top_dc_10, 2, 3
1116     sub        r0, r1
1117     mova       m0, [r0+0]
1118     paddw      m0, [r0+mmsize]
1119 %if mmsize==8
1120     paddw      m0, [r0+16]
1121     paddw      m0, [r0+24]
1122 %endif
1123     HADDW      m0, m2
1124
1125     SPLATW     m0, m0
1126     paddw      m0, [pw_8]
1127     psrlw      m0, 4
1128     mov       r2d, 8
1129 .loop:
1130     MOV16 r0+r1*1, m0, m0, m0, m0
1131     MOV16 r0+r1*2, m0, m0, m0, m0
1132     lea        r0, [r0+r1*2]
1133     dec       r2d
1134     jg .loop
1135     REP_RET
1136 %endmacro
1137
1138 INIT_MMX mmxext
1139 PRED16x16_TOP_DC
1140 INIT_XMM sse2
1141 PRED16x16_TOP_DC
1142
1143 ;-----------------------------------------------------------------------------
1144 ; void pred16x16_left_dc(pixel *src, int stride)
1145 ;-----------------------------------------------------------------------------
1146 %macro PRED16x16_LEFT_DC 0
1147 cglobal pred16x16_left_dc_10, 2, 6
1148     mov        r5, r0
1149
1150     sub        r0, 2
1151     movzx     r3d, word [r0]
1152     movzx     r4d, word [r0+r1]
1153 %rep 7
1154     lea        r0, [r0+r1*2]
1155     movzx     r2d, word [r0]
1156     add       r3d, r2d
1157     movzx     r2d, word [r0+r1]
1158     add       r4d, r2d
1159 %endrep
1160     lea       r3d, [r3+r4+8]
1161     shr       r3d, 4
1162
1163     movd       m0, r3d
1164     SPLATW     m0, m0
1165     mov       r3d, 8
1166 .loop:
1167     MOV16 r5+r1*0, m0, m0, m0, m0
1168     MOV16 r5+r1*1, m0, m0, m0, m0
1169     lea        r5, [r5+r1*2]
1170     dec       r3d
1171     jg .loop
1172     REP_RET
1173 %endmacro
1174
1175 INIT_MMX mmxext
1176 PRED16x16_LEFT_DC
1177 INIT_XMM sse2
1178 PRED16x16_LEFT_DC
1179
1180 ;-----------------------------------------------------------------------------
1181 ; void pred16x16_128_dc(pixel *src, int stride)
1182 ;-----------------------------------------------------------------------------
1183 %macro PRED16x16_128_DC 0
1184 cglobal pred16x16_128_dc_10, 2,3
1185     mova       m0, [pw_512]
1186     mov       r2d, 8
1187 .loop:
1188     MOV16 r0+r1*0, m0, m0, m0, m0
1189     MOV16 r0+r1*1, m0, m0, m0, m0
1190     lea        r0, [r0+r1*2]
1191     dec       r2d
1192     jg .loop
1193     REP_RET
1194 %endmacro
1195
1196 INIT_MMX mmxext
1197 PRED16x16_128_DC
1198 INIT_XMM sse2
1199 PRED16x16_128_DC