git.sesse.net Git - x264/blob - common/x86/predict-a.asm

   1 ;*****************************************************************************
   2 ;* predict-a.asm: h264 encoder library
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2005-2008 x264 project
   5 ;*
   6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
   7 ;*
   8 ;* This program is free software; you can redistribute it and/or modify
   9 ;* it under the terms of the GNU General Public License as published by
  10 ;* the Free Software Foundation; either version 2 of the License, or
  11 ;* (at your option) any later version.
  12 ;*
  13 ;* This program is distributed in the hope that it will be useful,
  14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  16 ;* GNU General Public License for more details.
  17 ;*
  18 ;* You should have received a copy of the GNU General Public License
  19 ;* along with this program; if not, write to the Free Software
  20 ;* Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA  02111, USA.
  21 ;*****************************************************************************
  22
  23 %include "x86inc.asm"
  24
  25 %macro STORE8x8 2
  26     movq        [r0 + 0*FDEC_STRIDE], %1
  27     movq        [r0 + 1*FDEC_STRIDE], %1
  28     movq        [r0 + 2*FDEC_STRIDE], %1
  29     movq        [r0 + 3*FDEC_STRIDE], %1
  30     movq        [r0 + 4*FDEC_STRIDE], %2
  31     movq        [r0 + 5*FDEC_STRIDE], %2
  32     movq        [r0 + 6*FDEC_STRIDE], %2
  33     movq        [r0 + 7*FDEC_STRIDE], %2
  34 %endmacro
  35
  36 %macro STORE16x16 2
  37     mov         r1d, 4
  38 .loop:
  39     movq        [r0 + 0*FDEC_STRIDE], %1
  40     movq        [r0 + 1*FDEC_STRIDE], %1
  41     movq        [r0 + 2*FDEC_STRIDE], %1
  42     movq        [r0 + 3*FDEC_STRIDE], %1
  43     movq        [r0 + 0*FDEC_STRIDE + 8], %2
  44     movq        [r0 + 1*FDEC_STRIDE + 8], %2
  45     movq        [r0 + 2*FDEC_STRIDE + 8], %2
  46     movq        [r0 + 3*FDEC_STRIDE + 8], %2
  47     add         r0, 4*FDEC_STRIDE
  48     dec         r1d
  49     jg          .loop
  50 %endmacro
  51
  52 %macro STORE16x16_SSE2 1
  53     mov         r1d, 4
  54 .loop:
  55     movdqa      [r0 + 0*FDEC_STRIDE], %1
  56     movdqa      [r0 + 1*FDEC_STRIDE], %1
  57     movdqa      [r0 + 2*FDEC_STRIDE], %1
  58     movdqa      [r0 + 3*FDEC_STRIDE], %1
  59     add         r0, 4*FDEC_STRIDE
  60     dec         r1d
  61     jg          .loop
  62 %endmacro
  63
  64 SECTION_RODATA
  65
  66 ALIGN 16
  67 pb_1:       times 16 db 1
  68 pw_2:       times 4 dw 2
  69 pw_4:       times 4 dw 4
  70 pw_8:       times 8 dw 8
  71 pw_76543210:
  72 pw_3210:    dw 0, 1, 2, 3, 4, 5, 6, 7
  73 pb_00s_ff:  times 8 db 0
  74 pb_0s_ff:   times 7 db 0
  75             db 0xff
  76
  77 SECTION .text
  78
  79 ; dest, left, right, src, tmp
  80 ; output: %1 = (t[n-1] + t[n]*2 + t[n+1] + 2) >> 2
  81 %macro PRED8x8_LOWPASS0 6
  82     mov%6       %5, %2
  83     pavgb       %2, %3
  84     pxor        %3, %5
  85     mov%6       %1, %4
  86     pand        %3, [pb_1 GLOBAL]
  87     psubusb     %2, %3
  88     pavgb       %1, %2
  89 %endmacro
  90 %macro PRED8x8_LOWPASS 5
  91     PRED8x8_LOWPASS0 %1, %2, %3, %4, %5, q
  92 %endmacro
  93 %macro PRED8x8_LOWPASS_XMM 5
  94     PRED8x8_LOWPASS0 %1, %2, %3, %4, %5, dqa
  95 %endmacro
  96
  97
  98 ;-----------------------------------------------------------------------------
  99 ; void predict_4x4_ddl_mmxext( uint8_t *src )
 100 ;-----------------------------------------------------------------------------
 101 cglobal predict_4x4_ddl_mmxext, 1,1,1
 102     sub         r0, FDEC_STRIDE
 103     movq        mm3, [r0]
 104     movq        mm1, [r0-1]
 105     movq        mm2, mm3
 106     movq        mm4, [pb_0s_ff GLOBAL]
 107     psrlq       mm2, 8
 108     pand        mm4, mm3
 109     por         mm2, mm4
 110
 111     PRED8x8_LOWPASS mm0, mm1, mm2, mm3, mm5
 112
 113 %assign Y 1
 114 %rep 4
 115     psrlq       mm0, 8
 116     movd        [r0+Y*FDEC_STRIDE], mm0
 117 %assign Y (Y+1)
 118 %endrep
 119
 120     RET
 121
 122 ;-----------------------------------------------------------------------------
 123 ; void predict_4x4_vl_mmxext( uint8_t *src )
 124 ;-----------------------------------------------------------------------------
 125 cglobal predict_4x4_vl_mmxext, 1,1,1
 126     movq        mm1, [r0-FDEC_STRIDE]
 127     movq        mm3, mm1
 128     movq        mm2, mm1
 129     psrlq       mm3, 8
 130     psrlq       mm2, 16
 131     movq        mm4, mm3
 132     pavgb       mm4, mm1
 133
 134     PRED8x8_LOWPASS mm0, mm1, mm2, mm3, mm5
 135
 136     movd        [r0+0*FDEC_STRIDE], mm4
 137     movd        [r0+1*FDEC_STRIDE], mm0
 138     psrlq       mm4, 8
 139     psrlq       mm0, 8
 140     movd        [r0+2*FDEC_STRIDE], mm4
 141     movd        [r0+3*FDEC_STRIDE], mm0
 142
 143     RET
 144
 145 ;-----------------------------------------------------------------------------
 146 ; void predict_8x8_v_mmxext( uint8_t *src, uint8_t *edge )
 147 ;-----------------------------------------------------------------------------
 148 cglobal predict_8x8_v_mmxext, 2,2
 149     movq        mm0, [r1+16]
 150     STORE8x8    mm0, mm0
 151     RET
 152
 153 ;-----------------------------------------------------------------------------
 154 ; void predict_8x8_dc_mmxext( uint8_t *src, uint8_t *edge );
 155 ;-----------------------------------------------------------------------------
 156 cglobal predict_8x8_dc_mmxext, 2,2,1
 157     pxor        mm0, mm0
 158     pxor        mm1, mm1
 159     psadbw      mm0, [r1+7]
 160     psadbw      mm1, [r1+16]
 161     paddw       mm0, [pw_8 GLOBAL]
 162     paddw       mm0, mm1
 163     psrlw       mm0, 4
 164     pshufw      mm0, mm0, 0
 165     packuswb    mm0, mm0
 166     STORE8x8    mm0, mm0
 167     RET
 168
 169 ;-----------------------------------------------------------------------------
 170 ; void predict_8x8_dc_top_mmxext( uint8_t *src, uint8_t *edge );
 171 ;-----------------------------------------------------------------------------
 172 %macro PRED8x8_DC 2
 173 cglobal %1, 2,2,1
 174     pxor        mm0, mm0
 175     psadbw      mm0, [r1+%2]
 176     paddw       mm0, [pw_4 GLOBAL]
 177     psrlw       mm0, 3
 178     pshufw      mm0, mm0, 0
 179     packuswb    mm0, mm0
 180     STORE8x8    mm0, mm0
 181     RET
 182 %endmacro
 183
 184 PRED8x8_DC predict_8x8_dc_top_mmxext, 16
 185 PRED8x8_DC predict_8x8_dc_left_mmxext, 7
 186
 187 %ifndef ARCH_X86_64
 188 ; sse2 is faster even on amd, so there's no sense in spending exe size on these
 189 ; functions if we know sse2 is available.
 190
 191 ;-----------------------------------------------------------------------------
 192 ; void predict_8x8_ddl_mmxext( uint8_t *src, uint8_t *edge )
 193 ;-----------------------------------------------------------------------------
 194 cglobal predict_8x8_ddl_mmxext, 2,2,1
 195     movq        mm5, [r1+16]
 196     movq        mm2, [r1+17]
 197     movq        mm3, [r1+23]
 198     movq        mm4, [r1+25]
 199     movq        mm1, mm5
 200     psllq       mm1, 8
 201     PRED8x8_LOWPASS mm0, mm1, mm2, mm5, mm7
 202     PRED8x8_LOWPASS mm1, mm3, mm4, [r1+24], mm6
 203
 204 %assign Y 7
 205 %rep 6
 206     movq        [r0+Y*FDEC_STRIDE], mm1
 207     movq        mm2, mm0
 208     psllq       mm1, 8
 209     psrlq       mm2, 56
 210     psllq       mm0, 8
 211     por         mm1, mm2
 212 %assign Y (Y-1)
 213 %endrep
 214     movq        [r0+Y*FDEC_STRIDE], mm1
 215     psllq       mm1, 8
 216     psrlq       mm0, 56
 217     por         mm1, mm0
 218 %assign Y (Y-1)
 219     movq        [r0+Y*FDEC_STRIDE], mm1
 220     RET
 221
 222 ;-----------------------------------------------------------------------------
 223 ; void predict_8x8_ddr_mmxext( uint8_t *src, uint8_t *edge )
 224 ;-----------------------------------------------------------------------------
 225 cglobal predict_8x8_ddr_mmxext, 2,2,1
 226     movq        mm1, [r1+7]
 227     movq        mm2, [r1+9]
 228     movq        mm3, [r1+15]
 229     movq        mm4, [r1+17]
 230     PRED8x8_LOWPASS mm0, mm1, mm2, [r1+8], mm7
 231     PRED8x8_LOWPASS mm1, mm3, mm4, [r1+16], mm6
 232
 233 %assign Y 7
 234 %rep 6
 235     movq        [r0+Y*FDEC_STRIDE], mm0
 236     movq        mm2, mm1
 237     psrlq       mm0, 8
 238     psllq       mm2, 56
 239     psrlq       mm1, 8
 240     por         mm0, mm2
 241 %assign Y (Y-1)
 242 %endrep
 243     movq        [r0+Y*FDEC_STRIDE], mm0
 244     psrlq       mm0, 8
 245     psllq       mm1, 56
 246     por         mm0, mm1
 247 %assign Y (Y-1)
 248     movq        [r0+Y*FDEC_STRIDE], mm0
 249     RET
 250
 251 %endif ; !ARCH_X86_64
 252
 253 ;-----------------------------------------------------------------------------
 254 ; void predict_8x8_ddl_sse2( uint8_t *src, uint8_t *edge )
 255 ;-----------------------------------------------------------------------------
 256 cglobal predict_8x8_ddl_sse2, 2,2,1
 257     movdqa      xmm3, [r1+16]
 258     movdqu      xmm2, [r1+17]
 259     movdqa      xmm1, xmm3
 260     pslldq      xmm1, 1
 261     PRED8x8_LOWPASS_XMM xmm0, xmm1, xmm2, xmm3, xmm4
 262
 263 %assign Y 0
 264 %rep 8
 265     psrldq      xmm0, 1
 266     movq        [r0+Y*FDEC_STRIDE], xmm0
 267 %assign Y (Y+1)
 268 %endrep
 269     RET
 270
 271 ;-----------------------------------------------------------------------------
 272 ; void predict_8x8_ddr_sse2( uint8_t *src, uint8_t *edge )
 273 ;-----------------------------------------------------------------------------
 274 cglobal predict_8x8_ddr_sse2, 2,2,1
 275     movdqu      xmm3, [r1+8]
 276     movdqu      xmm1, [r1+7]
 277     movdqa      xmm2, xmm3
 278     psrldq      xmm2, 1
 279     PRED8x8_LOWPASS_XMM xmm0, xmm1, xmm2, xmm3, xmm4
 280
 281     movdqa      xmm1, xmm0
 282     psrldq      xmm1, 1
 283 %assign Y 7
 284 %rep 3
 285     movq        [r0+Y*FDEC_STRIDE], xmm0
 286     movq        [r0+(Y-1)*FDEC_STRIDE], xmm1
 287     psrldq      xmm0, 2
 288     psrldq      xmm1, 2
 289 %assign Y (Y-2)
 290 %endrep
 291     movq        [r0+1*FDEC_STRIDE], xmm0
 292     movq        [r0+0*FDEC_STRIDE], xmm1
 293
 294     RET
 295
 296 ;-----------------------------------------------------------------------------
 297 ; void predict_8x8_vl_sse2( uint8_t *src, uint8_t *edge )
 298 ;-----------------------------------------------------------------------------
 299 cglobal predict_8x8_vl_sse2, 2,2,1
 300     movdqa      xmm4, [r1+16]
 301     movdqa      xmm2, xmm4
 302     movdqa      xmm1, xmm4
 303     movdqa      xmm3, xmm4
 304     psrldq      xmm2, 1
 305     pslldq      xmm1, 1
 306     pavgb       xmm3, xmm2
 307     PRED8x8_LOWPASS_XMM xmm0, xmm1, xmm2, xmm4, xmm5
 308 ; xmm0: (t0 + 2*t1 + t2 + 2) >> 2
 309 ; xmm3: (t0 + t1 + 1) >> 1
 310
 311 %assign Y 0
 312 %rep 3
 313     psrldq      xmm0, 1
 314     movq        [r0+ Y   *FDEC_STRIDE], xmm3
 315     movq        [r0+(Y+1)*FDEC_STRIDE], xmm0
 316     psrldq      xmm3, 1
 317 %assign Y (Y+2)
 318 %endrep
 319     psrldq      xmm0, 1
 320     movq        [r0+ Y   *FDEC_STRIDE], xmm3
 321     movq        [r0+(Y+1)*FDEC_STRIDE], xmm0
 322
 323     RET
 324
 325 ;-----------------------------------------------------------------------------
 326 ; void predict_8x8_vr_core_mmxext( uint8_t *src, uint8_t *edge )
 327 ;-----------------------------------------------------------------------------
 328
 329 ; fills only some pixels:
 330 ; f01234567
 331 ; 0........
 332 ; 1,,,,,,,,
 333 ; 2 .......
 334 ; 3 ,,,,,,,
 335 ; 4  ......
 336 ; 5  ,,,,,,
 337 ; 6   .....
 338 ; 7   ,,,,,
 339
 340 cglobal predict_8x8_vr_core_mmxext, 2,2,1
 341     movq        mm2, [r1+16]
 342     movq        mm3, [r1+15]
 343     movq        mm1, [r1+14]
 344     movq        mm4, mm3
 345     pavgb       mm3, mm2
 346     PRED8x8_LOWPASS mm0, mm1, mm2, mm4, mm7
 347
 348 %assign Y 0
 349 %rep 3
 350     movq        [r0+ Y   *FDEC_STRIDE], mm3
 351     movq        [r0+(Y+1)*FDEC_STRIDE], mm0
 352     psllq       mm3, 8
 353     psllq       mm0, 8
 354 %assign Y (Y+2)
 355 %endrep
 356     movq        [r0+ Y   *FDEC_STRIDE], mm3
 357     movq        [r0+(Y+1)*FDEC_STRIDE], mm0
 358
 359     RET
 360
 361 ;-----------------------------------------------------------------------------
 362 ; void predict_8x8c_v_mmx( uint8_t *src )
 363 ;-----------------------------------------------------------------------------
 364 cglobal predict_8x8c_v_mmx, 1,1
 365     movq        mm0, [r0 - FDEC_STRIDE]
 366     STORE8x8    mm0, mm0
 367     RET
 368
 369 ;-----------------------------------------------------------------------------
 370 ; void predict_8x8c_dc_core_mmxext( uint8_t *src, int s2, int s3 )
 371 ;-----------------------------------------------------------------------------
 372 cglobal predict_8x8c_dc_core_mmxext, 1,1,1
 373     movq        mm0, [r0 - FDEC_STRIDE]
 374     pxor        mm1, mm1
 375     pxor        mm2, mm2
 376     punpckhbw   mm1, mm0
 377     punpcklbw   mm0, mm2
 378     psadbw      mm1, mm2        ; s1
 379     psadbw      mm0, mm2        ; s0
 380
 381 %ifdef ARCH_X86_64
 382     movd        mm4, r1d
 383     movd        mm5, r2d
 384     paddw       mm0, mm4
 385     pshufw      mm2, mm5, 0
 386 %else
 387     paddw       mm0, r1m
 388     pshufw      mm2, r2m, 0
 389 %endif
 390     psrlw       mm0, 3
 391     paddw       mm1, [pw_2 GLOBAL]
 392     movq        mm3, mm2
 393     pshufw      mm1, mm1, 0
 394     pshufw      mm0, mm0, 0     ; dc0 (w)
 395     paddw       mm3, mm1
 396     psrlw       mm3, 3          ; dc3 (w)
 397     psrlw       mm2, 2          ; dc2 (w)
 398     psrlw       mm1, 2          ; dc1 (w)
 399
 400     packuswb    mm0, mm1        ; dc0,dc1 (b)
 401     packuswb    mm2, mm3        ; dc2,dc3 (b)
 402
 403     STORE8x8    mm0, mm2
 404     RET
 405
 406 %macro LOAD_PLANE_ARGS 0
 407 %ifdef ARCH_X86_64
 408     movd        mm0, r1d
 409     movd        mm2, r2d
 410     movd        mm4, r3d
 411     pshufw      mm0, mm0, 0
 412     pshufw      mm2, mm2, 0
 413     pshufw      mm4, mm4, 0
 414 %else
 415     pshufw      mm0, r1m, 0
 416     pshufw      mm2, r2m, 0
 417     pshufw      mm4, r3m, 0
 418 %endif
 419 %endmacro
 420
 421 ;-----------------------------------------------------------------------------
 422 ; void predict_8x8c_p_core_mmxext( uint8_t *src, int i00, int b, int c )
 423 ;-----------------------------------------------------------------------------
 424 cglobal predict_8x8c_p_core_mmxext, 1,2,1
 425     LOAD_PLANE_ARGS
 426     movq        mm1, mm2
 427     pmullw      mm2, [pw_3210 GLOBAL]
 428     psllw       mm1, 2
 429     paddsw      mm0, mm2        ; mm0 = {i+0*b, i+1*b, i+2*b, i+3*b}
 430     paddsw      mm1, mm0        ; mm1 = {i+4*b, i+5*b, i+6*b, i+7*b}
 431
 432     mov         r1d, 8
 433 ALIGN 4
 434 .loop:
 435     movq        mm5, mm0
 436     movq        mm6, mm1
 437     psraw       mm5, 5
 438     psraw       mm6, 5
 439     packuswb    mm5, mm6
 440     movq        [r0], mm5
 441
 442     paddsw      mm0, mm4
 443     paddsw      mm1, mm4
 444     add         r0, FDEC_STRIDE
 445     dec         r1d
 446     jg          .loop
 447     REP_RET
 448
 449 ;-----------------------------------------------------------------------------
 450 ; void predict_16x16_p_core_mmxext( uint8_t *src, int i00, int b, int c )
 451 ;-----------------------------------------------------------------------------
 452 cglobal predict_16x16_p_core_mmxext, 1,2,1
 453     LOAD_PLANE_ARGS
 454     movq        mm5, mm2
 455     movq        mm1, mm2
 456     pmullw      mm5, [pw_3210 GLOBAL]
 457     psllw       mm2, 3
 458     psllw       mm1, 2
 459     movq        mm3, mm2
 460     paddsw      mm0, mm5        ; mm0 = {i+ 0*b, i+ 1*b, i+ 2*b, i+ 3*b}
 461     paddsw      mm1, mm0        ; mm1 = {i+ 4*b, i+ 5*b, i+ 6*b, i+ 7*b}
 462     paddsw      mm2, mm0        ; mm2 = {i+ 8*b, i+ 9*b, i+10*b, i+11*b}
 463     paddsw      mm3, mm1        ; mm3 = {i+12*b, i+13*b, i+14*b, i+15*b}
 464
 465     mov         r1d, 16
 466 ALIGN 4
 467 .loop:
 468     movq        mm5, mm0
 469     movq        mm6, mm1
 470     psraw       mm5, 5
 471     psraw       mm6, 5
 472     packuswb    mm5, mm6
 473     movq        [r0], mm5
 474
 475     movq        mm5, mm2
 476     movq        mm6, mm3
 477     psraw       mm5, 5
 478     psraw       mm6, 5
 479     packuswb    mm5, mm6
 480     movq        [r0+8], mm5
 481
 482     paddsw      mm0, mm4
 483     paddsw      mm1, mm4
 484     paddsw      mm2, mm4
 485     paddsw      mm3, mm4
 486     add         r0, FDEC_STRIDE
 487     dec         r1d
 488     jg          .loop
 489     REP_RET
 490
 491 ;-----------------------------------------------------------------------------
 492 ; void predict_16x16_p_core_sse2( uint8_t *src, int i00, int b, int c )
 493 ;-----------------------------------------------------------------------------
 494 cglobal predict_16x16_p_core_sse2, 1,2,1
 495     movd        xmm0, r1m
 496     movd        xmm1, r2m
 497     movd        xmm2, r3m
 498     pshuflw     xmm0, xmm0, 0
 499     pshuflw     xmm1, xmm1, 0
 500     pshuflw     xmm2, xmm2, 0
 501     punpcklqdq  xmm0, xmm0
 502     punpcklqdq  xmm1, xmm1
 503     punpcklqdq  xmm2, xmm2
 504     movdqa      xmm3, xmm1
 505     pmullw      xmm3, [pw_76543210 GLOBAL]
 506     psllw       xmm1, 3
 507     paddsw      xmm0, xmm3  ; xmm0 = {i+ 0*b, i+ 1*b, i+ 2*b, i+ 3*b, i+ 4*b, i+ 5*b, i+ 6*b, i+ 7*b}
 508     paddsw      xmm1, xmm0  ; xmm1 = {i+ 8*b, i+ 9*b, i+10*b, i+11*b, i+12*b, i+13*b, i+14*b, i+15*b}
 509
 510     mov         r1d, 16
 511 ALIGN 4
 512 .loop:
 513     movdqa      xmm3, xmm0
 514     movdqa      xmm4, xmm1
 515     psraw       xmm3, 5
 516     psraw       xmm4, 5
 517     packuswb    xmm3, xmm4
 518     movdqa      [r0], xmm3
 519
 520     paddsw      xmm0, xmm2
 521     paddsw      xmm1, xmm2
 522     add         r0, FDEC_STRIDE
 523     dec         r1d
 524     jg          .loop
 525     REP_RET
 526
 527 ;-----------------------------------------------------------------------------
 528 ; void predict_16x16_v_mmx( uint8_t *src )
 529 ;-----------------------------------------------------------------------------
 530 cglobal predict_16x16_v_mmx, 1,2
 531     movq        mm0, [r0 - FDEC_STRIDE]
 532     movq        mm1, [r0 - FDEC_STRIDE + 8]
 533     STORE16x16  mm0, mm1
 534     REP_RET
 535
 536 ;-----------------------------------------------------------------------------
 537 ; void predict_16x16_v_sse2( uint8_t *src )
 538 ;-----------------------------------------------------------------------------
 539 cglobal predict_16x16_v_sse2, 1,2
 540     movdqa      xmm0, [r0 - FDEC_STRIDE]
 541     STORE16x16_SSE2 xmm0
 542     REP_RET
 543
 544 ;-----------------------------------------------------------------------------
 545 ; void predict_16x16_dc_core_mmxext( uint8_t *src, int i_dc_left )
 546 ;-----------------------------------------------------------------------------
 547
 548 %macro PRED16x16_DC 2
 549     pxor        mm0, mm0
 550     pxor        mm1, mm1
 551     psadbw      mm0, [r0 - FDEC_STRIDE]
 552     psadbw      mm1, [r0 - FDEC_STRIDE + 8]
 553     paddusw     mm0, mm1
 554     paddusw     mm0, %1
 555     psrlw       mm0, %2                       ; dc
 556     pshufw      mm0, mm0, 0
 557     packuswb    mm0, mm0                      ; dc in bytes
 558     STORE16x16  mm0, mm0
 559 %endmacro
 560
 561 cglobal predict_16x16_dc_core_mmxext, 1,2
 562 %ifdef ARCH_X86_64
 563     movd         mm2, r1d
 564     PRED16x16_DC mm2, 5
 565 %else
 566     PRED16x16_DC r1m, 5
 567 %endif
 568     REP_RET
 569
 570 cglobal predict_16x16_dc_top_mmxext, 1,2,1
 571     PRED16x16_DC [pw_8 GLOBAL], 4
 572     REP_RET
 573
 574 ;-----------------------------------------------------------------------------
 575 ; void predict_16x16_dc_core_sse2( uint8_t *src, int i_dc_left )
 576 ;-----------------------------------------------------------------------------
 577
 578 %macro PRED16x16_DC_SSE2 2
 579     pxor        xmm0, xmm0
 580     psadbw      xmm0, [r0 - FDEC_STRIDE]
 581     movhlps     xmm1, xmm0
 582     paddw       xmm0, xmm1
 583     paddusw     xmm0, %1
 584     psrlw       xmm0, %2                ; dc
 585     pshuflw     xmm0, xmm0, 0
 586     punpcklqdq  xmm0, xmm0
 587     packuswb    xmm0, xmm0              ; dc in bytes
 588     STORE16x16_SSE2 xmm0
 589 %endmacro
 590
 591 cglobal predict_16x16_dc_core_sse2, 1,2
 592     movd xmm2, r1m
 593     PRED16x16_DC_SSE2 xmm2, 5
 594     REP_RET
 595
 596 cglobal predict_16x16_dc_top_sse2, 1,2,1
 597     PRED16x16_DC_SSE2 [pw_8 GLOBAL], 4
 598     REP_RET
 599