git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_idct_10bit.asm

   1 ;*****************************************************************************
   2 ;* MMX/SSE2/AVX-optimized 10-bit H.264 iDCT code
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2005-2011 x264 project
   5 ;*
   6 ;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
   7 ;*
   8 ;* This file is part of Libav.
   9 ;*
  10 ;* Libav is free software; you can redistribute it and/or
  11 ;* modify it under the terms of the GNU Lesser General Public
  12 ;* License as published by the Free Software Foundation; either
  13 ;* version 2.1 of the License, or (at your option) any later version.
  14 ;*
  15 ;* Libav is distributed in the hope that it will be useful,
  16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  18 ;* Lesser General Public License for more details.
  19 ;*
  20 ;* You should have received a copy of the GNU Lesser General Public
  21 ;* License along with Libav; if not, write to the Free Software
  22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  23 ;******************************************************************************
  24
  25 %include "x86inc.asm"
  26 %include "x86util.asm"
  27
  28 SECTION_RODATA
  29
  30 pw_pixel_max: times 8 dw ((1 << 10)-1)
  31 pd_32:        times 4 dd 32
  32 scan8_mem: db 4+1*8, 5+1*8, 4+2*8, 5+2*8
  33            db 6+1*8, 7+1*8, 6+2*8, 7+2*8
  34            db 4+3*8, 5+3*8, 4+4*8, 5+4*8
  35            db 6+3*8, 7+3*8, 6+4*8, 7+4*8
  36            db 1+1*8, 2+1*8
  37            db 1+2*8, 2+2*8
  38            db 1+4*8, 2+4*8
  39            db 1+5*8, 2+5*8
  40
  41 %ifdef PIC
  42 %define scan8 r11
  43 %else
  44 %define scan8 scan8_mem
  45 %endif
  46
  47 SECTION .text
  48
  49 ;-----------------------------------------------------------------------------
  50 ; void h264_idct_add(pixel *dst, dctcoef *block, int stride)
  51 ;-----------------------------------------------------------------------------
  52 %macro STORE_DIFFx2 6
  53     psrad       %1, 6
  54     psrad       %2, 6
  55     packssdw    %1, %2
  56     movq        %3, [%5]
  57     movhps      %3, [%5+%6]
  58     paddsw      %1, %3
  59     CLIPW       %1, %4, [pw_pixel_max]
  60     movq      [%5], %1
  61     movhps [%5+%6], %1
  62 %endmacro
  63
  64 %macro STORE_DIFF16 5
  65     psrad       %1, 6
  66     psrad       %2, 6
  67     packssdw    %1, %2
  68     paddsw      %1, [%5]
  69     CLIPW       %1, %3, %4
  70     mova      [%5], %1
  71 %endmacro
  72
  73 ;dst, in, stride
  74 %macro IDCT4_ADD_10 3
  75     mova  m0, [%2+ 0]
  76     mova  m1, [%2+16]
  77     mova  m2, [%2+32]
  78     mova  m3, [%2+48]
  79     IDCT4_1D d,0,1,2,3,4,5
  80     TRANSPOSE4x4D 0,1,2,3,4
  81     paddd m0, [pd_32]
  82     IDCT4_1D d,0,1,2,3,4,5
  83     pxor  m5, m5
  84     STORE_DIFFx2 m0, m1, m4, m5, %1, %3
  85     lea   %1, [%1+%3*2]
  86     STORE_DIFFx2 m2, m3, m4, m5, %1, %3
  87 %endmacro
  88
  89 %macro IDCT_ADD_10 1
  90 cglobal h264_idct_add_10_%1, 3,3
  91     IDCT4_ADD_10 r0, r1, r2
  92     RET
  93 %endmacro
  94
  95 INIT_XMM
  96 IDCT_ADD_10 sse2
  97 %ifdef HAVE_AVX
  98 INIT_AVX
  99 IDCT_ADD_10 avx
 100 %endif
 101
 102 ;-----------------------------------------------------------------------------
 103 ; h264_idct_add16(pixel *dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 104 ;-----------------------------------------------------------------------------
 105 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
 106 %macro ADD4x4IDCT 1
 107 add4x4_idct_%1:
 108     add   r5, r0
 109     mova  m0, [r2+ 0]
 110     mova  m1, [r2+16]
 111     mova  m2, [r2+32]
 112     mova  m3, [r2+48]
 113     IDCT4_1D d,0,1,2,3,4,5
 114     TRANSPOSE4x4D 0,1,2,3,4
 115     paddd m0, [pd_32]
 116     IDCT4_1D d,0,1,2,3,4,5
 117     pxor  m5, m5
 118     STORE_DIFFx2 m0, m1, m4, m5, r5, r3
 119     lea   r5, [r5+r3*2]
 120     STORE_DIFFx2 m2, m3, m4, m5, r5, r3
 121     ret
 122 %endmacro
 123
 124 INIT_XMM
 125 ALIGN 16
 126 ADD4x4IDCT sse2
 127 %ifdef HAVE_AVX
 128 INIT_AVX
 129 ALIGN 16
 130 ADD4x4IDCT avx
 131 %endif
 132
 133 %macro ADD16_OP 3
 134     cmp          byte [r4+%3], 0
 135     jz .skipblock%2
 136     mov         r5d, dword [r1+%2*4]
 137     call add4x4_idct_%1
 138 .skipblock%2:
 139 %if %2<15
 140     add          r2, 64
 141 %endif
 142 %endmacro
 143
 144 %macro IDCT_ADD16_10 1
 145 cglobal h264_idct_add16_10_%1, 5,6
 146     ADD16_OP %1, 0, 4+1*8
 147     ADD16_OP %1, 1, 5+1*8
 148     ADD16_OP %1, 2, 4+2*8
 149     ADD16_OP %1, 3, 5+2*8
 150     ADD16_OP %1, 4, 6+1*8
 151     ADD16_OP %1, 5, 7+1*8
 152     ADD16_OP %1, 6, 6+2*8
 153     ADD16_OP %1, 7, 7+2*8
 154     ADD16_OP %1, 8, 4+3*8
 155     ADD16_OP %1, 9, 5+3*8
 156     ADD16_OP %1, 10, 4+4*8
 157     ADD16_OP %1, 11, 5+4*8
 158     ADD16_OP %1, 12, 6+3*8
 159     ADD16_OP %1, 13, 7+3*8
 160     ADD16_OP %1, 14, 6+4*8
 161     ADD16_OP %1, 15, 7+4*8
 162     RET
 163 %endmacro
 164
 165 INIT_XMM
 166 IDCT_ADD16_10 sse2
 167 %ifdef HAVE_AVX
 168 INIT_AVX
 169 IDCT_ADD16_10 avx
 170 %endif
 171
 172 ;-----------------------------------------------------------------------------
 173 ; void h264_idct_dc_add(pixel *dst, dctcoef *block, int stride)
 174 ;-----------------------------------------------------------------------------
 175 %macro IDCT_DC_ADD_OP_10 3
 176     pxor      m5, m5
 177 %if avx_enabled
 178     paddw     m1, m0, [%1+0   ]
 179     paddw     m2, m0, [%1+%2  ]
 180     paddw     m3, m0, [%1+%2*2]
 181     paddw     m4, m0, [%1+%3  ]
 182 %else
 183     mova      m1, [%1+0   ]
 184     mova      m2, [%1+%2  ]
 185     mova      m3, [%1+%2*2]
 186     mova      m4, [%1+%3  ]
 187     paddw     m1, m0
 188     paddw     m2, m0
 189     paddw     m3, m0
 190     paddw     m4, m0
 191 %endif
 192     CLIPW     m1, m5, m6
 193     CLIPW     m2, m5, m6
 194     CLIPW     m3, m5, m6
 195     CLIPW     m4, m5, m6
 196     mova [%1+0   ], m1
 197     mova [%1+%2  ], m2
 198     mova [%1+%2*2], m3
 199     mova [%1+%3  ], m4
 200 %endmacro
 201
 202 INIT_MMX
 203 cglobal h264_idct_dc_add_10_mmx2,3,3
 204     movd      m0, dword [r1]
 205     paddd     m0, [pd_32]
 206     psrad     m0, 6
 207     lea       r1, [r2*3]
 208     pshufw    m0, m0, 0
 209     mova      m6, [pw_pixel_max]
 210     IDCT_DC_ADD_OP_10 r0, r2, r1
 211     RET
 212
 213 ;-----------------------------------------------------------------------------
 214 ; void h264_idct8_dc_add(pixel *dst, dctcoef *block, int stride)
 215 ;-----------------------------------------------------------------------------
 216 %macro IDCT8_DC_ADD 1
 217 cglobal h264_idct8_dc_add_10_%1,3,3,7
 218     mov      r1d, dword [r1]
 219     add       r1, 32
 220     sar       r1, 6
 221     movd      m0, r1d
 222     lea       r1, [r2*3]
 223     SPLATW    m0, m0, 0
 224     mova      m6, [pw_pixel_max]
 225     IDCT_DC_ADD_OP_10 r0, r2, r1
 226     lea       r0, [r0+r2*4]
 227     IDCT_DC_ADD_OP_10 r0, r2, r1
 228     RET
 229 %endmacro
 230
 231 INIT_XMM
 232 IDCT8_DC_ADD sse2
 233 %ifdef HAVE_AVX
 234 INIT_AVX
 235 IDCT8_DC_ADD avx
 236 %endif
 237
 238 ;-----------------------------------------------------------------------------
 239 ; h264_idct_add16intra(pixel *dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 240 ;-----------------------------------------------------------------------------
 241 %macro AC 2
 242 .ac%2
 243     mov  r5d, dword [r1+(%2+0)*4]
 244     call add4x4_idct_%1
 245     mov  r5d, dword [r1+(%2+1)*4]
 246     add  r2, 64
 247     call add4x4_idct_%1
 248     add  r2, 64
 249     jmp .skipadd%2
 250 %endmacro
 251
 252 %assign last_block 16
 253 %macro ADD16_OP_INTRA 3
 254     cmp         word [r4+%3], 0
 255     jnz .ac%2
 256     mov         r5d, dword [r2+ 0]
 257     or          r5d, dword [r2+64]
 258     jz .skipblock%2
 259     mov         r5d, dword [r1+(%2+0)*4]
 260     call idct_dc_add_%1
 261 .skipblock%2:
 262 %if %2<last_block-2
 263     add          r2, 128
 264 %endif
 265 .skipadd%2:
 266 %endmacro
 267
 268 %macro IDCT_ADD16INTRA_10 1
 269 idct_dc_add_%1:
 270     add       r5, r0
 271     movq      m0, [r2+ 0]
 272     movhps    m0, [r2+64]
 273     paddd     m0, [pd_32]
 274     psrad     m0, 6
 275     pshufhw   m0, m0, 0
 276     pshuflw   m0, m0, 0
 277     lea       r6, [r3*3]
 278     mova      m6, [pw_pixel_max]
 279     IDCT_DC_ADD_OP_10 r5, r3, r6
 280     ret
 281
 282 cglobal h264_idct_add16intra_10_%1,5,7,8
 283     ADD16_OP_INTRA %1, 0, 4+1*8
 284     ADD16_OP_INTRA %1, 2, 4+2*8
 285     ADD16_OP_INTRA %1, 4, 6+1*8
 286     ADD16_OP_INTRA %1, 6, 6+2*8
 287     ADD16_OP_INTRA %1, 8, 4+3*8
 288     ADD16_OP_INTRA %1, 10, 4+4*8
 289     ADD16_OP_INTRA %1, 12, 6+3*8
 290     ADD16_OP_INTRA %1, 14, 6+4*8
 291     RET
 292 %assign i 14
 293 %rep 8
 294     AC %1, i
 295 %assign i i-2
 296 %endrep
 297 %endmacro
 298
 299 INIT_XMM
 300 IDCT_ADD16INTRA_10 sse2
 301 %ifdef HAVE_AVX
 302 INIT_AVX
 303 IDCT_ADD16INTRA_10 avx
 304 %endif
 305
 306 %assign last_block 24
 307 ;-----------------------------------------------------------------------------
 308 ; h264_idct_add8(pixel **dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 309 ;-----------------------------------------------------------------------------
 310 %macro IDCT_ADD8 1
 311 cglobal h264_idct_add8_10_%1,5,7
 312 %ifdef ARCH_X86_64
 313     mov r10, r0
 314 %endif
 315     add r2, 1024
 316     mov r0, [r0]
 317     ADD16_OP_INTRA %1, 16, 1+1*8
 318     ADD16_OP_INTRA %1, 18, 1+2*8
 319 %ifdef ARCH_X86_64
 320     mov r0, [r10+gprsize]
 321 %else
 322     mov r0, r0m
 323     mov r0, [r0+gprsize]
 324 %endif
 325     ADD16_OP_INTRA %1, 20, 1+4*8
 326     ADD16_OP_INTRA %1, 22, 1+5*8
 327     REP_RET
 328     AC %1, 16
 329     AC %1, 18
 330     AC %1, 20
 331     AC %1, 22
 332
 333 %endmacro ; IDCT_ADD8
 334
 335 INIT_XMM
 336 IDCT_ADD8 sse2
 337 %ifdef HAVE_AVX
 338 INIT_AVX
 339 IDCT_ADD8 avx
 340 %endif
 341
 342 ;-----------------------------------------------------------------------------
 343 ; void h264_idct8_add(pixel *dst, dctcoef *block, int stride)
 344 ;-----------------------------------------------------------------------------
 345 %macro IDCT8_1D 2
 346     SWAP         0, 1
 347     psrad        m4, m5, 1
 348     psrad        m1, m0, 1
 349     paddd        m4, m5
 350     paddd        m1, m0
 351     paddd        m4, m7
 352     paddd        m1, m5
 353     psubd        m4, m0
 354     paddd        m1, m3
 355
 356     psubd        m0, m3
 357     psubd        m5, m3
 358     paddd        m0, m7
 359     psubd        m5, m7
 360     psrad        m3, 1
 361     psrad        m7, 1
 362     psubd        m0, m3
 363     psubd        m5, m7
 364
 365     SWAP         1, 7
 366     psrad        m1, m7, 2
 367     psrad        m3, m4, 2
 368     paddd        m3, m0
 369     psrad        m0, 2
 370     paddd        m1, m5
 371     psrad        m5, 2
 372     psubd        m0, m4
 373     psubd        m7, m5
 374
 375     SWAP         5, 6
 376     psrad        m4, m2, 1
 377     psrad        m6, m5, 1
 378     psubd        m4, m5
 379     paddd        m6, m2
 380
 381     mova         m2, %1
 382     mova         m5, %2
 383     SUMSUB_BA    d, 5, 2
 384     SUMSUB_BA    d, 6, 5
 385     SUMSUB_BA    d, 4, 2
 386     SUMSUB_BA    d, 7, 6
 387     SUMSUB_BA    d, 0, 4
 388     SUMSUB_BA    d, 3, 2
 389     SUMSUB_BA    d, 1, 5
 390     SWAP         7, 6, 4, 5, 2, 3, 1, 0 ; 70315246 -> 01234567
 391 %endmacro
 392
 393 %macro IDCT8_1D_FULL 1
 394     mova         m7, [%1+112*2]
 395     mova         m6, [%1+ 96*2]
 396     mova         m5, [%1+ 80*2]
 397     mova         m3, [%1+ 48*2]
 398     mova         m2, [%1+ 32*2]
 399     mova         m1, [%1+ 16*2]
 400     IDCT8_1D   [%1], [%1+ 64*2]
 401 %endmacro
 402
 403 ; %1=int16_t *block, %2=int16_t *dstblock
 404 %macro IDCT8_ADD_SSE_START 2
 405     IDCT8_1D_FULL %1
 406 %ifdef ARCH_X86_64
 407     TRANSPOSE4x4D  0,1,2,3,8
 408     mova    [%2    ], m0
 409     TRANSPOSE4x4D  4,5,6,7,8
 410     mova    [%2+8*2], m4
 411 %else
 412     mova         [%1], m7
 413     TRANSPOSE4x4D   0,1,2,3,7
 414     mova           m7, [%1]
 415     mova    [%2     ], m0
 416     mova    [%2+16*2], m1
 417     mova    [%2+32*2], m2
 418     mova    [%2+48*2], m3
 419     TRANSPOSE4x4D   4,5,6,7,3
 420     mova    [%2+ 8*2], m4
 421     mova    [%2+24*2], m5
 422     mova    [%2+40*2], m6
 423     mova    [%2+56*2], m7
 424 %endif
 425 %endmacro
 426
 427 ; %1=uint8_t *dst, %2=int16_t *block, %3=int stride
 428 %macro IDCT8_ADD_SSE_END 3
 429     IDCT8_1D_FULL %2
 430     mova  [%2     ], m6
 431     mova  [%2+16*2], m7
 432
 433     pxor         m7, m7
 434     STORE_DIFFx2 m0, m1, m6, m7, %1, %3
 435     lea          %1, [%1+%3*2]
 436     STORE_DIFFx2 m2, m3, m6, m7, %1, %3
 437     mova         m0, [%2     ]
 438     mova         m1, [%2+16*2]
 439     lea          %1, [%1+%3*2]
 440     STORE_DIFFx2 m4, m5, m6, m7, %1, %3
 441     lea          %1, [%1+%3*2]
 442     STORE_DIFFx2 m0, m1, m6, m7, %1, %3
 443 %endmacro
 444
 445 %macro IDCT8_ADD 1
 446 cglobal h264_idct8_add_10_%1, 3,4,16
 447 %ifndef UNIX64
 448     %assign pad 16-gprsize-(stack_offset&15)
 449     sub  rsp, pad
 450     call h264_idct8_add1_10_%1
 451     add  rsp, pad
 452     RET
 453 %endif
 454
 455 ALIGN 16
 456 ; TODO: does not need to use stack
 457 h264_idct8_add1_10_%1:
 458 %assign pad 256+16-gprsize
 459     sub          rsp, pad
 460     add   dword [r1], 32
 461
 462 %ifdef ARCH_X86_64
 463     IDCT8_ADD_SSE_START r1, rsp
 464     SWAP 1,  9
 465     SWAP 2, 10
 466     SWAP 3, 11
 467     SWAP 5, 13
 468     SWAP 6, 14
 469     SWAP 7, 15
 470     IDCT8_ADD_SSE_START r1+16, rsp+128
 471     PERMUTE 1,9, 2,10, 3,11, 5,1, 6,2, 7,3, 9,13, 10,14, 11,15, 13,5, 14,6, 15,7
 472     IDCT8_1D [rsp], [rsp+128]
 473     SWAP 0,  8
 474     SWAP 1,  9
 475     SWAP 2, 10
 476     SWAP 3, 11
 477     SWAP 4, 12
 478     SWAP 5, 13
 479     SWAP 6, 14
 480     SWAP 7, 15
 481     IDCT8_1D [rsp+16], [rsp+144]
 482     psrad         m8, 6
 483     psrad         m0, 6
 484     packssdw      m8, m0
 485     paddsw        m8, [r0]
 486     pxor          m0, m0
 487     CLIPW         m8, m0, [pw_pixel_max]
 488     mova        [r0], m8
 489     mova          m8, [pw_pixel_max]
 490     STORE_DIFF16  m9, m1, m0, m8, r0+r2
 491     lea           r0, [r0+r2*2]
 492     STORE_DIFF16 m10, m2, m0, m8, r0
 493     STORE_DIFF16 m11, m3, m0, m8, r0+r2
 494     lea           r0, [r0+r2*2]
 495     STORE_DIFF16 m12, m4, m0, m8, r0
 496     STORE_DIFF16 m13, m5, m0, m8, r0+r2
 497     lea           r0, [r0+r2*2]
 498     STORE_DIFF16 m14, m6, m0, m8, r0
 499     STORE_DIFF16 m15, m7, m0, m8, r0+r2
 500 %else
 501     IDCT8_ADD_SSE_START r1,    rsp
 502     IDCT8_ADD_SSE_START r1+16, rsp+128
 503     lea           r3, [r0+8]
 504     IDCT8_ADD_SSE_END r0, rsp,    r2
 505     IDCT8_ADD_SSE_END r3, rsp+16, r2
 506 %endif ; ARCH_X86_64
 507
 508     add          rsp, pad
 509     ret
 510 %endmacro
 511
 512 INIT_XMM
 513 IDCT8_ADD sse2
 514 %ifdef HAVE_AVX
 515 INIT_AVX
 516 IDCT8_ADD avx
 517 %endif
 518
 519 ;-----------------------------------------------------------------------------
 520 ; h264_idct8_add4(pixel **dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 521 ;-----------------------------------------------------------------------------
 522 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
 523 %macro IDCT8_ADD4_OP 3
 524     cmp       byte [r4+%3], 0
 525     jz .skipblock%2
 526     mov      r0d, dword [r6+%2*4]
 527     add       r0, r5
 528     call h264_idct8_add1_10_%1
 529 .skipblock%2:
 530 %if %2<12
 531     add       r1, 256
 532 %endif
 533 %endmacro
 534
 535 %macro IDCT8_ADD4 1
 536 cglobal h264_idct8_add4_10_%1, 0,7,16
 537     %assign pad 16-gprsize-(stack_offset&15)
 538     SUB      rsp, pad
 539     mov       r5, r0mp
 540     mov       r6, r1mp
 541     mov       r1, r2mp
 542     mov      r2d, r3m
 543     movifnidn r4, r4mp
 544     IDCT8_ADD4_OP %1,  0, 4+1*8
 545     IDCT8_ADD4_OP %1,  4, 6+1*8
 546     IDCT8_ADD4_OP %1,  8, 4+3*8
 547     IDCT8_ADD4_OP %1, 12, 6+3*8
 548     ADD       rsp, pad
 549     RET
 550 %endmacro ; IDCT8_ADD4
 551
 552 INIT_XMM
 553 IDCT8_ADD4 sse2
 554 %ifdef HAVE_AVX
 555 INIT_AVX
 556 IDCT8_ADD4 avx
 557 %endif