git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_idct_10bit.asm

   1 ;*****************************************************************************
   2 ;* MMX/SSE2/AVX-optimized 10-bit H.264 iDCT code
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2005-2011 x264 project
   5 ;*
   6 ;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
   7 ;*
   8 ;* This file is part of Libav.
   9 ;*
  10 ;* Libav is free software; you can redistribute it and/or
  11 ;* modify it under the terms of the GNU Lesser General Public
  12 ;* License as published by the Free Software Foundation; either
  13 ;* version 2.1 of the License, or (at your option) any later version.
  14 ;*
  15 ;* Libav is distributed in the hope that it will be useful,
  16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  18 ;* Lesser General Public License for more details.
  19 ;*
  20 ;* You should have received a copy of the GNU Lesser General Public
  21 ;* License along with Libav; if not, write to the Free Software
  22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  23 ;******************************************************************************
  24
  25 %include "libavutil/x86/x86inc.asm"
  26 %include "libavutil/x86/x86util.asm"
  27
  28 SECTION_RODATA
  29
  30 pw_pixel_max: times 8 dw ((1 << 10)-1)
  31 pd_32:        times 4 dd 32
  32 scan8_mem: db  4+ 1*8, 5+ 1*8, 4+ 2*8, 5+ 2*8
  33            db  6+ 1*8, 7+ 1*8, 6+ 2*8, 7+ 2*8
  34            db  4+ 3*8, 5+ 3*8, 4+ 4*8, 5+ 4*8
  35            db  6+ 3*8, 7+ 3*8, 6+ 4*8, 7+ 4*8
  36            db  4+ 6*8, 5+ 6*8, 4+ 7*8, 5+ 7*8
  37            db  6+ 6*8, 7+ 6*8, 6+ 7*8, 7+ 7*8
  38            db  4+ 8*8, 5+ 8*8, 4+ 9*8, 5+ 9*8
  39            db  6+ 8*8, 7+ 8*8, 6+ 9*8, 7+ 9*8
  40            db  4+11*8, 5+11*8, 4+12*8, 5+12*8
  41            db  6+11*8, 7+11*8, 6+12*8, 7+12*8
  42            db  4+13*8, 5+13*8, 4+14*8, 5+14*8
  43            db  6+13*8, 7+13*8, 6+14*8, 7+14*8
  44
  45 %ifdef PIC
  46 %define scan8 r11
  47 %else
  48 %define scan8 scan8_mem
  49 %endif
  50
  51 SECTION .text
  52
  53 ;-----------------------------------------------------------------------------
  54 ; void h264_idct_add(pixel *dst, dctcoef *block, int stride)
  55 ;-----------------------------------------------------------------------------
  56 %macro STORE_DIFFx2 6
  57     psrad       %1, 6
  58     psrad       %2, 6
  59     packssdw    %1, %2
  60     movq        %3, [%5]
  61     movhps      %3, [%5+%6]
  62     paddsw      %1, %3
  63     CLIPW       %1, %4, [pw_pixel_max]
  64     movq      [%5], %1
  65     movhps [%5+%6], %1
  66 %endmacro
  67
  68 %macro STORE_DIFF16 5
  69     psrad       %1, 6
  70     psrad       %2, 6
  71     packssdw    %1, %2
  72     paddsw      %1, [%5]
  73     CLIPW       %1, %3, %4
  74     mova      [%5], %1
  75 %endmacro
  76
  77 ;dst, in, stride
  78 %macro IDCT4_ADD_10 3
  79     mova  m0, [%2+ 0]
  80     mova  m1, [%2+16]
  81     mova  m2, [%2+32]
  82     mova  m3, [%2+48]
  83     IDCT4_1D d,0,1,2,3,4,5
  84     TRANSPOSE4x4D 0,1,2,3,4
  85     paddd m0, [pd_32]
  86     IDCT4_1D d,0,1,2,3,4,5
  87     pxor  m5, m5
  88     STORE_DIFFx2 m0, m1, m4, m5, %1, %3
  89     lea   %1, [%1+%3*2]
  90     STORE_DIFFx2 m2, m3, m4, m5, %1, %3
  91 %endmacro
  92
  93 %macro IDCT_ADD_10 1
  94 cglobal h264_idct_add_10_%1, 3,3
  95     IDCT4_ADD_10 r0, r1, r2
  96     RET
  97 %endmacro
  98
  99 INIT_XMM
 100 IDCT_ADD_10 sse2
 101 %ifdef HAVE_AVX
 102 INIT_AVX
 103 IDCT_ADD_10 avx
 104 %endif
 105
 106 ;-----------------------------------------------------------------------------
 107 ; h264_idct_add16(pixel *dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 108 ;-----------------------------------------------------------------------------
 109 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
 110 %macro ADD4x4IDCT 1
 111 add4x4_idct_%1:
 112     add   r5, r0
 113     mova  m0, [r2+ 0]
 114     mova  m1, [r2+16]
 115     mova  m2, [r2+32]
 116     mova  m3, [r2+48]
 117     IDCT4_1D d,0,1,2,3,4,5
 118     TRANSPOSE4x4D 0,1,2,3,4
 119     paddd m0, [pd_32]
 120     IDCT4_1D d,0,1,2,3,4,5
 121     pxor  m5, m5
 122     STORE_DIFFx2 m0, m1, m4, m5, r5, r3
 123     lea   r5, [r5+r3*2]
 124     STORE_DIFFx2 m2, m3, m4, m5, r5, r3
 125     ret
 126 %endmacro
 127
 128 INIT_XMM
 129 ALIGN 16
 130 ADD4x4IDCT sse2
 131 %ifdef HAVE_AVX
 132 INIT_AVX
 133 ALIGN 16
 134 ADD4x4IDCT avx
 135 %endif
 136
 137 %macro ADD16_OP 3
 138     cmp          byte [r4+%3], 0
 139     jz .skipblock%2
 140     mov         r5d, [r1+%2*4]
 141     call add4x4_idct_%1
 142 .skipblock%2:
 143 %if %2<15
 144     add          r2, 64
 145 %endif
 146 %endmacro
 147
 148 %macro IDCT_ADD16_10 1
 149 cglobal h264_idct_add16_10_%1, 5,6
 150     ADD16_OP %1, 0, 4+1*8
 151     ADD16_OP %1, 1, 5+1*8
 152     ADD16_OP %1, 2, 4+2*8
 153     ADD16_OP %1, 3, 5+2*8
 154     ADD16_OP %1, 4, 6+1*8
 155     ADD16_OP %1, 5, 7+1*8
 156     ADD16_OP %1, 6, 6+2*8
 157     ADD16_OP %1, 7, 7+2*8
 158     ADD16_OP %1, 8, 4+3*8
 159     ADD16_OP %1, 9, 5+3*8
 160     ADD16_OP %1, 10, 4+4*8
 161     ADD16_OP %1, 11, 5+4*8
 162     ADD16_OP %1, 12, 6+3*8
 163     ADD16_OP %1, 13, 7+3*8
 164     ADD16_OP %1, 14, 6+4*8
 165     ADD16_OP %1, 15, 7+4*8
 166     REP_RET
 167 %endmacro
 168
 169 INIT_XMM
 170 IDCT_ADD16_10 sse2
 171 %ifdef HAVE_AVX
 172 INIT_AVX
 173 IDCT_ADD16_10 avx
 174 %endif
 175
 176 ;-----------------------------------------------------------------------------
 177 ; void h264_idct_dc_add(pixel *dst, dctcoef *block, int stride)
 178 ;-----------------------------------------------------------------------------
 179 %macro IDCT_DC_ADD_OP_10 3
 180     pxor      m5, m5
 181 %if avx_enabled
 182     paddw     m1, m0, [%1+0   ]
 183     paddw     m2, m0, [%1+%2  ]
 184     paddw     m3, m0, [%1+%2*2]
 185     paddw     m4, m0, [%1+%3  ]
 186 %else
 187     mova      m1, [%1+0   ]
 188     mova      m2, [%1+%2  ]
 189     mova      m3, [%1+%2*2]
 190     mova      m4, [%1+%3  ]
 191     paddw     m1, m0
 192     paddw     m2, m0
 193     paddw     m3, m0
 194     paddw     m4, m0
 195 %endif
 196     CLIPW     m1, m5, m6
 197     CLIPW     m2, m5, m6
 198     CLIPW     m3, m5, m6
 199     CLIPW     m4, m5, m6
 200     mova [%1+0   ], m1
 201     mova [%1+%2  ], m2
 202     mova [%1+%2*2], m3
 203     mova [%1+%3  ], m4
 204 %endmacro
 205
 206 INIT_MMX
 207 cglobal h264_idct_dc_add_10_mmx2,3,3
 208     movd      m0, [r1]
 209     paddd     m0, [pd_32]
 210     psrad     m0, 6
 211     lea       r1, [r2*3]
 212     pshufw    m0, m0, 0
 213     mova      m6, [pw_pixel_max]
 214     IDCT_DC_ADD_OP_10 r0, r2, r1
 215     RET
 216
 217 ;-----------------------------------------------------------------------------
 218 ; void h264_idct8_dc_add(pixel *dst, dctcoef *block, int stride)
 219 ;-----------------------------------------------------------------------------
 220 %macro IDCT8_DC_ADD 1
 221 cglobal h264_idct8_dc_add_10_%1,3,3,7
 222     mov      r1d, [r1]
 223     add       r1, 32
 224     sar       r1, 6
 225     movd      m0, r1d
 226     lea       r1, [r2*3]
 227     SPLATW    m0, m0, 0
 228     mova      m6, [pw_pixel_max]
 229     IDCT_DC_ADD_OP_10 r0, r2, r1
 230     lea       r0, [r0+r2*4]
 231     IDCT_DC_ADD_OP_10 r0, r2, r1
 232     RET
 233 %endmacro
 234
 235 INIT_XMM
 236 IDCT8_DC_ADD sse2
 237 %ifdef HAVE_AVX
 238 INIT_AVX
 239 IDCT8_DC_ADD avx
 240 %endif
 241
 242 ;-----------------------------------------------------------------------------
 243 ; h264_idct_add16intra(pixel *dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 244 ;-----------------------------------------------------------------------------
 245 %macro AC 2
 246 .ac%2
 247     mov  r5d, [r1+(%2+0)*4]
 248     call add4x4_idct_%1
 249     mov  r5d, [r1+(%2+1)*4]
 250     add  r2, 64
 251     call add4x4_idct_%1
 252     add  r2, 64
 253     jmp .skipadd%2
 254 %endmacro
 255
 256 %assign last_block 16
 257 %macro ADD16_OP_INTRA 3
 258     cmp      word [r4+%3], 0
 259     jnz .ac%2
 260     mov      r5d, [r2+ 0]
 261     or       r5d, [r2+64]
 262     jz .skipblock%2
 263     mov      r5d, [r1+(%2+0)*4]
 264     call idct_dc_add_%1
 265 .skipblock%2:
 266 %if %2<last_block-2
 267     add       r2, 128
 268 %endif
 269 .skipadd%2:
 270 %endmacro
 271
 272 %macro IDCT_ADD16INTRA_10 1
 273 idct_dc_add_%1:
 274     add       r5, r0
 275     movq      m0, [r2+ 0]
 276     movhps    m0, [r2+64]
 277     paddd     m0, [pd_32]
 278     psrad     m0, 6
 279     pshufhw   m0, m0, 0
 280     pshuflw   m0, m0, 0
 281     lea       r6, [r3*3]
 282     mova      m6, [pw_pixel_max]
 283     IDCT_DC_ADD_OP_10 r5, r3, r6
 284     ret
 285
 286 cglobal h264_idct_add16intra_10_%1,5,7,8
 287     ADD16_OP_INTRA %1, 0, 4+1*8
 288     ADD16_OP_INTRA %1, 2, 4+2*8
 289     ADD16_OP_INTRA %1, 4, 6+1*8
 290     ADD16_OP_INTRA %1, 6, 6+2*8
 291     ADD16_OP_INTRA %1, 8, 4+3*8
 292     ADD16_OP_INTRA %1, 10, 4+4*8
 293     ADD16_OP_INTRA %1, 12, 6+3*8
 294     ADD16_OP_INTRA %1, 14, 6+4*8
 295     REP_RET
 296     AC %1, 8
 297     AC %1, 10
 298     AC %1, 12
 299     AC %1, 14
 300     AC %1, 0
 301     AC %1, 2
 302     AC %1, 4
 303     AC %1, 6
 304 %endmacro
 305
 306 INIT_XMM
 307 IDCT_ADD16INTRA_10 sse2
 308 %ifdef HAVE_AVX
 309 INIT_AVX
 310 IDCT_ADD16INTRA_10 avx
 311 %endif
 312
 313 %assign last_block 36
 314 ;-----------------------------------------------------------------------------
 315 ; h264_idct_add8(pixel **dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 316 ;-----------------------------------------------------------------------------
 317 %macro IDCT_ADD8 1
 318 cglobal h264_idct_add8_10_%1,5,7
 319 %ifdef ARCH_X86_64
 320     mov r10, r0
 321 %endif
 322     add      r2, 1024
 323     mov      r0, [r0]
 324     ADD16_OP_INTRA %1, 16, 4+ 6*8
 325     ADD16_OP_INTRA %1, 18, 4+ 7*8
 326     add      r2, 1024-128*2
 327 %ifdef ARCH_X86_64
 328     mov      r0, [r10+gprsize]
 329 %else
 330     mov      r0, r0m
 331     mov      r0, [r0+gprsize]
 332 %endif
 333     ADD16_OP_INTRA %1, 32, 4+11*8
 334     ADD16_OP_INTRA %1, 34, 4+12*8
 335     REP_RET
 336     AC %1, 16
 337     AC %1, 18
 338     AC %1, 32
 339     AC %1, 34
 340
 341 %endmacro ; IDCT_ADD8
 342
 343 INIT_XMM
 344 IDCT_ADD8 sse2
 345 %ifdef HAVE_AVX
 346 INIT_AVX
 347 IDCT_ADD8 avx
 348 %endif
 349
 350 ;-----------------------------------------------------------------------------
 351 ; void h264_idct8_add(pixel *dst, dctcoef *block, int stride)
 352 ;-----------------------------------------------------------------------------
 353 %macro IDCT8_1D 2
 354     SWAP      0, 1
 355     psrad     m4, m5, 1
 356     psrad     m1, m0, 1
 357     paddd     m4, m5
 358     paddd     m1, m0
 359     paddd     m4, m7
 360     paddd     m1, m5
 361     psubd     m4, m0
 362     paddd     m1, m3
 363
 364     psubd     m0, m3
 365     psubd     m5, m3
 366     paddd     m0, m7
 367     psubd     m5, m7
 368     psrad     m3, 1
 369     psrad     m7, 1
 370     psubd     m0, m3
 371     psubd     m5, m7
 372
 373     SWAP      1, 7
 374     psrad     m1, m7, 2
 375     psrad     m3, m4, 2
 376     paddd     m3, m0
 377     psrad     m0, 2
 378     paddd     m1, m5
 379     psrad     m5, 2
 380     psubd     m0, m4
 381     psubd     m7, m5
 382
 383     SWAP      5, 6
 384     psrad     m4, m2, 1
 385     psrad     m6, m5, 1
 386     psubd     m4, m5
 387     paddd     m6, m2
 388
 389     mova      m2, %1
 390     mova      m5, %2
 391     SUMSUB_BA d, 5, 2
 392     SUMSUB_BA d, 6, 5
 393     SUMSUB_BA d, 4, 2
 394     SUMSUB_BA d, 7, 6
 395     SUMSUB_BA d, 0, 4
 396     SUMSUB_BA d, 3, 2
 397     SUMSUB_BA d, 1, 5
 398     SWAP      7, 6, 4, 5, 2, 3, 1, 0 ; 70315246 -> 01234567
 399 %endmacro
 400
 401 %macro IDCT8_1D_FULL 1
 402     mova         m7, [%1+112*2]
 403     mova         m6, [%1+ 96*2]
 404     mova         m5, [%1+ 80*2]
 405     mova         m3, [%1+ 48*2]
 406     mova         m2, [%1+ 32*2]
 407     mova         m1, [%1+ 16*2]
 408     IDCT8_1D   [%1], [%1+ 64*2]
 409 %endmacro
 410
 411 ; %1=int16_t *block, %2=int16_t *dstblock
 412 %macro IDCT8_ADD_SSE_START 2
 413     IDCT8_1D_FULL %1
 414 %ifdef ARCH_X86_64
 415     TRANSPOSE4x4D  0,1,2,3,8
 416     mova    [%2    ], m0
 417     TRANSPOSE4x4D  4,5,6,7,8
 418     mova    [%2+8*2], m4
 419 %else
 420     mova         [%1], m7
 421     TRANSPOSE4x4D   0,1,2,3,7
 422     mova           m7, [%1]
 423     mova    [%2     ], m0
 424     mova    [%2+16*2], m1
 425     mova    [%2+32*2], m2
 426     mova    [%2+48*2], m3
 427     TRANSPOSE4x4D   4,5,6,7,3
 428     mova    [%2+ 8*2], m4
 429     mova    [%2+24*2], m5
 430     mova    [%2+40*2], m6
 431     mova    [%2+56*2], m7
 432 %endif
 433 %endmacro
 434
 435 ; %1=uint8_t *dst, %2=int16_t *block, %3=int stride
 436 %macro IDCT8_ADD_SSE_END 3
 437     IDCT8_1D_FULL %2
 438     mova  [%2     ], m6
 439     mova  [%2+16*2], m7
 440
 441     pxor         m7, m7
 442     STORE_DIFFx2 m0, m1, m6, m7, %1, %3
 443     lea          %1, [%1+%3*2]
 444     STORE_DIFFx2 m2, m3, m6, m7, %1, %3
 445     mova         m0, [%2     ]
 446     mova         m1, [%2+16*2]
 447     lea          %1, [%1+%3*2]
 448     STORE_DIFFx2 m4, m5, m6, m7, %1, %3
 449     lea          %1, [%1+%3*2]
 450     STORE_DIFFx2 m0, m1, m6, m7, %1, %3
 451 %endmacro
 452
 453 %macro IDCT8_ADD 1
 454 cglobal h264_idct8_add_10_%1, 3,4,16
 455 %ifndef UNIX64
 456     %assign pad 16-gprsize-(stack_offset&15)
 457     sub  rsp, pad
 458     call h264_idct8_add1_10_%1
 459     add  rsp, pad
 460     RET
 461 %endif
 462
 463 ALIGN 16
 464 ; TODO: does not need to use stack
 465 h264_idct8_add1_10_%1:
 466 %assign pad 256+16-gprsize
 467     sub          rsp, pad
 468     add   dword [r1], 32
 469
 470 %ifdef ARCH_X86_64
 471     IDCT8_ADD_SSE_START r1, rsp
 472     SWAP 1,  9
 473     SWAP 2, 10
 474     SWAP 3, 11
 475     SWAP 5, 13
 476     SWAP 6, 14
 477     SWAP 7, 15
 478     IDCT8_ADD_SSE_START r1+16, rsp+128
 479     PERMUTE 1,9, 2,10, 3,11, 5,1, 6,2, 7,3, 9,13, 10,14, 11,15, 13,5, 14,6, 15,7
 480     IDCT8_1D [rsp], [rsp+128]
 481     SWAP 0,  8
 482     SWAP 1,  9
 483     SWAP 2, 10
 484     SWAP 3, 11
 485     SWAP 4, 12
 486     SWAP 5, 13
 487     SWAP 6, 14
 488     SWAP 7, 15
 489     IDCT8_1D [rsp+16], [rsp+144]
 490     psrad         m8, 6
 491     psrad         m0, 6
 492     packssdw      m8, m0
 493     paddsw        m8, [r0]
 494     pxor          m0, m0
 495     CLIPW         m8, m0, [pw_pixel_max]
 496     mova        [r0], m8
 497     mova          m8, [pw_pixel_max]
 498     STORE_DIFF16  m9, m1, m0, m8, r0+r2
 499     lea           r0, [r0+r2*2]
 500     STORE_DIFF16 m10, m2, m0, m8, r0
 501     STORE_DIFF16 m11, m3, m0, m8, r0+r2
 502     lea           r0, [r0+r2*2]
 503     STORE_DIFF16 m12, m4, m0, m8, r0
 504     STORE_DIFF16 m13, m5, m0, m8, r0+r2
 505     lea           r0, [r0+r2*2]
 506     STORE_DIFF16 m14, m6, m0, m8, r0
 507     STORE_DIFF16 m15, m7, m0, m8, r0+r2
 508 %else
 509     IDCT8_ADD_SSE_START r1,    rsp
 510     IDCT8_ADD_SSE_START r1+16, rsp+128
 511     lea           r3, [r0+8]
 512     IDCT8_ADD_SSE_END r0, rsp,    r2
 513     IDCT8_ADD_SSE_END r3, rsp+16, r2
 514 %endif ; ARCH_X86_64
 515
 516     add          rsp, pad
 517     ret
 518 %endmacro
 519
 520 INIT_XMM
 521 IDCT8_ADD sse2
 522 %ifdef HAVE_AVX
 523 INIT_AVX
 524 IDCT8_ADD avx
 525 %endif
 526
 527 ;-----------------------------------------------------------------------------
 528 ; h264_idct8_add4(pixel **dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 529 ;-----------------------------------------------------------------------------
 530 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
 531 %macro IDCT8_ADD4_OP 3
 532     cmp       byte [r4+%3], 0
 533     jz .skipblock%2
 534     mov      r0d, [r6+%2*4]
 535     add       r0, r5
 536     call h264_idct8_add1_10_%1
 537 .skipblock%2:
 538 %if %2<12
 539     add       r1, 256
 540 %endif
 541 %endmacro
 542
 543 %macro IDCT8_ADD4 1
 544 cglobal h264_idct8_add4_10_%1, 0,7,16
 545     %assign pad 16-gprsize-(stack_offset&15)
 546     SUB      rsp, pad
 547     mov       r5, r0mp
 548     mov       r6, r1mp
 549     mov       r1, r2mp
 550     mov      r2d, r3m
 551     movifnidn r4, r4mp
 552     IDCT8_ADD4_OP %1,  0, 4+1*8
 553     IDCT8_ADD4_OP %1,  4, 6+1*8
 554     IDCT8_ADD4_OP %1,  8, 4+3*8
 555     IDCT8_ADD4_OP %1, 12, 6+3*8
 556     ADD       rsp, pad
 557     RET
 558 %endmacro ; IDCT8_ADD4
 559
 560 INIT_XMM
 561 IDCT8_ADD4 sse2
 562 %ifdef HAVE_AVX
 563 INIT_AVX
 564 IDCT8_ADD4 avx
 565 %endif