git.sesse.net Git - x264/blob - common/x86/quant-a.asm

   1 ;*****************************************************************************
   2 ;* quant-a.asm: x86 quantization and level-run
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2005-2016 x264 project
   5 ;*
   6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
   7 ;*          Fiona Glaser <fiona@x264.com>
   8 ;*          Christian Heine <sennindemokrit@gmx.net>
   9 ;*          Oskar Arvidsson <oskar@irock.se>
  10 ;*          Henrik Gramner <henrik@gramner.com>
  11 ;*
  12 ;* This program is free software; you can redistribute it and/or modify
  13 ;* it under the terms of the GNU General Public License as published by
  14 ;* the Free Software Foundation; either version 2 of the License, or
  15 ;* (at your option) any later version.
  16 ;*
  17 ;* This program is distributed in the hope that it will be useful,
  18 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  19 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  20 ;* GNU General Public License for more details.
  21 ;*
  22 ;* You should have received a copy of the GNU General Public License
  23 ;* along with this program; if not, write to the Free Software
  24 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  25 ;*
  26 ;* This program is also available under a commercial proprietary license.
  27 ;* For more information, contact us at licensing@x264.com.
  28 ;*****************************************************************************
  29
  30 %include "x86inc.asm"
  31 %include "x86util.asm"
  32
  33 SECTION_RODATA 32
  34
  35 %macro DQM4 3
  36     dw %1, %2, %1, %2, %2, %3, %2, %3
  37 %endmacro
  38 %macro DQM8 6
  39     dw %1, %4, %5, %4, %1, %4, %5, %4
  40     dw %4, %2, %6, %2, %4, %2, %6, %2
  41     dw %5, %6, %3, %6, %5, %6, %3, %6
  42     dw %4, %2, %6, %2, %4, %2, %6, %2
  43 %endmacro
  44
  45 dequant4_scale:
  46     DQM4 10, 13, 16
  47     DQM4 11, 14, 18
  48     DQM4 13, 16, 20
  49     DQM4 14, 18, 23
  50     DQM4 16, 20, 25
  51     DQM4 18, 23, 29
  52
  53 dequant8_scale:
  54     DQM8 20, 18, 32, 19, 25, 24
  55     DQM8 22, 19, 35, 21, 28, 26
  56     DQM8 26, 23, 42, 24, 33, 31
  57     DQM8 28, 25, 45, 26, 35, 33
  58     DQM8 32, 28, 51, 30, 40, 38
  59     DQM8 36, 32, 58, 34, 46, 43
  60
  61 decimate_mask_table4:
  62     db  0,3,2,6,2,5,5,9,1,5,4,8,5,8,8,12,1,4,4,8,4,7,7,11,4,8,7,11,8,11,11,15,1,4
  63     db  3,7,4,7,7,11,3,7,6,10,7,10,10,14,4,7,7,11,7,10,10,14,7,11,10,14,11,14,14
  64     db 18,0,4,3,7,3,6,6,10,3,7,6,10,7,10,10,14,3,6,6,10,6,9,9,13,6,10,9,13,10,13
  65     db 13,17,4,7,6,10,7,10,10,14,6,10,9,13,10,13,13,17,7,10,10,14,10,13,13,17,10
  66     db 14,13,17,14,17,17,21,0,3,3,7,3,6,6,10,2,6,5,9,6,9,9,13,3,6,6,10,6,9,9,13
  67     db  6,10,9,13,10,13,13,17,3,6,5,9,6,9,9,13,5,9,8,12,9,12,12,16,6,9,9,13,9,12
  68     db 12,16,9,13,12,16,13,16,16,20,3,7,6,10,6,9,9,13,6,10,9,13,10,13,13,17,6,9
  69     db  9,13,9,12,12,16,9,13,12,16,13,16,16,20,7,10,9,13,10,13,13,17,9,13,12,16
  70     db 13,16,16,20,10,13,13,17,13,16,16,20,13,17,16,20,17,20,20,24
  71
  72 chroma_dc_dct_mask_mmx: dw 0, 0,-1,-1, 0, 0,-1,-1
  73 chroma_dc_dmf_mask_mmx: dw 0, 0,-1,-1, 0,-1,-1, 0
  74 chroma_dc_dct_mask:     dw 1, 1,-1,-1, 1, 1,-1,-1
  75 chroma_dc_dmf_mask:     dw 1, 1,-1,-1, 1,-1,-1, 1
  76
  77 %if HIGH_BIT_DEPTH==0
  78 dct_coef_shuffle:
  79 %macro DCT_COEF_SHUFFLE 8
  80     %assign y x
  81     %rep 8
  82         %rep 7
  83             %rotate (~(y>>7))&1
  84             %assign y y<<((~(y>>7))&1)
  85         %endrep
  86         db %1*2
  87         %rotate 1
  88         %assign y y<<1
  89     %endrep
  90 %endmacro
  91 %assign x 0
  92 %rep 256
  93     DCT_COEF_SHUFFLE 7, 6, 5, 4, 3, 2, 1, 0
  94 %assign x x+1
  95 %endrep
  96 %endif
  97
  98 SECTION .text
  99
 100 cextern pb_1
 101 cextern pw_1
 102 cextern pw_2
 103 cextern pw_256
 104 cextern pd_1
 105 cextern pb_01
 106 cextern pd_1024
 107 cextern deinterleave_shufd
 108 cextern popcnt_table
 109
 110 %macro QUANT_DC_START 2
 111     movd      xm%1, r1m     ; mf
 112     movd      xm%2, r2m     ; bias
 113 %if cpuflag(avx2)
 114     vpbroadcastdct m%1, xm%1
 115     vpbroadcastdct m%2, xm%2
 116 %elif HIGH_BIT_DEPTH
 117     SPLATD     m%1, m%1
 118     SPLATD     m%2, m%2
 119 %elif cpuflag(sse4) ; ssse3, but not faster on conroe
 120     mova       m5, [pb_01]
 121     pshufb     m%1, m5
 122     pshufb     m%2, m5
 123 %else
 124     SPLATW     m%1, m%1
 125     SPLATW     m%2, m%2
 126 %endif
 127 %endmacro
 128
 129 %macro QUANT_END 0
 130     xor      eax, eax
 131 %if cpuflag(sse4)
 132     ptest     m5, m5
 133 %else ; !sse4
 134 %if ARCH_X86_64
 135 %if mmsize == 16
 136     packsswb  m5, m5
 137 %endif
 138     movq     rcx, m5
 139     test     rcx, rcx
 140 %else
 141 %if mmsize == 16
 142     pxor      m4, m4
 143     pcmpeqb   m5, m4
 144     pmovmskb ecx, m5
 145     cmp      ecx, (1<<mmsize)-1
 146 %else
 147     packsswb  m5, m5
 148     movd     ecx, m5
 149     test     ecx, ecx
 150 %endif
 151 %endif
 152 %endif ; cpuflag
 153     setne     al
 154 %endmacro
 155
 156 %if HIGH_BIT_DEPTH
 157 %macro QUANT_ONE_DC 4
 158 %if cpuflag(sse4)
 159     mova        m0, [%1]
 160     ABSD        m1, m0
 161     paddd       m1, %3
 162     pmulld      m1, %2
 163     psrad       m1, 16
 164 %else ; !sse4
 165     mova        m0, [%1]
 166     ABSD        m1, m0
 167     paddd       m1, %3
 168     mova        m2, m1
 169     psrlq       m2, 32
 170     pmuludq     m1, %2
 171     pmuludq     m2, %2
 172     psllq       m2, 32
 173     paddd       m1, m2
 174     psrld       m1, 16
 175 %endif ; cpuflag
 176     PSIGND      m1, m0
 177     mova      [%1], m1
 178     ACCUM     por, 5, 1, %4
 179 %endmacro
 180
 181 %macro QUANT_TWO_DC 4
 182 %if cpuflag(sse4)
 183     mova        m0, [%1       ]
 184     mova        m1, [%1+mmsize]
 185     ABSD        m2, m0
 186     ABSD        m3, m1
 187     paddd       m2, %3
 188     paddd       m3, %3
 189     pmulld      m2, %2
 190     pmulld      m3, %2
 191     psrad       m2, 16
 192     psrad       m3, 16
 193     PSIGND      m2, m0
 194     PSIGND      m3, m1
 195     mova [%1       ], m2
 196     mova [%1+mmsize], m3
 197     ACCUM      por, 5, 2, %4
 198     por         m5, m3
 199 %else ; !sse4
 200     QUANT_ONE_DC %1, %2, %3, %4
 201     QUANT_ONE_DC %1+mmsize, %2, %3, %4+mmsize
 202 %endif ; cpuflag
 203 %endmacro
 204
 205 %macro QUANT_ONE_AC_MMX 5
 206     mova        m0, [%1]
 207     mova        m2, [%2]
 208     ABSD        m1, m0
 209     mova        m4, m2
 210     paddd       m1, [%3]
 211     mova        m3, m1
 212     psrlq       m4, 32
 213     psrlq       m3, 32
 214     pmuludq     m1, m2
 215     pmuludq     m3, m4
 216     psllq       m3, 32
 217     paddd       m1, m3
 218     psrad       m1, 16
 219     PSIGND      m1, m0
 220     mova      [%1], m1
 221     ACCUM      por, %5, 1, %4
 222 %endmacro
 223
 224 %macro QUANT_TWO_AC 5
 225 %if cpuflag(sse4)
 226     mova        m0, [%1       ]
 227     mova        m1, [%1+mmsize]
 228     ABSD        m2, m0
 229     ABSD        m3, m1
 230     paddd       m2, [%3       ]
 231     paddd       m3, [%3+mmsize]
 232     pmulld      m2, [%2       ]
 233     pmulld      m3, [%2+mmsize]
 234     psrad       m2, 16
 235     psrad       m3, 16
 236     PSIGND      m2, m0
 237     PSIGND      m3, m1
 238     mova [%1       ], m2
 239     mova [%1+mmsize], m3
 240     ACCUM      por, %5, 2, %4
 241     por        m%5, m3
 242 %else ; !sse4
 243     QUANT_ONE_AC_MMX %1, %2, %3, %4, %5
 244     QUANT_ONE_AC_MMX %1+mmsize, %2+mmsize, %3+mmsize, 1, %5
 245 %endif ; cpuflag
 246 %endmacro
 247
 248 ;-----------------------------------------------------------------------------
 249 ; int quant_2x2( int32_t dct[M*N], int mf, int bias )
 250 ;-----------------------------------------------------------------------------
 251 %macro QUANT_DC 2
 252 cglobal quant_%1x%2_dc, 3,3,8
 253     QUANT_DC_START 6,7
 254 %if %1*%2 <= mmsize/4
 255     QUANT_ONE_DC r0, m6, m7, 0
 256 %else
 257 %assign x 0
 258 %rep %1*%2/(mmsize/2)
 259     QUANT_TWO_DC r0+x, m6, m7, x
 260 %assign x x+mmsize*2
 261 %endrep
 262 %endif
 263     QUANT_END
 264     RET
 265 %endmacro
 266
 267 ;-----------------------------------------------------------------------------
 268 ; int quant_MxN( int32_t dct[M*N], uint32_t mf[M*N], uint32_t bias[M*N] )
 269 ;-----------------------------------------------------------------------------
 270 %macro QUANT_AC 2
 271 cglobal quant_%1x%2, 3,3,8
 272 %assign x 0
 273 %rep %1*%2/(mmsize/2)
 274     QUANT_TWO_AC r0+x, r1+x, r2+x, x, 5
 275 %assign x x+mmsize*2
 276 %endrep
 277     QUANT_END
 278     RET
 279 %endmacro
 280
 281 %macro QUANT_4x4 2
 282     QUANT_TWO_AC r0+%1+mmsize*0, r1+mmsize*0, r2+mmsize*0, 0, %2
 283     QUANT_TWO_AC r0+%1+mmsize*2, r1+mmsize*2, r2+mmsize*2, 1, %2
 284 %endmacro
 285
 286 %macro QUANT_4x4x4 0
 287 cglobal quant_4x4x4, 3,3,8
 288     QUANT_4x4  0, 5
 289     QUANT_4x4 64, 6
 290     add       r0, 128
 291     packssdw  m5, m6
 292     QUANT_4x4  0, 6
 293     QUANT_4x4 64, 7
 294     packssdw  m6, m7
 295     packssdw  m5, m6  ; AAAA BBBB CCCC DDDD
 296     pxor      m4, m4
 297     pcmpeqd   m5, m4
 298     movmskps eax, m5
 299     xor      eax, 0xf
 300     RET
 301 %endmacro
 302
 303 INIT_XMM sse2
 304 QUANT_DC 2, 2
 305 QUANT_DC 4, 4
 306 QUANT_AC 4, 4
 307 QUANT_AC 8, 8
 308 QUANT_4x4x4
 309
 310 INIT_XMM ssse3
 311 QUANT_DC 2, 2
 312 QUANT_DC 4, 4
 313 QUANT_AC 4, 4
 314 QUANT_AC 8, 8
 315 QUANT_4x4x4
 316
 317 INIT_XMM sse4
 318 QUANT_DC 2, 2
 319 QUANT_DC 4, 4
 320 QUANT_AC 4, 4
 321 QUANT_AC 8, 8
 322 QUANT_4x4x4
 323
 324 INIT_YMM avx2
 325 QUANT_DC 4, 4
 326 QUANT_AC 4, 4
 327 QUANT_AC 8, 8
 328
 329 INIT_YMM avx2
 330 cglobal quant_4x4x4, 3,3,6
 331     QUANT_TWO_AC r0,    r1, r2, 0, 4
 332     QUANT_TWO_AC r0+64, r1, r2, 0, 5
 333     add       r0, 128
 334     packssdw  m4, m5
 335     QUANT_TWO_AC r0,    r1, r2, 0, 5
 336     QUANT_TWO_AC r0+64, r1, r2, 0, 1
 337     packssdw  m5, m1
 338     packssdw  m4, m5
 339     pxor      m3, m3
 340     pcmpeqd   m4, m3
 341     movmskps eax, m4
 342     mov      edx, eax
 343     shr      eax, 4
 344     and      eax, edx
 345     xor      eax, 0xf
 346     RET
 347
 348 %endif ; HIGH_BIT_DEPTH
 349
 350 %if HIGH_BIT_DEPTH == 0
 351 %macro QUANT_ONE 5
 352 ;;; %1      (m64)       dct[y][x]
 353 ;;; %2      (m64/mmx)   mf[y][x] or mf[0][0] (as uint16_t)
 354 ;;; %3      (m64/mmx)   bias[y][x] or bias[0][0] (as uint16_t)
 355     mova       m1, %1   ; load dct coeffs
 356     ABSW       m0, m1, sign
 357     paddusw    m0, %3   ; round
 358     pmulhuw    m0, %2   ; divide
 359     PSIGNW     m0, m1   ; restore sign
 360     mova       %1, m0   ; store
 361     ACCUM     por, %5, 0, %4
 362 %endmacro
 363
 364 %macro QUANT_TWO 8
 365     mova       m1, %1
 366     mova       m3, %2
 367     ABSW       m0, m1, sign
 368     ABSW       m2, m3, sign
 369     paddusw    m0, %5
 370     paddusw    m2, %6
 371     pmulhuw    m0, %3
 372     pmulhuw    m2, %4
 373     PSIGNW     m0, m1
 374     PSIGNW     m2, m3
 375     mova       %1, m0
 376     mova       %2, m2
 377     ACCUM     por, %8, 0, %7
 378     ACCUM     por, %8, 2, %7+mmsize
 379 %endmacro
 380
 381 ;-----------------------------------------------------------------------------
 382 ; void quant_4x4_dc( int16_t dct[16], int mf, int bias )
 383 ;-----------------------------------------------------------------------------
 384 %macro QUANT_DC 2-3 0
 385 cglobal %1, 1,1,%3
 386 %if %2==1
 387     QUANT_DC_START 2,3
 388     QUANT_ONE [r0], m2, m3, 0, 5
 389 %else
 390     QUANT_DC_START 4,6
 391 %assign x 0
 392 %rep %2/2
 393     QUANT_TWO [r0+x], [r0+x+mmsize], m4, m4, m6, m6, x, 5
 394 %assign x x+mmsize*2
 395 %endrep
 396 %endif
 397     QUANT_END
 398     RET
 399 %endmacro
 400
 401 ;-----------------------------------------------------------------------------
 402 ; int quant_4x4( int16_t dct[16], uint16_t mf[16], uint16_t bias[16] )
 403 ;-----------------------------------------------------------------------------
 404 %macro QUANT_AC 2
 405 cglobal %1, 3,3
 406 %if %2==1
 407     QUANT_ONE [r0], [r1], [r2], 0, 5
 408 %else
 409 %assign x 0
 410 %rep %2/2
 411     QUANT_TWO [r0+x], [r0+x+mmsize], [r1+x], [r1+x+mmsize], [r2+x], [r2+x+mmsize], x, 5
 412 %assign x x+mmsize*2
 413 %endrep
 414 %endif
 415     QUANT_END
 416     RET
 417 %endmacro
 418
 419 %macro QUANT_4x4 2
 420 %if UNIX64
 421     QUANT_TWO [r0+%1+mmsize*0], [r0+%1+mmsize*1], m8, m9, m10, m11, mmsize*0, %2
 422 %else
 423     QUANT_TWO [r0+%1+mmsize*0], [r0+%1+mmsize*1], [r1+mmsize*0], [r1+mmsize*1], [r2+mmsize*0], [r2+mmsize*1], mmsize*0, %2
 424 %if mmsize==8
 425     QUANT_TWO [r0+%1+mmsize*2], [r0+%1+mmsize*3], [r1+mmsize*2], [r1+mmsize*3], [r2+mmsize*2], [r2+mmsize*3], mmsize*2, %2
 426 %endif
 427 %endif
 428 %endmacro
 429
 430 %macro QUANT_4x4x4 0
 431 cglobal quant_4x4x4, 3,3,7
 432 %if UNIX64
 433     mova      m8, [r1+mmsize*0]
 434     mova      m9, [r1+mmsize*1]
 435     mova     m10, [r2+mmsize*0]
 436     mova     m11, [r2+mmsize*1]
 437 %endif
 438     QUANT_4x4  0, 4
 439     QUANT_4x4 32, 5
 440     packssdw  m4, m5
 441     QUANT_4x4 64, 5
 442     QUANT_4x4 96, 6
 443     packssdw  m5, m6
 444     packssdw  m4, m5  ; AAAA BBBB CCCC DDDD
 445     pxor      m3, m3
 446     pcmpeqd   m4, m3
 447     movmskps eax, m4
 448     xor      eax, 0xf
 449     RET
 450 %endmacro
 451
 452 INIT_MMX mmx2
 453 QUANT_DC quant_2x2_dc, 1
 454 %if ARCH_X86_64 == 0 ; not needed because sse2 is faster
 455 QUANT_DC quant_4x4_dc, 4
 456 INIT_MMX mmx2
 457 QUANT_AC quant_4x4, 4
 458 QUANT_AC quant_8x8, 16
 459 %endif
 460
 461 INIT_XMM sse2
 462 QUANT_DC quant_4x4_dc, 2, 7
 463 QUANT_AC quant_4x4, 2
 464 QUANT_AC quant_8x8, 8
 465 QUANT_4x4x4
 466
 467 INIT_XMM ssse3
 468 QUANT_DC quant_4x4_dc, 2, 7
 469 QUANT_AC quant_4x4, 2
 470 QUANT_AC quant_8x8, 8
 471 QUANT_4x4x4
 472
 473 INIT_MMX ssse3
 474 QUANT_DC quant_2x2_dc, 1
 475
 476 INIT_XMM sse4
 477 ;Not faster on Conroe, so only used in SSE4 versions
 478 QUANT_DC quant_4x4_dc, 2, 7
 479 QUANT_AC quant_4x4, 2
 480 QUANT_AC quant_8x8, 8
 481
 482 INIT_YMM avx2
 483 QUANT_AC quant_4x4, 1
 484 QUANT_AC quant_8x8, 4
 485 QUANT_DC quant_4x4_dc, 1, 6
 486
 487 INIT_YMM avx2
 488 cglobal quant_4x4x4, 3,3,6
 489     mova      m2, [r1]
 490     mova      m3, [r2]
 491     QUANT_ONE [r0+ 0], m2, m3, 0, 4
 492     QUANT_ONE [r0+32], m2, m3, 0, 5
 493     packssdw  m4, m5
 494     QUANT_ONE [r0+64], m2, m3, 0, 5
 495     QUANT_ONE [r0+96], m2, m3, 0, 1
 496     packssdw  m5, m1
 497     packssdw  m4, m5
 498     pxor      m3, m3
 499     pcmpeqd   m4, m3
 500     movmskps eax, m4
 501     mov      edx, eax
 502     shr      eax, 4
 503     and      eax, edx
 504     xor      eax, 0xf
 505     RET
 506 %endif ; !HIGH_BIT_DEPTH
 507
 508
 509
 510 ;=============================================================================
 511 ; dequant
 512 ;=============================================================================
 513
 514 %macro DEQUANT16_L 4
 515 ;;; %1      dct[y][x]
 516 ;;; %2,%3   dequant_mf[i_mf][y][x]
 517 ;;; m2      i_qbits
 518 %if HIGH_BIT_DEPTH
 519     mova     m0, %1
 520     mova     m1, %4
 521     pmaddwd  m0, %2
 522     pmaddwd  m1, %3
 523     pslld    m0, xm2
 524     pslld    m1, xm2
 525     mova     %1, m0
 526     mova     %4, m1
 527 %else
 528     mova     m0, %2
 529     packssdw m0, %3
 530 %if mmsize==32
 531     vpermq   m0, m0, q3120
 532 %endif
 533     pmullw   m0, %1
 534     psllw    m0, xm2
 535     mova     %1, m0
 536 %endif
 537 %endmacro
 538
 539 %macro DEQUANT32_R 4
 540 ;;; %1      dct[y][x]
 541 ;;; %2,%3   dequant_mf[i_mf][y][x]
 542 ;;; m2      -i_qbits
 543 ;;; m3      f
 544 ;;; m4      0
 545 %if HIGH_BIT_DEPTH
 546     mova      m0, %1
 547     mova      m1, %4
 548     pmadcswd  m0, m0, %2, m3
 549     pmadcswd  m1, m1, %3, m3
 550     psrad     m0, xm2
 551     psrad     m1, xm2
 552     mova      %1, m0
 553     mova      %4, m1
 554 %else
 555 %if mmsize == 32
 556     pmovzxwd  m0, %1
 557     pmovzxwd  m1, %4
 558 %else
 559     mova      m0, %1
 560     punpckhwd m1, m0, m4
 561     punpcklwd m0, m4
 562 %endif
 563     pmadcswd  m0, m0, %2, m3
 564     pmadcswd  m1, m1, %3, m3
 565     psrad     m0, xm2
 566     psrad     m1, xm2
 567     packssdw  m0, m1
 568 %if mmsize == 32
 569     vpermq    m0, m0, q3120
 570 %endif
 571     mova      %1, m0
 572 %endif
 573 %endmacro
 574
 575 %macro DEQUANT_LOOP 3
 576 %if 8*(%2-2*%3) > 0
 577     mov t0d, 8*(%2-2*%3)
 578 %%loop:
 579     %1 [r0+(t0     )*SIZEOF_PIXEL], [r1+t0*2      ], [r1+t0*2+ 8*%3], [r0+(t0+ 4*%3)*SIZEOF_PIXEL]
 580     %1 [r0+(t0+8*%3)*SIZEOF_PIXEL], [r1+t0*2+16*%3], [r1+t0*2+24*%3], [r0+(t0+12*%3)*SIZEOF_PIXEL]
 581     sub t0d, 16*%3
 582     jge %%loop
 583     RET
 584 %else
 585 %if mmsize < 32
 586     %1 [r0+(8*%3)*SIZEOF_PIXEL], [r1+16*%3], [r1+24*%3], [r0+(12*%3)*SIZEOF_PIXEL]
 587 %endif
 588     %1 [r0+(0   )*SIZEOF_PIXEL], [r1+0    ], [r1+ 8*%3], [r0+( 4*%3)*SIZEOF_PIXEL]
 589     RET
 590 %endif
 591 %endmacro
 592
 593 %macro DEQUANT16_FLAT 2-5
 594     mova   m0, %1
 595     psllw  m0, m4
 596 %assign i %0-2
 597 %rep %0-1
 598 %if i
 599     mova   m %+ i, [r0+%2]
 600     pmullw m %+ i, m0
 601 %else
 602     pmullw m0, [r0+%2]
 603 %endif
 604     mova   [r0+%2], m %+ i
 605     %assign i i-1
 606     %rotate 1
 607 %endrep
 608 %endmacro
 609
 610 %if ARCH_X86_64
 611     DECLARE_REG_TMP 6,3,2
 612 %else
 613     DECLARE_REG_TMP 2,0,1
 614 %endif
 615
 616 %macro DEQUANT_START 2
 617     movifnidn t2d, r2m
 618     imul t0d, t2d, 0x2b
 619     shr  t0d, 8     ; i_qbits = i_qp / 6
 620     lea  t1d, [t0*5]
 621     sub  t2d, t0d
 622     sub  t2d, t1d   ; i_mf = i_qp % 6
 623     shl  t2d, %1
 624 %if ARCH_X86_64
 625     add  r1, t2     ; dequant_mf[i_mf]
 626 %else
 627     add  r1, r1mp   ; dequant_mf[i_mf]
 628     mov  r0, r0mp   ; dct
 629 %endif
 630     sub  t0d, %2
 631     jl   .rshift32  ; negative qbits => rightshift
 632 %endmacro
 633
 634 ;-----------------------------------------------------------------------------
 635 ; void dequant_4x4( dctcoef dct[4][4], int dequant_mf[6][4][4], int i_qp )
 636 ;-----------------------------------------------------------------------------
 637 %macro DEQUANT 3
 638 cglobal dequant_%1x%1, 0,3,6
 639 .skip_prologue:
 640     DEQUANT_START %2+2, %2
 641
 642 .lshift:
 643     movd xm2, t0d
 644     DEQUANT_LOOP DEQUANT16_L, %1*%1/4, %3
 645
 646 .rshift32:
 647     neg   t0d
 648     mova  m3, [pd_1]
 649     movd xm2, t0d
 650     pslld m3, xm2
 651     pxor  m4, m4
 652     psrld m3, 1
 653     DEQUANT_LOOP DEQUANT32_R, %1*%1/4, %3
 654
 655 %if HIGH_BIT_DEPTH == 0 && (notcpuflag(avx) || mmsize == 32)
 656 cglobal dequant_%1x%1_flat16, 0,3
 657     movifnidn t2d, r2m
 658 %if %1 == 8
 659     cmp  t2d, 12
 660     jl dequant_%1x%1 %+ SUFFIX %+ .skip_prologue
 661     sub  t2d, 12
 662 %endif
 663     imul t0d, t2d, 0x2b
 664     shr  t0d, 8     ; i_qbits = i_qp / 6
 665     lea  t1d, [t0*5]
 666     sub  t2d, t0d
 667     sub  t2d, t1d   ; i_mf = i_qp % 6
 668     shl  t2d, %2
 669 %ifdef PIC
 670     lea  r1, [dequant%1_scale]
 671     add  r1, t2
 672 %else
 673     lea  r1, [dequant%1_scale + t2]
 674 %endif
 675     movifnidn r0, r0mp
 676     movd xm4, t0d
 677 %if %1 == 4
 678 %if mmsize == 8
 679     DEQUANT16_FLAT [r1], 0, 16
 680     DEQUANT16_FLAT [r1+8], 8, 24
 681 %elif mmsize == 16
 682     DEQUANT16_FLAT [r1], 0, 16
 683 %else
 684     vbroadcasti128 m0, [r1]
 685     psllw  m0, xm4
 686     pmullw m0, [r0]
 687     mova [r0], m0
 688 %endif
 689 %elif mmsize == 8
 690     DEQUANT16_FLAT [r1], 0, 8, 64, 72
 691     DEQUANT16_FLAT [r1+16], 16, 24, 48, 56
 692     DEQUANT16_FLAT [r1+16], 80, 88, 112, 120
 693     DEQUANT16_FLAT [r1+32], 32, 40, 96, 104
 694 %elif mmsize == 16
 695     DEQUANT16_FLAT [r1], 0, 64
 696     DEQUANT16_FLAT [r1+16], 16, 48, 80, 112
 697     DEQUANT16_FLAT [r1+32], 32, 96
 698 %else
 699     mova   m1, [r1+ 0]
 700     mova   m2, [r1+32]
 701     psllw  m1, xm4
 702     psllw  m2, xm4
 703     pmullw m0, m1, [r0+ 0]
 704     pmullw m3, m2, [r0+32]
 705     pmullw m4, m1, [r0+64]
 706     pmullw m5, m2, [r0+96]
 707     mova [r0+ 0], m0
 708     mova [r0+32], m3
 709     mova [r0+64], m4
 710     mova [r0+96], m5
 711 %endif
 712     RET
 713 %endif ; !HIGH_BIT_DEPTH && !AVX
 714 %endmacro ; DEQUANT
 715
 716 %if HIGH_BIT_DEPTH
 717 INIT_XMM sse2
 718 DEQUANT 4, 4, 2
 719 DEQUANT 8, 6, 2
 720 INIT_XMM xop
 721 DEQUANT 4, 4, 2
 722 DEQUANT 8, 6, 2
 723 INIT_YMM avx2
 724 DEQUANT 4, 4, 4
 725 DEQUANT 8, 6, 4
 726 %else
 727 %if ARCH_X86_64 == 0
 728 INIT_MMX mmx
 729 DEQUANT 4, 4, 1
 730 DEQUANT 8, 6, 1
 731 %endif
 732 INIT_XMM sse2
 733 DEQUANT 4, 4, 2
 734 DEQUANT 8, 6, 2
 735 INIT_XMM avx
 736 DEQUANT 4, 4, 2
 737 DEQUANT 8, 6, 2
 738 INIT_XMM xop
 739 DEQUANT 4, 4, 2
 740 DEQUANT 8, 6, 2
 741 INIT_YMM avx2
 742 DEQUANT 4, 4, 4
 743 DEQUANT 8, 6, 4
 744 %endif
 745
 746 %macro DEQUANT_DC 2
 747 cglobal dequant_4x4dc, 0,3,6
 748     DEQUANT_START 6, 6
 749
 750 .lshift:
 751 %if cpuflag(avx2)
 752     vpbroadcastdct m3, [r1]
 753 %else
 754     movd    xm3, [r1]
 755     SPLAT%1  m3, xm3
 756 %endif
 757     movd    xm2, t0d
 758     pslld    m3, xm2
 759 %assign %%x 0
 760 %rep SIZEOF_PIXEL*32/mmsize
 761     %2       m0, m3, [r0+%%x]
 762     mova     [r0+%%x], m0
 763 %assign %%x %%x+mmsize
 764 %endrep
 765     RET
 766
 767 .rshift32:
 768     neg      t0d
 769 %if cpuflag(avx2)
 770     vpbroadcastdct m2, [r1]
 771 %else
 772     movd     xm2, [r1]
 773 %endif
 774     mova      m5, [p%1_1]
 775     movd     xm3, t0d
 776     pslld     m4, m5, xm3
 777     psrld     m4, 1
 778 %if HIGH_BIT_DEPTH
 779 %if notcpuflag(avx2)
 780     pshufd    m2, m2, 0
 781 %endif
 782 %assign %%x 0
 783 %rep SIZEOF_PIXEL*32/mmsize
 784     pmadcswd  m0, m2, [r0+%%x], m4
 785     psrad     m0, xm3
 786     mova      [r0+%%x], m0
 787 %assign %%x %%x+mmsize
 788 %endrep
 789
 790 %else ; !HIGH_BIT_DEPTH
 791 %if notcpuflag(avx2)
 792     PSHUFLW   m2, m2, 0
 793 %endif
 794     punpcklwd m2, m4
 795 %assign %%x 0
 796 %rep SIZEOF_PIXEL*32/mmsize
 797     mova      m0, [r0+%%x]
 798     punpckhwd m1, m0, m5
 799     punpcklwd m0, m5
 800     pmaddwd   m0, m2
 801     pmaddwd   m1, m2
 802     psrad     m0, xm3
 803     psrad     m1, xm3
 804     packssdw  m0, m1
 805     mova      [r0+%%x], m0
 806 %assign %%x %%x+mmsize
 807 %endrep
 808 %endif ; !HIGH_BIT_DEPTH
 809     RET
 810 %endmacro
 811
 812 %if HIGH_BIT_DEPTH
 813 INIT_XMM sse2
 814 DEQUANT_DC d, pmaddwd
 815 INIT_XMM xop
 816 DEQUANT_DC d, pmaddwd
 817 INIT_YMM avx2
 818 DEQUANT_DC d, pmaddwd
 819 %else
 820 %if ARCH_X86_64 == 0
 821 INIT_MMX mmx2
 822 DEQUANT_DC w, pmullw
 823 %endif
 824 INIT_XMM sse2
 825 DEQUANT_DC w, pmullw
 826 INIT_XMM avx
 827 DEQUANT_DC w, pmullw
 828 INIT_YMM avx2
 829 DEQUANT_DC w, pmullw
 830 %endif
 831
 832 ; t4 is eax for return value.
 833 %if ARCH_X86_64
 834     DECLARE_REG_TMP 0,1,2,3,6,4  ; Identical for both Windows and *NIX
 835 %else
 836     DECLARE_REG_TMP 4,1,2,3,0,5
 837 %endif
 838
 839 ;-----------------------------------------------------------------------------
 840 ; x264_optimize_chroma_2x2_dc( dctcoef dct[4], int dequant_mf )
 841 ;-----------------------------------------------------------------------------
 842
 843 %macro OPTIMIZE_CHROMA_2x2_DC 0
 844 cglobal optimize_chroma_2x2_dc, 0,6-cpuflag(sse4),7
 845     movifnidn t0, r0mp
 846     movd      m2, r1m
 847     movq      m1, [t0]
 848 %if cpuflag(sse4)
 849     pcmpeqb   m4, m4
 850     pslld     m4, 11
 851 %else
 852     pxor      m4, m4
 853 %endif
 854 %if cpuflag(ssse3)
 855     mova      m3, [chroma_dc_dct_mask]
 856     mova      m5, [chroma_dc_dmf_mask]
 857 %else
 858     mova      m3, [chroma_dc_dct_mask_mmx]
 859     mova      m5, [chroma_dc_dmf_mask_mmx]
 860 %endif
 861     pshuflw   m2, m2, 0
 862     pshufd    m0, m1, q0101      ;  1  0  3  2  1  0  3  2
 863     punpcklqdq m2, m2
 864     punpcklqdq m1, m1            ;  3  2  1  0  3  2  1  0
 865     mova      m6, [pd_1024]      ; 32<<5, elements are shifted 5 bits to the left
 866     PSIGNW    m0, m3             ; -1 -0  3  2 -1 -0  3  2
 867     PSIGNW    m2, m5             ;  +  -  -  +  -  -  +  +
 868     paddw     m0, m1             ; -1+3 -0+2  1+3  0+2 -1+3 -0+2  1+3  0+2
 869     pmaddwd   m0, m2             ;  0-1-2+3  0-1+2-3  0+1-2-3  0+1+2+3  * dmf
 870     punpcklwd m1, m1
 871     psrad     m2, 16             ;  +  -  -  +
 872     mov      t1d, 3
 873     paddd     m0, m6
 874     xor      t4d, t4d
 875 %if notcpuflag(ssse3)
 876     psrad     m1, 31             ; has to be 0 or -1 in order for PSIGND_MMX to work correctly
 877 %endif
 878 %if cpuflag(sse4)
 879     ptest     m0, m4
 880 %else
 881     mova      m6, m0
 882     SWAP       0, 6
 883     psrad     m6, 11
 884     pcmpeqd   m6, m4
 885     pmovmskb t5d, m6
 886     cmp      t5d, 0xffff
 887 %endif
 888     jz .ret                      ; if the DC coefficients already round to zero, terminate early
 889     mova      m3, m0
 890 .outer_loop:
 891     movsx    t3d, word [t0+2*t1] ; dct[coeff]
 892     pshufd    m6, m1, q3333
 893     pshufd    m1, m1, q2100      ; move the next element to high dword
 894     PSIGND    m5, m2, m6
 895     test     t3d, t3d
 896     jz .loop_end
 897 .outer_loop_0:
 898     mov      t2d, t3d
 899     sar      t3d, 31
 900     or       t3d, 1
 901 .inner_loop:
 902     psubd     m3, m5             ; coeff -= sign
 903     pxor      m6, m0, m3
 904 %if cpuflag(sse4)
 905     ptest     m6, m4
 906 %else
 907     psrad     m6, 11
 908     pcmpeqd   m6, m4
 909     pmovmskb t5d, m6
 910     cmp      t5d, 0xffff
 911 %endif
 912     jz .round_coeff
 913     paddd     m3, m5             ; coeff += sign
 914     mov      t4d, 1
 915 .loop_end:
 916     dec      t1d
 917     jz .last_coeff
 918     pshufd    m2, m2, q1320      ;  -  +  -  +  /  -  -  +  +
 919     jg .outer_loop
 920 .ret:
 921     REP_RET
 922 .round_coeff:
 923     sub      t2d, t3d
 924     mov [t0+2*t1], t2w
 925     jnz .inner_loop
 926     jmp .loop_end
 927 .last_coeff:
 928     movsx    t3d, word [t0]
 929     punpcklqdq m2, m2            ;  +  +  +  +
 930     PSIGND    m5, m2, m1
 931     test     t3d, t3d
 932     jnz .outer_loop_0
 933     RET
 934 %endmacro
 935
 936 %if HIGH_BIT_DEPTH == 0
 937 INIT_XMM sse2
 938 OPTIMIZE_CHROMA_2x2_DC
 939 INIT_XMM ssse3
 940 OPTIMIZE_CHROMA_2x2_DC
 941 INIT_XMM sse4
 942 OPTIMIZE_CHROMA_2x2_DC
 943 INIT_XMM avx
 944 OPTIMIZE_CHROMA_2x2_DC
 945 %endif ; !HIGH_BIT_DEPTH
 946
 947 %if HIGH_BIT_DEPTH
 948 ;-----------------------------------------------------------------------------
 949 ; void denoise_dct( int32_t *dct, uint32_t *sum, uint32_t *offset, int size )
 950 ;-----------------------------------------------------------------------------
 951 %macro DENOISE_DCT 0
 952 cglobal denoise_dct, 4,4,6
 953     pxor      m5, m5
 954     movsxdifnidn r3, r3d
 955 .loop:
 956     mova      m2, [r0+r3*4-2*mmsize]
 957     mova      m3, [r0+r3*4-1*mmsize]
 958     ABSD      m0, m2
 959     ABSD      m1, m3
 960     paddd     m4, m0, [r1+r3*4-2*mmsize]
 961     psubd     m0, [r2+r3*4-2*mmsize]
 962     mova      [r1+r3*4-2*mmsize], m4
 963     paddd     m4, m1, [r1+r3*4-1*mmsize]
 964     psubd     m1, [r2+r3*4-1*mmsize]
 965     mova      [r1+r3*4-1*mmsize], m4
 966     pcmpgtd   m4, m0, m5
 967     pand      m0, m4
 968     pcmpgtd   m4, m1, m5
 969     pand      m1, m4
 970     PSIGND    m0, m2
 971     PSIGND    m1, m3
 972     mova      [r0+r3*4-2*mmsize], m0
 973     mova      [r0+r3*4-1*mmsize], m1
 974     sub      r3d, mmsize/2
 975     jg .loop
 976     RET
 977 %endmacro
 978
 979 %if ARCH_X86_64 == 0
 980 INIT_MMX mmx
 981 DENOISE_DCT
 982 %endif
 983 INIT_XMM sse2
 984 DENOISE_DCT
 985 INIT_XMM ssse3
 986 DENOISE_DCT
 987 INIT_XMM avx
 988 DENOISE_DCT
 989 INIT_YMM avx2
 990 DENOISE_DCT
 991
 992 %else ; !HIGH_BIT_DEPTH
 993
 994 ;-----------------------------------------------------------------------------
 995 ; void denoise_dct( int16_t *dct, uint32_t *sum, uint16_t *offset, int size )
 996 ;-----------------------------------------------------------------------------
 997 %macro DENOISE_DCT 0
 998 cglobal denoise_dct, 4,4,7
 999     pxor      m6, m6
1000     movsxdifnidn r3, r3d
1001 .loop:
1002     mova      m2, [r0+r3*2-2*mmsize]
1003     mova      m3, [r0+r3*2-1*mmsize]
1004     ABSW      m0, m2, sign
1005     ABSW      m1, m3, sign
1006     psubusw   m4, m0, [r2+r3*2-2*mmsize]
1007     psubusw   m5, m1, [r2+r3*2-1*mmsize]
1008     PSIGNW    m4, m2
1009     PSIGNW    m5, m3
1010     mova      [r0+r3*2-2*mmsize], m4
1011     mova      [r0+r3*2-1*mmsize], m5
1012     punpcklwd m2, m0, m6
1013     punpcklwd m3, m1, m6
1014     punpckhwd m0, m6
1015     punpckhwd m1, m6
1016     paddd     m2, [r1+r3*4-4*mmsize]
1017     paddd     m0, [r1+r3*4-3*mmsize]
1018     paddd     m3, [r1+r3*4-2*mmsize]
1019     paddd     m1, [r1+r3*4-1*mmsize]
1020     mova      [r1+r3*4-4*mmsize], m2
1021     mova      [r1+r3*4-3*mmsize], m0
1022     mova      [r1+r3*4-2*mmsize], m3
1023     mova      [r1+r3*4-1*mmsize], m1
1024     sub       r3, mmsize
1025     jg .loop
1026     RET
1027 %endmacro
1028
1029 %if ARCH_X86_64 == 0
1030 INIT_MMX mmx
1031 DENOISE_DCT
1032 %endif
1033 INIT_XMM sse2
1034 DENOISE_DCT
1035 INIT_XMM ssse3
1036 DENOISE_DCT
1037 INIT_XMM avx
1038 DENOISE_DCT
1039
1040 INIT_YMM avx2
1041 cglobal denoise_dct, 4,4,4
1042     pxor      m3, m3
1043     movsxdifnidn r3, r3d
1044 .loop:
1045     mova      m1, [r0+r3*2-mmsize]
1046     pabsw     m0, m1
1047     psubusw   m2, m0, [r2+r3*2-mmsize]
1048     vpermq    m0, m0, q3120
1049     psignw    m2, m1
1050     mova [r0+r3*2-mmsize], m2
1051     punpcklwd m1, m0, m3
1052     punpckhwd m0, m3
1053     paddd     m1, [r1+r3*4-2*mmsize]
1054     paddd     m0, [r1+r3*4-1*mmsize]
1055     mova      [r1+r3*4-2*mmsize], m1
1056     mova      [r1+r3*4-1*mmsize], m0
1057     sub       r3, mmsize/2
1058     jg .loop
1059     RET
1060
1061 %endif ; !HIGH_BIT_DEPTH
1062
1063 ;-----------------------------------------------------------------------------
1064 ; int decimate_score( dctcoef *dct )
1065 ;-----------------------------------------------------------------------------
1066
1067 %macro DECIMATE_MASK 5
1068 %if mmsize==16
1069 %if HIGH_BIT_DEPTH
1070     movdqa    m0, [%3+ 0]
1071     movdqa    m1, [%3+32]
1072     packssdw  m0, [%3+16]
1073     packssdw  m1, [%3+48]
1074     ABSW2     m0, m1, m0, m1, m3, m4
1075 %else
1076     ABSW      m0, [%3+ 0], m3
1077     ABSW      m1, [%3+16], m4
1078 %endif
1079     packsswb  m0, m1
1080     pxor      m2, m2
1081     pcmpeqb   m2, m0
1082     pcmpgtb   m0, %4
1083     pmovmskb  %1, m2
1084     pmovmskb  %2, m0
1085 %else ; mmsize==8
1086 %if HIGH_BIT_DEPTH
1087     movq      m0, [%3+ 0]
1088     movq      m1, [%3+16]
1089     movq      m2, [%3+32]
1090     movq      m3, [%3+48]
1091     packssdw  m0, [%3+ 8]
1092     packssdw  m1, [%3+24]
1093     packssdw  m2, [%3+40]
1094     packssdw  m3, [%3+56]
1095 %else
1096     movq      m0, [%3+ 0]
1097     movq      m1, [%3+ 8]
1098     movq      m2, [%3+16]
1099     movq      m3, [%3+24]
1100 %endif
1101     ABSW2     m0, m1, m0, m1, m6, m7
1102     ABSW2     m2, m3, m2, m3, m6, m7
1103     packsswb  m0, m1
1104     packsswb  m2, m3
1105     pxor      m4, m4
1106     pxor      m6, m6
1107     pcmpeqb   m4, m0
1108     pcmpeqb   m6, m2
1109     pcmpgtb   m0, %4
1110     pcmpgtb   m2, %4
1111     pmovmskb  %5, m4
1112     pmovmskb  %1, m6
1113     shl       %1, 8
1114     or        %1, %5
1115     pmovmskb  %5, m0
1116     pmovmskb  %2, m2
1117     shl       %2, 8
1118     or        %2, %5
1119 %endif
1120 %endmacro
1121
1122 cextern decimate_table4
1123 cextern decimate_table8
1124
1125 %macro DECIMATE4x4 1
1126
1127 cglobal decimate_score%1, 1,3
1128 %ifdef PIC
1129     lea r4, [decimate_table4]
1130     lea r5, [decimate_mask_table4]
1131     %define table r4
1132     %define mask_table r5
1133 %else
1134     %define table decimate_table4
1135     %define mask_table decimate_mask_table4
1136 %endif
1137     DECIMATE_MASK edx, eax, r0, [pb_1], ecx
1138     xor   edx, 0xffff
1139     je   .ret
1140     test  eax, eax
1141     jne  .ret9
1142 %if %1==15
1143     shr   edx, 1
1144 %endif
1145     movzx ecx, dl
1146     movzx eax, byte [mask_table + rcx]
1147     cmp   edx, ecx
1148     je   .ret
1149     bsr   ecx, ecx
1150     shr   edx, 1
1151     shr   edx, cl
1152     tzcnt ecx, edx
1153     shr   edx, 1
1154     shr   edx, cl
1155     add    al, byte [table + rcx]
1156     add    al, byte [mask_table + rdx]
1157 .ret:
1158     REP_RET
1159 .ret9:
1160     mov   eax, 9
1161     RET
1162
1163 %endmacro
1164
1165 %if ARCH_X86_64 == 0
1166 INIT_MMX mmx2
1167 DECIMATE4x4 15
1168 DECIMATE4x4 16
1169 %endif
1170 INIT_XMM sse2
1171 DECIMATE4x4 15
1172 DECIMATE4x4 16
1173 INIT_XMM ssse3
1174 DECIMATE4x4 15
1175 DECIMATE4x4 16
1176
1177 ; 2x gt1 output, 2x nz output, 1x mask
1178 %macro DECIMATE_MASK64_AVX2 5
1179     pabsw     m0, [r0+ 0]
1180     pabsw     m2, [r0+32]
1181     pabsw     m1, [r0+64]
1182     pabsw     m3, [r0+96]
1183     packsswb  m0, m2
1184     packsswb  m1, m3
1185     pcmpgtb   m2, m0, %5    ; the > 1 checks don't care about order, so
1186     pcmpgtb   m3, m1, %5    ; we can save latency by doing them here
1187     pmovmskb  %1, m2
1188     pmovmskb  %2, m3
1189     or        %1, %2
1190     jne .ret9
1191     vpermq    m0, m0, q3120
1192     vpermq    m1, m1, q3120
1193     pxor      m4, m4
1194     pcmpeqb   m0, m4
1195     pcmpeqb   m1, m4
1196     pmovmskb  %3, m0
1197     pmovmskb  %4, m1
1198 %endmacro
1199
1200 %macro DECIMATE8x8 0
1201
1202 %if ARCH_X86_64
1203 cglobal decimate_score64, 1,5
1204 %ifdef PIC
1205     lea r4, [decimate_table8]
1206     %define table r4
1207 %else
1208     %define table decimate_table8
1209 %endif
1210     mova  m5, [pb_1]
1211 %if mmsize==32
1212     DECIMATE_MASK64_AVX2 eax, r2d, r1d, r3d, m5
1213     shl   r3, 32
1214     or    r1, r3
1215     xor   r1, -1
1216     je  .ret
1217 %else
1218     DECIMATE_MASK r1d, eax, r0+SIZEOF_DCTCOEF* 0, m5, null
1219     test eax, eax
1220     jne  .ret9
1221     DECIMATE_MASK r2d, eax, r0+SIZEOF_DCTCOEF*16, m5, null
1222     shl  r2d, 16
1223     or   r1d, r2d
1224     DECIMATE_MASK r2d, r3d, r0+SIZEOF_DCTCOEF*32, m5, null
1225     shl   r2, 32
1226     or   eax, r3d
1227     or    r1, r2
1228     DECIMATE_MASK r2d, r3d, r0+SIZEOF_DCTCOEF*48, m5, null
1229     shl   r2, 48
1230     or    r1, r2
1231     xor   r1, -1
1232     je   .ret
1233     add  eax, r3d
1234     jne  .ret9
1235 %endif
1236     mov   al, -6
1237 .loop:
1238     tzcnt rcx, r1
1239     shr   r1, cl
1240     add   al, byte [table + rcx]
1241     jge  .ret9
1242     shr   r1, 1
1243     jne  .loop
1244     add   al, 6
1245 .ret:
1246     REP_RET
1247 .ret9:
1248     mov  eax, 9
1249     RET
1250
1251 %else ; ARCH
1252 %if mmsize == 8
1253 cglobal decimate_score64, 1,6
1254 %else
1255 cglobal decimate_score64, 1,5
1256 %endif
1257     mova  m5, [pb_1]
1258 %if mmsize==32
1259     DECIMATE_MASK64_AVX2 r0, r2, r3, r4, m5
1260     xor   r3, -1
1261     je .tryret
1262     xor   r4, -1
1263 .cont:
1264 %else
1265     DECIMATE_MASK r3, r2, r0+SIZEOF_DCTCOEF* 0, m5, r5
1266     test  r2, r2
1267     jne  .ret9
1268     DECIMATE_MASK r4, r2, r0+SIZEOF_DCTCOEF*16, m5, r5
1269     shl   r4, 16
1270     or    r3, r4
1271     DECIMATE_MASK r4, r1, r0+SIZEOF_DCTCOEF*32, m5, r5
1272     or    r2, r1
1273     DECIMATE_MASK r1, r0, r0+SIZEOF_DCTCOEF*48, m5, r5
1274     shl   r1, 16
1275     or    r4, r1
1276     xor   r3, -1
1277     je   .tryret
1278     xor   r4, -1
1279 .cont:
1280     add   r0, r2
1281     jne  .ret9
1282 %endif
1283     mov   al, -6
1284 .loop:
1285     tzcnt ecx, r3
1286     test  r3, r3
1287     je   .largerun
1288     shrd  r3, r4, cl
1289     shr   r4, cl
1290     add   al, byte [decimate_table8 + ecx]
1291     jge  .ret9
1292     shrd  r3, r4, 1
1293     shr   r4, 1
1294     test  r3, r3
1295     jne  .loop
1296     test  r4, r4
1297     jne  .loop
1298     add   al, 6
1299 .ret:
1300     REP_RET
1301 .tryret:
1302     xor   r4, -1
1303     jne  .cont
1304     RET
1305 .ret9:
1306     mov   eax, 9
1307     RET
1308 .largerun:
1309     mov   r3, r4
1310     xor   r4, r4
1311     tzcnt ecx, r3
1312     shr   r3, cl
1313     shr   r3, 1
1314     jne  .loop
1315     add   al, 6
1316     RET
1317 %endif ; ARCH
1318
1319 %endmacro
1320
1321 %if ARCH_X86_64 == 0
1322 INIT_MMX mmx2
1323 DECIMATE8x8
1324 %endif
1325 INIT_XMM sse2
1326 DECIMATE8x8
1327 INIT_XMM ssse3
1328 DECIMATE8x8
1329 INIT_YMM avx2
1330 DECIMATE8x8
1331
1332 ;-----------------------------------------------------------------------------
1333 ; int coeff_last( dctcoef *dct )
1334 ;-----------------------------------------------------------------------------
1335
1336 %macro BSR 3
1337 %if cpuflag(lzcnt)
1338     lzcnt %1, %2
1339     xor %1, %3
1340 %else
1341     bsr %1, %2
1342 %endif
1343 %endmacro
1344
1345 %macro LZCOUNT 3
1346 %if cpuflag(lzcnt)
1347     lzcnt %1, %2
1348 %else
1349     bsr %1, %2
1350     xor %1, %3
1351 %endif
1352 %endmacro
1353
1354 %if HIGH_BIT_DEPTH
1355 %macro LAST_MASK 3-4
1356 %if %1 == 4
1357     movq     mm0, [%3]
1358     packssdw mm0, [%3+8]
1359     packsswb mm0, mm0
1360     pcmpeqb  mm0, mm2
1361     pmovmskb  %2, mm0
1362 %elif mmsize == 16
1363     movdqa   xmm0, [%3+ 0]
1364 %if %1 == 8
1365     packssdw xmm0, [%3+16]
1366     packsswb xmm0, xmm0
1367 %else
1368     movdqa   xmm1, [%3+32]
1369     packssdw xmm0, [%3+16]
1370     packssdw xmm1, [%3+48]
1371     packsswb xmm0, xmm1
1372 %endif
1373     pcmpeqb  xmm0, xmm2
1374     pmovmskb   %2, xmm0
1375 %elif %1 == 8
1376     movq     mm0, [%3+ 0]
1377     movq     mm1, [%3+16]
1378     packssdw mm0, [%3+ 8]
1379     packssdw mm1, [%3+24]
1380     packsswb mm0, mm1
1381     pcmpeqb  mm0, mm2
1382     pmovmskb  %2, mm0
1383 %else
1384     movq     mm0, [%3+ 0]
1385     movq     mm1, [%3+16]
1386     packssdw mm0, [%3+ 8]
1387     packssdw mm1, [%3+24]
1388     movq     mm3, [%3+32]
1389     movq     mm4, [%3+48]
1390     packssdw mm3, [%3+40]
1391     packssdw mm4, [%3+56]
1392     packsswb mm0, mm1
1393     packsswb mm3, mm4
1394     pcmpeqb  mm0, mm2
1395     pcmpeqb  mm3, mm2
1396     pmovmskb  %2, mm0
1397     pmovmskb  %4, mm3
1398     shl       %4, 8
1399     or        %2, %4
1400 %endif
1401 %endmacro
1402
1403 %macro COEFF_LAST4 0
1404 cglobal coeff_last4, 1,3
1405     pxor mm2, mm2
1406     LAST_MASK 4, r1d, r0
1407     xor  r1d, 0xff
1408     shr  r1d, 4
1409     BSR  eax, r1d, 0x1f
1410     RET
1411 %endmacro
1412
1413 INIT_MMX mmx2
1414 COEFF_LAST4
1415 INIT_MMX mmx2, lzcnt
1416 COEFF_LAST4
1417
1418 %macro COEFF_LAST8 0
1419 cglobal coeff_last8, 1,3
1420     pxor m2, m2
1421     LAST_MASK 8, r1d, r0
1422 %if mmsize == 16
1423     xor r1d, 0xffff
1424     shr r1d, 8
1425 %else
1426     xor r1d, 0xff
1427 %endif
1428     BSR eax, r1d, 0x1f
1429     RET
1430 %endmacro
1431
1432 %if ARCH_X86_64 == 0
1433 INIT_MMX mmx2
1434 COEFF_LAST8
1435 %endif
1436 INIT_XMM sse2
1437 COEFF_LAST8
1438 INIT_XMM sse2, lzcnt
1439 COEFF_LAST8
1440
1441 %else ; !HIGH_BIT_DEPTH
1442 %macro LAST_MASK 3-4
1443 %if %1 <= 8
1444     movq     mm0, [%3+ 0]
1445 %if %1 == 4
1446     packsswb mm0, mm0
1447 %else
1448     packsswb mm0, [%3+ 8]
1449 %endif
1450     pcmpeqb  mm0, mm2
1451     pmovmskb  %2, mm0
1452 %elif mmsize == 16
1453     movdqa   xmm0, [%3+ 0]
1454     packsswb xmm0, [%3+16]
1455     pcmpeqb  xmm0, xmm2
1456     pmovmskb   %2, xmm0
1457 %else
1458     movq     mm0, [%3+ 0]
1459     movq     mm1, [%3+16]
1460     packsswb mm0, [%3+ 8]
1461     packsswb mm1, [%3+24]
1462     pcmpeqb  mm0, mm2
1463     pcmpeqb  mm1, mm2
1464     pmovmskb  %2, mm0
1465     pmovmskb  %4, mm1
1466     shl       %4, 8
1467     or        %2, %4
1468 %endif
1469 %endmacro
1470
1471 %macro COEFF_LAST48 0
1472 %if ARCH_X86_64
1473 cglobal coeff_last4, 1,1
1474     BSR  rax, [r0], 0x3f
1475     shr  eax, 4
1476     RET
1477 %else
1478 cglobal coeff_last4, 0,3
1479     mov   edx, r0mp
1480     mov   eax, [edx+4]
1481     xor   ecx, ecx
1482     test  eax, eax
1483     cmovz eax, [edx]
1484     setnz cl
1485     BSR   eax, eax, 0x1f
1486     shr   eax, 4
1487     lea   eax, [eax+ecx*2]
1488     RET
1489 %endif
1490
1491 cglobal coeff_last8, 1,3
1492     pxor m2, m2
1493     LAST_MASK 8, r1d, r0, r2d
1494     xor r1d, 0xff
1495     BSR eax, r1d, 0x1f
1496     RET
1497 %endmacro
1498
1499 INIT_MMX mmx2
1500 COEFF_LAST48
1501 INIT_MMX mmx2, lzcnt
1502 COEFF_LAST48
1503 %endif ; HIGH_BIT_DEPTH
1504
1505 %macro COEFF_LAST 0
1506 cglobal coeff_last15, 1,3
1507     pxor m2, m2
1508     LAST_MASK 15, r1d, r0-SIZEOF_DCTCOEF, r2d
1509     xor r1d, 0xffff
1510     BSR eax, r1d, 0x1f
1511     dec eax
1512     RET
1513
1514 cglobal coeff_last16, 1,3
1515     pxor m2, m2
1516     LAST_MASK 16, r1d, r0, r2d
1517     xor r1d, 0xffff
1518     BSR eax, r1d, 0x1f
1519     RET
1520
1521 %if ARCH_X86_64 == 0
1522 cglobal coeff_last64, 1, 4-mmsize/16
1523     pxor m2, m2
1524     LAST_MASK 16, r1d, r0+SIZEOF_DCTCOEF* 32, r3d
1525     LAST_MASK 16, r2d, r0+SIZEOF_DCTCOEF* 48, r3d
1526     shl r2d, 16
1527     or  r1d, r2d
1528     xor r1d, -1
1529     jne .secondhalf
1530     LAST_MASK 16, r1d, r0+SIZEOF_DCTCOEF* 0, r3d
1531     LAST_MASK 16, r2d, r0+SIZEOF_DCTCOEF*16, r3d
1532     shl r2d, 16
1533     or  r1d, r2d
1534     not r1d
1535     BSR eax, r1d, 0x1f
1536     RET
1537 .secondhalf:
1538     BSR eax, r1d, 0x1f
1539     add eax, 32
1540     RET
1541 %else
1542 cglobal coeff_last64, 1,3
1543     pxor m2, m2
1544     LAST_MASK 16, r1d, r0+SIZEOF_DCTCOEF* 0
1545     LAST_MASK 16, r2d, r0+SIZEOF_DCTCOEF*16
1546     shl r2d, 16
1547     or  r1d, r2d
1548     LAST_MASK 16, r2d, r0+SIZEOF_DCTCOEF*32
1549     LAST_MASK 16, r0d, r0+SIZEOF_DCTCOEF*48
1550     shl r0d, 16
1551     or  r2d, r0d
1552     shl  r2, 32
1553     or   r1, r2
1554     not  r1
1555     BSR rax, r1, 0x3f
1556     RET
1557 %endif
1558 %endmacro
1559
1560 %if ARCH_X86_64 == 0
1561 INIT_MMX mmx2
1562 COEFF_LAST
1563 %endif
1564 INIT_XMM sse2
1565 COEFF_LAST
1566 INIT_XMM sse2, lzcnt
1567 COEFF_LAST
1568
1569 %macro LAST_MASK_AVX2 2
1570 %if HIGH_BIT_DEPTH
1571     mova     m0, [%2+ 0]
1572     packssdw m0, [%2+32]
1573     mova     m1, [%2+64]
1574     packssdw m1, [%2+96]
1575     packsswb m0, m1
1576     mova     m1, [deinterleave_shufd]
1577     vpermd   m0, m1, m0
1578 %else
1579     mova     m0, [%2+ 0]
1580     packsswb m0, [%2+32]
1581     vpermq   m0, m0, q3120
1582 %endif
1583     pcmpeqb  m0, m2
1584     pmovmskb %1, m0
1585 %endmacro
1586
1587 %if ARCH_X86_64 == 0
1588 INIT_YMM avx2,lzcnt
1589 cglobal coeff_last64, 1,2
1590     pxor m2, m2
1591     LAST_MASK_AVX2 r1d, r0+SIZEOF_DCTCOEF*32
1592     xor r1d, -1
1593     jne .secondhalf
1594     LAST_MASK_AVX2 r1d, r0+SIZEOF_DCTCOEF* 0
1595     not r1d
1596     BSR eax, r1d, 0x1f
1597     RET
1598 .secondhalf:
1599     BSR eax, r1d, 0x1f
1600     add eax, 32
1601     RET
1602 %else
1603 INIT_YMM avx2,lzcnt
1604 cglobal coeff_last64, 1,3
1605     pxor m2, m2
1606     LAST_MASK_AVX2 r1d, r0+SIZEOF_DCTCOEF* 0
1607     LAST_MASK_AVX2 r2d, r0+SIZEOF_DCTCOEF*32
1608     shl  r2, 32
1609     or   r1, r2
1610     not  r1
1611     BSR rax, r1, 0x3f
1612     RET
1613 %endif
1614
1615 ;-----------------------------------------------------------------------------
1616 ; int coeff_level_run( dctcoef *dct, run_level_t *runlevel )
1617 ;-----------------------------------------------------------------------------
1618
1619 struc levelrun
1620     .last: resd 1
1621     .mask: resd 1
1622     align 16, resb 1
1623     .level: resw 16
1624 endstruc
1625
1626 ; t6 = eax for return, t3 = ecx for shift, t[01] = r[01] for x86_64 args
1627 %if WIN64
1628     DECLARE_REG_TMP 3,1,2,0,4,5,6
1629 %elif ARCH_X86_64
1630     DECLARE_REG_TMP 0,1,2,3,4,5,6
1631 %else
1632     DECLARE_REG_TMP 6,3,2,1,4,5,0
1633 %endif
1634
1635 %macro COEFF_LEVELRUN 1
1636 cglobal coeff_level_run%1,0,7
1637     movifnidn t0, r0mp
1638     movifnidn t1, r1mp
1639     pxor    m2, m2
1640     xor    t3d, t3d
1641     LAST_MASK %1, t5d, t0-(%1&1)*SIZEOF_DCTCOEF, t4d
1642 %if %1==15
1643     shr    t5d, 1
1644 %elif %1==8
1645     and    t5d, 0xff
1646 %elif %1==4
1647     and    t5d, 0xf
1648 %endif
1649     xor    t5d, (1<<%1)-1
1650     mov [t1+levelrun.mask], t5d
1651     shl    t5d, 32-%1
1652     mov    t4d, %1-1
1653     LZCOUNT t3d, t5d, 0x1f
1654     xor    t6d, t6d
1655     add    t5d, t5d
1656     sub    t4d, t3d
1657     shl    t5d, t3b
1658     mov [t1+levelrun.last], t4d
1659 .loop:
1660     LZCOUNT t3d, t5d, 0x1f
1661 %if HIGH_BIT_DEPTH
1662     mov    t2d, [t0+t4*4]
1663 %else
1664     mov    t2w, [t0+t4*2]
1665 %endif
1666     inc    t3d
1667     shl    t5d, t3b
1668 %if HIGH_BIT_DEPTH
1669     mov   [t1+t6*4+levelrun.level], t2d
1670 %else
1671     mov   [t1+t6*2+levelrun.level], t2w
1672 %endif
1673     inc    t6d
1674     sub    t4d, t3d
1675     jge .loop
1676     RET
1677 %endmacro
1678
1679 INIT_MMX mmx2
1680 %if ARCH_X86_64 == 0
1681 COEFF_LEVELRUN 15
1682 COEFF_LEVELRUN 16
1683 %endif
1684 COEFF_LEVELRUN 4
1685 COEFF_LEVELRUN 8
1686 INIT_XMM sse2
1687 %if HIGH_BIT_DEPTH
1688 COEFF_LEVELRUN 8
1689 %endif
1690 COEFF_LEVELRUN 15
1691 COEFF_LEVELRUN 16
1692 INIT_XMM sse2, lzcnt
1693 %if HIGH_BIT_DEPTH
1694 COEFF_LEVELRUN 8
1695 %endif
1696 COEFF_LEVELRUN 15
1697 COEFF_LEVELRUN 16
1698 INIT_MMX mmx2, lzcnt
1699 COEFF_LEVELRUN 4
1700 COEFF_LEVELRUN 8
1701
1702 ; Similar to the one above, but saves the DCT
1703 ; coefficients in m0/m1 so we don't have to load
1704 ; them later.
1705 %macro LAST_MASK_LUT 3
1706     pxor     xm5, xm5
1707 %if %1 <= 8
1708     mova      m0, [%3]
1709     packsswb  m2, m0, m0
1710 %else
1711     mova     xm0, [%3+ 0]
1712     mova     xm1, [%3+16]
1713     packsswb xm2, xm0, xm1
1714 %if mmsize==32
1715     vinserti128 m0, m0, xm1, 1
1716 %endif
1717 %endif
1718     pcmpeqb  xm2, xm5
1719     pmovmskb  %2, xm2
1720 %endmacro
1721
1722 %macro COEFF_LEVELRUN_LUT 1
1723 cglobal coeff_level_run%1,2,4+(%1/9)
1724 %ifdef PIC
1725     lea       r5, [$$]
1726     %define GLOBAL +r5-$$
1727 %else
1728     %define GLOBAL
1729 %endif
1730     LAST_MASK_LUT %1, eax, r0-(%1&1)*SIZEOF_DCTCOEF
1731 %if %1==15
1732     shr     eax, 1
1733 %elif %1==8
1734     and     eax, 0xff
1735 %elif %1==4
1736     and     eax, 0xf
1737 %endif
1738     xor     eax, (1<<%1)-1
1739     mov [r1+levelrun.mask], eax
1740 %if %1==15
1741     add     eax, eax
1742 %endif
1743 %if %1 > 8
1744 %if ARCH_X86_64
1745     mov     r4d, eax
1746     shr     r4d, 8
1747 %else
1748     movzx   r4d, ah ; first 8 bits
1749 %endif
1750 %endif
1751     movzx   r2d, al ; second 8 bits
1752     shl     eax, 32-%1-(%1&1)
1753     LZCOUNT eax, eax, 0x1f
1754     mov     r3d, %1-1
1755     sub     r3d, eax
1756     mov [r1+levelrun.last], r3d
1757 ; Here we abuse pshufb, combined with a lookup table, to do a gather
1758 ; operation based on a bitmask. For example:
1759 ;
1760 ; dct 15-8 (input): 0  0  4  0  0 -2  1  0
1761 ; dct  7-0 (input): 0  0 -1  0  0  0  0 15
1762 ; bitmask 1:        0  0  1  0  0  1  1  0
1763 ; bitmask 2:        0  0  1  0  0  0  0  1
1764 ; gather 15-8:      4 -2  1 __ __ __ __ __
1765 ; gather  7-0:     -1 15 __ __ __ __ __ __
1766 ; levels (output):  4 -2  1 -1 15 __ __ __ __ __ __ __ __ __ __ __
1767 ;
1768 ; The overlapping, dependent stores almost surely cause a mess of
1769 ; forwarding issues, but it's still enormously faster.
1770 %if %1 > 8
1771     movzx   eax, byte [popcnt_table+r4 GLOBAL]
1772     movzx   r3d, byte [popcnt_table+r2 GLOBAL]
1773 %if mmsize==16
1774     movh      m3, [dct_coef_shuffle+r4*8 GLOBAL]
1775     movh      m2, [dct_coef_shuffle+r2*8 GLOBAL]
1776     mova      m4, [pw_256]
1777 ; Storing 8 bytes of shuffle constant and converting it (unpack + or)
1778 ; is neutral to slightly faster in local speed measurements, but it
1779 ; cuts the table size in half, which is surely a big cache win.
1780     punpcklbw m3, m3
1781     punpcklbw m2, m2
1782     por       m3, m4
1783     por       m2, m4
1784     pshufb    m1, m3
1785     pshufb    m0, m2
1786     mova [r1+levelrun.level], m1
1787 ; This obnoxious unaligned store messes with store forwarding and
1788 ; stalls the CPU to no end, but merging the two registers before
1789 ; storing requires a variable 128-bit shift. Emulating this does
1790 ; work, but requires a lot of ops and the gain is tiny and
1791 ; inconsistent, so we'll err on the side of fewer instructions.
1792     movu [r1+rax*2+levelrun.level], m0
1793 %else ; mmsize==32
1794     movq     xm2, [dct_coef_shuffle+r4*8 GLOBAL]
1795     vinserti128 m2, m2, [dct_coef_shuffle+r2*8 GLOBAL], 1
1796     punpcklbw m2, m2
1797     por       m2, [pw_256]
1798     pshufb    m0, m2
1799     vextracti128 [r1+levelrun.level], m0, 1
1800     movu [r1+rax*2+levelrun.level], xm0
1801 %endif
1802     add     eax, r3d
1803 %else
1804     movzx   eax, byte [popcnt_table+r2 GLOBAL]
1805     movh m1, [dct_coef_shuffle+r2*8 GLOBAL]
1806     punpcklbw m1, m1
1807     por       m1, [pw_256]
1808     pshufb    m0, m1
1809     mova [r1+levelrun.level], m0
1810 %endif
1811     RET
1812 %endmacro
1813
1814 %if HIGH_BIT_DEPTH==0
1815 INIT_MMX ssse3
1816 COEFF_LEVELRUN_LUT 4
1817 INIT_XMM ssse3
1818 COEFF_LEVELRUN_LUT 8
1819 COEFF_LEVELRUN_LUT 15
1820 COEFF_LEVELRUN_LUT 16
1821 INIT_MMX ssse3, lzcnt
1822 COEFF_LEVELRUN_LUT 4
1823 INIT_XMM ssse3, lzcnt
1824 COEFF_LEVELRUN_LUT 8
1825 COEFF_LEVELRUN_LUT 15
1826 COEFF_LEVELRUN_LUT 16
1827 INIT_XMM avx2, lzcnt
1828 COEFF_LEVELRUN_LUT 15
1829 COEFF_LEVELRUN_LUT 16
1830 %endif