git.sesse.net Git - x264/blob - common/x86/dct-a.asm

   1 ;*****************************************************************************
   2 ;* dct-a.asm: x86 transform and zigzag
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2003-2016 x264 project
   5 ;*
   6 ;* Authors: Holger Lubitz <holger@lubitz.org>
   7 ;*          Loren Merritt <lorenm@u.washington.edu>
   8 ;*          Laurent Aimar <fenrir@via.ecp.fr>
   9 ;*          Min Chen <chenm001.163.com>
  10 ;*          Fiona Glaser <fiona@x264.com>
  11 ;*
  12 ;* This program is free software; you can redistribute it and/or modify
  13 ;* it under the terms of the GNU General Public License as published by
  14 ;* the Free Software Foundation; either version 2 of the License, or
  15 ;* (at your option) any later version.
  16 ;*
  17 ;* This program is distributed in the hope that it will be useful,
  18 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  19 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  20 ;* GNU General Public License for more details.
  21 ;*
  22 ;* You should have received a copy of the GNU General Public License
  23 ;* along with this program; if not, write to the Free Software
  24 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  25 ;*
  26 ;* This program is also available under a commercial proprietary license.
  27 ;* For more information, contact us at licensing@x264.com.
  28 ;*****************************************************************************
  29
  30 %include "x86inc.asm"
  31 %include "x86util.asm"
  32
  33 SECTION_RODATA 32
  34 pw_ppmmmmpp:    dw 1,1,-1,-1,-1,-1,1,1
  35 pb_sub4frame:   db 0,1,4,8,5,2,3,6,9,12,13,10,7,11,14,15
  36 pb_sub4field:   db 0,4,1,8,12,5,9,13,2,6,10,14,3,7,11,15
  37 pb_subacmask:   dw 0,-1,-1,-1,-1,-1,-1,-1
  38 pb_scan4framea: SHUFFLE_MASK_W 6,3,7,0,4,1,2,5
  39 pb_scan4frameb: SHUFFLE_MASK_W 0,4,1,2,5,6,3,7
  40 pb_scan4frame2a: SHUFFLE_MASK_W 0,4,1,2,5,8,12,9
  41 pb_scan4frame2b: SHUFFLE_MASK_W 6,3,7,10,13,14,11,15
  42
  43 pb_scan8framet1: SHUFFLE_MASK_W 0,  1,  6,  7,  8,  9, 13, 14
  44 pb_scan8framet2: SHUFFLE_MASK_W 2 , 3,  4,  7,  9, 15, 10, 14
  45 pb_scan8framet3: SHUFFLE_MASK_W 0,  1,  5,  6,  8, 11, 12, 13
  46 pb_scan8framet4: SHUFFLE_MASK_W 0,  3,  4,  5,  8, 11, 12, 15
  47 pb_scan8framet5: SHUFFLE_MASK_W 1,  2,  6,  7,  9, 10, 13, 14
  48 pb_scan8framet6: SHUFFLE_MASK_W 0,  3,  4,  5, 10, 11, 12, 15
  49 pb_scan8framet7: SHUFFLE_MASK_W 1,  2,  6,  7,  8,  9, 14, 15
  50 pb_scan8framet8: SHUFFLE_MASK_W 0,  1,  2,  7,  8, 10, 11, 14
  51 pb_scan8framet9: SHUFFLE_MASK_W 1,  4,  5,  7,  8, 13, 14, 15
  52
  53 pb_scan8frame1: SHUFFLE_MASK_W  0,  8,  1,  2,  9, 12,  4, 13
  54 pb_scan8frame2: SHUFFLE_MASK_W  4,  0,  1,  5,  8, 10, 12, 14
  55 pb_scan8frame3: SHUFFLE_MASK_W 12, 10,  8,  6,  2,  3,  7,  9
  56 pb_scan8frame4: SHUFFLE_MASK_W  0,  1,  8, 12,  4, 13,  9,  2
  57 pb_scan8frame5: SHUFFLE_MASK_W  5, 14, 10,  3, 11, 15,  6,  7
  58 pb_scan8frame6: SHUFFLE_MASK_W  6,  8, 12, 13,  9,  7,  5,  3
  59 pb_scan8frame7: SHUFFLE_MASK_W  1,  3,  5,  7, 10, 14, 15, 11
  60 pb_scan8frame8: SHUFFLE_MASK_W  10, 3, 11, 14,  5,  6, 15,  7
  61
  62 pb_scan8field1 : SHUFFLE_MASK_W    0,   1,   2,   8,   9,   3,   4,  10
  63 pb_scan8field2a: SHUFFLE_MASK_W 0x80,  11,   5,   6,   7,  12,0x80,0x80
  64 pb_scan8field2b: SHUFFLE_MASK_W    0,0x80,0x80,0x80,0x80,0x80,   1,   8
  65 pb_scan8field3a: SHUFFLE_MASK_W   10,   5,   6,   7,  11,0x80,0x80,0x80
  66 pb_scan8field3b: SHUFFLE_MASK_W 0x80,0x80,0x80,0x80,0x80,   1,   8,   2
  67 pb_scan8field4a: SHUFFLE_MASK_W    4,   5,   6,   7,  11,0x80,0x80,0x80
  68 pb_scan8field6 : SHUFFLE_MASK_W    4,   5,   6,   7,  11,0x80,0x80,  12
  69 pb_scan8field7 : SHUFFLE_MASK_W    5,   6,   7,  11,0x80,0x80,  12,  13
  70
  71 SECTION .text
  72
  73 cextern pw_32_0
  74 cextern pw_32
  75 cextern pw_512
  76 cextern pw_8000
  77 cextern pw_pixel_max
  78 cextern hsub_mul
  79 cextern pb_1
  80 cextern pw_1
  81 cextern pd_1
  82 cextern pd_32
  83 cextern pw_ppppmmmm
  84 cextern pw_pmpmpmpm
  85 cextern deinterleave_shufd
  86 cextern pb_unpackbd1
  87 cextern pb_unpackbd2
  88
  89 %macro WALSH4_1D 6
  90     SUMSUB_BADC %1, %5, %4, %3, %2, %6
  91     SUMSUB_BADC %1, %5, %3, %4, %2, %6
  92     SWAP %2, %5, %4
  93 %endmacro
  94
  95 %macro SUMSUB_17BIT 4 ; a, b, tmp, 0x8000
  96     movq  m%3, m%4
  97     pxor  m%1, m%4
  98     psubw m%3, m%2
  99     pxor  m%2, m%4
 100     pavgw m%3, m%1
 101     pavgw m%2, m%1
 102     pxor  m%3, m%4
 103     pxor  m%2, m%4
 104     SWAP %1, %2, %3
 105 %endmacro
 106
 107 %macro DCT_UNPACK 3
 108     punpcklwd %3, %1
 109     punpckhwd %2, %1
 110     psrad     %3, 16
 111     psrad     %2, 16
 112     SWAP      %1, %3
 113 %endmacro
 114
 115 %if HIGH_BIT_DEPTH
 116 ;-----------------------------------------------------------------------------
 117 ; void dct4x4dc( dctcoef d[4][4] )
 118 ;-----------------------------------------------------------------------------
 119 %macro DCT4x4_DC 0
 120 cglobal dct4x4dc, 1,1,5
 121     mova   m0, [r0+ 0]
 122     mova   m1, [r0+16]
 123     mova   m2, [r0+32]
 124     mova   m3, [r0+48]
 125     WALSH4_1D  d, 0,1,2,3,4
 126     TRANSPOSE4x4D 0,1,2,3,4
 127     paddd  m0, [pd_1]
 128     WALSH4_1D  d, 0,1,2,3,4
 129     psrad  m0, 1
 130     psrad  m1, 1
 131     psrad  m2, 1
 132     psrad  m3, 1
 133     mova [r0+ 0], m0
 134     mova [r0+16], m1
 135     mova [r0+32], m2
 136     mova [r0+48], m3
 137     RET
 138 %endmacro ; DCT4x4_DC
 139
 140 INIT_XMM sse2
 141 DCT4x4_DC
 142 INIT_XMM avx
 143 DCT4x4_DC
 144 %else
 145
 146 INIT_MMX mmx2
 147 cglobal dct4x4dc, 1,1
 148     movq   m3, [r0+24]
 149     movq   m2, [r0+16]
 150     movq   m1, [r0+ 8]
 151     movq   m0, [r0+ 0]
 152     movq   m7, [pw_8000] ; convert to unsigned and back, so that pavgw works
 153     WALSH4_1D  w, 0,1,2,3,4
 154     TRANSPOSE4x4W 0,1,2,3,4
 155     SUMSUB_BADC w, 1, 0, 3, 2, 4
 156     SWAP 0, 1
 157     SWAP 2, 3
 158     SUMSUB_17BIT 0,2,4,7
 159     SUMSUB_17BIT 1,3,5,7
 160     movq  [r0+0], m0
 161     movq  [r0+8], m2
 162     movq [r0+16], m3
 163     movq [r0+24], m1
 164     RET
 165 %endif ; HIGH_BIT_DEPTH
 166
 167 %if HIGH_BIT_DEPTH
 168 ;-----------------------------------------------------------------------------
 169 ; void idct4x4dc( int32_t d[4][4] )
 170 ;-----------------------------------------------------------------------------
 171 %macro IDCT4x4DC 0
 172 cglobal idct4x4dc, 1,1
 173     mova   m3, [r0+48]
 174     mova   m2, [r0+32]
 175     mova   m1, [r0+16]
 176     mova   m0, [r0+ 0]
 177     WALSH4_1D  d,0,1,2,3,4
 178     TRANSPOSE4x4D 0,1,2,3,4
 179     WALSH4_1D  d,0,1,2,3,4
 180     mova  [r0+ 0], m0
 181     mova  [r0+16], m1
 182     mova  [r0+32], m2
 183     mova  [r0+48], m3
 184     RET
 185 %endmacro ; IDCT4x4DC
 186
 187 INIT_XMM sse2
 188 IDCT4x4DC
 189 INIT_XMM avx
 190 IDCT4x4DC
 191 %else
 192
 193 ;-----------------------------------------------------------------------------
 194 ; void idct4x4dc( int16_t d[4][4] )
 195 ;-----------------------------------------------------------------------------
 196 INIT_MMX mmx
 197 cglobal idct4x4dc, 1,1
 198     movq   m3, [r0+24]
 199     movq   m2, [r0+16]
 200     movq   m1, [r0+ 8]
 201     movq   m0, [r0+ 0]
 202     WALSH4_1D  w,0,1,2,3,4
 203     TRANSPOSE4x4W 0,1,2,3,4
 204     WALSH4_1D  w,0,1,2,3,4
 205     movq  [r0+ 0], m0
 206     movq  [r0+ 8], m1
 207     movq  [r0+16], m2
 208     movq  [r0+24], m3
 209     RET
 210 %endif ; HIGH_BIT_DEPTH
 211
 212 %if HIGH_BIT_DEPTH
 213 ;-----------------------------------------------------------------------------
 214 ; void sub4x4_dct( dctcoef dct[4][4], pixel *pix1, pixel *pix2 )
 215 ;-----------------------------------------------------------------------------
 216 INIT_MMX mmx
 217 cglobal sub4x4_dct, 3,3
 218 .skip_prologue:
 219     LOAD_DIFF  m0, m4, none, [r1+0*FENC_STRIDE], [r2+0*FDEC_STRIDE]
 220     LOAD_DIFF  m3, m4, none, [r1+6*FENC_STRIDE], [r2+6*FDEC_STRIDE]
 221     LOAD_DIFF  m1, m4, none, [r1+2*FENC_STRIDE], [r2+2*FDEC_STRIDE]
 222     LOAD_DIFF  m2, m4, none, [r1+4*FENC_STRIDE], [r2+4*FDEC_STRIDE]
 223     DCT4_1D 0,1,2,3,4
 224     TRANSPOSE4x4W 0,1,2,3,4
 225
 226     SUMSUB_BADC w, 3, 0, 2, 1
 227     SUMSUB_BA   w, 2, 3, 4
 228     DCT_UNPACK m2, m4, m5
 229     DCT_UNPACK m3, m6, m7
 230     mova  [r0+ 0], m2 ; s03 + s12
 231     mova  [r0+ 8], m4
 232     mova  [r0+32], m3 ; s03 - s12
 233     mova  [r0+40], m6
 234
 235     DCT_UNPACK m0, m2, m4
 236     DCT_UNPACK m1, m3, m5
 237     SUMSUB2_AB  d, 0, 1, 4
 238     SUMSUB2_AB  d, 2, 3, 5
 239     mova  [r0+16], m0 ; d03*2 + d12
 240     mova  [r0+24], m2
 241     mova  [r0+48], m4 ; d03 - 2*d12
 242     mova  [r0+56], m5
 243     RET
 244 %else
 245
 246 %macro SUB_DCT4 0
 247 cglobal sub4x4_dct, 3,3
 248 .skip_prologue:
 249 %if cpuflag(ssse3)
 250     mova m5, [hsub_mul]
 251 %endif
 252     LOAD_DIFF8x4 0, 3, 1, 2, 4, 5, r1, r2
 253     DCT4_1D 0,1,2,3,4
 254     TRANSPOSE4x4W 0,1,2,3,4
 255     DCT4_1D 0,1,2,3,4
 256     movq  [r0+ 0], m0
 257     movq  [r0+ 8], m1
 258     movq  [r0+16], m2
 259     movq  [r0+24], m3
 260     RET
 261 %endmacro
 262
 263 INIT_MMX mmx
 264 SUB_DCT4
 265 INIT_MMX ssse3
 266 SUB_DCT4
 267 %endif ; HIGH_BIT_DEPTH
 268
 269 %if HIGH_BIT_DEPTH
 270 ;-----------------------------------------------------------------------------
 271 ; void add4x4_idct( pixel *p_dst, dctcoef dct[4][4] )
 272 ;-----------------------------------------------------------------------------
 273 %macro STORE_DIFFx2 6
 274     psrad     %1, 6
 275     psrad     %2, 6
 276     packssdw  %1, %2
 277     movq      %3, %5
 278     movhps    %3, %6
 279     paddsw    %1, %3
 280     CLIPW     %1, %4, [pw_pixel_max]
 281     movq      %5, %1
 282     movhps    %6, %1
 283 %endmacro
 284
 285 %macro ADD4x4_IDCT 0
 286 cglobal add4x4_idct, 2,2,6
 287     add   r0, 2*FDEC_STRIDEB
 288 .skip_prologue:
 289     mova  m1, [r1+16]
 290     mova  m3, [r1+48]
 291     mova  m2, [r1+32]
 292     mova  m0, [r1+ 0]
 293     IDCT4_1D d,0,1,2,3,4,5
 294     TRANSPOSE4x4D 0,1,2,3,4
 295     paddd m0, [pd_32]
 296     IDCT4_1D d,0,1,2,3,4,5
 297     pxor  m5, m5
 298     STORE_DIFFx2 m0, m1, m4, m5, [r0-2*FDEC_STRIDEB], [r0-1*FDEC_STRIDEB]
 299     STORE_DIFFx2 m2, m3, m4, m5, [r0+0*FDEC_STRIDEB], [r0+1*FDEC_STRIDEB]
 300     RET
 301 %endmacro
 302
 303 INIT_XMM sse2
 304 ADD4x4_IDCT
 305 INIT_XMM avx
 306 ADD4x4_IDCT
 307
 308 %else ; !HIGH_BIT_DEPTH
 309
 310 INIT_MMX mmx
 311 cglobal add4x4_idct, 2,2
 312     pxor m7, m7
 313 .skip_prologue:
 314     movq  m1, [r1+ 8]
 315     movq  m3, [r1+24]
 316     movq  m2, [r1+16]
 317     movq  m0, [r1+ 0]
 318     IDCT4_1D w,0,1,2,3,4,5
 319     TRANSPOSE4x4W 0,1,2,3,4
 320     paddw m0, [pw_32]
 321     IDCT4_1D w,0,1,2,3,4,5
 322     STORE_DIFF  m0, m4, m7, [r0+0*FDEC_STRIDE]
 323     STORE_DIFF  m1, m4, m7, [r0+1*FDEC_STRIDE]
 324     STORE_DIFF  m2, m4, m7, [r0+2*FDEC_STRIDE]
 325     STORE_DIFF  m3, m4, m7, [r0+3*FDEC_STRIDE]
 326     RET
 327
 328 %macro ADD4x4 0
 329 cglobal add4x4_idct, 2,2,6
 330     mova      m1, [r1+0x00]     ; row1/row0
 331     mova      m3, [r1+0x10]     ; row3/row2
 332     psraw     m0, m1, 1         ; row1>>1/...
 333     psraw     m2, m3, 1         ; row3>>1/...
 334     movsd     m0, m1            ; row1>>1/row0
 335     movsd     m2, m3            ; row3>>1/row2
 336     psubw     m0, m3            ; row1>>1-row3/row0-2
 337     paddw     m2, m1            ; row3>>1+row1/row0+2
 338     SBUTTERFLY2 wd, 0, 2, 1
 339     SUMSUB_BA w, 2, 0, 1
 340     pshuflw   m1, m2, q2301
 341     pshufhw   m2, m2, q2301
 342     punpckldq m1, m0
 343     punpckhdq m2, m0
 344     SWAP       0, 1
 345
 346     mova      m1, [pw_32_0]
 347     paddw     m1, m0            ; row1/row0 corrected
 348     psraw     m0, 1             ; row1>>1/...
 349     psraw     m3, m2, 1         ; row3>>1/...
 350     movsd     m0, m1            ; row1>>1/row0
 351     movsd     m3, m2            ; row3>>1/row2
 352     psubw     m0, m2            ; row1>>1-row3/row0-2
 353     paddw     m3, m1            ; row3>>1+row1/row0+2
 354     SBUTTERFLY2 qdq, 0, 3, 1
 355     SUMSUB_BA w, 3, 0, 1
 356
 357     movd      m4, [r0+FDEC_STRIDE*0]
 358     movd      m1, [r0+FDEC_STRIDE*1]
 359     movd      m2, [r0+FDEC_STRIDE*2]
 360     movd      m5, [r0+FDEC_STRIDE*3]
 361     punpckldq m1, m4            ; row0/row1
 362     pxor      m4, m4
 363     punpckldq m2, m5            ; row3/row2
 364     punpcklbw m1, m4
 365     psraw     m3, 6
 366     punpcklbw m2, m4
 367     psraw     m0, 6
 368     paddsw    m3, m1
 369     paddsw    m0, m2
 370     packuswb  m0, m3            ; row0/row1/row3/row2
 371     pextrd   [r0+FDEC_STRIDE*0], m0, 3
 372     pextrd   [r0+FDEC_STRIDE*1], m0, 2
 373     movd     [r0+FDEC_STRIDE*2], m0
 374     pextrd   [r0+FDEC_STRIDE*3], m0, 1
 375     RET
 376 %endmacro ; ADD4x4
 377
 378 INIT_XMM sse4
 379 ADD4x4
 380 INIT_XMM avx
 381 ADD4x4
 382
 383 %macro STOREx2_AVX2 9
 384     movq      xm%3, [r0+%5*FDEC_STRIDE]
 385     vinserti128 m%3, m%3, [r0+%6*FDEC_STRIDE], 1
 386     movq      xm%4, [r0+%7*FDEC_STRIDE]
 387     vinserti128 m%4, m%4, [r0+%8*FDEC_STRIDE], 1
 388     punpcklbw  m%3, m%9
 389     punpcklbw  m%4, m%9
 390     psraw      m%1, 6
 391     psraw      m%2, 6
 392     paddsw     m%1, m%3
 393     paddsw     m%2, m%4
 394     packuswb   m%1, m%2
 395     vextracti128 xm%2, m%1, 1
 396     movq   [r0+%5*FDEC_STRIDE], xm%1
 397     movq   [r0+%6*FDEC_STRIDE], xm%2
 398     movhps [r0+%7*FDEC_STRIDE], xm%1
 399     movhps [r0+%8*FDEC_STRIDE], xm%2
 400 %endmacro
 401
 402 INIT_YMM avx2
 403 cglobal add8x8_idct, 2,3,8
 404     add    r0, 4*FDEC_STRIDE
 405     pxor   m7, m7
 406     TAIL_CALL .skip_prologue, 0
 407 global current_function %+ .skip_prologue
 408 .skip_prologue:
 409     ; TRANSPOSE4x4Q
 410     mova       xm0, [r1+ 0]
 411     mova       xm1, [r1+32]
 412     mova       xm2, [r1+16]
 413     mova       xm3, [r1+48]
 414     vinserti128 m0, m0, [r1+ 64], 1
 415     vinserti128 m1, m1, [r1+ 96], 1
 416     vinserti128 m2, m2, [r1+ 80], 1
 417     vinserti128 m3, m3, [r1+112], 1
 418     SBUTTERFLY qdq, 0, 1, 4
 419     SBUTTERFLY qdq, 2, 3, 4
 420     IDCT4_1D w,0,1,2,3,4,5
 421     TRANSPOSE2x4x4W 0,1,2,3,4
 422     paddw m0, [pw_32]
 423     IDCT4_1D w,0,1,2,3,4,5
 424     STOREx2_AVX2 0, 1, 4, 5, -4, 0, -3, 1, 7
 425     STOREx2_AVX2 2, 3, 4, 5, -2, 2, -1, 3, 7
 426     ret
 427
 428 ; 2xdst, 2xtmp, 4xsrcrow, 1xzero
 429 %macro LOAD_DIFF8x2_AVX2 9
 430     movq    xm%1, [r1+%5*FENC_STRIDE]
 431     movq    xm%2, [r1+%6*FENC_STRIDE]
 432     vinserti128 m%1, m%1, [r1+%7*FENC_STRIDE], 1
 433     vinserti128 m%2, m%2, [r1+%8*FENC_STRIDE], 1
 434     punpcklbw m%1, m%9
 435     punpcklbw m%2, m%9
 436     movq    xm%3, [r2+(%5-4)*FDEC_STRIDE]
 437     movq    xm%4, [r2+(%6-4)*FDEC_STRIDE]
 438     vinserti128 m%3, m%3, [r2+(%7-4)*FDEC_STRIDE], 1
 439     vinserti128 m%4, m%4, [r2+(%8-4)*FDEC_STRIDE], 1
 440     punpcklbw m%3, m%9
 441     punpcklbw m%4, m%9
 442     psubw    m%1, m%3
 443     psubw    m%2, m%4
 444 %endmacro
 445
 446 ; 4x src, 1x tmp
 447 %macro STORE8_DCT_AVX2 5
 448     SBUTTERFLY qdq, %1, %2, %5
 449     SBUTTERFLY qdq, %3, %4, %5
 450     mova [r0+  0], xm%1
 451     mova [r0+ 16], xm%3
 452     mova [r0+ 32], xm%2
 453     mova [r0+ 48], xm%4
 454     vextracti128 [r0+ 64], m%1, 1
 455     vextracti128 [r0+ 80], m%3, 1
 456     vextracti128 [r0+ 96], m%2, 1
 457     vextracti128 [r0+112], m%4, 1
 458 %endmacro
 459
 460 %macro STORE16_DCT_AVX2 5
 461     SBUTTERFLY qdq, %1, %2, %5
 462     SBUTTERFLY qdq, %3, %4, %5
 463     mova [r0+ 0-128], xm%1
 464     mova [r0+16-128], xm%3
 465     mova [r0+32-128], xm%2
 466     mova [r0+48-128], xm%4
 467     vextracti128 [r0+ 0], m%1, 1
 468     vextracti128 [r0+16], m%3, 1
 469     vextracti128 [r0+32], m%2, 1
 470     vextracti128 [r0+48], m%4, 1
 471 %endmacro
 472
 473 INIT_YMM avx2
 474 cglobal sub8x8_dct, 3,3,7
 475     pxor m6, m6
 476     add r2, 4*FDEC_STRIDE
 477     LOAD_DIFF8x2_AVX2 0, 1, 4, 5, 0, 1, 4, 5, 6
 478     LOAD_DIFF8x2_AVX2 2, 3, 4, 5, 2, 3, 6, 7, 6
 479     DCT4_1D 0, 1, 2, 3, 4
 480     TRANSPOSE2x4x4W 0, 1, 2, 3, 4
 481     DCT4_1D 0, 1, 2, 3, 4
 482     STORE8_DCT_AVX2 0, 1, 2, 3, 4
 483     RET
 484
 485 INIT_YMM avx2
 486 cglobal sub16x16_dct, 3,3,6
 487     add r0, 128
 488     add r2, 4*FDEC_STRIDE
 489     call .sub16x4_dct
 490     add r0, 64
 491     add r1, 4*FENC_STRIDE
 492     add r2, 4*FDEC_STRIDE
 493     call .sub16x4_dct
 494     add r0, 256-64
 495     add r1, 4*FENC_STRIDE
 496     add r2, 4*FDEC_STRIDE
 497     call .sub16x4_dct
 498     add r0, 64
 499     add r1, 4*FENC_STRIDE
 500     add r2, 4*FDEC_STRIDE
 501     call .sub16x4_dct
 502     RET
 503 .sub16x4_dct:
 504     LOAD_DIFF16x2_AVX2 0, 1, 4, 5, 0, 1
 505     LOAD_DIFF16x2_AVX2 2, 3, 4, 5, 2, 3
 506     DCT4_1D 0, 1, 2, 3, 4
 507     TRANSPOSE2x4x4W 0, 1, 2, 3, 4
 508     DCT4_1D 0, 1, 2, 3, 4
 509     STORE16_DCT_AVX2 0, 1, 2, 3, 4
 510     ret
 511 %endif ; HIGH_BIT_DEPTH
 512
 513 INIT_MMX
 514 ;-----------------------------------------------------------------------------
 515 ; void sub8x8_dct( int16_t dct[4][4][4], uint8_t *pix1, uint8_t *pix2 )
 516 ;-----------------------------------------------------------------------------
 517 %macro SUB_NxN_DCT 7
 518 cglobal %1, 3,3,%7
 519 %if HIGH_BIT_DEPTH == 0
 520 %if mmsize == 8
 521     pxor m7, m7
 522 %else
 523     add r2, 4*FDEC_STRIDE
 524     mova m7, [hsub_mul]
 525 %endif
 526 %endif ; !HIGH_BIT_DEPTH
 527 .skip_prologue:
 528     call %2.skip_prologue
 529     add  r0, %3
 530     add  r1, %4-%5-%6*FENC_STRIDE
 531     add  r2, %4-%5-%6*FDEC_STRIDE
 532     call %2.skip_prologue
 533     add  r0, %3
 534     add  r1, (%4-%6)*FENC_STRIDE-%5-%4
 535     add  r2, (%4-%6)*FDEC_STRIDE-%5-%4
 536     call %2.skip_prologue
 537     add  r0, %3
 538     add  r1, %4-%5-%6*FENC_STRIDE
 539     add  r2, %4-%5-%6*FDEC_STRIDE
 540     TAIL_CALL %2.skip_prologue, 1
 541 %endmacro
 542
 543 ;-----------------------------------------------------------------------------
 544 ; void add8x8_idct( uint8_t *pix, int16_t dct[4][4][4] )
 545 ;-----------------------------------------------------------------------------
 546 %macro ADD_NxN_IDCT 6-7
 547 %if HIGH_BIT_DEPTH
 548 cglobal %1, 2,2,%7
 549 %if %3==256
 550     add r1, 128
 551 %endif
 552 %else
 553 cglobal %1, 2,2,11
 554     pxor m7, m7
 555 %endif
 556 %if mmsize>=16 && %3!=256
 557     add  r0, 4*FDEC_STRIDE
 558 %endif
 559 .skip_prologue:
 560     call %2.skip_prologue
 561     add  r0, %4-%5-%6*FDEC_STRIDE
 562     add  r1, %3
 563     call %2.skip_prologue
 564     add  r0, (%4-%6)*FDEC_STRIDE-%5-%4
 565     add  r1, %3
 566     call %2.skip_prologue
 567     add  r0, %4-%5-%6*FDEC_STRIDE
 568     add  r1, %3
 569     TAIL_CALL %2.skip_prologue, 1
 570 %endmacro
 571
 572 %if HIGH_BIT_DEPTH
 573 INIT_MMX
 574 SUB_NxN_DCT  sub8x8_dct_mmx,     sub4x4_dct_mmx,   64,  8, 0, 0, 0
 575 SUB_NxN_DCT  sub16x16_dct_mmx,   sub8x8_dct_mmx,   64, 16, 8, 8, 0
 576 INIT_XMM
 577 ADD_NxN_IDCT add8x8_idct_sse2,   add4x4_idct_sse2, 64,  8, 0, 0, 6
 578 ADD_NxN_IDCT add16x16_idct_sse2, add8x8_idct_sse2, 64, 16, 8, 8, 6
 579 ADD_NxN_IDCT add8x8_idct_avx,    add4x4_idct_avx,  64,  8, 0, 0, 6
 580 ADD_NxN_IDCT add16x16_idct_avx,  add8x8_idct_avx,  64, 16, 8, 8, 6
 581 cextern add8x8_idct8_sse2.skip_prologue
 582 cextern add8x8_idct8_avx.skip_prologue
 583 ADD_NxN_IDCT add16x16_idct8_sse2, add8x8_idct8_sse2, 256, 16, 0, 0, 16
 584 ADD_NxN_IDCT add16x16_idct8_avx,  add8x8_idct8_avx,  256, 16, 0, 0, 16
 585 cextern sub8x8_dct8_sse2.skip_prologue
 586 cextern sub8x8_dct8_sse4.skip_prologue
 587 cextern sub8x8_dct8_avx.skip_prologue
 588 SUB_NxN_DCT  sub16x16_dct8_sse2, sub8x8_dct8_sse2, 256, 16, 0, 0, 14
 589 SUB_NxN_DCT  sub16x16_dct8_sse4, sub8x8_dct8_sse4, 256, 16, 0, 0, 14
 590 SUB_NxN_DCT  sub16x16_dct8_avx,  sub8x8_dct8_avx,  256, 16, 0, 0, 14
 591 %else ; !HIGH_BIT_DEPTH
 592 %if ARCH_X86_64 == 0
 593 INIT_MMX
 594 SUB_NxN_DCT  sub8x8_dct_mmx,     sub4x4_dct_mmx,   32, 4, 0, 0, 0
 595 ADD_NxN_IDCT add8x8_idct_mmx,    add4x4_idct_mmx,  32, 4, 0, 0
 596 SUB_NxN_DCT  sub16x16_dct_mmx,   sub8x8_dct_mmx,   32, 8, 4, 4, 0
 597 ADD_NxN_IDCT add16x16_idct_mmx,  add8x8_idct_mmx,  32, 8, 4, 4
 598
 599 cextern sub8x8_dct8_mmx.skip_prologue
 600 cextern add8x8_idct8_mmx.skip_prologue
 601 SUB_NxN_DCT  sub16x16_dct8_mmx,  sub8x8_dct8_mmx,  128, 8, 0, 0, 0
 602 ADD_NxN_IDCT add16x16_idct8_mmx, add8x8_idct8_mmx, 128, 8, 0, 0
 603 %endif
 604
 605 INIT_XMM
 606 cextern sub8x8_dct_sse2.skip_prologue
 607 cextern sub8x8_dct_ssse3.skip_prologue
 608 cextern sub8x8_dct_avx.skip_prologue
 609 cextern sub8x8_dct_xop.skip_prologue
 610 SUB_NxN_DCT  sub16x16_dct_sse2,  sub8x8_dct_sse2,  128, 8, 0, 0, 10
 611 SUB_NxN_DCT  sub16x16_dct_ssse3, sub8x8_dct_ssse3, 128, 8, 0, 0, 10
 612 SUB_NxN_DCT  sub16x16_dct_avx,   sub8x8_dct_avx,   128, 8, 0, 0, 10
 613 SUB_NxN_DCT  sub16x16_dct_xop,   sub8x8_dct_xop,   128, 8, 0, 0, 10
 614
 615 cextern add8x8_idct_sse2.skip_prologue
 616 cextern add8x8_idct_avx.skip_prologue
 617 ADD_NxN_IDCT add16x16_idct_sse2, add8x8_idct_sse2, 128, 8, 0, 0
 618 ADD_NxN_IDCT add16x16_idct_avx,  add8x8_idct_avx,  128, 8, 0, 0
 619
 620 cextern add8x8_idct8_sse2.skip_prologue
 621 cextern add8x8_idct8_avx.skip_prologue
 622 ADD_NxN_IDCT add16x16_idct8_sse2, add8x8_idct8_sse2, 128, 8, 0, 0
 623 ADD_NxN_IDCT add16x16_idct8_avx,  add8x8_idct8_avx,  128, 8, 0, 0
 624
 625 cextern sub8x8_dct8_sse2.skip_prologue
 626 cextern sub8x8_dct8_ssse3.skip_prologue
 627 cextern sub8x8_dct8_avx.skip_prologue
 628 SUB_NxN_DCT  sub16x16_dct8_sse2,  sub8x8_dct8_sse2,  128, 8, 0, 0, 11
 629 SUB_NxN_DCT  sub16x16_dct8_ssse3, sub8x8_dct8_ssse3, 128, 8, 0, 0, 11
 630 SUB_NxN_DCT  sub16x16_dct8_avx,   sub8x8_dct8_avx,   128, 8, 0, 0, 11
 631
 632 INIT_YMM
 633 ADD_NxN_IDCT add16x16_idct_avx2, add8x8_idct_avx2, 128, 8, 0, 0
 634 %endif ; HIGH_BIT_DEPTH
 635
 636 %if HIGH_BIT_DEPTH
 637 ;-----------------------------------------------------------------------------
 638 ; void add8x8_idct_dc( pixel *p_dst, dctcoef *dct2x2 )
 639 ;-----------------------------------------------------------------------------
 640 %macro ADD_DC 2
 641     mova    m0, [%1+FDEC_STRIDEB*0] ; 8pixels
 642     mova    m1, [%1+FDEC_STRIDEB*1]
 643     mova    m2, [%1+FDEC_STRIDEB*2]
 644     paddsw  m0, %2
 645     paddsw  m1, %2
 646     paddsw  m2, %2
 647     paddsw  %2, [%1+FDEC_STRIDEB*3]
 648     CLIPW   m0, m5, m6
 649     CLIPW   m1, m5, m6
 650     CLIPW   m2, m5, m6
 651     CLIPW   %2, m5, m6
 652     mova    [%1+FDEC_STRIDEB*0], m0
 653     mova    [%1+FDEC_STRIDEB*1], m1
 654     mova    [%1+FDEC_STRIDEB*2], m2
 655     mova    [%1+FDEC_STRIDEB*3], %2
 656 %endmacro
 657
 658 %macro ADD_IDCT_DC 0
 659 cglobal add8x8_idct_dc, 2,2,7
 660     mova        m6, [pw_pixel_max]
 661     pxor        m5, m5
 662     mova        m3, [r1]
 663     paddd       m3, [pd_32]
 664     psrad       m3, 6         ; dc0   0 dc1   0 dc2   0 dc3   0
 665     pshuflw     m4, m3, q2200 ; dc0 dc0 dc1 dc1   _   _   _   _
 666     pshufhw     m3, m3, q2200 ;   _   _   _   _ dc2 dc2 dc3 dc3
 667     pshufd      m4, m4, q1100 ; dc0 dc0 dc0 dc0 dc1 dc1 dc1 dc1
 668     pshufd      m3, m3, q3322 ; dc2 dc2 dc2 dc2 dc3 dc3 dc3 dc3
 669     ADD_DC r0+FDEC_STRIDEB*0, m4
 670     ADD_DC r0+FDEC_STRIDEB*4, m3
 671     RET
 672
 673 cglobal add16x16_idct_dc, 2,3,8
 674     mov         r2, 4
 675     mova        m6, [pw_pixel_max]
 676     mova        m7, [pd_32]
 677     pxor        m5, m5
 678 .loop:
 679     mova        m3, [r1]
 680     paddd       m3, m7
 681     psrad       m3, 6         ; dc0   0 dc1   0 dc2   0 dc3   0
 682     pshuflw     m4, m3, q2200 ; dc0 dc0 dc1 dc1   _   _   _   _
 683     pshufhw     m3, m3, q2200 ;   _   _   _   _ dc2 dc2 dc3 dc3
 684     pshufd      m4, m4, q1100 ; dc0 dc0 dc0 dc0 dc1 dc1 dc1 dc1
 685     pshufd      m3, m3, q3322 ; dc2 dc2 dc2 dc2 dc3 dc3 dc3 dc3
 686     ADD_DC r0+FDEC_STRIDEB*0, m4
 687     ADD_DC r0+SIZEOF_PIXEL*8, m3
 688     add         r1, 16
 689     add         r0, 4*FDEC_STRIDEB
 690     dec         r2
 691     jg .loop
 692     RET
 693 %endmacro ; ADD_IDCT_DC
 694
 695 INIT_XMM sse2
 696 ADD_IDCT_DC
 697 INIT_XMM avx
 698 ADD_IDCT_DC
 699
 700 %else ;!HIGH_BIT_DEPTH
 701 %macro ADD_DC 3
 702     mova    m4, [%3+FDEC_STRIDE*0]
 703     mova    m5, [%3+FDEC_STRIDE*1]
 704     mova    m6, [%3+FDEC_STRIDE*2]
 705     paddusb m4, %1
 706     paddusb m5, %1
 707     paddusb m6, %1
 708     paddusb %1, [%3+FDEC_STRIDE*3]
 709     psubusb m4, %2
 710     psubusb m5, %2
 711     psubusb m6, %2
 712     psubusb %1, %2
 713     mova [%3+FDEC_STRIDE*0], m4
 714     mova [%3+FDEC_STRIDE*1], m5
 715     mova [%3+FDEC_STRIDE*2], m6
 716     mova [%3+FDEC_STRIDE*3], %1
 717 %endmacro
 718
 719 INIT_MMX mmx2
 720 cglobal add8x8_idct_dc, 2,2
 721     mova      m0, [r1]
 722     pxor      m1, m1
 723     add       r0, FDEC_STRIDE*4
 724     paddw     m0, [pw_32]
 725     psraw     m0, 6
 726     psubw     m1, m0
 727     packuswb  m0, m0
 728     packuswb  m1, m1
 729     punpcklbw m0, m0
 730     punpcklbw m1, m1
 731     pshufw    m2, m0, q3322
 732     pshufw    m3, m1, q3322
 733     punpcklbw m0, m0
 734     punpcklbw m1, m1
 735     ADD_DC    m0, m1, r0-FDEC_STRIDE*4
 736     ADD_DC    m2, m3, r0
 737     RET
 738
 739 INIT_XMM ssse3
 740 cglobal add8x8_idct_dc, 2,2
 741     movh     m0, [r1]
 742     pxor     m1, m1
 743     add      r0, FDEC_STRIDE*4
 744     pmulhrsw m0, [pw_512]
 745     psubw    m1, m0
 746     mova     m5, [pb_unpackbd1]
 747     packuswb m0, m0
 748     packuswb m1, m1
 749     pshufb   m0, m5
 750     pshufb   m1, m5
 751     movh     m2, [r0+FDEC_STRIDE*-4]
 752     movh     m3, [r0+FDEC_STRIDE*-3]
 753     movh     m4, [r0+FDEC_STRIDE*-2]
 754     movh     m5, [r0+FDEC_STRIDE*-1]
 755     movhps   m2, [r0+FDEC_STRIDE* 0]
 756     movhps   m3, [r0+FDEC_STRIDE* 1]
 757     movhps   m4, [r0+FDEC_STRIDE* 2]
 758     movhps   m5, [r0+FDEC_STRIDE* 3]
 759     paddusb  m2, m0
 760     paddusb  m3, m0
 761     paddusb  m4, m0
 762     paddusb  m5, m0
 763     psubusb  m2, m1
 764     psubusb  m3, m1
 765     psubusb  m4, m1
 766     psubusb  m5, m1
 767     movh   [r0+FDEC_STRIDE*-4], m2
 768     movh   [r0+FDEC_STRIDE*-3], m3
 769     movh   [r0+FDEC_STRIDE*-2], m4
 770     movh   [r0+FDEC_STRIDE*-1], m5
 771     movhps [r0+FDEC_STRIDE* 0], m2
 772     movhps [r0+FDEC_STRIDE* 1], m3
 773     movhps [r0+FDEC_STRIDE* 2], m4
 774     movhps [r0+FDEC_STRIDE* 3], m5
 775     RET
 776
 777 INIT_MMX mmx2
 778 cglobal add16x16_idct_dc, 2,3
 779     mov       r2, 4
 780 .loop:
 781     mova      m0, [r1]
 782     pxor      m1, m1
 783     paddw     m0, [pw_32]
 784     psraw     m0, 6
 785     psubw     m1, m0
 786     packuswb  m0, m0
 787     packuswb  m1, m1
 788     punpcklbw m0, m0
 789     punpcklbw m1, m1
 790     pshufw    m2, m0, q3322
 791     pshufw    m3, m1, q3322
 792     punpcklbw m0, m0
 793     punpcklbw m1, m1
 794     ADD_DC    m0, m1, r0
 795     ADD_DC    m2, m3, r0+8
 796     add       r1, 8
 797     add       r0, FDEC_STRIDE*4
 798     dec       r2
 799     jg .loop
 800     RET
 801
 802 INIT_XMM sse2
 803 cglobal add16x16_idct_dc, 2,2,8
 804     call .loop
 805     add       r0, FDEC_STRIDE*4
 806     TAIL_CALL .loop, 0
 807 .loop:
 808     add       r0, FDEC_STRIDE*4
 809     movq      m0, [r1+0]
 810     movq      m2, [r1+8]
 811     add       r1, 16
 812     punpcklwd m0, m0
 813     punpcklwd m2, m2
 814     pxor      m3, m3
 815     paddw     m0, [pw_32]
 816     paddw     m2, [pw_32]
 817     psraw     m0, 6
 818     psraw     m2, 6
 819     psubw     m1, m3, m0
 820     packuswb  m0, m1
 821     psubw     m3, m2
 822     punpckhbw m1, m0, m0
 823     packuswb  m2, m3
 824     punpckhbw m3, m2, m2
 825     punpcklbw m0, m0
 826     punpcklbw m2, m2
 827     ADD_DC    m0, m1, r0+FDEC_STRIDE*-4
 828     ADD_DC    m2, m3, r0
 829     ret
 830
 831 %macro ADD16x16 0
 832 cglobal add16x16_idct_dc, 2,2,8
 833     call .loop
 834     add      r0, FDEC_STRIDE*4
 835     TAIL_CALL .loop, 0
 836 .loop:
 837     add      r0, FDEC_STRIDE*4
 838     mova     m0, [r1]
 839     add      r1, 16
 840     pxor     m1, m1
 841     pmulhrsw m0, [pw_512]
 842     psubw    m1, m0
 843     mova     m5, [pb_unpackbd1]
 844     mova     m6, [pb_unpackbd2]
 845     packuswb m0, m0
 846     packuswb m1, m1
 847     pshufb   m2, m0, m6
 848     pshufb   m0, m5
 849     pshufb   m3, m1, m6
 850     pshufb   m1, m5
 851     ADD_DC   m0, m1, r0+FDEC_STRIDE*-4
 852     ADD_DC   m2, m3, r0
 853     ret
 854 %endmacro ; ADD16x16
 855
 856 INIT_XMM ssse3
 857 ADD16x16
 858 INIT_XMM avx
 859 ADD16x16
 860
 861 %macro ADD_DC_AVX2 3
 862     mova   xm4, [r0+FDEC_STRIDE*0+%3]
 863     mova   xm5, [r0+FDEC_STRIDE*1+%3]
 864     vinserti128 m4, m4, [r2+FDEC_STRIDE*0+%3], 1
 865     vinserti128 m5, m5, [r2+FDEC_STRIDE*1+%3], 1
 866     paddusb m4, %1
 867     paddusb m5, %1
 868     psubusb m4, %2
 869     psubusb m5, %2
 870     mova [r0+FDEC_STRIDE*0+%3], xm4
 871     mova [r0+FDEC_STRIDE*1+%3], xm5
 872     vextracti128 [r2+FDEC_STRIDE*0+%3], m4, 1
 873     vextracti128 [r2+FDEC_STRIDE*1+%3], m5, 1
 874 %endmacro
 875
 876 INIT_YMM avx2
 877 cglobal add16x16_idct_dc, 2,3,6
 878     add      r0, FDEC_STRIDE*4
 879     mova     m0, [r1]
 880     pxor     m1, m1
 881     pmulhrsw m0, [pw_512]
 882     psubw    m1, m0
 883     mova     m4, [pb_unpackbd1]
 884     mova     m5, [pb_unpackbd2]
 885     packuswb m0, m0
 886     packuswb m1, m1
 887     pshufb   m2, m0, m4      ; row0, row2
 888     pshufb   m3, m1, m4      ; row0, row2
 889     pshufb   m0, m5          ; row1, row3
 890     pshufb   m1, m5          ; row1, row3
 891     lea      r2, [r0+FDEC_STRIDE*8]
 892     ADD_DC_AVX2 m2, m3, FDEC_STRIDE*-4
 893     ADD_DC_AVX2 m2, m3, FDEC_STRIDE*-2
 894     ADD_DC_AVX2 m0, m1, FDEC_STRIDE* 0
 895     ADD_DC_AVX2 m0, m1, FDEC_STRIDE* 2
 896     RET
 897
 898 %endif ; HIGH_BIT_DEPTH
 899
 900 ;-----------------------------------------------------------------------------
 901 ; void sub8x8_dct_dc( int16_t dct[2][2], uint8_t *pix1, uint8_t *pix2 )
 902 ;-----------------------------------------------------------------------------
 903
 904 %macro DCTDC_2ROW_MMX 4
 905     mova      %1, [r1+FENC_STRIDE*(0+%3)]
 906     mova      m1, [r1+FENC_STRIDE*(1+%3)]
 907     mova      m2, [r2+FDEC_STRIDE*(0+%4)]
 908     mova      m3, [r2+FDEC_STRIDE*(1+%4)]
 909     mova      %2, %1
 910     punpckldq %1, m1
 911     punpckhdq %2, m1
 912     mova      m1, m2
 913     punpckldq m2, m3
 914     punpckhdq m1, m3
 915     pxor      m3, m3
 916     psadbw    %1, m3
 917     psadbw    %2, m3
 918     psadbw    m2, m3
 919     psadbw    m1, m3
 920     psubw     %1, m2
 921     psubw     %2, m1
 922 %endmacro
 923
 924 %macro DCT2x2 2 ; reg s1/s0, reg s3/s2 (!=m0/m1)
 925     PSHUFLW   m1, %1, q2200  ;  s1  s1  s0  s0
 926     PSHUFLW   m0, %2, q2301  ;  s3  __  s2  __
 927     paddw     m1, %2         ;  s1 s13  s0 s02
 928     psubw     m1, m0         ; d13 s13 d02 s02
 929     PSHUFLW   m0, m1, q1010  ; d02 s02 d02 s02
 930     psrlq     m1, 32         ;  __  __ d13 s13
 931     paddw     m0, m1         ; d02 s02 d02+d13 s02+s13
 932     psllq     m1, 32         ; d13 s13
 933     psubw     m0, m1         ; d02-d13 s02-s13 d02+d13 s02+s13
 934 %endmacro
 935
 936 %if HIGH_BIT_DEPTH == 0
 937 INIT_MMX mmx2
 938 cglobal sub8x8_dct_dc, 3,3
 939     DCTDC_2ROW_MMX m0, m4, 0, 0
 940     DCTDC_2ROW_MMX m5, m6, 2, 2
 941     paddw     m0, m5
 942     paddw     m4, m6
 943     punpckldq m0, m4
 944     add       r2, FDEC_STRIDE*4
 945     DCTDC_2ROW_MMX m7, m4, 4, 0
 946     DCTDC_2ROW_MMX m5, m6, 6, 2
 947     paddw     m7, m5
 948     paddw     m4, m6
 949     punpckldq m7, m4
 950     DCT2x2    m0, m7
 951     mova    [r0], m0
 952     ret
 953
 954 %macro DCTDC_2ROW_SSE2 4
 955     movh      m1, [r1+FENC_STRIDE*(0+%1)]
 956     movh      m2, [r1+FENC_STRIDE*(1+%1)]
 957     punpckldq m1, m2
 958     movh      m2, [r2+FDEC_STRIDE*(0+%2)]
 959     punpckldq m2, [r2+FDEC_STRIDE*(1+%2)]
 960     psadbw    m1, m0
 961     psadbw    m2, m0
 962     ACCUM  paddd, %4, 1, %3
 963     psubd    m%4, m2
 964 %endmacro
 965
 966 INIT_XMM sse2
 967 cglobal sub8x8_dct_dc, 3,3
 968     pxor     m0, m0
 969     DCTDC_2ROW_SSE2 0, 0, 0, 3
 970     DCTDC_2ROW_SSE2 2, 2, 1, 3
 971     add      r2, FDEC_STRIDE*4
 972     DCTDC_2ROW_SSE2 4, 0, 0, 4
 973     DCTDC_2ROW_SSE2 6, 2, 1, 4
 974     packssdw m3, m3
 975     packssdw m4, m4
 976     DCT2x2   m3, m4
 977     movq   [r0], m0
 978     RET
 979
 980 %macro SUB8x16_DCT_DC 0
 981 cglobal sub8x16_dct_dc, 3,3
 982     pxor       m0, m0
 983     DCTDC_2ROW_SSE2 0, 0, 0, 3
 984     DCTDC_2ROW_SSE2 2, 2, 1, 3
 985     add        r1, FENC_STRIDE*8
 986     add        r2, FDEC_STRIDE*8
 987     DCTDC_2ROW_SSE2 -4, -4, 0, 4
 988     DCTDC_2ROW_SSE2 -2, -2, 1, 4
 989     shufps     m3, m4, q2020
 990     DCTDC_2ROW_SSE2 0, 0, 0, 5
 991     DCTDC_2ROW_SSE2 2, 2, 1, 5
 992     add        r2, FDEC_STRIDE*4
 993     DCTDC_2ROW_SSE2 4, 0, 0, 4
 994     DCTDC_2ROW_SSE2 6, 2, 1, 4
 995     shufps     m5, m4, q2020
 996 %if cpuflag(ssse3)
 997     %define %%sign psignw
 998 %else
 999     %define %%sign pmullw
1000 %endif
1001     SUMSUB_BA d, 5, 3, 0
1002     packssdw   m5, m3
1003     pshuflw    m0, m5, q2301
1004     pshufhw    m0, m0, q2301
1005     %%sign     m5, [pw_pmpmpmpm]
1006     paddw      m0, m5
1007     pshufd     m1, m0, q1320
1008     pshufd     m0, m0, q0231
1009     %%sign     m1, [pw_ppppmmmm]
1010     paddw      m0, m1
1011     mova     [r0], m0
1012     RET
1013 %endmacro ; SUB8x16_DCT_DC
1014
1015 INIT_XMM sse2
1016 SUB8x16_DCT_DC
1017 INIT_XMM ssse3
1018 SUB8x16_DCT_DC
1019
1020 %endif ; !HIGH_BIT_DEPTH
1021
1022 %macro DCTDC_4ROW_SSE2 2
1023     mova       %1, [r1+FENC_STRIDEB*%2]
1024     mova       m0, [r2+FDEC_STRIDEB*%2]
1025 %assign Y (%2+1)
1026 %rep 3
1027     paddw      %1, [r1+FENC_STRIDEB*Y]
1028     paddw      m0, [r2+FDEC_STRIDEB*Y]
1029 %assign Y (Y+1)
1030 %endrep
1031     psubw      %1, m0
1032     pshufd     m0, %1, q2301
1033     paddw      %1, m0
1034 %endmacro
1035
1036 %if HIGH_BIT_DEPTH
1037 %macro SUB8x8_DCT_DC_10 0
1038 cglobal sub8x8_dct_dc, 3,3,3
1039     DCTDC_4ROW_SSE2 m1, 0
1040     DCTDC_4ROW_SSE2 m2, 4
1041     mova       m0, [pw_ppmmmmpp]
1042     pmaddwd    m1, m0
1043     pmaddwd    m2, m0
1044     pshufd     m0, m1, q2200      ; -1 -1 +0 +0
1045     pshufd     m1, m1, q0033      ; +0 +0 +1 +1
1046     paddd      m1, m0
1047     pshufd     m0, m2, q1023      ; -2 +2 -3 +3
1048     paddd      m1, m2
1049     paddd      m1, m0
1050     mova     [r0], m1
1051     RET
1052 %endmacro
1053 INIT_XMM sse2
1054 SUB8x8_DCT_DC_10
1055
1056 %macro SUB8x16_DCT_DC_10 0
1057 cglobal sub8x16_dct_dc, 3,3,6
1058     DCTDC_4ROW_SSE2 m1, 0
1059     DCTDC_4ROW_SSE2 m2, 4
1060     DCTDC_4ROW_SSE2 m3, 8
1061     DCTDC_4ROW_SSE2 m4, 12
1062     mova       m0, [pw_ppmmmmpp]
1063     pmaddwd    m1, m0
1064     pmaddwd    m2, m0
1065     pshufd     m5, m1, q2200      ; -1 -1 +0 +0
1066     pshufd     m1, m1, q0033      ; +0 +0 +1 +1
1067     paddd      m1, m5
1068     pshufd     m5, m2, q1023      ; -2 +2 -3 +3
1069     paddd      m1, m2
1070     paddd      m1, m5             ; a6 a2 a4 a0
1071     pmaddwd    m3, m0
1072     pmaddwd    m4, m0
1073     pshufd     m5, m3, q2200
1074     pshufd     m3, m3, q0033
1075     paddd      m3, m5
1076     pshufd     m5, m4, q1023
1077     paddd      m3, m4
1078     paddd      m3, m5             ; a7 a3 a5 a1
1079     paddd      m0, m1, m3
1080     psubd      m1, m3
1081     pshufd     m0, m0, q3120
1082     pshufd     m1, m1, q3120
1083     punpcklqdq m2, m0, m1
1084     punpckhqdq m1, m0
1085     mova  [r0+ 0], m2
1086     mova  [r0+16], m1
1087     RET
1088 %endmacro
1089 INIT_XMM sse2
1090 SUB8x16_DCT_DC_10
1091 INIT_XMM avx
1092 SUB8x16_DCT_DC_10
1093 %endif
1094
1095 ;-----------------------------------------------------------------------------
1096 ; void zigzag_scan_8x8_frame( int16_t level[64], int16_t dct[8][8] )
1097 ;-----------------------------------------------------------------------------
1098 %macro SCAN_8x8 0
1099 cglobal zigzag_scan_8x8_frame, 2,2,8
1100     movdqa    xmm0, [r1]
1101     movdqa    xmm1, [r1+16]
1102     movdq2q    mm0, xmm0
1103     PALIGNR   xmm1, xmm1, 14, xmm2
1104     movdq2q    mm1, xmm1
1105
1106     movdqa    xmm2, [r1+32]
1107     movdqa    xmm3, [r1+48]
1108     PALIGNR   xmm2, xmm2, 12, xmm4
1109     movdq2q    mm2, xmm2
1110     PALIGNR   xmm3, xmm3, 10, xmm4
1111     movdq2q    mm3, xmm3
1112
1113     punpckhwd xmm0, xmm1
1114     punpckhwd xmm2, xmm3
1115
1116     movq       mm4, mm1
1117     movq       mm5, mm1
1118     movq       mm6, mm2
1119     movq       mm7, mm3
1120     punpckhwd  mm1, mm0
1121     psllq      mm0, 16
1122     psrlq      mm3, 16
1123     punpckhdq  mm1, mm1
1124     punpckhdq  mm2, mm0
1125     punpcklwd  mm0, mm4
1126     punpckhwd  mm4, mm3
1127     punpcklwd  mm4, mm2
1128     punpckhdq  mm0, mm2
1129     punpcklwd  mm6, mm3
1130     punpcklwd  mm5, mm7
1131     punpcklwd  mm5, mm6
1132
1133     movdqa    xmm4, [r1+64]
1134     movdqa    xmm5, [r1+80]
1135     movdqa    xmm6, [r1+96]
1136     movdqa    xmm7, [r1+112]
1137
1138     movq [r0+2*00], mm0
1139     movq [r0+2*04], mm4
1140     movd [r0+2*08], mm1
1141     movq [r0+2*36], mm5
1142     movq [r0+2*46], mm6
1143
1144     PALIGNR   xmm4, xmm4, 14, xmm3
1145     movdq2q    mm4, xmm4
1146     PALIGNR   xmm5, xmm5, 12, xmm3
1147     movdq2q    mm5, xmm5
1148     PALIGNR   xmm6, xmm6, 10, xmm3
1149     movdq2q    mm6, xmm6
1150 %if cpuflag(ssse3)
1151     PALIGNR   xmm7, xmm7, 8, xmm3
1152     movdq2q    mm7, xmm7
1153 %else
1154     movhlps   xmm3, xmm7
1155     punpcklqdq xmm7, xmm7
1156     movdq2q    mm7, xmm3
1157 %endif
1158
1159     punpckhwd xmm4, xmm5
1160     punpckhwd xmm6, xmm7
1161
1162     movq       mm0, mm4
1163     movq       mm1, mm5
1164     movq       mm3, mm7
1165     punpcklwd  mm7, mm6
1166     psrlq      mm6, 16
1167     punpcklwd  mm4, mm6
1168     punpcklwd  mm5, mm4
1169     punpckhdq  mm4, mm3
1170     punpcklwd  mm3, mm6
1171     punpckhwd  mm3, mm4
1172     punpckhwd  mm0, mm1
1173     punpckldq  mm4, mm0
1174     punpckhdq  mm0, mm6
1175     pshufw     mm4, mm4, q1230
1176
1177     movq [r0+2*14], mm4
1178     movq [r0+2*25], mm0
1179     movd [r0+2*54], mm7
1180     movq [r0+2*56], mm5
1181     movq [r0+2*60], mm3
1182
1183     punpckhdq xmm3, xmm0, xmm2
1184     punpckldq xmm0, xmm2
1185     punpckhdq xmm7, xmm4, xmm6
1186     punpckldq xmm4, xmm6
1187     pshufhw   xmm0, xmm0, q0123
1188     pshuflw   xmm4, xmm4, q0123
1189     pshufhw   xmm3, xmm3, q0123
1190     pshuflw   xmm7, xmm7, q0123
1191
1192     movlps [r0+2*10], xmm0
1193     movhps [r0+2*17], xmm0
1194     movlps [r0+2*21], xmm3
1195     movlps [r0+2*28], xmm4
1196     movhps [r0+2*32], xmm3
1197     movhps [r0+2*39], xmm4
1198     movlps [r0+2*43], xmm7
1199     movhps [r0+2*50], xmm7
1200
1201     RET
1202 %endmacro
1203
1204 %if HIGH_BIT_DEPTH == 0
1205 INIT_XMM sse2
1206 SCAN_8x8
1207 INIT_XMM ssse3
1208 SCAN_8x8
1209 %endif
1210
1211 ;-----------------------------------------------------------------------------
1212 ; void zigzag_scan_8x8_frame( dctcoef level[64], dctcoef dct[8][8] )
1213 ;-----------------------------------------------------------------------------
1214 ; Output order:
1215 ;  0  8  1  2  9 16 24 17
1216 ; 10  3  4 11 18 25 32 40
1217 ; 33 26 19 12  5  6 13 20
1218 ; 27 34 41 48 56 49 42 35
1219 ; 28 21 14  7 15 22 29 36
1220 ; 43 50 57 58 51 44 37 30
1221 ; 23 31 38 45 52 59 60 53
1222 ; 46 39 47 54 61 62 55 63
1223 %macro SCAN_8x8_FRAME 5
1224 cglobal zigzag_scan_8x8_frame, 2,2,8
1225     mova        m0, [r1]
1226     mova        m1, [r1+ 8*SIZEOF_DCTCOEF]
1227     movu        m2, [r1+14*SIZEOF_DCTCOEF]
1228     movu        m3, [r1+21*SIZEOF_DCTCOEF]
1229     mova        m4, [r1+28*SIZEOF_DCTCOEF]
1230     punpckl%4   m5, m0, m1
1231     psrl%2      m0, %1
1232     punpckh%4   m6, m1, m0
1233     punpckl%3   m5, m0
1234     punpckl%3   m1, m1
1235     punpckh%4   m1, m3
1236     mova        m7, [r1+52*SIZEOF_DCTCOEF]
1237     mova        m0, [r1+60*SIZEOF_DCTCOEF]
1238     punpckh%4   m1, m2
1239     punpckl%4   m2, m4
1240     punpckh%4   m4, m3
1241     punpckl%3   m3, m3
1242     punpckh%4   m3, m2
1243     mova      [r0], m5
1244     mova  [r0+ 4*SIZEOF_DCTCOEF], m1
1245     mova  [r0+ 8*SIZEOF_DCTCOEF], m6
1246     punpckl%4   m6, m0
1247     punpckl%4   m6, m7
1248     mova        m1, [r1+32*SIZEOF_DCTCOEF]
1249     movu        m5, [r1+39*SIZEOF_DCTCOEF]
1250     movu        m2, [r1+46*SIZEOF_DCTCOEF]
1251     movu [r0+35*SIZEOF_DCTCOEF], m3
1252     movu [r0+47*SIZEOF_DCTCOEF], m4
1253     punpckh%4   m7, m0
1254     psll%2      m0, %1
1255     punpckh%3   m3, m5, m5
1256     punpckl%4   m5, m1
1257     punpckh%4   m1, m2
1258     mova [r0+52*SIZEOF_DCTCOEF], m6
1259     movu [r0+13*SIZEOF_DCTCOEF], m5
1260     movu        m4, [r1+11*SIZEOF_DCTCOEF]
1261     movu        m6, [r1+25*SIZEOF_DCTCOEF]
1262     punpckl%4   m5, m7
1263     punpckl%4   m1, m3
1264     punpckh%3   m0, m7
1265     mova        m3, [r1+ 4*SIZEOF_DCTCOEF]
1266     movu        m7, [r1+18*SIZEOF_DCTCOEF]
1267     punpckl%4   m2, m5
1268     movu [r0+25*SIZEOF_DCTCOEF], m1
1269     mova        m1, m4
1270     mova        m5, m6
1271     punpckl%4   m4, m3
1272     punpckl%4   m6, m7
1273     punpckh%4   m1, m3
1274     punpckh%4   m5, m7
1275     punpckh%3   m3, m6, m4
1276     punpckh%3   m7, m5, m1
1277     punpckl%3   m6, m4
1278     punpckl%3   m5, m1
1279     movu        m4, [r1+35*SIZEOF_DCTCOEF]
1280     movu        m1, [r1+49*SIZEOF_DCTCOEF]
1281     pshuf%5     m6, m6, q0123
1282     pshuf%5     m5, m5, q0123
1283     mova [r0+60*SIZEOF_DCTCOEF], m0
1284     mova [r0+56*SIZEOF_DCTCOEF], m2
1285     movu        m0, [r1+42*SIZEOF_DCTCOEF]
1286     mova        m2, [r1+56*SIZEOF_DCTCOEF]
1287     movu [r0+17*SIZEOF_DCTCOEF], m3
1288     mova [r0+32*SIZEOF_DCTCOEF], m7
1289     movu [r0+10*SIZEOF_DCTCOEF], m6
1290     movu [r0+21*SIZEOF_DCTCOEF], m5
1291     punpckh%4   m3, m0, m4
1292     punpckh%4   m7, m2, m1
1293     punpckl%4   m0, m4
1294     punpckl%4   m2, m1
1295     punpckl%3   m4, m2, m0
1296     punpckl%3   m1, m7, m3
1297     punpckh%3   m2, m0
1298     punpckh%3   m7, m3
1299     pshuf%5     m2, m2, q0123
1300     pshuf%5     m7, m7, q0123
1301     mova [r0+28*SIZEOF_DCTCOEF], m4
1302     movu [r0+43*SIZEOF_DCTCOEF], m1
1303     movu [r0+39*SIZEOF_DCTCOEF], m2
1304     movu [r0+50*SIZEOF_DCTCOEF], m7
1305     RET
1306 %endmacro
1307
1308 %if HIGH_BIT_DEPTH
1309 INIT_XMM sse2
1310 SCAN_8x8_FRAME 4 , dq, qdq, dq, d
1311 INIT_XMM avx
1312 SCAN_8x8_FRAME 4 , dq, qdq, dq, d
1313 %else
1314 INIT_MMX mmx2
1315 SCAN_8x8_FRAME 16, q , dq , wd, w
1316 %endif
1317
1318 ;-----------------------------------------------------------------------------
1319 ; void zigzag_scan_4x4_frame( dctcoef level[16], dctcoef dct[4][4] )
1320 ;-----------------------------------------------------------------------------
1321 %macro SCAN_4x4 4
1322 cglobal zigzag_scan_4x4_frame, 2,2,6
1323     mova      m0, [r1+ 0*SIZEOF_DCTCOEF]
1324     mova      m1, [r1+ 4*SIZEOF_DCTCOEF]
1325     mova      m2, [r1+ 8*SIZEOF_DCTCOEF]
1326     mova      m3, [r1+12*SIZEOF_DCTCOEF]
1327     punpckl%4 m4, m0, m1
1328     psrl%2    m0, %1
1329     punpckl%3 m4, m0
1330     mova  [r0+ 0*SIZEOF_DCTCOEF], m4
1331     punpckh%4 m0, m2
1332     punpckh%4 m4, m2, m3
1333     psll%2    m3, %1
1334     punpckl%3 m2, m2
1335     punpckl%4 m5, m1, m3
1336     punpckh%3 m1, m1
1337     punpckh%4 m5, m2
1338     punpckl%4 m1, m0
1339     punpckh%3 m3, m4
1340     mova [r0+ 4*SIZEOF_DCTCOEF], m5
1341     mova [r0+ 8*SIZEOF_DCTCOEF], m1
1342     mova [r0+12*SIZEOF_DCTCOEF], m3
1343     RET
1344 %endmacro
1345
1346 %if HIGH_BIT_DEPTH
1347 INIT_XMM sse2
1348 SCAN_4x4  4, dq, qdq, dq
1349 INIT_XMM avx
1350 SCAN_4x4  4, dq, qdq, dq
1351 %else
1352 INIT_MMX mmx
1353 SCAN_4x4 16, q , dq , wd
1354
1355 ;-----------------------------------------------------------------------------
1356 ; void zigzag_scan_4x4_frame( int16_t level[16], int16_t dct[4][4] )
1357 ;-----------------------------------------------------------------------------
1358 %macro SCAN_4x4_FRAME 0
1359 cglobal zigzag_scan_4x4_frame, 2,2
1360     mova    m1, [r1+16]
1361     mova    m0, [r1+ 0]
1362     pshufb  m1, [pb_scan4frameb]
1363     pshufb  m0, [pb_scan4framea]
1364     psrldq  m2, m1, 6
1365     palignr m1, m0, 6
1366     pslldq  m0, 10
1367     palignr m2, m0, 10
1368     mova [r0+ 0], m1
1369     mova [r0+16], m2
1370     RET
1371 %endmacro
1372
1373 INIT_XMM ssse3
1374 SCAN_4x4_FRAME
1375 INIT_XMM avx
1376 SCAN_4x4_FRAME
1377
1378 INIT_XMM xop
1379 cglobal zigzag_scan_4x4_frame, 2,2
1380     mova   m0, [r1+ 0]
1381     mova   m1, [r1+16]
1382     vpperm m2, m0, m1, [pb_scan4frame2a]
1383     vpperm m1, m0, m1, [pb_scan4frame2b]
1384     mova [r0+ 0], m2
1385     mova [r0+16], m1
1386     RET
1387 %endif ; !HIGH_BIT_DEPTH
1388
1389 %if HIGH_BIT_DEPTH
1390 ;-----------------------------------------------------------------------------
1391 ; void zigzag_scan_4x4_field( int32_t level[16], int32_t dct[4][4] )
1392 ;-----------------------------------------------------------------------------
1393 INIT_XMM sse2
1394 cglobal zigzag_scan_4x4_field, 2,3
1395     movu       m4, [r1+ 8]
1396     pshufd     m0, m4, q3102
1397     mova       m1, [r1+32]
1398     mova       m2, [r1+48]
1399     movu  [r0+ 8], m0
1400     mova  [r0+32], m1
1401     mova  [r0+48], m2
1402     movq      mm0, [r1]
1403     movq     [r0], mm0
1404     movq      mm0, [r1+24]
1405     movq  [r0+24], mm0
1406     RET
1407 %else
1408 ;-----------------------------------------------------------------------------
1409 ; void zigzag_scan_4x4_field( int16_t level[16], int16_t dct[4][4] )
1410 ;-----------------------------------------------------------------------------
1411 ; sse2 is only 1 cycle faster, and ssse3/pshufb is slower on core2
1412 INIT_MMX mmx2
1413 cglobal zigzag_scan_4x4_field, 2,3
1414     pshufw      m0, [r1+4], q3102
1415     mova        m1, [r1+16]
1416     mova        m2, [r1+24]
1417     movu    [r0+4], m0
1418     mova   [r0+16], m1
1419     mova   [r0+24], m2
1420     mov        r2d, [r1]
1421     mov       [r0], r2d
1422     mov        r2d, [r1+12]
1423     mov    [r0+12], r2d
1424     RET
1425 %endif ; HIGH_BIT_DEPTH
1426
1427 ;-----------------------------------------------------------------------------
1428 ; void zigzag_scan_8x8_field( int16_t level[64], int16_t dct[8][8] )
1429 ;-----------------------------------------------------------------------------
1430 ; Output order:
1431 ;  0  1  2  8  9  3  4 10
1432 ; 16 11  5  6  7 12 17 24
1433 ; 18 13 14 15 19 25 32 26
1434 ; 20 21 22 23 27 33 40 34
1435 ; 28 29 30 31 35 41 48 42
1436 ; 36 37 38 39 43 49 50 44
1437 ; 45 46 47 51 56 57 52 53
1438 ; 54 55 58 59 60 61 62 63
1439 %undef SCAN_8x8
1440 %macro SCAN_8x8 5
1441 cglobal zigzag_scan_8x8_field, 2,3,8
1442     mova       m0, [r1+ 0*SIZEOF_DCTCOEF]       ; 03 02 01 00
1443     mova       m1, [r1+ 4*SIZEOF_DCTCOEF]       ; 07 06 05 04
1444     mova       m2, [r1+ 8*SIZEOF_DCTCOEF]       ; 11 10 09 08
1445     pshuf%1    m3, m0, q3333                    ; 03 03 03 03
1446     movd      r2d, m2                           ; 09 08
1447     pshuf%1    m2, m2, q0321                    ; 08 11 10 09
1448     punpckl%2  m3, m1                           ; 05 03 04 03
1449     pinsr%1    m0, r2d, 3                       ; 08 02 01 00
1450     punpckl%2  m4, m2, m3                       ; 04 10 03 09
1451     pshuf%1    m4, m4, q2310                    ; 10 04 03 09
1452     mova  [r0+ 0*SIZEOF_DCTCOEF], m0            ; 08 02 01 00
1453     mova  [r0+ 4*SIZEOF_DCTCOEF], m4            ; 10 04 03 09
1454     mova       m3, [r1+12*SIZEOF_DCTCOEF]       ; 15 14 13 12
1455     mova       m5, [r1+16*SIZEOF_DCTCOEF]       ; 19 18 17 16
1456     punpckl%3  m6, m5                           ; 17 16 XX XX
1457     psrl%4     m1, %5                           ; XX 07 06 05
1458     punpckh%2  m6, m2                           ; 08 17 11 16
1459     punpckl%3  m6, m1                           ; 06 05 11 16
1460     mova  [r0+ 8*SIZEOF_DCTCOEF], m6            ; 06 05 11 16
1461     psrl%4     m1, %5                           ; XX XX 07 06
1462     punpckl%2  m1, m5                           ; 17 07 16 06
1463     mova       m0, [r1+20*SIZEOF_DCTCOEF]       ; 23 22 21 20
1464     mova       m2, [r1+24*SIZEOF_DCTCOEF]       ; 27 26 25 24
1465     punpckh%3  m1, m1                           ; 17 07 17 07
1466     punpckl%2  m6, m3, m2                       ; 25 13 24 12
1467     pextr%1    r2d, m5, 2
1468     mova [r0+24*SIZEOF_DCTCOEF], m0             ; 23 22 21 20
1469     punpckl%2  m1, m6                           ; 24 17 12 07
1470     mova [r0+12*SIZEOF_DCTCOEF], m1
1471     pinsr%1    m3, r2d, 0                       ; 15 14 13 18
1472     mova [r0+16*SIZEOF_DCTCOEF], m3             ; 15 14 13 18
1473     mova       m7, [r1+28*SIZEOF_DCTCOEF]
1474     mova       m0, [r1+32*SIZEOF_DCTCOEF]       ; 35 34 33 32
1475     psrl%4     m5, %5*3                         ; XX XX XX 19
1476     pshuf%1    m1, m2, q3321                    ; 27 27 26 25
1477     punpckl%2  m5, m0                           ; 33 XX 32 19
1478     psrl%4     m2, %5*3                         ; XX XX XX 27
1479     punpckl%2  m5, m1                           ; 26 32 25 19
1480     mova [r0+32*SIZEOF_DCTCOEF], m7
1481     mova [r0+20*SIZEOF_DCTCOEF], m5             ; 26 32 25 19
1482     mova       m7, [r1+36*SIZEOF_DCTCOEF]
1483     mova       m1, [r1+40*SIZEOF_DCTCOEF]       ; 43 42 41 40
1484     pshuf%1    m3, m0, q3321                    ; 35 35 34 33
1485     punpckl%2  m2, m1                           ; 41 XX 40 27
1486     mova [r0+40*SIZEOF_DCTCOEF], m7
1487     punpckl%2  m2, m3                           ; 34 40 33 27
1488     mova [r0+28*SIZEOF_DCTCOEF], m2
1489     mova       m7, [r1+44*SIZEOF_DCTCOEF]       ; 47 46 45 44
1490     mova       m2, [r1+48*SIZEOF_DCTCOEF]       ; 51 50 49 48
1491     psrl%4     m0, %5*3                         ; XX XX XX 35
1492     punpckl%2  m0, m2                           ; 49 XX 48 35
1493     pshuf%1    m3, m1, q3321                    ; 43 43 42 41
1494     punpckl%2  m0, m3                           ; 42 48 41 35
1495     mova [r0+36*SIZEOF_DCTCOEF], m0
1496     pextr%1     r2d, m2, 3                      ; 51
1497     psrl%4      m1, %5*3                        ; XX XX XX 43
1498     punpckl%2   m1, m7                          ; 45 XX 44 43
1499     psrl%4      m2, %5                          ; XX 51 50 49
1500     punpckl%2   m1, m2                          ; 50 44 49 43
1501     pshuf%1     m1, m1, q2310                   ; 44 50 49 43
1502     mova [r0+44*SIZEOF_DCTCOEF], m1
1503     psrl%4      m7, %5                          ; XX 47 46 45
1504     pinsr%1     m7, r2d, 3                      ; 51 47 46 45
1505     mova [r0+48*SIZEOF_DCTCOEF], m7
1506     mova        m0, [r1+56*SIZEOF_DCTCOEF]      ; 59 58 57 56
1507     mova        m1, [r1+52*SIZEOF_DCTCOEF]      ; 55 54 53 52
1508     mova        m7, [r1+60*SIZEOF_DCTCOEF]
1509     punpckl%3   m2, m0, m1                      ; 53 52 57 56
1510     punpckh%3   m1, m0                          ; 59 58 55 54
1511     mova [r0+52*SIZEOF_DCTCOEF], m2
1512     mova [r0+56*SIZEOF_DCTCOEF], m1
1513     mova [r0+60*SIZEOF_DCTCOEF], m7
1514     RET
1515 %endmacro
1516 %if HIGH_BIT_DEPTH
1517 INIT_XMM sse4
1518 SCAN_8x8 d, dq, qdq, dq, 4
1519 INIT_XMM avx
1520 SCAN_8x8 d, dq, qdq, dq, 4
1521 %else
1522 INIT_MMX mmx2
1523 SCAN_8x8 w, wd, dq , q , 16
1524 %endif
1525
1526 ;-----------------------------------------------------------------------------
1527 ; void zigzag_sub_4x4_frame( int16_t level[16], const uint8_t *src, uint8_t *dst )
1528 ;-----------------------------------------------------------------------------
1529 %macro ZIGZAG_SUB_4x4 2
1530 %ifidn %1, ac
1531 cglobal zigzag_sub_4x4%1_%2, 4,4,8
1532 %else
1533 cglobal zigzag_sub_4x4%1_%2, 3,3,8
1534 %endif
1535     movd      m0, [r1+0*FENC_STRIDE]
1536     movd      m1, [r1+1*FENC_STRIDE]
1537     movd      m2, [r1+2*FENC_STRIDE]
1538     movd      m3, [r1+3*FENC_STRIDE]
1539     movd      m4, [r2+0*FDEC_STRIDE]
1540     movd      m5, [r2+1*FDEC_STRIDE]
1541     movd      m6, [r2+2*FDEC_STRIDE]
1542     movd      m7, [r2+3*FDEC_STRIDE]
1543     movd [r2+0*FDEC_STRIDE], m0
1544     movd [r2+1*FDEC_STRIDE], m1
1545     movd [r2+2*FDEC_STRIDE], m2
1546     movd [r2+3*FDEC_STRIDE], m3
1547     punpckldq  m0, m1
1548     punpckldq  m2, m3
1549     punpckldq  m4, m5
1550     punpckldq  m6, m7
1551     punpcklqdq m0, m2
1552     punpcklqdq m4, m6
1553     mova      m7, [pb_sub4%2]
1554     pshufb    m0, m7
1555     pshufb    m4, m7
1556     mova      m7, [hsub_mul]
1557     punpckhbw m1, m0, m4
1558     punpcklbw m0, m4
1559     pmaddubsw m1, m7
1560     pmaddubsw m0, m7
1561 %ifidn %1, ac
1562     movd     r2d, m0
1563     pand      m0, [pb_subacmask]
1564 %endif
1565     mova [r0+ 0], m0
1566     por       m0, m1
1567     pxor      m2, m2
1568     mova [r0+16], m1
1569     pcmpeqb   m0, m2
1570     pmovmskb eax, m0
1571 %ifidn %1, ac
1572     mov     [r3], r2w
1573 %endif
1574     sub      eax, 0xffff
1575     shr      eax, 31
1576     RET
1577 %endmacro
1578
1579 %if HIGH_BIT_DEPTH == 0
1580 INIT_XMM ssse3
1581 ZIGZAG_SUB_4x4   , frame
1582 ZIGZAG_SUB_4x4 ac, frame
1583 ZIGZAG_SUB_4x4   , field
1584 ZIGZAG_SUB_4x4 ac, field
1585 INIT_XMM avx
1586 ZIGZAG_SUB_4x4   , frame
1587 ZIGZAG_SUB_4x4 ac, frame
1588 ZIGZAG_SUB_4x4   , field
1589 ZIGZAG_SUB_4x4 ac, field
1590 %endif ; !HIGH_BIT_DEPTH
1591
1592 %if HIGH_BIT_DEPTH == 0
1593 INIT_XMM xop
1594 cglobal zigzag_scan_8x8_field, 2,3,7
1595     lea        r2, [pb_scan8field1]
1596     %define off(m) (r2+m-pb_scan8field1)
1597     mova       m0, [r1+  0]
1598     mova       m1, [r1+ 16]
1599     vpperm     m5, m0, m1, [off(pb_scan8field1)]
1600     mova [r0+  0], m5
1601     vpperm     m0, m0, m1, [off(pb_scan8field2a)]
1602     mova       m2, [r1+ 32]
1603     mova       m3, [r1+ 48]
1604     vpperm     m5, m2, m3, [off(pb_scan8field2b)]
1605     por        m5, m0
1606     mova [r0+ 16], m5
1607     mova       m4, [off(pb_scan8field3b)]
1608     vpperm     m1, m1, m2, [off(pb_scan8field3a)]
1609     mova       m0, [r1+ 64]
1610     vpperm     m5, m3, m0, m4
1611     por        m5, m1
1612     mova [r0+ 32], m5
1613     ; 4b, 5b are the same as pb_scan8field3b.
1614     ; 5a is the same as pb_scan8field4a.
1615     mova       m5, [off(pb_scan8field4a)]
1616     vpperm     m2, m2, m3, m5
1617     mova       m1, [r1+ 80]
1618     vpperm     m6, m0, m1, m4
1619     por        m6, m2
1620     mova [r0+ 48], m6
1621     vpperm     m3, m3, m0, m5
1622     mova       m2, [r1+ 96]
1623     vpperm     m5, m1, m2, m4
1624     por        m5, m3
1625     mova [r0+ 64], m5
1626     vpperm     m5, m0, m1, [off(pb_scan8field6)]
1627     mova [r0+ 80], m5
1628     vpperm     m5, m1, m2, [off(pb_scan8field7)]
1629     mov       r2d, [r1+ 98]
1630     mov  [r0+ 90], r2d
1631     mova [r0+ 96], m5
1632     mova       m3, [r1+112]
1633     movd [r0+104], m3
1634     mov       r2d, [r1+108]
1635     mova [r0+112], m3
1636     mov  [r0+112], r2d
1637     %undef off
1638     RET
1639
1640 cglobal zigzag_scan_8x8_frame, 2,3,8
1641     lea        r2, [pb_scan8frame1]
1642     %define off(m) (r2+m-pb_scan8frame1)
1643     mova       m7, [r1+ 16]
1644     mova       m3, [r1+ 32]
1645     vpperm     m7, m7, m3, [off(pb_scan8framet1)] ;  8  9 14 15 16 17 21 22
1646     mova       m2, [r1+ 48]
1647     vpperm     m0, m3, m2, [off(pb_scan8framet2)] ; 18 19 20 23 25 31 26 30
1648     mova       m1, [r1+ 80]
1649     mova       m4, [r1+ 64]
1650     vpperm     m3, m4, m1, [off(pb_scan8framet3)] ; 32 33 37 38 40 43 44 45
1651     vpperm     m6, m0, m3, [off(pb_scan8framet4)] ; 18 23 25 31 32 38 40 45
1652     vpperm     m5, m0, m3, [off(pb_scan8framet5)] ; 19 20 26 30 33 37 43 44
1653     vpperm     m3, m2, m4, [off(pb_scan8framet6)] ; 24 27 28 29 34 35 36 39
1654     mova       m4, [r1+ 96]
1655     vpperm     m4, m1, m4, [off(pb_scan8framet7)] ; 41 42 46 47 48 49 54 55
1656     mova       m1, [r1+  0]
1657     vpperm     m2, m1, m3, [off(pb_scan8framet8)] ;  0  1  2  7 24 28 29 36
1658     vpperm     m1, m2, m7, [off(pb_scan8frame1)]  ;  0  8  1  2  9 16 24 17
1659     mova [r0+  0], m1
1660     movh       m0, [r1+  6]
1661     movhps     m0, [r1+ 20]                       ;  3  4  5  6 10 11 12 13
1662     vpperm     m1, m0, m6, [off(pb_scan8frame2)]  ; 10  3  4 11 18 25 32 40
1663     mova [r0+ 16], m1
1664     vpperm     m1, m0, m5, [off(pb_scan8frame3)]  ; 33 26 19 12  5  6 13 20
1665     mova [r0+ 32], m1
1666     vpperm     m1, m2, m7, [off(pb_scan8frame5)]  ; 28 21 14  7 15 22 29 36
1667     mova [r0+ 64], m1
1668     movh       m0, [r1+100]
1669     movhps     m0, [r1+114]                       ; 50 51 52 53 57 58 59 60
1670     vpperm     m1, m5, m0, [off(pb_scan8frame6)]  ; 43 50 57 58 51 44 37 30
1671     mova [r0+ 80], m1
1672     vpperm     m1, m6, m0, [off(pb_scan8frame7)]  ; 23 31 38 45 52 59 60 53
1673     mova [r0+ 96], m1
1674     mova       m1, [r1+112]
1675     vpperm     m0, m3, m1, [off(pb_scan8framet9)] ; 27 34 35 39 56 61 62 63
1676     vpperm     m1, m0, m4, [off(pb_scan8frame4)]  ; 27 34 41 48 56 49 42 35
1677     mova [r0+ 48], m1
1678     vpperm     m1, m0, m4, [off(pb_scan8frame8)]  ; 46 39 47 54 61 62 55 63
1679     mova [r0+112], m1
1680     %undef off
1681     RET
1682 %endif
1683
1684 ;-----------------------------------------------------------------------------
1685 ; void zigzag_interleave_8x8_cavlc( int16_t *dst, int16_t *src, uint8_t *nnz )
1686 ;-----------------------------------------------------------------------------
1687 %macro INTERLEAVE 2
1688     mova     m0, [r1+(%1*4+ 0)*SIZEOF_PIXEL]
1689     mova     m1, [r1+(%1*4+ 8)*SIZEOF_PIXEL]
1690     mova     m2, [r1+(%1*4+16)*SIZEOF_PIXEL]
1691     mova     m3, [r1+(%1*4+24)*SIZEOF_PIXEL]
1692     TRANSPOSE4x4%2 0,1,2,3,4
1693     mova     [r0+(%1+ 0)*SIZEOF_PIXEL], m0
1694     mova     [r0+(%1+32)*SIZEOF_PIXEL], m1
1695     mova     [r0+(%1+64)*SIZEOF_PIXEL], m2
1696     mova     [r0+(%1+96)*SIZEOF_PIXEL], m3
1697     packsswb m0, m1
1698     ACCUM   por, 6, 2, %1
1699     ACCUM   por, 7, 3, %1
1700     ACCUM   por, 5, 0, %1
1701 %endmacro
1702
1703 %macro ZIGZAG_8x8_CAVLC 1
1704 cglobal zigzag_interleave_8x8_cavlc, 3,3,8
1705     INTERLEAVE  0, %1
1706     INTERLEAVE  8, %1
1707     INTERLEAVE 16, %1
1708     INTERLEAVE 24, %1
1709     packsswb   m6, m7
1710     packsswb   m5, m6
1711     packsswb   m5, m5
1712     pxor       m0, m0
1713 %if HIGH_BIT_DEPTH
1714     packsswb   m5, m5
1715 %endif
1716     pcmpeqb    m5, m0
1717     paddb      m5, [pb_1]
1718     movd      r0d, m5
1719     mov    [r2+0], r0w
1720     shr       r0d, 16
1721     mov    [r2+8], r0w
1722     RET
1723 %endmacro
1724
1725 %if HIGH_BIT_DEPTH
1726 INIT_XMM sse2
1727 ZIGZAG_8x8_CAVLC D
1728 INIT_XMM avx
1729 ZIGZAG_8x8_CAVLC D
1730 %else
1731 INIT_MMX mmx
1732 ZIGZAG_8x8_CAVLC W
1733 %endif
1734
1735 %macro INTERLEAVE_XMM 1
1736     mova   m0, [r1+%1*4+ 0]
1737     mova   m1, [r1+%1*4+16]
1738     mova   m4, [r1+%1*4+32]
1739     mova   m5, [r1+%1*4+48]
1740     SBUTTERFLY wd, 0, 1, 6
1741     SBUTTERFLY wd, 4, 5, 7
1742     SBUTTERFLY wd, 0, 1, 6
1743     SBUTTERFLY wd, 4, 5, 7
1744     movh   [r0+%1+  0], m0
1745     movhps [r0+%1+ 32], m0
1746     movh   [r0+%1+ 64], m1
1747     movhps [r0+%1+ 96], m1
1748     movh   [r0+%1+  8], m4
1749     movhps [r0+%1+ 40], m4
1750     movh   [r0+%1+ 72], m5
1751     movhps [r0+%1+104], m5
1752     ACCUM por, 2, 0, %1
1753     ACCUM por, 3, 1, %1
1754     por    m2, m4
1755     por    m3, m5
1756 %endmacro
1757
1758 %if HIGH_BIT_DEPTH == 0
1759 %macro ZIGZAG_8x8_CAVLC 0
1760 cglobal zigzag_interleave_8x8_cavlc, 3,3,8
1761     INTERLEAVE_XMM  0
1762     INTERLEAVE_XMM 16
1763     packsswb m2, m3
1764     pxor     m5, m5
1765     packsswb m2, m2
1766     packsswb m2, m2
1767     pcmpeqb  m5, m2
1768     paddb    m5, [pb_1]
1769     movd    r0d, m5
1770     mov  [r2+0], r0w
1771     shr     r0d, 16
1772     mov  [r2+8], r0w
1773     RET
1774 %endmacro
1775
1776 INIT_XMM sse2
1777 ZIGZAG_8x8_CAVLC
1778 INIT_XMM avx
1779 ZIGZAG_8x8_CAVLC
1780
1781 INIT_YMM avx2
1782 cglobal zigzag_interleave_8x8_cavlc, 3,3,6
1783     mova   m0, [r1+ 0]
1784     mova   m1, [r1+32]
1785     mova   m2, [r1+64]
1786     mova   m3, [r1+96]
1787     mova   m5, [deinterleave_shufd]
1788     SBUTTERFLY wd, 0, 1, 4
1789     SBUTTERFLY wd, 2, 3, 4
1790     SBUTTERFLY wd, 0, 1, 4
1791     SBUTTERFLY wd, 2, 3, 4
1792     vpermd m0, m5, m0
1793     vpermd m1, m5, m1
1794     vpermd m2, m5, m2
1795     vpermd m3, m5, m3
1796     mova [r0+  0], xm0
1797     mova [r0+ 16], xm2
1798     vextracti128 [r0+ 32], m0, 1
1799     vextracti128 [r0+ 48], m2, 1
1800     mova [r0+ 64], xm1
1801     mova [r0+ 80], xm3
1802     vextracti128 [r0+ 96], m1, 1
1803     vextracti128 [r0+112], m3, 1
1804
1805     packsswb m0, m2          ; nnz0, nnz1
1806     packsswb m1, m3          ; nnz2, nnz3
1807     packsswb m0, m1          ; {nnz0,nnz2}, {nnz1,nnz3}
1808     vpermq   m0, m0, q3120   ; {nnz0,nnz1}, {nnz2,nnz3}
1809     pxor     m5, m5
1810     pcmpeqq  m0, m5
1811     pmovmskb r0d, m0
1812     not     r0d
1813     and     r0d, 0x01010101
1814     mov  [r2+0], r0w
1815     shr     r0d, 16
1816     mov  [r2+8], r0w
1817     RET
1818 %endif ; !HIGH_BIT_DEPTH