git.sesse.net Git - ffmpeg/blob - libavcodec/x86/fft.asm

   1 ;******************************************************************************
   2 ;* FFT transform with SSE/3DNow optimizations
   3 ;* Copyright (c) 2008 Loren Merritt
   4 ;* Copyright (c) 2011 Vitor Sessak
   5 ;*
   6 ;* This algorithm (though not any of the implementation details) is
   7 ;* based on libdjbfft by D. J. Bernstein.
   8 ;*
   9 ;* This file is part of FFmpeg.
  10 ;*
  11 ;* FFmpeg is free software; you can redistribute it and/or
  12 ;* modify it under the terms of the GNU Lesser General Public
  13 ;* License as published by the Free Software Foundation; either
  14 ;* version 2.1 of the License, or (at your option) any later version.
  15 ;*
  16 ;* FFmpeg is distributed in the hope that it will be useful,
  17 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  18 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  19 ;* Lesser General Public License for more details.
  20 ;*
  21 ;* You should have received a copy of the GNU Lesser General Public
  22 ;* License along with FFmpeg; if not, write to the Free Software
  23 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  24 ;******************************************************************************
  25
  26 ; These functions are not individually interchangeable with the C versions.
  27 ; While C takes arrays of FFTComplex, SSE/3DNow leave intermediate results
  28 ; in blocks as conventient to the vector size.
  29 ; i.e. {4x real, 4x imaginary, 4x real, ...} (or 2x respectively)
  30
  31 %include "libavutil/x86/x86inc.asm"
  32 %include "libavutil/x86/x86util.asm"
  33
  34 %if ARCH_X86_64
  35 %define pointer resq
  36 %else
  37 %define pointer resd
  38 %endif
  39
  40 SECTION_RODATA
  41
  42 struc FFTContext
  43     .nbits:    resd 1
  44     .reverse:  resd 1
  45     .revtab:   pointer 1
  46     .tmpbuf:   pointer 1
  47     .mdctsize: resd 1
  48     .mdctbits: resd 1
  49     .tcos:     pointer 1
  50     .tsin:     pointer 1
  51     .fftperm:  pointer 1
  52     .fftcalc:  pointer 1
  53     .imdctcalc:pointer 1
  54     .imdcthalf:pointer 1
  55 endstruc
  56
  57 %define M_SQRT1_2 0.70710678118654752440
  58 %define M_COS_PI_1_8 0.923879532511287
  59 %define M_COS_PI_3_8 0.38268343236509
  60
  61 align 32
  62 ps_cos16_1: dd 1.0, M_COS_PI_1_8, M_SQRT1_2, M_COS_PI_3_8, 1.0, M_COS_PI_1_8, M_SQRT1_2, M_COS_PI_3_8
  63 ps_cos16_2: dd 0, M_COS_PI_3_8, M_SQRT1_2, M_COS_PI_1_8, 0, -M_COS_PI_3_8, -M_SQRT1_2, -M_COS_PI_1_8
  64
  65 ps_root2: times 8 dd M_SQRT1_2
  66 ps_root2mppm: dd -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, -M_SQRT1_2, -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, -M_SQRT1_2
  67 ps_p1p1m1p1: dd 0, 0, 1<<31, 0, 0, 0, 1<<31, 0
  68
  69 perm1: dd 0x00, 0x02, 0x03, 0x01, 0x03, 0x00, 0x02, 0x01
  70 perm2: dd 0x00, 0x01, 0x02, 0x03, 0x01, 0x00, 0x02, 0x03
  71 ps_p1p1m1p1root2: dd 1.0, 1.0, -1.0, 1.0, M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, M_SQRT1_2
  72 ps_m1m1p1m1p1m1m1m1: dd 1<<31, 1<<31, 0, 1<<31, 0, 1<<31, 1<<31, 1<<31
  73 ps_m1m1m1m1: times 4 dd 1<<31
  74 ps_m1p1: dd 1<<31, 0
  75
  76 %assign i 16
  77 %rep 13
  78 cextern cos_ %+ i
  79 %assign i i<<1
  80 %endrep
  81
  82 %if ARCH_X86_64
  83     %define pointer dq
  84 %else
  85     %define pointer dd
  86 %endif
  87
  88 %macro IF0 1+
  89 %endmacro
  90 %macro IF1 1+
  91     %1
  92 %endmacro
  93
  94 SECTION_TEXT
  95
  96 %macro T2_3DNOW 4 ; z0, z1, mem0, mem1
  97     mova     %1, %3
  98     mova     %2, %1
  99     pfadd    %1, %4
 100     pfsub    %2, %4
 101 %endmacro
 102
 103 %macro T4_3DNOW 6 ; z0, z1, z2, z3, tmp0, tmp1
 104     mova     %5, %3
 105     pfsub    %3, %4
 106     pfadd    %5, %4 ; {t6,t5}
 107     pxor     %3, [ps_m1p1] ; {t8,t7}
 108     mova     %6, %1
 109     PSWAPD   %3, %3
 110     pfadd    %1, %5 ; {r0,i0}
 111     pfsub    %6, %5 ; {r2,i2}
 112     mova     %4, %2
 113     pfadd    %2, %3 ; {r1,i1}
 114     pfsub    %4, %3 ; {r3,i3}
 115     SWAP     %3, %6
 116 %endmacro
 117
 118 ;  in: %1 = {r0,i0,r2,i2,r4,i4,r6,i6}
 119 ;      %2 = {r1,i1,r3,i3,r5,i5,r7,i7}
 120 ;      %3, %4, %5 tmp
 121 ; out: %1 = {r0,r1,r2,r3,i0,i1,i2,i3}
 122 ;      %2 = {r4,r5,r6,r7,i4,i5,i6,i7}
 123 %macro T8_AVX 5
 124     vsubps     %5, %1, %2       ; v  = %1 - %2
 125     vaddps     %3, %1, %2       ; w  = %1 + %2
 126     vmulps     %2, %5, [ps_p1p1m1p1root2]  ; v *= vals1
 127     vpermilps  %2, %2, [perm1]
 128     vblendps   %1, %2, %3, 0x33 ; q = {w1,w2,v4,v2,w5,w6,v7,v6}
 129     vshufps    %5, %3, %2, 0x4e ; r = {w3,w4,v1,v3,w7,w8,v8,v5}
 130     vsubps     %4, %5, %1       ; s = r - q
 131     vaddps     %1, %5, %1       ; u = r + q
 132     vpermilps  %1, %1, [perm2]  ; k  = {u1,u2,u3,u4,u6,u5,u7,u8}
 133     vshufps    %5, %4, %1, 0xbb
 134     vshufps    %3, %4, %1, 0xee
 135     vperm2f128 %3, %3, %5, 0x13
 136     vxorps     %4, %4, [ps_m1m1p1m1p1m1m1m1]  ; s *= {1,1,-1,-1,1,-1,-1,-1}
 137     vshufps    %2, %1, %4, 0xdd
 138     vshufps    %1, %1, %4, 0x88
 139     vperm2f128 %4, %2, %1, 0x02 ; v  = {k1,k3,s1,s3,k2,k4,s2,s4}
 140     vperm2f128 %1, %1, %2, 0x13 ; w  = {k6,k8,s6,s8,k5,k7,s5,s7}
 141     vsubps     %5, %1, %3
 142     vblendps   %1, %5, %1, 0x55 ; w -= {0,s7,0,k7,0,s8,0,k8}
 143     vsubps     %2, %4, %1       ; %2 = v - w
 144     vaddps     %1, %4, %1       ; %1 = v + w
 145 %endmacro
 146
 147 ; In SSE mode do one fft4 transforms
 148 ; in:  %1={r0,i0,r2,i2} %2={r1,i1,r3,i3}
 149 ; out: %1={r0,r1,r2,r3} %2={i0,i1,i2,i3}
 150 ;
 151 ; In AVX mode do two fft4 transforms
 152 ; in:  %1={r0,i0,r2,i2,r4,i4,r6,i6} %2={r1,i1,r3,i3,r5,i5,r7,i7}
 153 ; out: %1={r0,r1,r2,r3,r4,r5,r6,r7} %2={i0,i1,i2,i3,i4,i5,i6,i7}
 154 %macro T4_SSE 3
 155     subps    %3, %1, %2       ; {t3,t4,-t8,t7}
 156     addps    %1, %1, %2       ; {t1,t2,t6,t5}
 157     xorps    %3, %3, [ps_p1p1m1p1]
 158     shufps   %2, %1, %3, 0xbe ; {t6,t5,t7,t8}
 159     shufps   %1, %1, %3, 0x44 ; {t1,t2,t3,t4}
 160     subps    %3, %1, %2       ; {r2,i2,r3,i3}
 161     addps    %1, %1, %2       ; {r0,i0,r1,i1}
 162     shufps   %2, %1, %3, 0xdd ; {i0,i1,i2,i3}
 163     shufps   %1, %1, %3, 0x88 ; {r0,r1,r2,r3}
 164 %endmacro
 165
 166 ; In SSE mode do one FFT8
 167 ; in:  %1={r0,r1,r2,r3} %2={i0,i1,i2,i3} %3={r4,i4,r6,i6} %4={r5,i5,r7,i7}
 168 ; out: %1={r0,r1,r2,r3} %2={i0,i1,i2,i3} %1={r4,r5,r6,r7} %2={i4,i5,i6,i7}
 169 ;
 170 ; In AVX mode do two FFT8
 171 ; in:  %1={r0,i0,r2,i2,r8, i8, r10,i10} %2={r1,i1,r3,i3,r9, i9, r11,i11}
 172 ;      %3={r4,i4,r6,i6,r12,i12,r14,i14} %4={r5,i5,r7,i7,r13,i13,r15,i15}
 173 ; out: %1={r0,r1,r2,r3,r8, r9, r10,r11} %2={i0,i1,i2,i3,i8, i9, i10,i11}
 174 ;      %3={r4,r5,r6,r7,r12,r13,r14,r15} %4={i4,i5,i6,i7,i12,i13,i14,i15}
 175 %macro T8_SSE 6
 176     addps    %6, %3, %4       ; {t1,t2,t3,t4}
 177     subps    %3, %3, %4       ; {r5,i5,r7,i7}
 178     shufps   %4, %3, %3, 0xb1 ; {i5,r5,i7,r7}
 179     mulps    %3, %3, [ps_root2mppm] ; {-r5,i5,r7,-i7}
 180     mulps    %4, %4, [ps_root2]
 181     addps    %3, %3, %4       ; {t8,t7,ta,t9}
 182     shufps   %4, %6, %3, 0x9c ; {t1,t4,t7,ta}
 183     shufps   %6, %6, %3, 0x36 ; {t3,t2,t9,t8}
 184     subps    %3, %6, %4       ; {t6,t5,tc,tb}
 185     addps    %6, %6, %4       ; {t1,t2,t9,ta}
 186     shufps   %5, %6, %3, 0x8d ; {t2,ta,t6,tc}
 187     shufps   %6, %6, %3, 0xd8 ; {t1,t9,t5,tb}
 188     subps    %3, %1, %6       ; {r4,r5,r6,r7}
 189     addps    %1, %1, %6       ; {r0,r1,r2,r3}
 190     subps    %4, %2, %5       ; {i4,i5,i6,i7}
 191     addps    %2, %2, %5       ; {i0,i1,i2,i3}
 192 %endmacro
 193
 194 ; scheduled for cpu-bound sizes
 195 %macro PASS_SMALL 3 ; (to load m4-m7), wre, wim
 196 IF%1 mova    m4, Z(4)
 197 IF%1 mova    m5, Z(5)
 198     mova     m0, %2 ; wre
 199     mova     m1, %3 ; wim
 200     mulps    m2, m4, m0 ; r2*wre
 201 IF%1 mova    m6, Z2(6)
 202     mulps    m3, m5, m1 ; i2*wim
 203 IF%1 mova    m7, Z2(7)
 204     mulps    m4, m4, m1 ; r2*wim
 205     mulps    m5, m5, m0 ; i2*wre
 206     addps    m2, m2, m3 ; r2*wre + i2*wim
 207     mulps    m3, m1, m7 ; i3*wim
 208     subps    m5, m5, m4 ; i2*wre - r2*wim
 209     mulps    m1, m1, m6 ; r3*wim
 210     mulps    m4, m0, m6 ; r3*wre
 211     mulps    m0, m0, m7 ; i3*wre
 212     subps    m4, m4, m3 ; r3*wre - i3*wim
 213     mova     m3, Z(0)
 214     addps    m0, m0, m1 ; i3*wre + r3*wim
 215     subps    m1, m4, m2 ; t3
 216     addps    m4, m4, m2 ; t5
 217     subps    m3, m3, m4 ; r2
 218     addps    m4, m4, Z(0) ; r0
 219     mova     m6, Z(2)
 220     mova   Z(4), m3
 221     mova   Z(0), m4
 222     subps    m3, m5, m0 ; t4
 223     subps    m4, m6, m3 ; r3
 224     addps    m3, m3, m6 ; r1
 225     mova  Z2(6), m4
 226     mova   Z(2), m3
 227     mova     m2, Z(3)
 228     addps    m3, m5, m0 ; t6
 229     subps    m2, m2, m1 ; i3
 230     mova     m7, Z(1)
 231     addps    m1, m1, Z(3) ; i1
 232     mova  Z2(7), m2
 233     mova   Z(3), m1
 234     subps    m4, m7, m3 ; i2
 235     addps    m3, m3, m7 ; i0
 236     mova   Z(5), m4
 237     mova   Z(1), m3
 238 %endmacro
 239
 240 ; scheduled to avoid store->load aliasing
 241 %macro PASS_BIG 1 ; (!interleave)
 242     mova     m4, Z(4) ; r2
 243     mova     m5, Z(5) ; i2
 244     mova     m0, [wq] ; wre
 245     mova     m1, [wq+o1q] ; wim
 246     mulps    m2, m4, m0 ; r2*wre
 247     mova     m6, Z2(6) ; r3
 248     mulps    m3, m5, m1 ; i2*wim
 249     mova     m7, Z2(7) ; i3
 250     mulps    m4, m4, m1 ; r2*wim
 251     mulps    m5, m5, m0 ; i2*wre
 252     addps    m2, m2, m3 ; r2*wre + i2*wim
 253     mulps    m3, m1, m7 ; i3*wim
 254     mulps    m1, m1, m6 ; r3*wim
 255     subps    m5, m5, m4 ; i2*wre - r2*wim
 256     mulps    m4, m0, m6 ; r3*wre
 257     mulps    m0, m0, m7 ; i3*wre
 258     subps    m4, m4, m3 ; r3*wre - i3*wim
 259     mova     m3, Z(0)
 260     addps    m0, m0, m1 ; i3*wre + r3*wim
 261     subps    m1, m4, m2 ; t3
 262     addps    m4, m4, m2 ; t5
 263     subps    m3, m3, m4 ; r2
 264     addps    m4, m4, Z(0) ; r0
 265     mova     m6, Z(2)
 266     mova   Z(4), m3
 267     mova   Z(0), m4
 268     subps    m3, m5, m0 ; t4
 269     subps    m4, m6, m3 ; r3
 270     addps    m3, m3, m6 ; r1
 271 IF%1 mova Z2(6), m4
 272 IF%1 mova  Z(2), m3
 273     mova     m2, Z(3)
 274     addps    m5, m5, m0 ; t6
 275     subps    m2, m2, m1 ; i3
 276     mova     m7, Z(1)
 277     addps    m1, m1, Z(3) ; i1
 278 IF%1 mova Z2(7), m2
 279 IF%1 mova  Z(3), m1
 280     subps    m6, m7, m5 ; i2
 281     addps    m5, m5, m7 ; i0
 282 IF%1 mova  Z(5), m6
 283 IF%1 mova  Z(1), m5
 284 %if %1==0
 285     INTERL m1, m3, m7, Z, 2
 286     INTERL m2, m4, m0, Z2, 6
 287
 288     mova     m1, Z(0)
 289     mova     m2, Z(4)
 290
 291     INTERL m5, m1, m3, Z, 0
 292     INTERL m6, m2, m7, Z, 4
 293 %endif
 294 %endmacro
 295
 296 %macro PUNPCK 3
 297     mova      %3, %1
 298     punpckldq %1, %2
 299     punpckhdq %3, %2
 300 %endmacro
 301
 302 %define Z(x) [r0+mmsize*x]
 303 %define Z2(x) [r0+mmsize*x]
 304 %define ZH(x) [r0+mmsize*x+mmsize/2]
 305
 306 INIT_YMM avx
 307
 308 %if HAVE_AVX_EXTERNAL
 309 align 16
 310 fft8_avx:
 311     mova      m0, Z(0)
 312     mova      m1, Z(1)
 313     T8_AVX    m0, m1, m2, m3, m4
 314     mova      Z(0), m0
 315     mova      Z(1), m1
 316     ret
 317
 318
 319 align 16
 320 fft16_avx:
 321     mova       m2, Z(2)
 322     mova       m3, Z(3)
 323     T4_SSE     m2, m3, m7
 324
 325     mova       m0, Z(0)
 326     mova       m1, Z(1)
 327     T8_AVX     m0, m1, m4, m5, m7
 328
 329     mova       m4, [ps_cos16_1]
 330     mova       m5, [ps_cos16_2]
 331     vmulps     m6, m2, m4
 332     vmulps     m7, m3, m5
 333     vaddps     m7, m7, m6
 334     vmulps     m2, m2, m5
 335     vmulps     m3, m3, m4
 336     vsubps     m3, m3, m2
 337     vblendps   m2, m7, m3, 0xf0
 338     vperm2f128 m3, m7, m3, 0x21
 339     vaddps     m4, m2, m3
 340     vsubps     m2, m3, m2
 341     vperm2f128 m2, m2, m2, 0x01
 342     vsubps     m3, m1, m2
 343     vaddps     m1, m1, m2
 344     vsubps     m5, m0, m4
 345     vaddps     m0, m0, m4
 346     vextractf128   Z(0), m0, 0
 347     vextractf128  ZH(0), m1, 0
 348     vextractf128   Z(1), m0, 1
 349     vextractf128  ZH(1), m1, 1
 350     vextractf128   Z(2), m5, 0
 351     vextractf128  ZH(2), m3, 0
 352     vextractf128   Z(3), m5, 1
 353     vextractf128  ZH(3), m3, 1
 354     ret
 355
 356 align 16
 357 fft32_avx:
 358     call fft16_avx
 359
 360     mova m0, Z(4)
 361     mova m1, Z(5)
 362
 363     T4_SSE      m0, m1, m4
 364
 365     mova m2, Z(6)
 366     mova m3, Z(7)
 367
 368     T8_SSE      m0, m1, m2, m3, m4, m6
 369     ; m0={r0,r1,r2,r3,r8, r9, r10,r11} m1={i0,i1,i2,i3,i8, i9, i10,i11}
 370     ; m2={r4,r5,r6,r7,r12,r13,r14,r15} m3={i4,i5,i6,i7,i12,i13,i14,i15}
 371
 372     vperm2f128  m4, m0, m2, 0x20
 373     vperm2f128  m5, m1, m3, 0x20
 374     vperm2f128  m6, m0, m2, 0x31
 375     vperm2f128  m7, m1, m3, 0x31
 376
 377     PASS_SMALL 0, [cos_32], [cos_32+32]
 378
 379     ret
 380
 381 fft32_interleave_avx:
 382     call fft32_avx
 383     mov r2d, 32
 384 .deint_loop:
 385     mova     m2, Z(0)
 386     mova     m3, Z(1)
 387     vunpcklps      m0, m2, m3
 388     vunpckhps      m1, m2, m3
 389     vextractf128   Z(0), m0, 0
 390     vextractf128  ZH(0), m1, 0
 391     vextractf128   Z(1), m0, 1
 392     vextractf128  ZH(1), m1, 1
 393     add r0, mmsize*2
 394     sub r2d, mmsize/4
 395     jg .deint_loop
 396     ret
 397
 398 %endif
 399
 400 INIT_XMM sse
 401
 402 align 16
 403 fft4_avx:
 404 fft4_sse:
 405     mova     m0, Z(0)
 406     mova     m1, Z(1)
 407     T4_SSE   m0, m1, m2
 408     mova   Z(0), m0
 409     mova   Z(1), m1
 410     ret
 411
 412 align 16
 413 fft8_sse:
 414     mova     m0, Z(0)
 415     mova     m1, Z(1)
 416     T4_SSE   m0, m1, m2
 417     mova     m2, Z(2)
 418     mova     m3, Z(3)
 419     T8_SSE   m0, m1, m2, m3, m4, m5
 420     mova   Z(0), m0
 421     mova   Z(1), m1
 422     mova   Z(2), m2
 423     mova   Z(3), m3
 424     ret
 425
 426 align 16
 427 fft16_sse:
 428     mova     m0, Z(0)
 429     mova     m1, Z(1)
 430     T4_SSE   m0, m1, m2
 431     mova     m2, Z(2)
 432     mova     m3, Z(3)
 433     T8_SSE   m0, m1, m2, m3, m4, m5
 434     mova     m4, Z(4)
 435     mova     m5, Z(5)
 436     mova   Z(0), m0
 437     mova   Z(1), m1
 438     mova   Z(2), m2
 439     mova   Z(3), m3
 440     T4_SSE   m4, m5, m6
 441     mova     m6, Z2(6)
 442     mova     m7, Z2(7)
 443     T4_SSE   m6, m7, m0
 444     PASS_SMALL 0, [cos_16], [cos_16+16]
 445     ret
 446
 447
 448 %macro FFT48_3DNOW 0
 449 align 16
 450 fft4 %+ SUFFIX:
 451     T2_3DNOW m0, m1, Z(0), Z(1)
 452     mova     m2, Z(2)
 453     mova     m3, Z(3)
 454     T4_3DNOW m0, m1, m2, m3, m4, m5
 455     PUNPCK   m0, m1, m4
 456     PUNPCK   m2, m3, m5
 457     mova   Z(0), m0
 458     mova   Z(1), m4
 459     mova   Z(2), m2
 460     mova   Z(3), m5
 461     ret
 462
 463 align 16
 464 fft8 %+ SUFFIX:
 465     T2_3DNOW m0, m1, Z(0), Z(1)
 466     mova     m2, Z(2)
 467     mova     m3, Z(3)
 468     T4_3DNOW m0, m1, m2, m3, m4, m5
 469     mova   Z(0), m0
 470     mova   Z(2), m2
 471     T2_3DNOW m4, m5,  Z(4),  Z(5)
 472     T2_3DNOW m6, m7, Z2(6), Z2(7)
 473     PSWAPD   m0, m5
 474     PSWAPD   m2, m7
 475     pxor     m0, [ps_m1p1]
 476     pxor     m2, [ps_m1p1]
 477     pfsub    m5, m0
 478     pfadd    m7, m2
 479     pfmul    m5, [ps_root2]
 480     pfmul    m7, [ps_root2]
 481     T4_3DNOW m1, m3, m5, m7, m0, m2
 482     mova   Z(5), m5
 483     mova  Z2(7), m7
 484     mova     m0, Z(0)
 485     mova     m2, Z(2)
 486     T4_3DNOW m0, m2, m4, m6, m5, m7
 487     PUNPCK   m0, m1, m5
 488     PUNPCK   m2, m3, m7
 489     mova   Z(0), m0
 490     mova   Z(1), m5
 491     mova   Z(2), m2
 492     mova   Z(3), m7
 493     PUNPCK   m4,  Z(5), m5
 494     PUNPCK   m6, Z2(7), m7
 495     mova   Z(4), m4
 496     mova   Z(5), m5
 497     mova  Z2(6), m6
 498     mova  Z2(7), m7
 499     ret
 500 %endmacro
 501
 502 %if ARCH_X86_32
 503 %macro PSWAPD 2
 504 %if cpuflag(3dnowext)
 505     pswapd %1, %2
 506 %elifidn %1, %2
 507     movd [r0+12], %1
 508     punpckhdq %1, [r0+8]
 509 %else
 510     movq  %1, %2
 511     psrlq %1, 32
 512     punpckldq %1, %2
 513 %endif
 514 %endmacro
 515
 516 INIT_MMX 3dnowext
 517 FFT48_3DNOW
 518
 519 INIT_MMX 3dnow
 520 FFT48_3DNOW
 521 %endif
 522
 523 %define Z(x) [zcq + o1q*(x&6) + mmsize*(x&1)]
 524 %define Z2(x) [zcq + o3q + mmsize*(x&1)]
 525 %define ZH(x) [zcq + o1q*(x&6) + mmsize*(x&1) + mmsize/2]
 526 %define Z2H(x) [zcq + o3q + mmsize*(x&1) + mmsize/2]
 527
 528 %macro DECL_PASS 2+ ; name, payload
 529 align 16
 530 %1:
 531 DEFINE_ARGS zc, w, n, o1, o3
 532     lea o3q, [nq*3]
 533     lea o1q, [nq*8]
 534     shl o3q, 4
 535 .loop:
 536     %2
 537     add zcq, mmsize*2
 538     add  wq, mmsize
 539     sub  nd, mmsize/8
 540     jg .loop
 541     rep ret
 542 %endmacro
 543
 544 %macro FFT_DISPATCH 2; clobbers 5 GPRs, 8 XMMs
 545     lea r2, [dispatch_tab%1]
 546     mov r2, [r2 + (%2q-2)*gprsize]
 547 %ifdef PIC
 548     lea r3, [$$]
 549     add r2, r3
 550 %endif
 551     call r2
 552 %endmacro ; FFT_DISPATCH
 553
 554 INIT_YMM avx
 555
 556 %if HAVE_AVX_EXTERNAL
 557 %macro INTERL_AVX 5
 558     vunpckhps      %3, %2, %1
 559     vunpcklps      %2, %2, %1
 560     vextractf128   %4(%5), %2, 0
 561     vextractf128  %4 %+ H(%5), %3, 0
 562     vextractf128   %4(%5 + 1), %2, 1
 563     vextractf128  %4 %+ H(%5 + 1), %3, 1
 564 %endmacro
 565
 566 %define INTERL INTERL_AVX
 567
 568 DECL_PASS pass_avx, PASS_BIG 1
 569 DECL_PASS pass_interleave_avx, PASS_BIG 0
 570
 571 cglobal fft_calc, 2,5,8
 572     mov     r3d, [r0 + FFTContext.nbits]
 573     mov     r0, r1
 574     mov     r1, r3
 575     FFT_DISPATCH _interleave %+ SUFFIX, r1
 576     REP_RET
 577
 578 %endif
 579
 580 INIT_XMM sse
 581
 582 %macro INTERL_SSE 5
 583     mova     %3, %2
 584     unpcklps %2, %1
 585     unpckhps %3, %1
 586     mova  %4(%5), %2
 587     mova  %4(%5+1), %3
 588 %endmacro
 589
 590 %define INTERL INTERL_SSE
 591
 592 DECL_PASS pass_sse, PASS_BIG 1
 593 DECL_PASS pass_interleave_sse, PASS_BIG 0
 594
 595 %macro FFT_CALC_FUNC 0
 596 cglobal fft_calc, 2,5,8
 597     mov     r3d, [r0 + FFTContext.nbits]
 598     PUSH    r1
 599     PUSH    r3
 600     mov     r0, r1
 601     mov     r1, r3
 602     FFT_DISPATCH _interleave %+ SUFFIX, r1
 603     POP     rcx
 604     POP     r4
 605     cmp     rcx, 3+(mmsize/16)
 606     jg      .end
 607     mov     r2, -1
 608     add     rcx, 3
 609     shl     r2, cl
 610     sub     r4, r2
 611 .loop:
 612 %if mmsize == 8
 613     PSWAPD  m0, [r4 + r2 + 4]
 614     mova [r4 + r2 + 4], m0
 615 %else
 616     movaps   xmm0, [r4 + r2]
 617     movaps   xmm1, xmm0
 618     unpcklps xmm0, [r4 + r2 + 16]
 619     unpckhps xmm1, [r4 + r2 + 16]
 620     movaps   [r4 + r2],      xmm0
 621     movaps   [r4 + r2 + 16], xmm1
 622 %endif
 623     add      r2, mmsize*2
 624     jl       .loop
 625 .end:
 626 %if cpuflag(3dnow)
 627     femms
 628     RET
 629 %else
 630     REP_RET
 631 %endif
 632 %endmacro
 633
 634 %if ARCH_X86_32
 635 INIT_MMX 3dnow
 636 FFT_CALC_FUNC
 637 INIT_MMX 3dnowext
 638 FFT_CALC_FUNC
 639 %endif
 640 INIT_XMM sse
 641 FFT_CALC_FUNC
 642
 643 cglobal fft_permute, 2,7,1
 644     mov     r4,  [r0 + FFTContext.revtab]
 645     mov     r5,  [r0 + FFTContext.tmpbuf]
 646     mov     ecx, [r0 + FFTContext.nbits]
 647     mov     r2, 1
 648     shl     r2, cl
 649     xor     r0, r0
 650 %if ARCH_X86_32
 651     mov     r1, r1m
 652 %endif
 653 .loop:
 654     movaps  xmm0, [r1 + 8*r0]
 655     movzx   r6, word [r4 + 2*r0]
 656     movzx   r3, word [r4 + 2*r0 + 2]
 657     movlps  [r5 + 8*r6], xmm0
 658     movhps  [r5 + 8*r3], xmm0
 659     add     r0, 2
 660     cmp     r0, r2
 661     jl      .loop
 662     shl     r2, 3
 663     add     r1, r2
 664     add     r5, r2
 665     neg     r2
 666 ; nbits >= 2 (FFT4) and sizeof(FFTComplex)=8 => at least 32B
 667 .loopcopy:
 668     movaps  xmm0, [r5 + r2]
 669     movaps  xmm1, [r5 + r2 + 16]
 670     movaps  [r1 + r2], xmm0
 671     movaps  [r1 + r2 + 16], xmm1
 672     add     r2, 32
 673     jl      .loopcopy
 674     REP_RET
 675
 676 %macro IMDCT_CALC_FUNC 0
 677 cglobal imdct_calc, 3,5,3
 678     mov     r3d, [r0 + FFTContext.mdctsize]
 679     mov     r4,  [r0 + FFTContext.imdcthalf]
 680     add     r1,  r3
 681     PUSH    r3
 682     PUSH    r1
 683 %if ARCH_X86_32
 684     push    r2
 685     push    r1
 686     push    r0
 687 %else
 688     sub     rsp, 8
 689 %endif
 690     call    r4
 691 %if ARCH_X86_32
 692     add     esp, 12
 693 %else
 694     add     rsp, 8
 695 %endif
 696     POP     r1
 697     POP     r3
 698     lea     r0, [r1 + 2*r3]
 699     mov     r2, r3
 700     sub     r3, mmsize
 701     neg     r2
 702     mova    m2, [ps_m1m1m1m1]
 703 .loop:
 704 %if mmsize == 8
 705     PSWAPD  m0, [r1 + r3]
 706     PSWAPD  m1, [r0 + r2]
 707     pxor    m0, m2
 708 %else
 709     mova    m0, [r1 + r3]
 710     mova    m1, [r0 + r2]
 711     shufps  m0, m0, 0x1b
 712     shufps  m1, m1, 0x1b
 713     xorps   m0, m2
 714 %endif
 715     mova [r0 + r3], m1
 716     mova [r1 + r2], m0
 717     sub     r3, mmsize
 718     add     r2, mmsize
 719     jl      .loop
 720 %if cpuflag(3dnow)
 721     femms
 722     RET
 723 %else
 724     REP_RET
 725 %endif
 726 %endmacro
 727
 728 %if ARCH_X86_32
 729 INIT_MMX 3dnow
 730 IMDCT_CALC_FUNC
 731 INIT_MMX 3dnowext
 732 IMDCT_CALC_FUNC
 733 %endif
 734
 735 INIT_XMM sse
 736 IMDCT_CALC_FUNC
 737
 738 %if ARCH_X86_32
 739 INIT_MMX 3dnow
 740 %define mulps pfmul
 741 %define addps pfadd
 742 %define subps pfsub
 743 %define unpcklps punpckldq
 744 %define unpckhps punpckhdq
 745 DECL_PASS pass_3dnow, PASS_SMALL 1, [wq], [wq+o1q]
 746 DECL_PASS pass_interleave_3dnow, PASS_BIG 0
 747 %define pass_3dnowext pass_3dnow
 748 %define pass_interleave_3dnowext pass_interleave_3dnow
 749 %endif
 750
 751 %ifdef PIC
 752 %define SECTION_REL - $$
 753 %else
 754 %define SECTION_REL
 755 %endif
 756
 757 %macro DECL_FFT 1-2 ; nbits, suffix
 758 %ifidn %0, 1
 759 %xdefine fullsuffix SUFFIX
 760 %else
 761 %xdefine fullsuffix %2 %+ SUFFIX
 762 %endif
 763 %xdefine list_of_fft fft4 %+ SUFFIX SECTION_REL, fft8 %+ SUFFIX SECTION_REL
 764 %if %1>=5
 765 %xdefine list_of_fft list_of_fft, fft16 %+ SUFFIX SECTION_REL
 766 %endif
 767 %if %1>=6
 768 %xdefine list_of_fft list_of_fft, fft32 %+ fullsuffix SECTION_REL
 769 %endif
 770
 771 %assign n 1<<%1
 772 %rep 17-%1
 773 %assign n2 n/2
 774 %assign n4 n/4
 775 %xdefine list_of_fft list_of_fft, fft %+ n %+ fullsuffix SECTION_REL
 776
 777 align 16
 778 fft %+ n %+ fullsuffix:
 779     call fft %+ n2 %+ SUFFIX
 780     add r0, n*4 - (n&(-2<<%1))
 781     call fft %+ n4 %+ SUFFIX
 782     add r0, n*2 - (n2&(-2<<%1))
 783     call fft %+ n4 %+ SUFFIX
 784     sub r0, n*6 + (n2&(-2<<%1))
 785     lea r1, [cos_ %+ n]
 786     mov r2d, n4/2
 787     jmp pass %+ fullsuffix
 788
 789 %assign n n*2
 790 %endrep
 791 %undef n
 792
 793 align 8
 794 dispatch_tab %+ fullsuffix: pointer list_of_fft
 795 %endmacro ; DECL_FFT
 796
 797 %if HAVE_AVX_EXTERNAL
 798 INIT_YMM avx
 799 DECL_FFT 6
 800 DECL_FFT 6, _interleave
 801 %endif
 802 INIT_XMM sse
 803 DECL_FFT 5
 804 DECL_FFT 5, _interleave
 805 %if ARCH_X86_32
 806 INIT_MMX 3dnow
 807 DECL_FFT 4
 808 DECL_FFT 4, _interleave
 809 INIT_MMX 3dnowext
 810 DECL_FFT 4
 811 DECL_FFT 4, _interleave
 812 %endif
 813
 814 INIT_XMM sse
 815 %undef mulps
 816 %undef addps
 817 %undef subps
 818 %undef unpcklps
 819 %undef unpckhps
 820
 821 %macro PREROTATER 5 ;-2*k, 2*k, input+n4, tcos+n8, tsin+n8
 822 %if mmsize == 8 ; j*2+2-n4, n4-2-j*2, input+n4, tcos+n8, tsin+n8
 823     PSWAPD     m0, [%3+%2*4]
 824     movq       m2, [%3+%1*4-8]
 825     movq       m3, m0
 826     punpckldq  m0, m2
 827     punpckhdq  m2, m3
 828     movd       m1, [%4+%1*2-4] ; tcos[j]
 829     movd       m3, [%4+%2*2]   ; tcos[n4-j-1]
 830     punpckldq  m1, [%5+%1*2-4] ; tsin[j]
 831     punpckldq  m3, [%5+%2*2]   ; tsin[n4-j-1]
 832
 833     mova       m4, m0
 834     PSWAPD     m5, m1
 835     pfmul      m0, m1
 836     pfmul      m4, m5
 837     mova       m6, m2
 838     PSWAPD     m5, m3
 839     pfmul      m2, m3
 840     pfmul      m6, m5
 841 %if cpuflag(3dnowext)
 842     pfpnacc    m0, m4
 843     pfpnacc    m2, m6
 844 %else
 845     SBUTTERFLY dq, 0, 4, 1
 846     SBUTTERFLY dq, 2, 6, 3
 847     pxor       m4, m7
 848     pxor       m6, m7
 849     pfadd      m0, m4
 850     pfadd      m2, m6
 851 %endif
 852 %else
 853     movaps   xmm0, [%3+%2*4]
 854     movaps   xmm1, [%3+%1*4-0x10]
 855     movaps   xmm2, xmm0
 856     shufps   xmm0, xmm1, 0x88
 857     shufps   xmm1, xmm2, 0x77
 858     movlps   xmm4, [%4+%2*2]
 859     movlps   xmm5, [%5+%2*2+0x0]
 860     movhps   xmm4, [%4+%1*2-0x8]
 861     movhps   xmm5, [%5+%1*2-0x8]
 862     movaps   xmm2, xmm0
 863     movaps   xmm3, xmm1
 864     mulps    xmm0, xmm5
 865     mulps    xmm1, xmm4
 866     mulps    xmm2, xmm4
 867     mulps    xmm3, xmm5
 868     subps    xmm1, xmm0
 869     addps    xmm2, xmm3
 870     movaps   xmm0, xmm1
 871     unpcklps xmm1, xmm2
 872     unpckhps xmm0, xmm2
 873 %endif
 874 %endmacro
 875
 876 %macro CMUL 6 ;j, xmm0, xmm1, 3, 4, 5
 877     mulps      m6, %3, [%5+%1]
 878     mulps      m7, %2, [%5+%1]
 879     mulps      %2, %2, [%6+%1]
 880     mulps      %3, %3, [%6+%1]
 881     subps      %2, %2, m6
 882     addps      %3, %3, m7
 883 %endmacro
 884
 885 %macro POSROTATESHUF_AVX 5 ;j, k, z+n8, tcos+n8, tsin+n8
 886 .post:
 887     vmovaps      ymm1,   [%3+%1*2]
 888     vmovaps      ymm0,   [%3+%1*2+0x20]
 889     vmovaps      ymm3,   [%3+%2*2]
 890     vmovaps      ymm2,   [%3+%2*2+0x20]
 891
 892     CMUL         %1, ymm0, ymm1, %3, %4, %5
 893     CMUL         %2, ymm2, ymm3, %3, %4, %5
 894     vshufps      ymm1, ymm1, ymm1, 0x1b
 895     vshufps      ymm3, ymm3, ymm3, 0x1b
 896     vperm2f128   ymm1, ymm1, ymm1, 0x01
 897     vperm2f128   ymm3, ymm3, ymm3, 0x01
 898     vunpcklps    ymm6, ymm2, ymm1
 899     vunpckhps    ymm4, ymm2, ymm1
 900     vunpcklps    ymm7, ymm0, ymm3
 901     vunpckhps    ymm5, ymm0, ymm3
 902
 903     vextractf128 [%3+%1*2],      ymm7, 0
 904     vextractf128 [%3+%1*2+0x10], ymm5, 0
 905     vextractf128 [%3+%1*2+0x20], ymm7, 1
 906     vextractf128 [%3+%1*2+0x30], ymm5, 1
 907
 908     vextractf128 [%3+%2*2],      ymm6, 0
 909     vextractf128 [%3+%2*2+0x10], ymm4, 0
 910     vextractf128 [%3+%2*2+0x20], ymm6, 1
 911     vextractf128 [%3+%2*2+0x30], ymm4, 1
 912     sub      %2,   0x20
 913     add      %1,   0x20
 914     jl       .post
 915 %endmacro
 916
 917 %macro POSROTATESHUF 5 ;j, k, z+n8, tcos+n8, tsin+n8
 918 .post:
 919     movaps   xmm1, [%3+%1*2]
 920     movaps   xmm0, [%3+%1*2+0x10]
 921     CMUL     %1,   xmm0, xmm1, %3, %4, %5
 922     movaps   xmm5, [%3+%2*2]
 923     movaps   xmm4, [%3+%2*2+0x10]
 924     CMUL     %2,   xmm4, xmm5, %3, %4, %5
 925     shufps   xmm1, xmm1, 0x1b
 926     shufps   xmm5, xmm5, 0x1b
 927     movaps   xmm6, xmm4
 928     unpckhps xmm4, xmm1
 929     unpcklps xmm6, xmm1
 930     movaps   xmm2, xmm0
 931     unpcklps xmm0, xmm5
 932     unpckhps xmm2, xmm5
 933     movaps   [%3+%2*2],      xmm6
 934     movaps   [%3+%2*2+0x10], xmm4
 935     movaps   [%3+%1*2],      xmm0
 936     movaps   [%3+%1*2+0x10], xmm2
 937     sub      %2,   0x10
 938     add      %1,   0x10
 939     jl       .post
 940 %endmacro
 941
 942 %macro CMUL_3DNOW 6
 943     mova       m6, [%1+%2*2]
 944     mova       %3, [%1+%2*2+8]
 945     mova       %4, m6
 946     mova       m7, %3
 947     pfmul      m6, [%5+%2]
 948     pfmul      %3, [%6+%2]
 949     pfmul      %4, [%6+%2]
 950     pfmul      m7, [%5+%2]
 951     pfsub      %3, m6
 952     pfadd      %4, m7
 953 %endmacro
 954
 955 %macro POSROTATESHUF_3DNOW 5 ;j, k, z+n8, tcos+n8, tsin+n8
 956 .post:
 957     CMUL_3DNOW %3, %1, m0, m1, %4, %5
 958     CMUL_3DNOW %3, %2, m2, m3, %4, %5
 959     movd  [%3+%1*2+ 0], m0
 960     movd  [%3+%2*2+12], m1
 961     movd  [%3+%2*2+ 0], m2
 962     movd  [%3+%1*2+12], m3
 963     psrlq      m0, 32
 964     psrlq      m1, 32
 965     psrlq      m2, 32
 966     psrlq      m3, 32
 967     movd  [%3+%1*2+ 8], m0
 968     movd  [%3+%2*2+ 4], m1
 969     movd  [%3+%2*2+ 8], m2
 970     movd  [%3+%1*2+ 4], m3
 971     sub        %2, 8
 972     add        %1, 8
 973     jl         .post
 974 %endmacro
 975
 976 %macro DECL_IMDCT 1
 977 cglobal imdct_half, 3,12,8; FFTContext *s, FFTSample *output, const FFTSample *input
 978 %if ARCH_X86_64
 979 %define rrevtab r7
 980 %define rtcos   r8
 981 %define rtsin   r9
 982 %else
 983 %define rrevtab r6
 984 %define rtsin   r6
 985 %define rtcos   r5
 986 %endif
 987     mov   r3d, [r0+FFTContext.mdctsize]
 988     add   r2, r3
 989     shr   r3, 1
 990     mov   rtcos, [r0+FFTContext.tcos]
 991     mov   rtsin, [r0+FFTContext.tsin]
 992     add   rtcos, r3
 993     add   rtsin, r3
 994 %if ARCH_X86_64 == 0
 995     push  rtcos
 996     push  rtsin
 997 %endif
 998     shr   r3, 1
 999     mov   rrevtab, [r0+FFTContext.revtab]
1000     add   rrevtab, r3
1001 %if ARCH_X86_64 == 0
1002     push  rrevtab
1003 %endif
1004
1005 %if mmsize == 8
1006     sub   r3, 2
1007 %else
1008     sub   r3, 4
1009 %endif
1010 %if ARCH_X86_64 || mmsize == 8
1011     xor   r4, r4
1012     sub   r4, r3
1013 %endif
1014 %if notcpuflag(3dnowext) && mmsize == 8
1015     movd  m7, [ps_m1m1m1m1]
1016 %endif
1017 .pre:
1018 %if ARCH_X86_64 == 0
1019 ;unspill
1020 %if mmsize != 8
1021     xor   r4, r4
1022     sub   r4, r3
1023 %endif
1024     mov   rtcos, [esp+8]
1025     mov   rtsin, [esp+4]
1026 %endif
1027
1028     PREROTATER r4, r3, r2, rtcos, rtsin
1029 %if mmsize == 8
1030     mov    r6, [esp]                ; rrevtab = ptr+n8
1031     movzx  r5,  word [rrevtab+r4-2] ; rrevtab[j]
1032     movzx  r6,  word [rrevtab+r3]   ; rrevtab[n4-j-1]
1033     mova [r1+r5*8], m0
1034     mova [r1+r6*8], m2
1035     add    r4, 2
1036     sub    r3, 2
1037 %else
1038 %if ARCH_X86_64
1039     movzx  r5,  word [rrevtab+r4-4]
1040     movzx  r6,  word [rrevtab+r4-2]
1041     movzx  r10, word [rrevtab+r3]
1042     movzx  r11, word [rrevtab+r3+2]
1043     movlps [r1+r5 *8], xmm0
1044     movhps [r1+r6 *8], xmm0
1045     movlps [r1+r10*8], xmm1
1046     movhps [r1+r11*8], xmm1
1047     add    r4, 4
1048 %else
1049     mov    r6, [esp]
1050     movzx  r5, word [r6+r4-4]
1051     movzx  r4, word [r6+r4-2]
1052     movlps [r1+r5*8], xmm0
1053     movhps [r1+r4*8], xmm0
1054     movzx  r5, word [r6+r3]
1055     movzx  r4, word [r6+r3+2]
1056     movlps [r1+r5*8], xmm1
1057     movhps [r1+r4*8], xmm1
1058 %endif
1059     sub    r3, 4
1060 %endif
1061     jns    .pre
1062
1063     mov  r5, r0
1064     mov  r6, r1
1065     mov  r0, r1
1066     mov  r1d, [r5+FFTContext.nbits]
1067
1068     FFT_DISPATCH SUFFIX, r1
1069
1070     mov  r0d, [r5+FFTContext.mdctsize]
1071     add  r6, r0
1072     shr  r0, 1
1073 %if ARCH_X86_64 == 0
1074 %define rtcos r2
1075 %define rtsin r3
1076     mov  rtcos, [esp+8]
1077     mov  rtsin, [esp+4]
1078 %endif
1079     neg  r0
1080     mov  r1, -mmsize
1081     sub  r1, r0
1082     %1 r0, r1, r6, rtcos, rtsin
1083 %if ARCH_X86_64 == 0
1084     add esp, 12
1085 %endif
1086 %if mmsize == 8
1087     femms
1088 %endif
1089     RET
1090 %endmacro
1091
1092 DECL_IMDCT POSROTATESHUF
1093
1094 %if ARCH_X86_32
1095 INIT_MMX 3dnow
1096 DECL_IMDCT POSROTATESHUF_3DNOW
1097
1098 INIT_MMX 3dnowext
1099 DECL_IMDCT POSROTATESHUF_3DNOW
1100 %endif
1101
1102 INIT_YMM avx
1103
1104 %if HAVE_AVX_EXTERNAL
1105 DECL_IMDCT POSROTATESHUF_AVX
1106 %endif