]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/fft.asm
Merge remote-tracking branch 'qatar/master'
[ffmpeg] / libavcodec / x86 / fft.asm
1 ;******************************************************************************
2 ;* FFT transform with SSE/3DNow optimizations
3 ;* Copyright (c) 2008 Loren Merritt
4 ;* Copyright (c) 2011 Vitor Sessak
5 ;*
6 ;* This algorithm (though not any of the implementation details) is
7 ;* based on libdjbfft by D. J. Bernstein.
8 ;*
9 ;* This file is part of FFmpeg.
10 ;*
11 ;* FFmpeg is free software; you can redistribute it and/or
12 ;* modify it under the terms of the GNU Lesser General Public
13 ;* License as published by the Free Software Foundation; either
14 ;* version 2.1 of the License, or (at your option) any later version.
15 ;*
16 ;* FFmpeg is distributed in the hope that it will be useful,
17 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
18 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
19 ;* Lesser General Public License for more details.
20 ;*
21 ;* You should have received a copy of the GNU Lesser General Public
22 ;* License along with FFmpeg; if not, write to the Free Software
23 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
24 ;******************************************************************************
25
26 ; These functions are not individually interchangeable with the C versions.
27 ; While C takes arrays of FFTComplex, SSE/3DNow leave intermediate results
28 ; in blocks as conventient to the vector size.
29 ; i.e. {4x real, 4x imaginary, 4x real, ...} (or 2x respectively)
30
31 %include "libavutil/x86/x86inc.asm"
32 %include "libavutil/x86/x86util.asm"
33
34 %if ARCH_X86_64
35 %define pointer resq
36 %else
37 %define pointer resd
38 %endif
39
40 SECTION_RODATA
41
42 struc FFTContext
43     .nbits:    resd 1
44     .reverse:  resd 1
45     .revtab:   pointer 1
46     .tmpbuf:   pointer 1
47     .mdctsize: resd 1
48     .mdctbits: resd 1
49     .tcos:     pointer 1
50     .tsin:     pointer 1
51     .fftperm:  pointer 1
52     .fftcalc:  pointer 1
53     .imdctcalc:pointer 1
54     .imdcthalf:pointer 1
55 endstruc
56
57 %define M_SQRT1_2 0.70710678118654752440
58 %define M_COS_PI_1_8 0.923879532511287
59 %define M_COS_PI_3_8 0.38268343236509
60
61 align 32
62 ps_cos16_1: dd 1.0, M_COS_PI_1_8, M_SQRT1_2, M_COS_PI_3_8, 1.0, M_COS_PI_1_8, M_SQRT1_2, M_COS_PI_3_8
63 ps_cos16_2: dd 0, M_COS_PI_3_8, M_SQRT1_2, M_COS_PI_1_8, 0, -M_COS_PI_3_8, -M_SQRT1_2, -M_COS_PI_1_8
64
65 ps_root2: times 8 dd M_SQRT1_2
66 ps_root2mppm: dd -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, -M_SQRT1_2, -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, -M_SQRT1_2
67 ps_p1p1m1p1: dd 0, 0, 1<<31, 0, 0, 0, 1<<31, 0
68
69 perm1: dd 0x00, 0x02, 0x03, 0x01, 0x03, 0x00, 0x02, 0x01
70 perm2: dd 0x00, 0x01, 0x02, 0x03, 0x01, 0x00, 0x02, 0x03
71 ps_p1p1m1p1root2: dd 1.0, 1.0, -1.0, 1.0, M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, M_SQRT1_2
72 ps_m1m1p1m1p1m1m1m1: dd 1<<31, 1<<31, 0, 1<<31, 0, 1<<31, 1<<31, 1<<31
73 ps_m1m1m1m1: times 4 dd 1<<31
74 ps_m1p1: dd 1<<31, 0
75
76 %assign i 16
77 %rep 13
78 cextern cos_ %+ i
79 %assign i i<<1
80 %endrep
81
82 %if ARCH_X86_64
83     %define pointer dq
84 %else
85     %define pointer dd
86 %endif
87
88 %macro IF0 1+
89 %endmacro
90 %macro IF1 1+
91     %1
92 %endmacro
93
94 SECTION_TEXT
95
96 %macro T2_3DNOW 4 ; z0, z1, mem0, mem1
97     mova     %1, %3
98     mova     %2, %1
99     pfadd    %1, %4
100     pfsub    %2, %4
101 %endmacro
102
103 %macro T4_3DNOW 6 ; z0, z1, z2, z3, tmp0, tmp1
104     mova     %5, %3
105     pfsub    %3, %4
106     pfadd    %5, %4 ; {t6,t5}
107     pxor     %3, [ps_m1p1] ; {t8,t7}
108     mova     %6, %1
109     PSWAPD   %3, %3
110     pfadd    %1, %5 ; {r0,i0}
111     pfsub    %6, %5 ; {r2,i2}
112     mova     %4, %2
113     pfadd    %2, %3 ; {r1,i1}
114     pfsub    %4, %3 ; {r3,i3}
115     SWAP     %3, %6
116 %endmacro
117
118 ;  in: %1 = {r0,i0,r2,i2,r4,i4,r6,i6}
119 ;      %2 = {r1,i1,r3,i3,r5,i5,r7,i7}
120 ;      %3, %4, %5 tmp
121 ; out: %1 = {r0,r1,r2,r3,i0,i1,i2,i3}
122 ;      %2 = {r4,r5,r6,r7,i4,i5,i6,i7}
123 %macro T8_AVX 5
124     vsubps     %5, %1, %2       ; v  = %1 - %2
125     vaddps     %3, %1, %2       ; w  = %1 + %2
126     vmulps     %2, %5, [ps_p1p1m1p1root2]  ; v *= vals1
127     vpermilps  %2, %2, [perm1]
128     vblendps   %1, %2, %3, 0x33 ; q = {w1,w2,v4,v2,w5,w6,v7,v6}
129     vshufps    %5, %3, %2, 0x4e ; r = {w3,w4,v1,v3,w7,w8,v8,v5}
130     vsubps     %4, %5, %1       ; s = r - q
131     vaddps     %1, %5, %1       ; u = r + q
132     vpermilps  %1, %1, [perm2]  ; k  = {u1,u2,u3,u4,u6,u5,u7,u8}
133     vshufps    %5, %4, %1, 0xbb
134     vshufps    %3, %4, %1, 0xee
135     vperm2f128 %3, %3, %5, 0x13
136     vxorps     %4, %4, [ps_m1m1p1m1p1m1m1m1]  ; s *= {1,1,-1,-1,1,-1,-1,-1}
137     vshufps    %2, %1, %4, 0xdd
138     vshufps    %1, %1, %4, 0x88
139     vperm2f128 %4, %2, %1, 0x02 ; v  = {k1,k3,s1,s3,k2,k4,s2,s4}
140     vperm2f128 %1, %1, %2, 0x13 ; w  = {k6,k8,s6,s8,k5,k7,s5,s7}
141     vsubps     %5, %1, %3
142     vblendps   %1, %5, %1, 0x55 ; w -= {0,s7,0,k7,0,s8,0,k8}
143     vsubps     %2, %4, %1       ; %2 = v - w
144     vaddps     %1, %4, %1       ; %1 = v + w
145 %endmacro
146
147 ; In SSE mode do one fft4 transforms
148 ; in:  %1={r0,i0,r2,i2} %2={r1,i1,r3,i3}
149 ; out: %1={r0,r1,r2,r3} %2={i0,i1,i2,i3}
150 ;
151 ; In AVX mode do two fft4 transforms
152 ; in:  %1={r0,i0,r2,i2,r4,i4,r6,i6} %2={r1,i1,r3,i3,r5,i5,r7,i7}
153 ; out: %1={r0,r1,r2,r3,r4,r5,r6,r7} %2={i0,i1,i2,i3,i4,i5,i6,i7}
154 %macro T4_SSE 3
155     subps    %3, %1, %2       ; {t3,t4,-t8,t7}
156     addps    %1, %1, %2       ; {t1,t2,t6,t5}
157     xorps    %3, %3, [ps_p1p1m1p1]
158     shufps   %2, %1, %3, 0xbe ; {t6,t5,t7,t8}
159     shufps   %1, %1, %3, 0x44 ; {t1,t2,t3,t4}
160     subps    %3, %1, %2       ; {r2,i2,r3,i3}
161     addps    %1, %1, %2       ; {r0,i0,r1,i1}
162     shufps   %2, %1, %3, 0xdd ; {i0,i1,i2,i3}
163     shufps   %1, %1, %3, 0x88 ; {r0,r1,r2,r3}
164 %endmacro
165
166 ; In SSE mode do one FFT8
167 ; in:  %1={r0,r1,r2,r3} %2={i0,i1,i2,i3} %3={r4,i4,r6,i6} %4={r5,i5,r7,i7}
168 ; out: %1={r0,r1,r2,r3} %2={i0,i1,i2,i3} %1={r4,r5,r6,r7} %2={i4,i5,i6,i7}
169 ;
170 ; In AVX mode do two FFT8
171 ; in:  %1={r0,i0,r2,i2,r8, i8, r10,i10} %2={r1,i1,r3,i3,r9, i9, r11,i11}
172 ;      %3={r4,i4,r6,i6,r12,i12,r14,i14} %4={r5,i5,r7,i7,r13,i13,r15,i15}
173 ; out: %1={r0,r1,r2,r3,r8, r9, r10,r11} %2={i0,i1,i2,i3,i8, i9, i10,i11}
174 ;      %3={r4,r5,r6,r7,r12,r13,r14,r15} %4={i4,i5,i6,i7,i12,i13,i14,i15}
175 %macro T8_SSE 6
176     addps    %6, %3, %4       ; {t1,t2,t3,t4}
177     subps    %3, %3, %4       ; {r5,i5,r7,i7}
178     shufps   %4, %3, %3, 0xb1 ; {i5,r5,i7,r7}
179     mulps    %3, %3, [ps_root2mppm] ; {-r5,i5,r7,-i7}
180     mulps    %4, %4, [ps_root2]
181     addps    %3, %3, %4       ; {t8,t7,ta,t9}
182     shufps   %4, %6, %3, 0x9c ; {t1,t4,t7,ta}
183     shufps   %6, %6, %3, 0x36 ; {t3,t2,t9,t8}
184     subps    %3, %6, %4       ; {t6,t5,tc,tb}
185     addps    %6, %6, %4       ; {t1,t2,t9,ta}
186     shufps   %5, %6, %3, 0x8d ; {t2,ta,t6,tc}
187     shufps   %6, %6, %3, 0xd8 ; {t1,t9,t5,tb}
188     subps    %3, %1, %6       ; {r4,r5,r6,r7}
189     addps    %1, %1, %6       ; {r0,r1,r2,r3}
190     subps    %4, %2, %5       ; {i4,i5,i6,i7}
191     addps    %2, %2, %5       ; {i0,i1,i2,i3}
192 %endmacro
193
194 ; scheduled for cpu-bound sizes
195 %macro PASS_SMALL 3 ; (to load m4-m7), wre, wim
196 IF%1 mova    m4, Z(4)
197 IF%1 mova    m5, Z(5)
198     mova     m0, %2 ; wre
199     mova     m1, %3 ; wim
200     mulps    m2, m4, m0 ; r2*wre
201 IF%1 mova    m6, Z2(6)
202     mulps    m3, m5, m1 ; i2*wim
203 IF%1 mova    m7, Z2(7)
204     mulps    m4, m4, m1 ; r2*wim
205     mulps    m5, m5, m0 ; i2*wre
206     addps    m2, m2, m3 ; r2*wre + i2*wim
207     mulps    m3, m1, m7 ; i3*wim
208     subps    m5, m5, m4 ; i2*wre - r2*wim
209     mulps    m1, m1, m6 ; r3*wim
210     mulps    m4, m0, m6 ; r3*wre
211     mulps    m0, m0, m7 ; i3*wre
212     subps    m4, m4, m3 ; r3*wre - i3*wim
213     mova     m3, Z(0)
214     addps    m0, m0, m1 ; i3*wre + r3*wim
215     subps    m1, m4, m2 ; t3
216     addps    m4, m4, m2 ; t5
217     subps    m3, m3, m4 ; r2
218     addps    m4, m4, Z(0) ; r0
219     mova     m6, Z(2)
220     mova   Z(4), m3
221     mova   Z(0), m4
222     subps    m3, m5, m0 ; t4
223     subps    m4, m6, m3 ; r3
224     addps    m3, m3, m6 ; r1
225     mova  Z2(6), m4
226     mova   Z(2), m3
227     mova     m2, Z(3)
228     addps    m3, m5, m0 ; t6
229     subps    m2, m2, m1 ; i3
230     mova     m7, Z(1)
231     addps    m1, m1, Z(3) ; i1
232     mova  Z2(7), m2
233     mova   Z(3), m1
234     subps    m4, m7, m3 ; i2
235     addps    m3, m3, m7 ; i0
236     mova   Z(5), m4
237     mova   Z(1), m3
238 %endmacro
239
240 ; scheduled to avoid store->load aliasing
241 %macro PASS_BIG 1 ; (!interleave)
242     mova     m4, Z(4) ; r2
243     mova     m5, Z(5) ; i2
244     mova     m0, [wq] ; wre
245     mova     m1, [wq+o1q] ; wim
246     mulps    m2, m4, m0 ; r2*wre
247     mova     m6, Z2(6) ; r3
248     mulps    m3, m5, m1 ; i2*wim
249     mova     m7, Z2(7) ; i3
250     mulps    m4, m4, m1 ; r2*wim
251     mulps    m5, m5, m0 ; i2*wre
252     addps    m2, m2, m3 ; r2*wre + i2*wim
253     mulps    m3, m1, m7 ; i3*wim
254     mulps    m1, m1, m6 ; r3*wim
255     subps    m5, m5, m4 ; i2*wre - r2*wim
256     mulps    m4, m0, m6 ; r3*wre
257     mulps    m0, m0, m7 ; i3*wre
258     subps    m4, m4, m3 ; r3*wre - i3*wim
259     mova     m3, Z(0)
260     addps    m0, m0, m1 ; i3*wre + r3*wim
261     subps    m1, m4, m2 ; t3
262     addps    m4, m4, m2 ; t5
263     subps    m3, m3, m4 ; r2
264     addps    m4, m4, Z(0) ; r0
265     mova     m6, Z(2)
266     mova   Z(4), m3
267     mova   Z(0), m4
268     subps    m3, m5, m0 ; t4
269     subps    m4, m6, m3 ; r3
270     addps    m3, m3, m6 ; r1
271 IF%1 mova Z2(6), m4
272 IF%1 mova  Z(2), m3
273     mova     m2, Z(3)
274     addps    m5, m5, m0 ; t6
275     subps    m2, m2, m1 ; i3
276     mova     m7, Z(1)
277     addps    m1, m1, Z(3) ; i1
278 IF%1 mova Z2(7), m2
279 IF%1 mova  Z(3), m1
280     subps    m6, m7, m5 ; i2
281     addps    m5, m5, m7 ; i0
282 IF%1 mova  Z(5), m6
283 IF%1 mova  Z(1), m5
284 %if %1==0
285     INTERL m1, m3, m7, Z, 2
286     INTERL m2, m4, m0, Z2, 6
287
288     mova     m1, Z(0)
289     mova     m2, Z(4)
290
291     INTERL m5, m1, m3, Z, 0
292     INTERL m6, m2, m7, Z, 4
293 %endif
294 %endmacro
295
296 %macro PUNPCK 3
297     mova      %3, %1
298     punpckldq %1, %2
299     punpckhdq %3, %2
300 %endmacro
301
302 %define Z(x) [r0+mmsize*x]
303 %define Z2(x) [r0+mmsize*x]
304 %define ZH(x) [r0+mmsize*x+mmsize/2]
305
306 INIT_YMM avx
307
308 %if HAVE_AVX_EXTERNAL
309 align 16
310 fft8_avx:
311     mova      m0, Z(0)
312     mova      m1, Z(1)
313     T8_AVX    m0, m1, m2, m3, m4
314     mova      Z(0), m0
315     mova      Z(1), m1
316     ret
317
318
319 align 16
320 fft16_avx:
321     mova       m2, Z(2)
322     mova       m3, Z(3)
323     T4_SSE     m2, m3, m7
324
325     mova       m0, Z(0)
326     mova       m1, Z(1)
327     T8_AVX     m0, m1, m4, m5, m7
328
329     mova       m4, [ps_cos16_1]
330     mova       m5, [ps_cos16_2]
331     vmulps     m6, m2, m4
332     vmulps     m7, m3, m5
333     vaddps     m7, m7, m6
334     vmulps     m2, m2, m5
335     vmulps     m3, m3, m4
336     vsubps     m3, m3, m2
337     vblendps   m2, m7, m3, 0xf0
338     vperm2f128 m3, m7, m3, 0x21
339     vaddps     m4, m2, m3
340     vsubps     m2, m3, m2
341     vperm2f128 m2, m2, m2, 0x01
342     vsubps     m3, m1, m2
343     vaddps     m1, m1, m2
344     vsubps     m5, m0, m4
345     vaddps     m0, m0, m4
346     vextractf128   Z(0), m0, 0
347     vextractf128  ZH(0), m1, 0
348     vextractf128   Z(1), m0, 1
349     vextractf128  ZH(1), m1, 1
350     vextractf128   Z(2), m5, 0
351     vextractf128  ZH(2), m3, 0
352     vextractf128   Z(3), m5, 1
353     vextractf128  ZH(3), m3, 1
354     ret
355
356 align 16
357 fft32_avx:
358     call fft16_avx
359
360     mova m0, Z(4)
361     mova m1, Z(5)
362
363     T4_SSE      m0, m1, m4
364
365     mova m2, Z(6)
366     mova m3, Z(7)
367
368     T8_SSE      m0, m1, m2, m3, m4, m6
369     ; m0={r0,r1,r2,r3,r8, r9, r10,r11} m1={i0,i1,i2,i3,i8, i9, i10,i11}
370     ; m2={r4,r5,r6,r7,r12,r13,r14,r15} m3={i4,i5,i6,i7,i12,i13,i14,i15}
371
372     vperm2f128  m4, m0, m2, 0x20
373     vperm2f128  m5, m1, m3, 0x20
374     vperm2f128  m6, m0, m2, 0x31
375     vperm2f128  m7, m1, m3, 0x31
376
377     PASS_SMALL 0, [cos_32], [cos_32+32]
378
379     ret
380
381 fft32_interleave_avx:
382     call fft32_avx
383     mov r2d, 32
384 .deint_loop:
385     mova     m2, Z(0)
386     mova     m3, Z(1)
387     vunpcklps      m0, m2, m3
388     vunpckhps      m1, m2, m3
389     vextractf128   Z(0), m0, 0
390     vextractf128  ZH(0), m1, 0
391     vextractf128   Z(1), m0, 1
392     vextractf128  ZH(1), m1, 1
393     add r0, mmsize*2
394     sub r2d, mmsize/4
395     jg .deint_loop
396     ret
397
398 %endif
399
400 INIT_XMM sse
401
402 align 16
403 fft4_avx:
404 fft4_sse:
405     mova     m0, Z(0)
406     mova     m1, Z(1)
407     T4_SSE   m0, m1, m2
408     mova   Z(0), m0
409     mova   Z(1), m1
410     ret
411
412 align 16
413 fft8_sse:
414     mova     m0, Z(0)
415     mova     m1, Z(1)
416     T4_SSE   m0, m1, m2
417     mova     m2, Z(2)
418     mova     m3, Z(3)
419     T8_SSE   m0, m1, m2, m3, m4, m5
420     mova   Z(0), m0
421     mova   Z(1), m1
422     mova   Z(2), m2
423     mova   Z(3), m3
424     ret
425
426 align 16
427 fft16_sse:
428     mova     m0, Z(0)
429     mova     m1, Z(1)
430     T4_SSE   m0, m1, m2
431     mova     m2, Z(2)
432     mova     m3, Z(3)
433     T8_SSE   m0, m1, m2, m3, m4, m5
434     mova     m4, Z(4)
435     mova     m5, Z(5)
436     mova   Z(0), m0
437     mova   Z(1), m1
438     mova   Z(2), m2
439     mova   Z(3), m3
440     T4_SSE   m4, m5, m6
441     mova     m6, Z2(6)
442     mova     m7, Z2(7)
443     T4_SSE   m6, m7, m0
444     PASS_SMALL 0, [cos_16], [cos_16+16]
445     ret
446
447
448 %macro FFT48_3DNOW 0
449 align 16
450 fft4 %+ SUFFIX:
451     T2_3DNOW m0, m1, Z(0), Z(1)
452     mova     m2, Z(2)
453     mova     m3, Z(3)
454     T4_3DNOW m0, m1, m2, m3, m4, m5
455     PUNPCK   m0, m1, m4
456     PUNPCK   m2, m3, m5
457     mova   Z(0), m0
458     mova   Z(1), m4
459     mova   Z(2), m2
460     mova   Z(3), m5
461     ret
462
463 align 16
464 fft8 %+ SUFFIX:
465     T2_3DNOW m0, m1, Z(0), Z(1)
466     mova     m2, Z(2)
467     mova     m3, Z(3)
468     T4_3DNOW m0, m1, m2, m3, m4, m5
469     mova   Z(0), m0
470     mova   Z(2), m2
471     T2_3DNOW m4, m5,  Z(4),  Z(5)
472     T2_3DNOW m6, m7, Z2(6), Z2(7)
473     PSWAPD   m0, m5
474     PSWAPD   m2, m7
475     pxor     m0, [ps_m1p1]
476     pxor     m2, [ps_m1p1]
477     pfsub    m5, m0
478     pfadd    m7, m2
479     pfmul    m5, [ps_root2]
480     pfmul    m7, [ps_root2]
481     T4_3DNOW m1, m3, m5, m7, m0, m2
482     mova   Z(5), m5
483     mova  Z2(7), m7
484     mova     m0, Z(0)
485     mova     m2, Z(2)
486     T4_3DNOW m0, m2, m4, m6, m5, m7
487     PUNPCK   m0, m1, m5
488     PUNPCK   m2, m3, m7
489     mova   Z(0), m0
490     mova   Z(1), m5
491     mova   Z(2), m2
492     mova   Z(3), m7
493     PUNPCK   m4,  Z(5), m5
494     PUNPCK   m6, Z2(7), m7
495     mova   Z(4), m4
496     mova   Z(5), m5
497     mova  Z2(6), m6
498     mova  Z2(7), m7
499     ret
500 %endmacro
501
502 %if ARCH_X86_32
503 %macro PSWAPD 2
504 %if cpuflag(3dnowext)
505     pswapd %1, %2
506 %elifidn %1, %2
507     movd [r0+12], %1
508     punpckhdq %1, [r0+8]
509 %else
510     movq  %1, %2
511     psrlq %1, 32
512     punpckldq %1, %2
513 %endif
514 %endmacro
515
516 INIT_MMX 3dnowext
517 FFT48_3DNOW
518
519 INIT_MMX 3dnow
520 FFT48_3DNOW
521 %endif
522
523 %define Z(x) [zcq + o1q*(x&6) + mmsize*(x&1)]
524 %define Z2(x) [zcq + o3q + mmsize*(x&1)]
525 %define ZH(x) [zcq + o1q*(x&6) + mmsize*(x&1) + mmsize/2]
526 %define Z2H(x) [zcq + o3q + mmsize*(x&1) + mmsize/2]
527
528 %macro DECL_PASS 2+ ; name, payload
529 align 16
530 %1:
531 DEFINE_ARGS zc, w, n, o1, o3
532     lea o3q, [nq*3]
533     lea o1q, [nq*8]
534     shl o3q, 4
535 .loop:
536     %2
537     add zcq, mmsize*2
538     add  wq, mmsize
539     sub  nd, mmsize/8
540     jg .loop
541     rep ret
542 %endmacro
543
544 %macro FFT_DISPATCH 2; clobbers 5 GPRs, 8 XMMs
545     lea r2, [dispatch_tab%1]
546     mov r2, [r2 + (%2q-2)*gprsize]
547 %ifdef PIC
548     lea r3, [$$]
549     add r2, r3
550 %endif
551     call r2
552 %endmacro ; FFT_DISPATCH
553
554 INIT_YMM avx
555
556 %if HAVE_AVX_EXTERNAL
557 %macro INTERL_AVX 5
558     vunpckhps      %3, %2, %1
559     vunpcklps      %2, %2, %1
560     vextractf128   %4(%5), %2, 0
561     vextractf128  %4 %+ H(%5), %3, 0
562     vextractf128   %4(%5 + 1), %2, 1
563     vextractf128  %4 %+ H(%5 + 1), %3, 1
564 %endmacro
565
566 %define INTERL INTERL_AVX
567
568 DECL_PASS pass_avx, PASS_BIG 1
569 DECL_PASS pass_interleave_avx, PASS_BIG 0
570
571 cglobal fft_calc, 2,5,8
572     mov     r3d, [r0 + FFTContext.nbits]
573     mov     r0, r1
574     mov     r1, r3
575     FFT_DISPATCH _interleave %+ SUFFIX, r1
576     REP_RET
577
578 %endif
579
580 INIT_XMM sse
581
582 %macro INTERL_SSE 5
583     mova     %3, %2
584     unpcklps %2, %1
585     unpckhps %3, %1
586     mova  %4(%5), %2
587     mova  %4(%5+1), %3
588 %endmacro
589
590 %define INTERL INTERL_SSE
591
592 DECL_PASS pass_sse, PASS_BIG 1
593 DECL_PASS pass_interleave_sse, PASS_BIG 0
594
595 %macro FFT_CALC_FUNC 0
596 cglobal fft_calc, 2,5,8
597     mov     r3d, [r0 + FFTContext.nbits]
598     PUSH    r1
599     PUSH    r3
600     mov     r0, r1
601     mov     r1, r3
602     FFT_DISPATCH _interleave %+ SUFFIX, r1
603     POP     rcx
604     POP     r4
605     cmp     rcx, 3+(mmsize/16)
606     jg      .end
607     mov     r2, -1
608     add     rcx, 3
609     shl     r2, cl
610     sub     r4, r2
611 .loop:
612 %if mmsize == 8
613     PSWAPD  m0, [r4 + r2 + 4]
614     mova [r4 + r2 + 4], m0
615 %else
616     movaps   xmm0, [r4 + r2]
617     movaps   xmm1, xmm0
618     unpcklps xmm0, [r4 + r2 + 16]
619     unpckhps xmm1, [r4 + r2 + 16]
620     movaps   [r4 + r2],      xmm0
621     movaps   [r4 + r2 + 16], xmm1
622 %endif
623     add      r2, mmsize*2
624     jl       .loop
625 .end:
626 %if cpuflag(3dnow)
627     femms
628     RET
629 %else
630     REP_RET
631 %endif
632 %endmacro
633
634 %if ARCH_X86_32
635 INIT_MMX 3dnow
636 FFT_CALC_FUNC
637 INIT_MMX 3dnowext
638 FFT_CALC_FUNC
639 %endif
640 INIT_XMM sse
641 FFT_CALC_FUNC
642
643 cglobal fft_permute, 2,7,1
644     mov     r4,  [r0 + FFTContext.revtab]
645     mov     r5,  [r0 + FFTContext.tmpbuf]
646     mov     ecx, [r0 + FFTContext.nbits]
647     mov     r2, 1
648     shl     r2, cl
649     xor     r0, r0
650 %if ARCH_X86_32
651     mov     r1, r1m
652 %endif
653 .loop:
654     movaps  xmm0, [r1 + 8*r0]
655     movzx   r6, word [r4 + 2*r0]
656     movzx   r3, word [r4 + 2*r0 + 2]
657     movlps  [r5 + 8*r6], xmm0
658     movhps  [r5 + 8*r3], xmm0
659     add     r0, 2
660     cmp     r0, r2
661     jl      .loop
662     shl     r2, 3
663     add     r1, r2
664     add     r5, r2
665     neg     r2
666 ; nbits >= 2 (FFT4) and sizeof(FFTComplex)=8 => at least 32B
667 .loopcopy:
668     movaps  xmm0, [r5 + r2]
669     movaps  xmm1, [r5 + r2 + 16]
670     movaps  [r1 + r2], xmm0
671     movaps  [r1 + r2 + 16], xmm1
672     add     r2, 32
673     jl      .loopcopy
674     REP_RET
675
676 %macro IMDCT_CALC_FUNC 0
677 cglobal imdct_calc, 3,5,3
678     mov     r3d, [r0 + FFTContext.mdctsize]
679     mov     r4,  [r0 + FFTContext.imdcthalf]
680     add     r1,  r3
681     PUSH    r3
682     PUSH    r1
683 %if ARCH_X86_32
684     push    r2
685     push    r1
686     push    r0
687 %else
688     sub     rsp, 8
689 %endif
690     call    r4
691 %if ARCH_X86_32
692     add     esp, 12
693 %else
694     add     rsp, 8
695 %endif
696     POP     r1
697     POP     r3
698     lea     r0, [r1 + 2*r3]
699     mov     r2, r3
700     sub     r3, mmsize
701     neg     r2
702     mova    m2, [ps_m1m1m1m1]
703 .loop:
704 %if mmsize == 8
705     PSWAPD  m0, [r1 + r3]
706     PSWAPD  m1, [r0 + r2]
707     pxor    m0, m2
708 %else
709     mova    m0, [r1 + r3]
710     mova    m1, [r0 + r2]
711     shufps  m0, m0, 0x1b
712     shufps  m1, m1, 0x1b
713     xorps   m0, m2
714 %endif
715     mova [r0 + r3], m1
716     mova [r1 + r2], m0
717     sub     r3, mmsize
718     add     r2, mmsize
719     jl      .loop
720 %if cpuflag(3dnow)
721     femms
722     RET
723 %else
724     REP_RET
725 %endif
726 %endmacro
727
728 %if ARCH_X86_32
729 INIT_MMX 3dnow
730 IMDCT_CALC_FUNC
731 INIT_MMX 3dnowext
732 IMDCT_CALC_FUNC
733 %endif
734
735 INIT_XMM sse
736 IMDCT_CALC_FUNC
737
738 %if ARCH_X86_32
739 INIT_MMX 3dnow
740 %define mulps pfmul
741 %define addps pfadd
742 %define subps pfsub
743 %define unpcklps punpckldq
744 %define unpckhps punpckhdq
745 DECL_PASS pass_3dnow, PASS_SMALL 1, [wq], [wq+o1q]
746 DECL_PASS pass_interleave_3dnow, PASS_BIG 0
747 %define pass_3dnowext pass_3dnow
748 %define pass_interleave_3dnowext pass_interleave_3dnow
749 %endif
750
751 %ifdef PIC
752 %define SECTION_REL - $$
753 %else
754 %define SECTION_REL
755 %endif
756
757 %macro DECL_FFT 1-2 ; nbits, suffix
758 %ifidn %0, 1
759 %xdefine fullsuffix SUFFIX
760 %else
761 %xdefine fullsuffix %2 %+ SUFFIX
762 %endif
763 %xdefine list_of_fft fft4 %+ SUFFIX SECTION_REL, fft8 %+ SUFFIX SECTION_REL
764 %if %1>=5
765 %xdefine list_of_fft list_of_fft, fft16 %+ SUFFIX SECTION_REL
766 %endif
767 %if %1>=6
768 %xdefine list_of_fft list_of_fft, fft32 %+ fullsuffix SECTION_REL
769 %endif
770
771 %assign n 1<<%1
772 %rep 17-%1
773 %assign n2 n/2
774 %assign n4 n/4
775 %xdefine list_of_fft list_of_fft, fft %+ n %+ fullsuffix SECTION_REL
776
777 align 16
778 fft %+ n %+ fullsuffix:
779     call fft %+ n2 %+ SUFFIX
780     add r0, n*4 - (n&(-2<<%1))
781     call fft %+ n4 %+ SUFFIX
782     add r0, n*2 - (n2&(-2<<%1))
783     call fft %+ n4 %+ SUFFIX
784     sub r0, n*6 + (n2&(-2<<%1))
785     lea r1, [cos_ %+ n]
786     mov r2d, n4/2
787     jmp pass %+ fullsuffix
788
789 %assign n n*2
790 %endrep
791 %undef n
792
793 align 8
794 dispatch_tab %+ fullsuffix: pointer list_of_fft
795 %endmacro ; DECL_FFT
796
797 %if HAVE_AVX_EXTERNAL
798 INIT_YMM avx
799 DECL_FFT 6
800 DECL_FFT 6, _interleave
801 %endif
802 INIT_XMM sse
803 DECL_FFT 5
804 DECL_FFT 5, _interleave
805 %if ARCH_X86_32
806 INIT_MMX 3dnow
807 DECL_FFT 4
808 DECL_FFT 4, _interleave
809 INIT_MMX 3dnowext
810 DECL_FFT 4
811 DECL_FFT 4, _interleave
812 %endif
813
814 INIT_XMM sse
815 %undef mulps
816 %undef addps
817 %undef subps
818 %undef unpcklps
819 %undef unpckhps
820
821 %macro PREROTATER 5 ;-2*k, 2*k, input+n4, tcos+n8, tsin+n8
822 %if mmsize == 8 ; j*2+2-n4, n4-2-j*2, input+n4, tcos+n8, tsin+n8
823     PSWAPD     m0, [%3+%2*4]
824     movq       m2, [%3+%1*4-8]
825     movq       m3, m0
826     punpckldq  m0, m2
827     punpckhdq  m2, m3
828     movd       m1, [%4+%1*2-4] ; tcos[j]
829     movd       m3, [%4+%2*2]   ; tcos[n4-j-1]
830     punpckldq  m1, [%5+%1*2-4] ; tsin[j]
831     punpckldq  m3, [%5+%2*2]   ; tsin[n4-j-1]
832
833     mova       m4, m0
834     PSWAPD     m5, m1
835     pfmul      m0, m1
836     pfmul      m4, m5
837     mova       m6, m2
838     PSWAPD     m5, m3
839     pfmul      m2, m3
840     pfmul      m6, m5
841 %if cpuflag(3dnowext)
842     pfpnacc    m0, m4
843     pfpnacc    m2, m6
844 %else
845     SBUTTERFLY dq, 0, 4, 1
846     SBUTTERFLY dq, 2, 6, 3
847     pxor       m4, m7
848     pxor       m6, m7
849     pfadd      m0, m4
850     pfadd      m2, m6
851 %endif
852 %else
853     movaps   xmm0, [%3+%2*4]
854     movaps   xmm1, [%3+%1*4-0x10]
855     movaps   xmm2, xmm0
856     shufps   xmm0, xmm1, 0x88
857     shufps   xmm1, xmm2, 0x77
858     movlps   xmm4, [%4+%2*2]
859     movlps   xmm5, [%5+%2*2+0x0]
860     movhps   xmm4, [%4+%1*2-0x8]
861     movhps   xmm5, [%5+%1*2-0x8]
862     movaps   xmm2, xmm0
863     movaps   xmm3, xmm1
864     mulps    xmm0, xmm5
865     mulps    xmm1, xmm4
866     mulps    xmm2, xmm4
867     mulps    xmm3, xmm5
868     subps    xmm1, xmm0
869     addps    xmm2, xmm3
870     movaps   xmm0, xmm1
871     unpcklps xmm1, xmm2
872     unpckhps xmm0, xmm2
873 %endif
874 %endmacro
875
876 %macro CMUL 6 ;j, xmm0, xmm1, 3, 4, 5
877     mulps      m6, %3, [%5+%1]
878     mulps      m7, %2, [%5+%1]
879     mulps      %2, %2, [%6+%1]
880     mulps      %3, %3, [%6+%1]
881     subps      %2, %2, m6
882     addps      %3, %3, m7
883 %endmacro
884
885 %macro POSROTATESHUF_AVX 5 ;j, k, z+n8, tcos+n8, tsin+n8
886 .post:
887     vmovaps      ymm1,   [%3+%1*2]
888     vmovaps      ymm0,   [%3+%1*2+0x20]
889     vmovaps      ymm3,   [%3+%2*2]
890     vmovaps      ymm2,   [%3+%2*2+0x20]
891
892     CMUL         %1, ymm0, ymm1, %3, %4, %5
893     CMUL         %2, ymm2, ymm3, %3, %4, %5
894     vshufps      ymm1, ymm1, ymm1, 0x1b
895     vshufps      ymm3, ymm3, ymm3, 0x1b
896     vperm2f128   ymm1, ymm1, ymm1, 0x01
897     vperm2f128   ymm3, ymm3, ymm3, 0x01
898     vunpcklps    ymm6, ymm2, ymm1
899     vunpckhps    ymm4, ymm2, ymm1
900     vunpcklps    ymm7, ymm0, ymm3
901     vunpckhps    ymm5, ymm0, ymm3
902
903     vextractf128 [%3+%1*2],      ymm7, 0
904     vextractf128 [%3+%1*2+0x10], ymm5, 0
905     vextractf128 [%3+%1*2+0x20], ymm7, 1
906     vextractf128 [%3+%1*2+0x30], ymm5, 1
907
908     vextractf128 [%3+%2*2],      ymm6, 0
909     vextractf128 [%3+%2*2+0x10], ymm4, 0
910     vextractf128 [%3+%2*2+0x20], ymm6, 1
911     vextractf128 [%3+%2*2+0x30], ymm4, 1
912     sub      %2,   0x20
913     add      %1,   0x20
914     jl       .post
915 %endmacro
916
917 %macro POSROTATESHUF 5 ;j, k, z+n8, tcos+n8, tsin+n8
918 .post:
919     movaps   xmm1, [%3+%1*2]
920     movaps   xmm0, [%3+%1*2+0x10]
921     CMUL     %1,   xmm0, xmm1, %3, %4, %5
922     movaps   xmm5, [%3+%2*2]
923     movaps   xmm4, [%3+%2*2+0x10]
924     CMUL     %2,   xmm4, xmm5, %3, %4, %5
925     shufps   xmm1, xmm1, 0x1b
926     shufps   xmm5, xmm5, 0x1b
927     movaps   xmm6, xmm4
928     unpckhps xmm4, xmm1
929     unpcklps xmm6, xmm1
930     movaps   xmm2, xmm0
931     unpcklps xmm0, xmm5
932     unpckhps xmm2, xmm5
933     movaps   [%3+%2*2],      xmm6
934     movaps   [%3+%2*2+0x10], xmm4
935     movaps   [%3+%1*2],      xmm0
936     movaps   [%3+%1*2+0x10], xmm2
937     sub      %2,   0x10
938     add      %1,   0x10
939     jl       .post
940 %endmacro
941
942 %macro CMUL_3DNOW 6
943     mova       m6, [%1+%2*2]
944     mova       %3, [%1+%2*2+8]
945     mova       %4, m6
946     mova       m7, %3
947     pfmul      m6, [%5+%2]
948     pfmul      %3, [%6+%2]
949     pfmul      %4, [%6+%2]
950     pfmul      m7, [%5+%2]
951     pfsub      %3, m6
952     pfadd      %4, m7
953 %endmacro
954
955 %macro POSROTATESHUF_3DNOW 5 ;j, k, z+n8, tcos+n8, tsin+n8
956 .post:
957     CMUL_3DNOW %3, %1, m0, m1, %4, %5
958     CMUL_3DNOW %3, %2, m2, m3, %4, %5
959     movd  [%3+%1*2+ 0], m0
960     movd  [%3+%2*2+12], m1
961     movd  [%3+%2*2+ 0], m2
962     movd  [%3+%1*2+12], m3
963     psrlq      m0, 32
964     psrlq      m1, 32
965     psrlq      m2, 32
966     psrlq      m3, 32
967     movd  [%3+%1*2+ 8], m0
968     movd  [%3+%2*2+ 4], m1
969     movd  [%3+%2*2+ 8], m2
970     movd  [%3+%1*2+ 4], m3
971     sub        %2, 8
972     add        %1, 8
973     jl         .post
974 %endmacro
975
976 %macro DECL_IMDCT 1
977 cglobal imdct_half, 3,12,8; FFTContext *s, FFTSample *output, const FFTSample *input
978 %if ARCH_X86_64
979 %define rrevtab r7
980 %define rtcos   r8
981 %define rtsin   r9
982 %else
983 %define rrevtab r6
984 %define rtsin   r6
985 %define rtcos   r5
986 %endif
987     mov   r3d, [r0+FFTContext.mdctsize]
988     add   r2, r3
989     shr   r3, 1
990     mov   rtcos, [r0+FFTContext.tcos]
991     mov   rtsin, [r0+FFTContext.tsin]
992     add   rtcos, r3
993     add   rtsin, r3
994 %if ARCH_X86_64 == 0
995     push  rtcos
996     push  rtsin
997 %endif
998     shr   r3, 1
999     mov   rrevtab, [r0+FFTContext.revtab]
1000     add   rrevtab, r3
1001 %if ARCH_X86_64 == 0
1002     push  rrevtab
1003 %endif
1004
1005 %if mmsize == 8
1006     sub   r3, 2
1007 %else
1008     sub   r3, 4
1009 %endif
1010 %if ARCH_X86_64 || mmsize == 8
1011     xor   r4, r4
1012     sub   r4, r3
1013 %endif
1014 %if notcpuflag(3dnowext) && mmsize == 8
1015     movd  m7, [ps_m1m1m1m1]
1016 %endif
1017 .pre:
1018 %if ARCH_X86_64 == 0
1019 ;unspill
1020 %if mmsize != 8
1021     xor   r4, r4
1022     sub   r4, r3
1023 %endif
1024     mov   rtcos, [esp+8]
1025     mov   rtsin, [esp+4]
1026 %endif
1027
1028     PREROTATER r4, r3, r2, rtcos, rtsin
1029 %if mmsize == 8
1030     mov    r6, [esp]                ; rrevtab = ptr+n8
1031     movzx  r5,  word [rrevtab+r4-2] ; rrevtab[j]
1032     movzx  r6,  word [rrevtab+r3]   ; rrevtab[n4-j-1]
1033     mova [r1+r5*8], m0
1034     mova [r1+r6*8], m2
1035     add    r4, 2
1036     sub    r3, 2
1037 %else
1038 %if ARCH_X86_64
1039     movzx  r5,  word [rrevtab+r4-4]
1040     movzx  r6,  word [rrevtab+r4-2]
1041     movzx  r10, word [rrevtab+r3]
1042     movzx  r11, word [rrevtab+r3+2]
1043     movlps [r1+r5 *8], xmm0
1044     movhps [r1+r6 *8], xmm0
1045     movlps [r1+r10*8], xmm1
1046     movhps [r1+r11*8], xmm1
1047     add    r4, 4
1048 %else
1049     mov    r6, [esp]
1050     movzx  r5, word [r6+r4-4]
1051     movzx  r4, word [r6+r4-2]
1052     movlps [r1+r5*8], xmm0
1053     movhps [r1+r4*8], xmm0
1054     movzx  r5, word [r6+r3]
1055     movzx  r4, word [r6+r3+2]
1056     movlps [r1+r5*8], xmm1
1057     movhps [r1+r4*8], xmm1
1058 %endif
1059     sub    r3, 4
1060 %endif
1061     jns    .pre
1062
1063     mov  r5, r0
1064     mov  r6, r1
1065     mov  r0, r1
1066     mov  r1d, [r5+FFTContext.nbits]
1067
1068     FFT_DISPATCH SUFFIX, r1
1069
1070     mov  r0d, [r5+FFTContext.mdctsize]
1071     add  r6, r0
1072     shr  r0, 1
1073 %if ARCH_X86_64 == 0
1074 %define rtcos r2
1075 %define rtsin r3
1076     mov  rtcos, [esp+8]
1077     mov  rtsin, [esp+4]
1078 %endif
1079     neg  r0
1080     mov  r1, -mmsize
1081     sub  r1, r0
1082     %1 r0, r1, r6, rtcos, rtsin
1083 %if ARCH_X86_64 == 0
1084     add esp, 12
1085 %endif
1086 %if mmsize == 8
1087     femms
1088 %endif
1089     RET
1090 %endmacro
1091
1092 DECL_IMDCT POSROTATESHUF
1093
1094 %if ARCH_X86_32
1095 INIT_MMX 3dnow
1096 DECL_IMDCT POSROTATESHUF_3DNOW
1097
1098 INIT_MMX 3dnowext
1099 DECL_IMDCT POSROTATESHUF_3DNOW
1100 %endif
1101
1102 INIT_YMM avx
1103
1104 %if HAVE_AVX_EXTERNAL
1105 DECL_IMDCT POSROTATESHUF_AVX
1106 %endif