]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/sbrdsp.asm
Merge commit '1ec611a10228945d2ec8a9cf6c5531dee6b7ee56'
[ffmpeg] / libavcodec / x86 / sbrdsp.asm
1 ;******************************************************************************
2 ;* AAC Spectral Band Replication decoding functions
3 ;* Copyright (C) 2012 Christophe Gisquet <christophe.gisquet@gmail.com>
4 ;*
5 ;* This file is part of FFmpeg.
6 ;*
7 ;* FFmpeg is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* FFmpeg is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with FFmpeg; if not, write to the Free Software
19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "libavutil/x86/x86util.asm"
23
24 SECTION_RODATA
25 ; mask equivalent for multiply by -1.0 1.0
26 ps_mask         times 2 dd 1<<31, 0
27 ps_mask2        times 2 dd 0, 1<<31
28 ps_mask3        dd  0, 0, 0, 1<<31
29 ps_noise0       times 2 dd  1.0,  0.0,
30 ps_noise2       times 2 dd -1.0,  0.0
31 ps_noise13      dd  0.0,  1.0, 0.0, -1.0
32                 dd  0.0, -1.0, 0.0,  1.0
33                 dd  0.0,  1.0, 0.0, -1.0
34 cextern         sbr_noise_table
35 cextern         ps_neg
36
37 SECTION .text
38
39 INIT_XMM sse
40 cglobal sbr_sum_square, 2, 3, 6
41     mov         r2, r1
42     xorps       m0, m0
43     xorps       m1, m1
44     sar         r2, 3
45     jz          .prepare
46 .loop:
47     movu        m2, [r0 +  0]
48     movu        m3, [r0 + 16]
49     movu        m4, [r0 + 32]
50     movu        m5, [r0 + 48]
51     mulps       m2, m2
52     mulps       m3, m3
53     mulps       m4, m4
54     mulps       m5, m5
55     addps       m0, m2
56     addps       m1, m3
57     addps       m0, m4
58     addps       m1, m5
59     add         r0, 64
60     dec         r2
61     jnz         .loop
62 .prepare:
63     and         r1, 7
64     sar         r1, 1
65     jz          .end
66 ; len is a multiple of 2, thus there are at least 4 elements to process
67 .endloop:
68     movu        m2, [r0]
69     add         r0, 16
70     mulps       m2, m2
71     dec         r1
72     addps       m0, m2
73     jnz         .endloop
74 .end:
75     addps       m0, m1
76     movhlps     m2, m0
77     addps       m0, m2
78     movss       m1, m0
79     shufps      m0, m0, 1
80     addss       m0, m1
81 %if ARCH_X86_64 == 0
82     movss       r0m,  m0
83     fld         dword r0m
84 %endif
85     RET
86
87 %define STEP  40*4*2
88 cglobal sbr_hf_g_filt, 5, 6, 5
89     lea         r1, [r1 + 8*r4] ; offset by ixh elements into X_high
90     mov         r5, r3
91     and         r3, 0xFC
92     lea         r2, [r2 + r3*4]
93     lea         r0, [r0 + r3*8]
94     neg         r3
95     jz          .loop1
96 .loop4:
97     movlps      m0, [r2 + 4*r3 + 0]
98     movlps      m1, [r2 + 4*r3 + 8]
99     movlps      m2, [r1 + 0*STEP]
100     movlps      m3, [r1 + 2*STEP]
101     movhps      m2, [r1 + 1*STEP]
102     movhps      m3, [r1 + 3*STEP]
103     unpcklps    m0, m0
104     unpcklps    m1, m1
105     mulps       m0, m2
106     mulps       m1, m3
107     movu        [r0 + 8*r3 +  0], m0
108     movu        [r0 + 8*r3 + 16], m1
109     add         r1, 4*STEP
110     add         r3, 4
111     jnz         .loop4
112     and         r5, 3 ; number of single element loops
113     jz          .end
114 .loop1: ; element 0 and 1 can be computed at the same time
115     movss       m0, [r2]
116     movlps      m2, [r1]
117     unpcklps    m0, m0
118     mulps       m2, m0
119     movlps    [r0], m2
120     add         r0, 8
121     add         r2, 4
122     add         r1, STEP
123     dec         r5
124     jnz         .loop1
125 .end:
126     RET
127
128 ; void ff_sbr_hf_gen_sse(float (*X_high)[2], const float (*X_low)[2],
129 ;                        const float alpha0[2], const float alpha1[2],
130 ;                        float bw, int start, int end)
131 ;
132 cglobal sbr_hf_gen, 4,4,8, X_high, X_low, alpha0, alpha1, BW, S, E
133     ; load alpha factors
134 %define bw m0
135 %if ARCH_X86_64 == 0 || WIN64
136     movss      bw, BWm
137 %endif
138     movlps     m2, [alpha1q]
139     movlps     m1, [alpha0q]
140     shufps     bw, bw, 0
141     mulps      m2, bw             ; (a1[0] a1[1])*bw
142     mulps      m1, bw             ; (a0[0] a0[1])*bw    = (a2 a3)
143     mulps      m2, bw             ; (a1[0] a1[1])*bw*bw = (a0 a1)
144     mova       m3, m1
145     mova       m4, m2
146
147     ; Set pointers
148 %if ARCH_X86_64 == 0 || WIN64
149     ; start and end 6th and 7th args on stack
150     mov        r2d, Sm
151     mov        r3d, Em
152 %define  start r2q
153 %define  end   r3q
154 %else
155 ; BW does not actually occupy a register, so shift by 1
156 %define  start BWq
157 %define  end   Sq
158 %endif
159     sub      start, end          ; neg num of loops
160     lea    X_highq, [X_highq + end*2*4]
161     lea     X_lowq, [X_lowq  + end*2*4 - 2*2*4]
162     shl      start, 3            ; offset from num loops
163
164     mova        m0, [X_lowq + start]
165     shufps      m3, m3, q1111
166     shufps      m4, m4, q1111
167     xorps       m3, [ps_mask]
168     shufps      m1, m1, q0000
169     shufps      m2, m2, q0000
170     xorps       m4, [ps_mask]
171 .loop2:
172     movu        m7, [X_lowq + start + 8]        ; BbCc
173     mova        m6, m0
174     mova        m5, m7
175     shufps      m0, m0, q2301                   ; aAbB
176     shufps      m7, m7, q2301                   ; bBcC
177     mulps       m0, m4
178     mulps       m7, m3
179     mulps       m6, m2
180     mulps       m5, m1
181     addps       m7, m0
182     mova        m0, [X_lowq + start +16]        ; CcDd
183     addps       m7, m0
184     addps       m6, m5
185     addps       m7, m6
186     mova  [X_highq + start], m7
187     add     start, 16
188     jnz         .loop2
189     RET
190
191 cglobal sbr_sum64x5, 1,2,4,z
192     lea    r1q, [zq+ 256]
193 .loop:
194     mova    m0, [zq+   0]
195     mova    m2, [zq+  16]
196     mova    m1, [zq+ 256]
197     mova    m3, [zq+ 272]
198     addps   m0, [zq+ 512]
199     addps   m2, [zq+ 528]
200     addps   m1, [zq+ 768]
201     addps   m3, [zq+ 784]
202     addps   m0, [zq+1024]
203     addps   m2, [zq+1040]
204     addps   m0, m1
205     addps   m2, m3
206     mova  [zq], m0
207     mova  [zq+16], m2
208     add     zq, 32
209     cmp     zq, r1q
210     jne  .loop
211     REP_RET
212
213 INIT_XMM sse
214 cglobal sbr_qmf_post_shuffle, 2,3,4,W,z
215     lea              r2q, [zq + (64-4)*4]
216     mova              m3, [ps_neg]
217 .loop:
218     mova              m1, [zq]
219     xorps             m0, m3, [r2q]
220     shufps            m0, m0, m0, q0123
221     unpcklps          m2, m0, m1
222     unpckhps          m0, m0, m1
223     mova       [Wq +  0], m2
224     mova       [Wq + 16], m0
225     add               Wq, 32
226     sub              r2q, 16
227     add               zq, 16
228     cmp               zq, r2q
229     jl             .loop
230     REP_RET
231
232 INIT_XMM sse
233 cglobal sbr_neg_odd_64, 1,2,4,z
234     lea        r1q, [zq+256]
235 .loop:
236     mova        m0, [zq+ 0]
237     mova        m1, [zq+16]
238     mova        m2, [zq+32]
239     mova        m3, [zq+48]
240     xorps       m0, [ps_mask2]
241     xorps       m1, [ps_mask2]
242     xorps       m2, [ps_mask2]
243     xorps       m3, [ps_mask2]
244     mova   [zq+ 0], m0
245     mova   [zq+16], m1
246     mova   [zq+32], m2
247     mova   [zq+48], m3
248     add         zq, 64
249     cmp         zq, r1q
250     jne      .loop
251     REP_RET
252
253 ; void ff_sbr_qmf_deint_bfly_sse2(float *v, const float *src0, const float *src1)
254 %macro SBR_QMF_DEINT_BFLY  0
255 cglobal sbr_qmf_deint_bfly, 3,5,8, v,src0,src1,vrev,c
256     mov               cq, 64*4-2*mmsize
257     lea            vrevq, [vq + 64*4]
258 .loop:
259     mova              m0, [src0q+cq]
260     mova              m1, [src1q]
261     mova              m4, [src0q+cq+mmsize]
262     mova              m5, [src1q+mmsize]
263 %if cpuflag(sse2)
264     pshufd            m2, m0, q0123
265     pshufd            m3, m1, q0123
266     pshufd            m6, m4, q0123
267     pshufd            m7, m5, q0123
268 %else
269     shufps            m2, m0, m0, q0123
270     shufps            m3, m1, m1, q0123
271     shufps            m6, m4, m4, q0123
272     shufps            m7, m5, m5, q0123
273 %endif
274     addps             m5, m2
275     subps             m0, m7
276     addps             m1, m6
277     subps             m4, m3
278     mova         [vrevq], m1
279     mova  [vrevq+mmsize], m5
280     mova         [vq+cq], m0
281     mova  [vq+cq+mmsize], m4
282     add            src1q, 2*mmsize
283     add            vrevq, 2*mmsize
284     sub               cq, 2*mmsize
285     jge            .loop
286     REP_RET
287 %endmacro
288
289 INIT_XMM sse
290 SBR_QMF_DEINT_BFLY
291
292 INIT_XMM sse2
293 SBR_QMF_DEINT_BFLY
294
295 INIT_XMM sse2
296 cglobal sbr_qmf_pre_shuffle, 1,4,6,z
297 %define OFFSET  (32*4-2*mmsize)
298     mov       r3q, OFFSET
299     lea       r1q, [zq + (32+1)*4]
300     lea       r2q, [zq + 64*4]
301     mova       m5, [ps_neg]
302 .loop:
303     movu       m0, [r1q]
304     movu       m2, [r1q + mmsize]
305     movu       m1, [zq + r3q + 4 + mmsize]
306     movu       m3, [zq + r3q + 4]
307
308     pxor       m2, m5
309     pxor       m0, m5
310     pshufd     m2, m2, q0123
311     pshufd     m0, m0, q0123
312     SBUTTERFLY dq, 2, 3, 4
313     SBUTTERFLY dq, 0, 1, 4
314     mova  [r2q + 2*r3q + 0*mmsize], m2
315     mova  [r2q + 2*r3q + 1*mmsize], m3
316     mova  [r2q + 2*r3q + 2*mmsize], m0
317     mova  [r2q + 2*r3q + 3*mmsize], m1
318     add       r1q, 2*mmsize
319     sub       r3q, 2*mmsize
320     jge      .loop
321     movq       m2, [zq]
322     movq    [r2q], m2
323     REP_RET
324
325 %ifdef PIC
326 %define NREGS 1
327 %if UNIX64
328 %define NOISE_TABLE r6q ; r5q is m_max
329 %else
330 %define NOISE_TABLE r5q
331 %endif
332 %else
333 %define NREGS 0
334 %define NOISE_TABLE sbr_noise_table
335 %endif
336
337 %macro LOAD_NST  1
338 %ifdef PIC
339     lea  NOISE_TABLE, [%1]
340     mova          m0, [kxq + NOISE_TABLE]
341 %else
342     mova          m0, [kxq + %1]
343 %endif
344 %endmacro
345
346 INIT_XMM sse2
347 ; sbr_hf_apply_noise_0(float (*Y)[2], const float *s_m,
348 ;                      const float *q_filt, int noise,
349 ;                      int kx, int m_max)
350 cglobal sbr_hf_apply_noise_0, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
351     mova       m0, [ps_noise0]
352     jmp apply_noise_main
353
354 ; sbr_hf_apply_noise_1(float (*Y)[2], const float *s_m,
355 ;                      const float *q_filt, int noise,
356 ;                      int kx, int m_max)
357 cglobal sbr_hf_apply_noise_1, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
358     and       kxq, 1
359     shl       kxq, 4
360     LOAD_NST  ps_noise13
361     jmp apply_noise_main
362
363 ; sbr_hf_apply_noise_2(float (*Y)[2], const float *s_m,
364 ;                      const float *q_filt, int noise,
365 ;                      int kx, int m_max)
366 cglobal sbr_hf_apply_noise_2, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
367     mova       m0, [ps_noise2]
368     jmp apply_noise_main
369
370 ; sbr_hf_apply_noise_3(float (*Y)[2], const float *s_m,
371 ;                      const float *q_filt, int noise,
372 ;                      int kx, int m_max)
373 cglobal sbr_hf_apply_noise_3, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
374     and       kxq, 1
375     shl       kxq, 4
376     LOAD_NST  ps_noise13+16
377
378 apply_noise_main:
379 %if ARCH_X86_64 == 0 || WIN64
380     mov       kxd, m_maxm
381 %define count kxq
382 %else
383 %define count m_maxq
384 %endif
385     dec    noiseq
386     shl    count, 2
387 %ifdef PIC
388     lea NOISE_TABLE, [sbr_noise_table]
389 %endif
390     lea        Yq, [Yq + 2*count]
391     add      s_mq, count
392     add   q_filtq, count
393     shl    noiseq, 3
394     pxor       m5, m5
395     neg    count
396 .loop:
397     mova       m1, [q_filtq + count]
398     movu       m3, [noiseq + NOISE_TABLE + 1*mmsize]
399     movu       m4, [noiseq + NOISE_TABLE + 2*mmsize]
400     add    noiseq, 2*mmsize
401     and    noiseq, 0x1ff<<3
402     punpckhdq  m2, m1, m1
403     punpckldq  m1, m1
404     mulps      m1, m3 ; m2 = q_filt[m] * ff_sbr_noise_table[noise]
405     mulps      m2, m4 ; m2 = q_filt[m] * ff_sbr_noise_table[noise]
406     mova       m3, [s_mq + count]
407     ; TODO: replace by a vpermd in AVX2
408     punpckhdq  m4, m3, m3
409     punpckldq  m3, m3
410     pcmpeqd    m6, m3, m5 ; m6 == 0
411     pcmpeqd    m7, m4, m5 ; m7 == 0
412     mulps      m3, m0 ; s_m[m] * phi_sign
413     mulps      m4, m0 ; s_m[m] * phi_sign
414     pand       m1, m6
415     pand       m2, m7
416     movu       m6, [Yq + 2*count]
417     movu       m7, [Yq + 2*count + mmsize]
418     addps      m3, m1
419     addps      m4, m2
420     addps      m6, m3
421     addps      m7, m4
422     movu    [Yq + 2*count], m6
423     movu    [Yq + 2*count + mmsize], m7
424     add    count, mmsize
425     jl      .loop
426     RET
427
428 INIT_XMM sse
429 cglobal sbr_qmf_deint_neg, 2,4,4,v,src,vrev,c
430 %define COUNT  32*4
431 %define OFFSET 32*4
432     mov        cq, -COUNT
433     lea     vrevq, [vq + OFFSET + COUNT]
434     add        vq, OFFSET-mmsize
435     add      srcq, 2*COUNT
436     mova       m3, [ps_neg]
437 .loop:
438     mova       m0, [srcq + 2*cq + 0*mmsize]
439     mova       m1, [srcq + 2*cq + 1*mmsize]
440     shufps     m2, m0, m1, q2020
441     shufps     m1, m0, q1313
442     xorps      m2, m3
443     mova     [vq], m1
444     mova  [vrevq + cq], m2
445     sub        vq, mmsize
446     add        cq, mmsize
447     jl      .loop
448     REP_RET
449
450 %macro SBR_AUTOCORRELATE 0
451 cglobal sbr_autocorrelate, 2,3,8,32, x, phi, cnt
452     mov   cntq, 37*8
453     add     xq, cntq
454     neg   cntq
455
456 %if cpuflag(sse3)
457 %define   MOVH  movsd
458     movddup m5, [xq+cntq]
459 %else
460 %define   MOVH  movlps
461     movlps  m5, [xq+cntq]
462     movlhps m5, m5
463 %endif
464     MOVH    m7, [xq+cntq+8 ]
465     MOVH    m1, [xq+cntq+16]
466     shufps  m7, m7, q0110
467     shufps  m1, m1, q0110
468     mulps   m3, m5, m7   ;              x[0][0] * x[1][0], x[0][1] * x[1][1], x[0][0] * x[1][1], x[0][1] * x[1][0]
469     mulps   m4, m5, m5   ;              x[0][0] * x[0][0], x[0][1] * x[0][1];
470     mulps   m5, m1       ; real_sum2  = x[0][0] * x[2][0], x[0][1] * x[2][1]; imag_sum2 = x[0][0] * x[2][1], x[0][1] * x[2][0]
471     movaps  [rsp   ], m3
472     movaps  [rsp+16], m4
473     add   cntq, 8
474
475     MOVH    m2, [xq+cntq+16]
476     movlhps m7, m7
477     shufps  m2, m2, q0110
478     mulps   m6, m7, m1   ; real_sum1  = x[1][0] * x[2][0], x[1][1] * x[2][1]; imag_sum1 += x[1][0] * x[2][1], x[1][1] * x[2][0]
479     mulps   m4, m7, m2
480     mulps   m7, m7       ; real_sum0  = x[1][0] * x[1][0], x[1][1] * x[1][1];
481     addps   m5, m4       ; real_sum2 += x[1][0] * x[3][0], x[1][1] * x[3][1]; imag_sum2 += x[1][0] * x[3][1], x[1][1] * x[3][0]
482
483 align 16
484 .loop:
485     add   cntq, 8
486     MOVH    m0, [xq+cntq+16]
487     movlhps m1, m1
488     shufps  m0, m0, q0110
489     mulps   m3, m1, m2
490     mulps   m4, m1, m0
491     mulps   m1, m1
492     addps   m6, m3       ; real_sum1 += x[i][0] * x[i + 1][0], x[i][1] * x[i + 1][1]; imag_sum1 += x[i][0] * x[i + 1][1], x[i][1] * x[i + 1][0];
493     addps   m5, m4       ; real_sum2 += x[i][0] * x[i + 2][0], x[i][1] * x[i + 2][1]; imag_sum2 += x[i][0] * x[i + 2][1], x[i][1] * x[i + 2][0];
494     addps   m7, m1       ; real_sum0 += x[i][0] * x[i][0],     x[i][1] * x[i][1];
495     add   cntq, 8
496     MOVH    m1, [xq+cntq+16]
497     movlhps m2, m2
498     shufps  m1, m1, q0110
499     mulps   m3, m2, m0
500     mulps   m4, m2, m1
501     mulps   m2, m2
502     addps   m6, m3       ; real_sum1 += x[i][0] * x[i + 1][0], x[i][1] * x[i + 1][1]; imag_sum1 += x[i][0] * x[i + 1][1], x[i][1] * x[i + 1][0];
503     addps   m5, m4       ; real_sum2 += x[i][0] * x[i + 2][0], x[i][1] * x[i + 2][1]; imag_sum2 += x[i][0] * x[i + 2][1], x[i][1] * x[i + 2][0];
504     addps   m7, m2       ; real_sum0 += x[i][0] * x[i][0],     x[i][1] * x[i][1];
505     add   cntq, 8
506     MOVH    m2, [xq+cntq+16]
507     movlhps m0, m0
508     shufps  m2, m2, q0110
509     mulps   m3, m0, m1
510     mulps   m4, m0, m2
511     mulps   m0, m0
512     addps   m6, m3       ; real_sum1 += x[i][0] * x[i + 1][0], x[i][1] * x[i + 1][1]; imag_sum1 += x[i][0] * x[i + 1][1], x[i][1] * x[i + 1][0];
513     addps   m5, m4       ; real_sum2 += x[i][0] * x[i + 2][0], x[i][1] * x[i + 2][1]; imag_sum2 += x[i][0] * x[i + 2][1], x[i][1] * x[i + 2][0];
514     addps   m7, m0       ; real_sum0 += x[i][0] * x[i][0],     x[i][1] * x[i][1];
515     jl .loop
516
517     movlhps m1, m1
518     mulps   m2, m1
519     mulps   m1, m1
520     addps   m2, m6       ; real_sum1 + x[38][0] * x[39][0], x[38][1] * x[39][1]; imag_sum1 + x[38][0] * x[39][1], x[38][1] * x[39][0];
521     addps   m1, m7       ; real_sum0 + x[38][0] * x[38][0], x[38][1] * x[38][1];
522     addps   m6, [rsp   ] ; real_sum1 + x[ 0][0] * x[ 1][0], x[ 0][1] * x[ 1][1]; imag_sum1 + x[ 0][0] * x[ 1][1], x[ 0][1] * x[ 1][0];
523     addps   m7, [rsp+16] ; real_sum0 + x[ 0][0] * x[ 0][0], x[ 0][1] * x[ 0][1];
524
525     xorps   m2, [ps_mask3]
526     xorps   m5, [ps_mask3]
527     xorps   m6, [ps_mask3]
528 %if cpuflag(sse3)
529     movshdup m0, m1
530     haddps  m2, m5
531     haddps  m7, m6
532     addss   m1, m0
533 %else
534     movaps  m3, m2
535     movaps  m0, m5
536     movaps  m4, m6
537     shufps  m3, m3, q0301
538     shufps  m0, m0, q0301
539     shufps  m4, m4, q0301
540     addps   m2, m3
541     addps   m5, m0
542     addps   m6, m4
543
544     movss   m0, m7
545     movss   m3, m1
546     shufps  m7, m7, q0001
547     shufps  m1, m1, q0001
548     addss   m7, m0
549     addss   m1, m3
550     shufps  m2, m5, q2020
551     shufps  m7, m6, q2020
552 %endif
553     movaps  [phiq     ], m2
554     movhps  [phiq+0x18], m7
555     movss   [phiq+0x28], m7
556     movss   [phiq+0x10], m1
557     RET
558 %endmacro
559
560 INIT_XMM sse
561 SBR_AUTOCORRELATE
562 INIT_XMM sse3
563 SBR_AUTOCORRELATE