]> git.sesse.net Git - ffmpeg/blob - libavfilter/x86/avf_showcqt.asm
Merge commit 'a86ef80494d759807a5ef8dd12838f0690092e37'
[ffmpeg] / libavfilter / x86 / avf_showcqt.asm
1 ;*****************************************************************************
2 ;* x86-optimized functions for showcqt filter
3 ;*
4 ;* Copyright (C) 2016 Muhammad Faiz <mfcc64@gmail.com>
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "libavutil/x86/x86util.asm"
24
25 %if ARCH_X86_64
26 %define pointer resq
27 %else
28 %define pointer resd
29 %endif
30
31 struc Coeffs
32     .val:   pointer 1
33     .start: resd 1
34     .len:   resd 1
35     .sizeof:
36 endstruc
37
38 %macro EMULATE_FMADDPS 5 ; dst, src1, src2, src3, tmp
39 %if cpuflag(fma3) || cpuflag(fma4)
40     fmaddps %1, %2, %3, %4
41 %else
42     mulps   %5, %2, %3
43     addps   %1, %4, %5
44 %endif
45 %endmacro ; EMULATE_FMADDPS
46
47 %macro CQT_CALC 9
48 ; %1 = a_re, %2 = a_im, %3 = b_re, %4 = b_im
49 ; %5 = m_re, %6 = m_im, %7 = tmp, %8 = coeffval, %9 = coeffsq_offset
50     mov     id, xd
51     add     id, [coeffsq + Coeffs.start + %9]
52     movaps  m%5, [srcq + 8 * iq]
53     movaps  m%7, [srcq + 8 * iq + mmsize]
54     shufps  m%6, m%5, m%7, q3131
55     shufps  m%5, m%5, m%7, q2020
56     sub     id, fft_lend
57     EMULATE_FMADDPS m%2, m%6, m%8, m%2, m%6
58     neg     id
59     EMULATE_FMADDPS m%1, m%5, m%8, m%1, m%5
60     movups  m%5, [srcq + 8 * iq - mmsize + 8]
61     movups  m%7, [srcq + 8 * iq - 2*mmsize + 8]
62     %if mmsize == 32
63     vperm2f128 m%5, m%5, m%5, 1
64     vperm2f128 m%7, m%7, m%7, 1
65     %endif
66     shufps  m%6, m%5, m%7, q1313
67     shufps  m%5, m%5, m%7, q0202
68     EMULATE_FMADDPS m%4, m%6, m%8, m%4, m%6
69     EMULATE_FMADDPS m%3, m%5, m%8, m%3, m%5
70 %endmacro ; CQT_CALC
71
72 %macro CQT_SEPARATE 6 ; a_re, a_im, b_re, b_im, tmp, tmp2
73     addps   m%5, m%4, m%2
74     subps   m%6, m%3, m%1
75     addps   m%1, m%1, m%3
76     subps   m%2, m%2, m%4
77     HADDPS  m%5, m%6, m%3
78     HADDPS  m%1, m%2, m%3
79     HADDPS  m%1, m%5, m%2
80     %if mmsize == 32
81     vextractf128 xmm%2, m%1, 1
82     addps   xmm%1, xmm%2
83     %endif
84 %endmacro ; CQT_SEPARATE
85
86 %macro DECLARE_CQT_CALC 0
87 ; ff_showcqt_cqt_calc_*(dst, src, coeffs, len, fft_len)
88 %if ARCH_X86_64
89 cglobal showcqt_cqt_calc, 5, 10, 12, dst, src, coeffs, len, fft_len, x, coeffs_val, coeffs_val2, i, coeffs_len
90     align   16
91     .loop_k:
92         mov     xd, [coeffsq + Coeffs.len]
93         xorps   m0, m0, m0
94         movaps  m1, m0
95         movaps  m2, m0
96         mov     coeffs_lend, [coeffsq + Coeffs.len + Coeffs.sizeof]
97         movaps  m3, m0
98         movaps  m8, m0
99         cmp     coeffs_lend, xd
100         movaps  m9, m0
101         movaps  m10, m0
102         movaps  m11, m0
103         cmova   coeffs_lend, xd
104         xor     xd, xd
105         test    coeffs_lend, coeffs_lend
106         jz      .check_loop_b
107         mov     coeffs_valq, [coeffsq + Coeffs.val]
108         mov     coeffs_val2q, [coeffsq + Coeffs.val + Coeffs.sizeof]
109         align   16
110         .loop_ab:
111             movaps  m7, [coeffs_valq + 4 * xq]
112             CQT_CALC 0, 1, 2, 3, 4, 5, 6, 7, 0
113             movaps  m7, [coeffs_val2q + 4 * xq]
114             CQT_CALC 8, 9, 10, 11, 4, 5, 6, 7, Coeffs.sizeof
115             add     xd, mmsize/4
116             cmp     xd, coeffs_lend
117             jb      .loop_ab
118         .check_loop_b:
119         cmp     xd, [coeffsq + Coeffs.len + Coeffs.sizeof]
120         jae     .check_loop_a
121         align   16
122         .loop_b:
123             movaps  m7, [coeffs_val2q + 4 * xq]
124             CQT_CALC 8, 9, 10, 11, 4, 5, 6, 7, Coeffs.sizeof
125             add     xd, mmsize/4
126             cmp     xd, [coeffsq + Coeffs.len + Coeffs.sizeof]
127             jb      .loop_b
128         .loop_end:
129         CQT_SEPARATE 0, 1, 2, 3, 4, 5
130         CQT_SEPARATE 8, 9, 10, 11, 4, 5
131         mulps   xmm0, xmm0
132         mulps   xmm8, xmm8
133         HADDPS  xmm0, xmm8, xmm1
134         movaps  [dstq], xmm0
135         sub     lend, 2
136         lea     dstq, [dstq + 16]
137         lea     coeffsq, [coeffsq + 2*Coeffs.sizeof]
138         jnz     .loop_k
139         REP_RET
140         align   16
141         .check_loop_a:
142         cmp     xd, [coeffsq + Coeffs.len]
143         jae     .loop_end
144         align   16
145         .loop_a:
146             movaps  m7, [coeffs_valq + 4 * xq]
147             CQT_CALC 0, 1, 2, 3, 4, 5, 6, 7, 0
148             add     xd, mmsize/4
149             cmp     xd, [coeffsq + Coeffs.len]
150             jb      .loop_a
151         jmp     .loop_end
152 %else
153 cglobal showcqt_cqt_calc, 4, 7, 8, dst, src, coeffs, len, x, coeffs_val, i
154 %define fft_lend r4m
155     align   16
156     .loop_k:
157         mov     xd, [coeffsq + Coeffs.len]
158         xorps   m0, m0, m0
159         movaps  m1, m0
160         movaps  m2, m0
161         movaps  m3, m0
162         test    xd, xd
163         jz      .store
164         mov     coeffs_valq, [coeffsq + Coeffs.val]
165         xor     xd, xd
166         align   16
167         .loop_x:
168             movaps  m7, [coeffs_valq + 4 * xq]
169             CQT_CALC 0, 1, 2, 3, 4, 5, 6, 7, 0
170             add     xd, mmsize/4
171             cmp     xd, [coeffsq + Coeffs.len]
172             jb      .loop_x
173         CQT_SEPARATE 0, 1, 2, 3, 4, 5
174         mulps   xmm0, xmm0
175         HADDPS  xmm0, xmm0, xmm1
176         .store:
177         movlps  [dstq], xmm0
178         sub     lend, 1
179         lea     dstq, [dstq + 8]
180         lea     coeffsq, [coeffsq + Coeffs.sizeof]
181         jnz     .loop_k
182         REP_RET
183 %endif ; ARCH_X86_64
184 %endmacro ; DECLARE_CQT_CALC
185
186 INIT_XMM sse
187 DECLARE_CQT_CALC
188 INIT_XMM sse3
189 DECLARE_CQT_CALC
190 %if HAVE_AVX_EXTERNAL
191 INIT_YMM avx
192 DECLARE_CQT_CALC
193 %endif
194 %if HAVE_FMA3_EXTERNAL
195 INIT_YMM fma3
196 DECLARE_CQT_CALC
197 %endif
198 %if HAVE_FMA4_EXTERNAL
199 INIT_XMM fma4
200 DECLARE_CQT_CALC
201 %endif