]> git.sesse.net Git - ffmpeg/blob - libavfilter/x86/avf_showcqt.asm
vf_ssim: Fix loading doubles to float registers on i386
[ffmpeg] / libavfilter / x86 / avf_showcqt.asm
1 ;*****************************************************************************
2 ;* x86-optimized functions for showcqt filter
3 ;*
4 ;* Copyright (C) 2016 Muhammad Faiz <mfcc64@gmail.com>
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "libavutil/x86/x86util.asm"
24
25 %if ARCH_X86_64
26 %define pointer resq
27 %else
28 %define pointer resd
29 %endif
30
31 struc Coeffs
32     .val:   pointer 1
33     .start: resd 1
34     .len:   resd 1
35     .sizeof:
36 endstruc
37
38 %macro CQT_CALC 9
39 ; %1 = a_re, %2 = a_im, %3 = b_re, %4 = b_im
40 ; %5 = m_re, %6 = m_im, %7 = tmp, %8 = coeffval, %9 = coeffsq_offset
41     mov     id, xd
42     add     id, [coeffsq + Coeffs.start + %9]
43     movaps  m%5, [srcq + 8 * iq]
44     movaps  m%7, [srcq + 8 * iq + mmsize]
45     shufps  m%6, m%5, m%7, q3131
46     shufps  m%5, m%5, m%7, q2020
47     sub     id, fft_lend
48     FMULADD_PS m%2, m%6, m%8, m%2, m%6
49     neg     id
50     FMULADD_PS m%1, m%5, m%8, m%1, m%5
51     movups  m%5, [srcq + 8 * iq - mmsize + 8]
52     movups  m%7, [srcq + 8 * iq - 2*mmsize + 8]
53     %if mmsize == 32
54     vperm2f128 m%5, m%5, m%5, 1
55     vperm2f128 m%7, m%7, m%7, 1
56     %endif
57     shufps  m%6, m%5, m%7, q1313
58     shufps  m%5, m%5, m%7, q0202
59     FMULADD_PS m%4, m%6, m%8, m%4, m%6
60     FMULADD_PS m%3, m%5, m%8, m%3, m%5
61 %endmacro ; CQT_CALC
62
63 %macro CQT_SEPARATE 6 ; a_re, a_im, b_re, b_im, tmp, tmp2
64     addps   m%5, m%4, m%2
65     subps   m%6, m%3, m%1
66     addps   m%1, m%1, m%3
67     subps   m%2, m%2, m%4
68     HADDPS  m%5, m%6, m%3
69     HADDPS  m%1, m%2, m%3
70     HADDPS  m%1, m%5, m%2
71     %if mmsize == 32
72     vextractf128 xmm%2, m%1, 1
73     addps   xmm%1, xmm%2
74     %endif
75 %endmacro ; CQT_SEPARATE
76
77 %macro DECLARE_CQT_CALC 0
78 ; ff_showcqt_cqt_calc_*(dst, src, coeffs, len, fft_len)
79 %if ARCH_X86_64
80 cglobal showcqt_cqt_calc, 5, 10, 12, dst, src, coeffs, len, fft_len, x, coeffs_val, coeffs_val2, i, coeffs_len
81     align   16
82     .loop_k:
83         mov     xd, [coeffsq + Coeffs.len]
84         xorps   m0, m0, m0
85         movaps  m1, m0
86         movaps  m2, m0
87         mov     coeffs_lend, [coeffsq + Coeffs.len + Coeffs.sizeof]
88         movaps  m3, m0
89         movaps  m8, m0
90         cmp     coeffs_lend, xd
91         movaps  m9, m0
92         movaps  m10, m0
93         movaps  m11, m0
94         cmova   coeffs_lend, xd
95         xor     xd, xd
96         test    coeffs_lend, coeffs_lend
97         jz      .check_loop_b
98         mov     coeffs_valq, [coeffsq + Coeffs.val]
99         mov     coeffs_val2q, [coeffsq + Coeffs.val + Coeffs.sizeof]
100         align   16
101         .loop_ab:
102             movaps  m7, [coeffs_valq + 4 * xq]
103             CQT_CALC 0, 1, 2, 3, 4, 5, 6, 7, 0
104             movaps  m7, [coeffs_val2q + 4 * xq]
105             CQT_CALC 8, 9, 10, 11, 4, 5, 6, 7, Coeffs.sizeof
106             add     xd, mmsize/4
107             cmp     xd, coeffs_lend
108             jb      .loop_ab
109         .check_loop_b:
110         cmp     xd, [coeffsq + Coeffs.len + Coeffs.sizeof]
111         jae     .check_loop_a
112         align   16
113         .loop_b:
114             movaps  m7, [coeffs_val2q + 4 * xq]
115             CQT_CALC 8, 9, 10, 11, 4, 5, 6, 7, Coeffs.sizeof
116             add     xd, mmsize/4
117             cmp     xd, [coeffsq + Coeffs.len + Coeffs.sizeof]
118             jb      .loop_b
119         .loop_end:
120         CQT_SEPARATE 0, 1, 2, 3, 4, 5
121         CQT_SEPARATE 8, 9, 10, 11, 4, 5
122         mulps   xmm0, xmm0
123         mulps   xmm8, xmm8
124         HADDPS  xmm0, xmm8, xmm1
125         movaps  [dstq], xmm0
126         sub     lend, 2
127         lea     dstq, [dstq + 16]
128         lea     coeffsq, [coeffsq + 2*Coeffs.sizeof]
129         jnz     .loop_k
130         REP_RET
131         align   16
132         .check_loop_a:
133         cmp     xd, [coeffsq + Coeffs.len]
134         jae     .loop_end
135         align   16
136         .loop_a:
137             movaps  m7, [coeffs_valq + 4 * xq]
138             CQT_CALC 0, 1, 2, 3, 4, 5, 6, 7, 0
139             add     xd, mmsize/4
140             cmp     xd, [coeffsq + Coeffs.len]
141             jb      .loop_a
142         jmp     .loop_end
143 %else
144 cglobal showcqt_cqt_calc, 4, 7, 8, dst, src, coeffs, len, x, coeffs_val, i
145 %define fft_lend r4m
146     align   16
147     .loop_k:
148         mov     xd, [coeffsq + Coeffs.len]
149         xorps   m0, m0, m0
150         movaps  m1, m0
151         movaps  m2, m0
152         movaps  m3, m0
153         test    xd, xd
154         jz      .store
155         mov     coeffs_valq, [coeffsq + Coeffs.val]
156         xor     xd, xd
157         align   16
158         .loop_x:
159             movaps  m7, [coeffs_valq + 4 * xq]
160             CQT_CALC 0, 1, 2, 3, 4, 5, 6, 7, 0
161             add     xd, mmsize/4
162             cmp     xd, [coeffsq + Coeffs.len]
163             jb      .loop_x
164         CQT_SEPARATE 0, 1, 2, 3, 4, 5
165         mulps   xmm0, xmm0
166         HADDPS  xmm0, xmm0, xmm1
167         .store:
168         movlps  [dstq], xmm0
169         sub     lend, 1
170         lea     dstq, [dstq + 8]
171         lea     coeffsq, [coeffsq + Coeffs.sizeof]
172         jnz     .loop_k
173         REP_RET
174 %endif ; ARCH_X86_64
175 %endmacro ; DECLARE_CQT_CALC
176
177 INIT_XMM sse
178 DECLARE_CQT_CALC
179 INIT_XMM sse3
180 DECLARE_CQT_CALC
181 %if HAVE_AVX_EXTERNAL
182 INIT_YMM avx
183 DECLARE_CQT_CALC
184 %endif
185 %if HAVE_FMA3_EXTERNAL
186 INIT_YMM fma3
187 DECLARE_CQT_CALC
188 %endif
189 %if HAVE_FMA4_EXTERNAL
190 INIT_XMM fma4
191 DECLARE_CQT_CALC
192 %endif