]> git.sesse.net Git - ffmpeg/blob - libavutil/x86/float_dsp.asm
Merge commit 'adf8227cf4e7b4fccb2ad88e1e09b6dc00dd00ed'
[ffmpeg] / libavutil / x86 / float_dsp.asm
1 ;*****************************************************************************
2 ;* x86-optimized Float DSP functions
3 ;*
4 ;* Copyright 2006 Loren Merritt
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "x86util.asm"
24
25 SECTION .text
26
27 ;-----------------------------------------------------------------------------
28 ; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
29 ;-----------------------------------------------------------------------------
30 %macro VECTOR_FMUL 0
31 cglobal vector_fmul, 4,4,2, dst, src0, src1, len
32     lea       lenq, [lend*4 - 64]
33 ALIGN 16
34 .loop:
35 %assign a 0
36 %rep 32/mmsize
37     mova      m0,   [src0q + lenq + (a+0)*mmsize]
38     mova      m1,   [src0q + lenq + (a+1)*mmsize]
39     mulps     m0, m0, [src1q + lenq + (a+0)*mmsize]
40     mulps     m1, m1, [src1q + lenq + (a+1)*mmsize]
41     mova      [dstq + lenq + (a+0)*mmsize], m0
42     mova      [dstq + lenq + (a+1)*mmsize], m1
43 %assign a a+2
44 %endrep
45
46     sub       lenq, 64
47     jge       .loop
48     REP_RET
49 %endmacro
50
51 INIT_XMM sse
52 VECTOR_FMUL
53 %if HAVE_AVX_EXTERNAL
54 INIT_YMM avx
55 VECTOR_FMUL
56 %endif
57
58 ;------------------------------------------------------------------------------
59 ; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
60 ;------------------------------------------------------------------------------
61
62 %macro VECTOR_FMAC_SCALAR 0
63 %if UNIX64
64 cglobal vector_fmac_scalar, 3,3,5, dst, src, len
65 %else
66 cglobal vector_fmac_scalar, 4,4,5, dst, src, mul, len
67 %endif
68 %if ARCH_X86_32
69     VBROADCASTSS m0, mulm
70 %else
71 %if WIN64
72     SWAP 0, 2
73 %endif
74     shufps      xm0, xm0, 0
75 %if cpuflag(avx)
76     vinsertf128  m0, m0, xm0, 1
77 %endif
78 %endif
79     lea    lenq, [lend*4-64]
80 .loop:
81 %if cpuflag(fma3)
82     mova     m1,     [dstq+lenq]
83     mova     m2,     [dstq+lenq+1*mmsize]
84     fmaddps  m1, m0, [srcq+lenq], m1
85     fmaddps  m2, m0, [srcq+lenq+1*mmsize], m2
86 %else ; cpuflag
87     mulps    m1, m0, [srcq+lenq]
88     mulps    m2, m0, [srcq+lenq+1*mmsize]
89 %if mmsize < 32
90     mulps    m3, m0, [srcq+lenq+2*mmsize]
91     mulps    m4, m0, [srcq+lenq+3*mmsize]
92 %endif ; mmsize
93     addps    m1, m1, [dstq+lenq]
94     addps    m2, m2, [dstq+lenq+1*mmsize]
95 %if mmsize < 32
96     addps    m3, m3, [dstq+lenq+2*mmsize]
97     addps    m4, m4, [dstq+lenq+3*mmsize]
98 %endif ; mmsize
99 %endif ; cpuflag
100     mova  [dstq+lenq], m1
101     mova  [dstq+lenq+1*mmsize], m2
102 %if mmsize < 32
103     mova  [dstq+lenq+2*mmsize], m3
104     mova  [dstq+lenq+3*mmsize], m4
105 %endif ; mmsize
106     sub    lenq, 64
107     jge .loop
108     REP_RET
109 %endmacro
110
111 INIT_XMM sse
112 VECTOR_FMAC_SCALAR
113 %if HAVE_AVX_EXTERNAL
114 INIT_YMM avx
115 VECTOR_FMAC_SCALAR
116 %endif
117 %if HAVE_FMA3_EXTERNAL
118 INIT_YMM fma3
119 VECTOR_FMAC_SCALAR
120 %endif
121
122 ;------------------------------------------------------------------------------
123 ; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
124 ;------------------------------------------------------------------------------
125
126 %macro VECTOR_FMUL_SCALAR 0
127 %if UNIX64
128 cglobal vector_fmul_scalar, 3,3,2, dst, src, len
129 %else
130 cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
131 %endif
132 %if ARCH_X86_32
133     movss    m0, mulm
134 %elif WIN64
135     SWAP 0, 2
136 %endif
137     shufps   m0, m0, 0
138     lea    lenq, [lend*4-mmsize]
139 .loop:
140     mova     m1, [srcq+lenq]
141     mulps    m1, m0
142     mova  [dstq+lenq], m1
143     sub    lenq, mmsize
144     jge .loop
145     REP_RET
146 %endmacro
147
148 INIT_XMM sse
149 VECTOR_FMUL_SCALAR
150
151 ;------------------------------------------------------------------------------
152 ; void ff_vector_dmul_scalar(double *dst, const double *src, double mul,
153 ;                            int len)
154 ;------------------------------------------------------------------------------
155
156 %macro VECTOR_DMUL_SCALAR 0
157 %if ARCH_X86_32
158 cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
159     mov          lenq, lenaddrm
160 %elif UNIX64
161 cglobal vector_dmul_scalar, 3,3,3, dst, src, len
162 %else
163 cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
164 %endif
165 %if ARCH_X86_32
166     VBROADCASTSD   m0, mulm
167 %else
168 %if WIN64
169     SWAP 0, 2
170 %endif
171     movlhps       xm0, xm0
172 %if cpuflag(avx)
173     vinsertf128   ym0, ym0, xm0, 1
174 %endif
175 %endif
176     lea          lenq, [lend*8-2*mmsize]
177 .loop:
178     mulpd          m1, m0, [srcq+lenq       ]
179     mulpd          m2, m0, [srcq+lenq+mmsize]
180     mova   [dstq+lenq       ], m1
181     mova   [dstq+lenq+mmsize], m2
182     sub          lenq, 2*mmsize
183     jge .loop
184     REP_RET
185 %endmacro
186
187 INIT_XMM sse2
188 VECTOR_DMUL_SCALAR
189 %if HAVE_AVX_EXTERNAL
190 INIT_YMM avx
191 VECTOR_DMUL_SCALAR
192 %endif
193
194 ;-----------------------------------------------------------------------------
195 ; vector_fmul_window(float *dst, const float *src0,
196 ;                    const float *src1, const float *win, int len);
197 ;-----------------------------------------------------------------------------
198 %macro VECTOR_FMUL_WINDOW 0
199 cglobal vector_fmul_window, 5, 6, 6, dst, src0, src1, win, len, len1
200     shl     lend, 2
201     lea    len1q, [lenq - mmsize]
202     add    src0q, lenq
203     add     dstq, lenq
204     add     winq, lenq
205     neg     lenq
206 .loop
207     mova      m0, [winq  + lenq]
208     mova      m4, [src0q + lenq]
209 %if cpuflag(sse)
210     mova      m1, [winq  + len1q]
211     mova      m5, [src1q + len1q]
212     shufps    m1, m1, 0x1b
213     shufps    m5, m5, 0x1b
214     mova      m2, m0
215     mova      m3, m1
216     mulps     m2, m4
217     mulps     m3, m5
218     mulps     m1, m4
219     mulps     m0, m5
220     addps     m2, m3
221     subps     m1, m0
222     shufps    m2, m2, 0x1b
223 %else
224     pswapd    m1, [winq  + len1q]
225     pswapd    m5, [src1q + len1q]
226     mova      m2, m0
227     mova      m3, m1
228     pfmul     m2, m4
229     pfmul     m3, m5
230     pfmul     m1, m4
231     pfmul     m0, m5
232     pfadd     m2, m3
233     pfsub     m1, m0
234     pswapd    m2, m2
235 %endif
236     mova      [dstq + lenq], m1
237     mova      [dstq + len1q], m2
238     sub       len1q, mmsize
239     add       lenq,  mmsize
240     jl .loop
241 %if mmsize == 8
242     femms
243 %endif
244     REP_RET
245 %endmacro
246
247 INIT_MMX 3dnowext
248 VECTOR_FMUL_WINDOW
249 INIT_XMM sse
250 VECTOR_FMUL_WINDOW
251
252 ;-----------------------------------------------------------------------------
253 ; vector_fmul_add(float *dst, const float *src0, const float *src1,
254 ;                 const float *src2, int len)
255 ;-----------------------------------------------------------------------------
256 %macro VECTOR_FMUL_ADD 0
257 cglobal vector_fmul_add, 5,5,4, dst, src0, src1, src2, len
258     lea       lenq, [lend*4 - 2*mmsize]
259 ALIGN 16
260 .loop:
261     mova    m0,   [src0q + lenq]
262     mova    m1,   [src0q + lenq + mmsize]
263 %if cpuflag(fma3)
264     mova    m2,     [src2q + lenq]
265     mova    m3,     [src2q + lenq + mmsize]
266     fmaddps m0, m0, [src1q + lenq], m2
267     fmaddps m1, m1, [src1q + lenq + mmsize], m3
268 %else
269     mulps   m0, m0, [src1q + lenq]
270     mulps   m1, m1, [src1q + lenq + mmsize]
271     addps   m0, m0, [src2q + lenq]
272     addps   m1, m1, [src2q + lenq + mmsize]
273 %endif
274     mova    [dstq + lenq], m0
275     mova    [dstq + lenq + mmsize], m1
276
277     sub     lenq,   2*mmsize
278     jge     .loop
279     REP_RET
280 %endmacro
281
282 INIT_XMM sse
283 VECTOR_FMUL_ADD
284 %if HAVE_AVX_EXTERNAL
285 INIT_YMM avx
286 VECTOR_FMUL_ADD
287 %endif
288 %if HAVE_FMA3_EXTERNAL
289 INIT_YMM fma3
290 VECTOR_FMUL_ADD
291 %endif
292
293 ;-----------------------------------------------------------------------------
294 ; void vector_fmul_reverse(float *dst, const float *src0, const float *src1,
295 ;                          int len)
296 ;-----------------------------------------------------------------------------
297 %macro VECTOR_FMUL_REVERSE 0
298 cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
299     lea       lenq, [lend*4 - 2*mmsize]
300 ALIGN 16
301 .loop:
302 %if cpuflag(avx)
303     vmovaps     xmm0, [src1q + 16]
304     vinsertf128 m0, m0, [src1q], 1
305     vshufps     m0, m0, m0, q0123
306     vmovaps     xmm1, [src1q + mmsize + 16]
307     vinsertf128 m1, m1, [src1q + mmsize], 1
308     vshufps     m1, m1, m1, q0123
309 %else
310     mova    m0, [src1q]
311     mova    m1, [src1q + mmsize]
312     shufps  m0, m0, q0123
313     shufps  m1, m1, q0123
314 %endif
315     mulps   m0, m0, [src0q + lenq + mmsize]
316     mulps   m1, m1, [src0q + lenq]
317     mova    [dstq + lenq + mmsize], m0
318     mova    [dstq + lenq], m1
319     add     src1q, 2*mmsize
320     sub     lenq,  2*mmsize
321     jge     .loop
322     REP_RET
323 %endmacro
324
325 INIT_XMM sse
326 VECTOR_FMUL_REVERSE
327 %if HAVE_AVX_EXTERNAL
328 INIT_YMM avx
329 VECTOR_FMUL_REVERSE
330 %endif
331
332 ; float scalarproduct_float_sse(const float *v1, const float *v2, int len)
333 INIT_XMM sse
334 cglobal scalarproduct_float, 3,3,2, v1, v2, offset
335     neg   offsetq
336     shl   offsetq, 2
337     sub       v1q, offsetq
338     sub       v2q, offsetq
339     xorps    xmm0, xmm0
340 .loop:
341     movaps   xmm1, [v1q+offsetq]
342     mulps    xmm1, [v2q+offsetq]
343     addps    xmm0, xmm1
344     add   offsetq, 16
345     js .loop
346     movhlps  xmm1, xmm0
347     addps    xmm0, xmm1
348     movss    xmm1, xmm0
349     shufps   xmm0, xmm0, 1
350     addss    xmm0, xmm1
351 %if ARCH_X86_64 == 0
352     movss     r0m,  xmm0
353     fld dword r0m
354 %endif
355     RET
356
357 ;-----------------------------------------------------------------------------
358 ; void ff_butterflies_float(float *src0, float *src1, int len);
359 ;-----------------------------------------------------------------------------
360 INIT_XMM sse
361 cglobal butterflies_float, 3,3,3, src0, src1, len
362 %if ARCH_X86_64
363     movsxd    lenq, lend
364 %endif
365     test      lenq, lenq
366     jz .end
367     shl       lenq, 2
368     add      src0q, lenq
369     add      src1q, lenq
370     neg       lenq
371 .loop:
372     mova        m0, [src0q + lenq]
373     mova        m1, [src1q + lenq]
374     subps       m2, m0, m1
375     addps       m0, m0, m1
376     mova        [src1q + lenq], m2
377     mova        [src0q + lenq], m0
378     add       lenq, mmsize
379     jl .loop
380 .end:
381     REP_RET