]> git.sesse.net Git - ffmpeg/blob - libavutil/x86/float_dsp.asm
dsputil: Make dsputil selectable
[ffmpeg] / libavutil / x86 / float_dsp.asm
1 ;*****************************************************************************
2 ;* x86-optimized Float DSP functions
3 ;*
4 ;* This file is part of Libav.
5 ;*
6 ;* Libav is free software; you can redistribute it and/or
7 ;* modify it under the terms of the GNU Lesser General Public
8 ;* License as published by the Free Software Foundation; either
9 ;* version 2.1 of the License, or (at your option) any later version.
10 ;*
11 ;* Libav is distributed in the hope that it will be useful,
12 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
13 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14 ;* Lesser General Public License for more details.
15 ;*
16 ;* You should have received a copy of the GNU Lesser General Public
17 ;* License along with Libav; if not, write to the Free Software
18 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
19 ;******************************************************************************
20
21 %include "x86util.asm"
22
23 SECTION .text
24
25 ;-----------------------------------------------------------------------------
26 ; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
27 ;-----------------------------------------------------------------------------
28 %macro VECTOR_FMUL 0
29 cglobal vector_fmul, 4,4,2, dst, src0, src1, len
30     lea       lenq, [lend*4 - 2*mmsize]
31 ALIGN 16
32 .loop:
33     mova      m0,   [src0q + lenq]
34     mova      m1,   [src0q + lenq + mmsize]
35     mulps     m0, m0, [src1q + lenq]
36     mulps     m1, m1, [src1q + lenq + mmsize]
37     mova      [dstq + lenq], m0
38     mova      [dstq + lenq + mmsize], m1
39
40     sub       lenq, 2*mmsize
41     jge       .loop
42     REP_RET
43 %endmacro
44
45 INIT_XMM sse
46 VECTOR_FMUL
47 INIT_YMM avx
48 VECTOR_FMUL
49
50 ;------------------------------------------------------------------------------
51 ; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
52 ;------------------------------------------------------------------------------
53
54 %macro VECTOR_FMAC_SCALAR 0
55 %if UNIX64
56 cglobal vector_fmac_scalar, 3,3,3, dst, src, len
57 %else
58 cglobal vector_fmac_scalar, 4,4,3, dst, src, mul, len
59 %endif
60 %if ARCH_X86_32
61     VBROADCASTSS m0, mulm
62 %else
63 %if WIN64
64     mova       xmm0, xmm2
65 %endif
66     shufps     xmm0, xmm0, 0
67 %if cpuflag(avx)
68     vinsertf128  m0, m0, xmm0, 1
69 %endif
70 %endif
71     lea    lenq, [lend*4-2*mmsize]
72 .loop:
73     mulps    m1, m0, [srcq+lenq       ]
74     mulps    m2, m0, [srcq+lenq+mmsize]
75     addps    m1, m1, [dstq+lenq       ]
76     addps    m2, m2, [dstq+lenq+mmsize]
77     mova  [dstq+lenq       ], m1
78     mova  [dstq+lenq+mmsize], m2
79     sub    lenq, 2*mmsize
80     jge .loop
81     REP_RET
82 %endmacro
83
84 INIT_XMM sse
85 VECTOR_FMAC_SCALAR
86 INIT_YMM avx
87 VECTOR_FMAC_SCALAR
88
89 ;------------------------------------------------------------------------------
90 ; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
91 ;------------------------------------------------------------------------------
92
93 %macro VECTOR_FMUL_SCALAR 0
94 %if UNIX64
95 cglobal vector_fmul_scalar, 3,3,2, dst, src, len
96 %else
97 cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
98 %endif
99 %if ARCH_X86_32
100     movss    m0, mulm
101 %elif WIN64
102     SWAP 0, 2
103 %endif
104     shufps   m0, m0, 0
105     lea    lenq, [lend*4-mmsize]
106 .loop:
107     mova     m1, [srcq+lenq]
108     mulps    m1, m0
109     mova  [dstq+lenq], m1
110     sub    lenq, mmsize
111     jge .loop
112     REP_RET
113 %endmacro
114
115 INIT_XMM sse
116 VECTOR_FMUL_SCALAR
117
118 ;------------------------------------------------------------------------------
119 ; void ff_vector_dmul_scalar(double *dst, const double *src, double mul,
120 ;                            int len)
121 ;------------------------------------------------------------------------------
122
123 %macro VECTOR_DMUL_SCALAR 0
124 %if ARCH_X86_32
125 cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
126     mov          lenq, lenaddrm
127 %elif UNIX64
128 cglobal vector_dmul_scalar, 3,3,3, dst, src, len
129 %else
130 cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
131 %endif
132 %if ARCH_X86_32
133     VBROADCASTSD   m0, mulm
134 %else
135 %if WIN64
136     movlhps      xmm2, xmm2
137 %if cpuflag(avx)
138     vinsertf128  ymm2, ymm2, xmm2, 1
139 %endif
140     SWAP 0, 2
141 %else
142     movlhps      xmm0, xmm0
143 %if cpuflag(avx)
144     vinsertf128  ymm0, ymm0, xmm0, 1
145 %endif
146 %endif
147 %endif
148     lea          lenq, [lend*8-2*mmsize]
149 .loop:
150     mulpd          m1, m0, [srcq+lenq       ]
151     mulpd          m2, m0, [srcq+lenq+mmsize]
152     mova   [dstq+lenq       ], m1
153     mova   [dstq+lenq+mmsize], m2
154     sub          lenq, 2*mmsize
155     jge .loop
156     REP_RET
157 %endmacro
158
159 INIT_XMM sse2
160 VECTOR_DMUL_SCALAR
161 %if HAVE_AVX_EXTERNAL
162 INIT_YMM avx
163 VECTOR_DMUL_SCALAR
164 %endif
165
166 ;-----------------------------------------------------------------------------
167 ; vector_fmul_add(float *dst, const float *src0, const float *src1,
168 ;                 const float *src2, int len)
169 ;-----------------------------------------------------------------------------
170 %macro VECTOR_FMUL_ADD 0
171 cglobal vector_fmul_add, 5,5,2, dst, src0, src1, src2, len
172     lea       lenq, [lend*4 - 2*mmsize]
173 ALIGN 16
174 .loop:
175     mova    m0,   [src0q + lenq]
176     mova    m1,   [src0q + lenq + mmsize]
177     mulps   m0, m0, [src1q + lenq]
178     mulps   m1, m1, [src1q + lenq + mmsize]
179     addps   m0, m0, [src2q + lenq]
180     addps   m1, m1, [src2q + lenq + mmsize]
181     mova    [dstq + lenq], m0
182     mova    [dstq + lenq + mmsize], m1
183
184     sub     lenq,   2*mmsize
185     jge     .loop
186     REP_RET
187 %endmacro
188
189 INIT_XMM sse
190 VECTOR_FMUL_ADD
191 INIT_YMM avx
192 VECTOR_FMUL_ADD
193
194 ;-----------------------------------------------------------------------------
195 ; void vector_fmul_reverse(float *dst, const float *src0, const float *src1,
196 ;                          int len)
197 ;-----------------------------------------------------------------------------
198 %macro VECTOR_FMUL_REVERSE 0
199 cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
200     lea       lenq, [lend*4 - 2*mmsize]
201 ALIGN 16
202 .loop:
203 %if cpuflag(avx)
204     vmovaps     xmm0, [src1q + 16]
205     vinsertf128 m0, m0, [src1q], 1
206     vshufps     m0, m0, m0, q0123
207     vmovaps     xmm1, [src1q + mmsize + 16]
208     vinsertf128 m1, m1, [src1q + mmsize], 1
209     vshufps     m1, m1, m1, q0123
210 %else
211     mova    m0, [src1q]
212     mova    m1, [src1q + mmsize]
213     shufps  m0, m0, q0123
214     shufps  m1, m1, q0123
215 %endif
216     mulps   m0, m0, [src0q + lenq + mmsize]
217     mulps   m1, m1, [src0q + lenq]
218     mova    [dstq + lenq + mmsize], m0
219     mova    [dstq + lenq], m1
220     add     src1q, 2*mmsize
221     sub     lenq,  2*mmsize
222     jge     .loop
223     REP_RET
224 %endmacro
225
226 INIT_XMM sse
227 VECTOR_FMUL_REVERSE
228 INIT_YMM avx
229 VECTOR_FMUL_REVERSE
230
231 ; float scalarproduct_float_sse(const float *v1, const float *v2, int len)
232 INIT_XMM sse
233 cglobal scalarproduct_float, 3,3,2, v1, v2, offset
234     neg   offsetq
235     shl   offsetq, 2
236     sub       v1q, offsetq
237     sub       v2q, offsetq
238     xorps    xmm0, xmm0
239 .loop:
240     movaps   xmm1, [v1q+offsetq]
241     mulps    xmm1, [v2q+offsetq]
242     addps    xmm0, xmm1
243     add   offsetq, 16
244     js .loop
245     movhlps  xmm1, xmm0
246     addps    xmm0, xmm1
247     movss    xmm1, xmm0
248     shufps   xmm0, xmm0, 1
249     addss    xmm0, xmm1
250 %if ARCH_X86_64 == 0
251     movss     r0m,  xmm0
252     fld dword r0m
253 %endif
254     RET