]> git.sesse.net Git - ffmpeg/blob - libavutil/x86/float_dsp.asm
Merge commit '9d4da474f5f40b019cb4cb931c8499deee586174'
[ffmpeg] / libavutil / x86 / float_dsp.asm
1 ;*****************************************************************************
2 ;* x86-optimized Float DSP functions
3 ;*
4 ;* Copyright 2006 Loren Merritt
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "x86util.asm"
24
25 SECTION .text
26
27 ;-----------------------------------------------------------------------------
28 ; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
29 ;-----------------------------------------------------------------------------
30 %macro VECTOR_FMUL 0
31 cglobal vector_fmul, 4,4,2, dst, src0, src1, len
32     lea       lenq, [lend*4 - 2*mmsize]
33 ALIGN 16
34 .loop:
35     mova      m0,   [src0q + lenq]
36     mova      m1,   [src0q + lenq + mmsize]
37     mulps     m0, m0, [src1q + lenq]
38     mulps     m1, m1, [src1q + lenq + mmsize]
39     mova      [dstq + lenq], m0
40     mova      [dstq + lenq + mmsize], m1
41
42     sub       lenq, 2*mmsize
43     jge       .loop
44     REP_RET
45 %endmacro
46
47 INIT_XMM sse
48 VECTOR_FMUL
49 %if HAVE_AVX_EXTERNAL
50 INIT_YMM avx
51 VECTOR_FMUL
52 %endif
53
54 ;------------------------------------------------------------------------------
55 ; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
56 ;------------------------------------------------------------------------------
57
58 %macro VECTOR_FMAC_SCALAR 0
59 %if UNIX64
60 cglobal vector_fmac_scalar, 3,3,3, dst, src, len
61 %else
62 cglobal vector_fmac_scalar, 4,4,3, dst, src, mul, len
63 %endif
64 %if ARCH_X86_32
65     VBROADCASTSS m0, mulm
66 %else
67 %if WIN64
68     mova       xmm0, xmm2
69 %endif
70     shufps     xmm0, xmm0, 0
71 %if cpuflag(avx)
72     vinsertf128  m0, m0, xmm0, 1
73 %endif
74 %endif
75     lea    lenq, [lend*4-2*mmsize]
76 .loop:
77     mulps    m1, m0, [srcq+lenq       ]
78     mulps    m2, m0, [srcq+lenq+mmsize]
79     addps    m1, m1, [dstq+lenq       ]
80     addps    m2, m2, [dstq+lenq+mmsize]
81     mova  [dstq+lenq       ], m1
82     mova  [dstq+lenq+mmsize], m2
83     sub    lenq, 2*mmsize
84     jge .loop
85     REP_RET
86 %endmacro
87
88 INIT_XMM sse
89 VECTOR_FMAC_SCALAR
90 %if HAVE_AVX_EXTERNAL
91 INIT_YMM avx
92 VECTOR_FMAC_SCALAR
93 %endif
94
95 ;------------------------------------------------------------------------------
96 ; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
97 ;------------------------------------------------------------------------------
98
99 %macro VECTOR_FMUL_SCALAR 0
100 %if UNIX64
101 cglobal vector_fmul_scalar, 3,3,2, dst, src, len
102 %else
103 cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
104 %endif
105 %if ARCH_X86_32
106     movss    m0, mulm
107 %elif WIN64
108     SWAP 0, 2
109 %endif
110     shufps   m0, m0, 0
111     lea    lenq, [lend*4-mmsize]
112 .loop:
113     mova     m1, [srcq+lenq]
114     mulps    m1, m0
115     mova  [dstq+lenq], m1
116     sub    lenq, mmsize
117     jge .loop
118     REP_RET
119 %endmacro
120
121 INIT_XMM sse
122 VECTOR_FMUL_SCALAR
123
124 ;------------------------------------------------------------------------------
125 ; void ff_vector_dmul_scalar(double *dst, const double *src, double mul,
126 ;                            int len)
127 ;------------------------------------------------------------------------------
128
129 %macro VECTOR_DMUL_SCALAR 0
130 %if ARCH_X86_32
131 cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
132     mov          lenq, lenaddrm
133 %elif UNIX64
134 cglobal vector_dmul_scalar, 3,3,3, dst, src, len
135 %else
136 cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
137 %endif
138 %if ARCH_X86_32
139     VBROADCASTSD   m0, mulm
140 %else
141 %if WIN64
142     movlhps      xmm2, xmm2
143 %if cpuflag(avx)
144     vinsertf128  ymm2, ymm2, xmm2, 1
145 %endif
146     SWAP 0, 2
147 %else
148     movlhps      xmm0, xmm0
149 %if cpuflag(avx)
150     vinsertf128  ymm0, ymm0, xmm0, 1
151 %endif
152 %endif
153 %endif
154     lea          lenq, [lend*8-2*mmsize]
155 .loop:
156     mulpd          m1, m0, [srcq+lenq       ]
157     mulpd          m2, m0, [srcq+lenq+mmsize]
158     mova   [dstq+lenq       ], m1
159     mova   [dstq+lenq+mmsize], m2
160     sub          lenq, 2*mmsize
161     jge .loop
162     REP_RET
163 %endmacro
164
165 INIT_XMM sse2
166 VECTOR_DMUL_SCALAR
167 %if HAVE_AVX_EXTERNAL
168 INIT_YMM avx
169 VECTOR_DMUL_SCALAR
170 %endif
171
172 ;-----------------------------------------------------------------------------
173 ; vector_fmul_add(float *dst, const float *src0, const float *src1,
174 ;                 const float *src2, int len)
175 ;-----------------------------------------------------------------------------
176 %macro VECTOR_FMUL_ADD 0
177 cglobal vector_fmul_add, 5,5,2, dst, src0, src1, src2, len
178     lea       lenq, [lend*4 - 2*mmsize]
179 ALIGN 16
180 .loop:
181     mova    m0,   [src0q + lenq]
182     mova    m1,   [src0q + lenq + mmsize]
183     mulps   m0, m0, [src1q + lenq]
184     mulps   m1, m1, [src1q + lenq + mmsize]
185     addps   m0, m0, [src2q + lenq]
186     addps   m1, m1, [src2q + lenq + mmsize]
187     mova    [dstq + lenq], m0
188     mova    [dstq + lenq + mmsize], m1
189
190     sub     lenq,   2*mmsize
191     jge     .loop
192     REP_RET
193 %endmacro
194
195 INIT_XMM sse
196 VECTOR_FMUL_ADD
197 %if HAVE_AVX_EXTERNAL
198 INIT_YMM avx
199 VECTOR_FMUL_ADD
200 %endif
201
202 ;-----------------------------------------------------------------------------
203 ; void vector_fmul_reverse(float *dst, const float *src0, const float *src1,
204 ;                          int len)
205 ;-----------------------------------------------------------------------------
206 %macro VECTOR_FMUL_REVERSE 0
207 cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
208     lea       lenq, [lend*4 - 2*mmsize]
209 ALIGN 16
210 .loop:
211 %if cpuflag(avx)
212     vmovaps     xmm0, [src1q + 16]
213     vinsertf128 m0, m0, [src1q], 1
214     vshufps     m0, m0, m0, q0123
215     vmovaps     xmm1, [src1q + mmsize + 16]
216     vinsertf128 m1, m1, [src1q + mmsize], 1
217     vshufps     m1, m1, m1, q0123
218 %else
219     mova    m0, [src1q]
220     mova    m1, [src1q + mmsize]
221     shufps  m0, m0, q0123
222     shufps  m1, m1, q0123
223 %endif
224     mulps   m0, m0, [src0q + lenq + mmsize]
225     mulps   m1, m1, [src0q + lenq]
226     mova    [dstq + lenq + mmsize], m0
227     mova    [dstq + lenq], m1
228     add     src1q, 2*mmsize
229     sub     lenq,  2*mmsize
230     jge     .loop
231     REP_RET
232 %endmacro
233
234 INIT_XMM sse
235 VECTOR_FMUL_REVERSE
236 %if HAVE_AVX_EXTERNAL
237 INIT_YMM avx
238 VECTOR_FMUL_REVERSE
239 %endif
240
241 ; float scalarproduct_float_sse(const float *v1, const float *v2, int len)
242 INIT_XMM sse
243 cglobal scalarproduct_float, 3,3,2, v1, v2, offset
244     neg   offsetq
245     shl   offsetq, 2
246     sub       v1q, offsetq
247     sub       v2q, offsetq
248     xorps    xmm0, xmm0
249 .loop:
250     movaps   xmm1, [v1q+offsetq]
251     mulps    xmm1, [v2q+offsetq]
252     addps    xmm0, xmm1
253     add   offsetq, 16
254     js .loop
255     movhlps  xmm1, xmm0
256     addps    xmm0, xmm1
257     movss    xmm1, xmm0
258     shufps   xmm0, xmm0, 1
259     addss    xmm0, xmm1
260 %if ARCH_X86_64 == 0
261     movss     r0m,  xmm0
262     fld dword r0m
263 %endif
264     RET
265