]> git.sesse.net Git - ffmpeg/blob - libavutil/x86/float_dsp.asm
opt/eval: Include mathematics.h for NAN/INFINITY
[ffmpeg] / libavutil / x86 / float_dsp.asm
1 ;*****************************************************************************
2 ;* x86-optimized Float DSP functions
3 ;*
4 ;* This file is part of Libav.
5 ;*
6 ;* Libav is free software; you can redistribute it and/or
7 ;* modify it under the terms of the GNU Lesser General Public
8 ;* License as published by the Free Software Foundation; either
9 ;* version 2.1 of the License, or (at your option) any later version.
10 ;*
11 ;* Libav is distributed in the hope that it will be useful,
12 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
13 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14 ;* Lesser General Public License for more details.
15 ;*
16 ;* You should have received a copy of the GNU Lesser General Public
17 ;* License along with Libav; if not, write to the Free Software
18 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
19 ;******************************************************************************
20
21 %include "x86inc.asm"
22 %include "x86util.asm"
23
24 SECTION .text
25
26 ;-----------------------------------------------------------------------------
27 ; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
28 ;-----------------------------------------------------------------------------
29 %macro VECTOR_FMUL 0
30 cglobal vector_fmul, 4,4,2, dst, src0, src1, len
31     lea       lenq, [lend*4 - 2*mmsize]
32 ALIGN 16
33 .loop
34     mova      m0,   [src0q + lenq]
35     mova      m1,   [src0q + lenq + mmsize]
36     mulps     m0, m0, [src1q + lenq]
37     mulps     m1, m1, [src1q + lenq + mmsize]
38     mova      [dstq + lenq], m0
39     mova      [dstq + lenq + mmsize], m1
40
41     sub       lenq, 2*mmsize
42     jge       .loop
43 %if mmsize == 32
44     vzeroupper
45     RET
46 %else
47     REP_RET
48 %endif
49 %endmacro
50
51 INIT_XMM sse
52 VECTOR_FMUL
53 %if HAVE_AVX
54 INIT_YMM avx
55 VECTOR_FMUL
56 %endif
57
58 ;------------------------------------------------------------------------------
59 ; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
60 ;------------------------------------------------------------------------------
61
62 %macro VECTOR_FMAC_SCALAR 0
63 %if UNIX64
64 cglobal vector_fmac_scalar, 3,3,3, dst, src, len
65 %else
66 cglobal vector_fmac_scalar, 4,4,3, dst, src, mul, len
67 %endif
68 %if WIN64
69     SWAP 0, 2
70 %endif
71 %if ARCH_X86_32
72     VBROADCASTSS m0, mulm
73 %else
74     shufps     xmm0, xmm0, 0
75 %if cpuflag(avx)
76     vinsertf128  m0, m0, xmm0, 1
77 %endif
78 %endif
79     lea    lenq, [lend*4-2*mmsize]
80 .loop
81     mulps    m1, m0, [srcq+lenq       ]
82     mulps    m2, m0, [srcq+lenq+mmsize]
83     addps    m1, m1, [dstq+lenq       ]
84     addps    m2, m2, [dstq+lenq+mmsize]
85     mova  [dstq+lenq       ], m1
86     mova  [dstq+lenq+mmsize], m2
87     sub    lenq, 2*mmsize
88     jge .loop
89 %if mmsize == 32
90     vzeroupper
91     RET
92 %else
93     REP_RET
94 %endif
95 %endmacro
96
97 INIT_XMM sse
98 VECTOR_FMAC_SCALAR
99 %if HAVE_AVX
100 INIT_YMM avx
101 VECTOR_FMAC_SCALAR
102 %endif