]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/aacpsdsp.asm
x86/aacdec: use HADDPS macro
[ffmpeg] / libavcodec / x86 / aacpsdsp.asm
1 ;******************************************************************************
2 ;* SIMD optimized MPEG-4 Parametric Stereo decoding functions
3 ;*
4 ;* Copyright (C) 2015 James Almer
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "libavutil/x86/x86util.asm"
24
25 SECTION_RODATA
26
27 ps_p1m1p1m1: dd 0, 0x80000000, 0, 0x80000000
28
29 SECTION .text
30
31 ;*************************************************************************
32 ;void ff_ps_add_squares_<opt>(float *dst, const float (*src)[2], int n);
33 ;*************************************************************************
34 %macro PS_ADD_SQUARES 1
35 cglobal ps_add_squares, 3, 3, %1, dst, src, n
36 .loop:
37     movaps m0, [srcq]
38     movaps m1, [srcq+mmsize]
39     mulps  m0, m0
40     mulps  m1, m1
41     HADDPS m0, m1, m2
42     addps  m0, [dstq]
43     movaps [dstq], m0
44     add  dstq, mmsize
45     add  srcq, mmsize*2
46     sub    nd, mmsize/4
47     jg .loop
48     REP_RET
49 %endmacro
50
51 INIT_XMM sse
52 PS_ADD_SQUARES 2
53 INIT_XMM sse3
54 PS_ADD_SQUARES 3
55
56 ;*******************************************************************
57 ;void ff_ps_mul_pair_single_sse(float (*dst)[2], float (*src0)[2],
58 ;                                   float *src1, int n);
59 ;*******************************************************************
60 INIT_XMM sse
61 cglobal ps_mul_pair_single, 4, 5, 4, dst, src1, src2, n
62     xor r4q, r4q
63
64 .loop:
65     movu     m0, [src1q+r4q]
66     movu     m1, [src1q+r4q+mmsize]
67     mova     m2, [src2q]
68     mova     m3, m2
69     unpcklps m2, m2
70     unpckhps m3, m3
71     mulps    m0, m2
72     mulps    m1, m3
73     mova [dstq+r4q], m0
74     mova [dstq+r4q+mmsize], m1
75     add   src2q, mmsize
76     add     r4q, mmsize*2
77     sub      nd, mmsize/4
78     jg .loop
79     REP_RET
80
81 ;***********************************************************************
82 ;void ff_ps_stereo_interpolate_sse3(float (*l)[2], float (*r)[2],
83 ;                                   float h[2][4], float h_step[2][4],
84 ;                                   int len);
85 ;***********************************************************************
86 INIT_XMM sse3
87 cglobal ps_stereo_interpolate, 5, 5, 6, l, r, h, h_step, n
88     movaps   m0, [hq]
89     movaps   m1, [h_stepq]
90     cmp      nd, 0
91     jle .ret
92     shl      nd, 3
93     add      lq, nq
94     add      rq, nq
95     neg      nq
96
97 align 16
98 .loop:
99     addps    m0, m1
100     movddup  m2, [lq+nq]
101     movddup  m3, [rq+nq]
102     movaps   m4, m0
103     movaps   m5, m0
104     unpcklps m4, m4
105     unpckhps m5, m5
106     mulps    m2, m4
107     mulps    m3, m5
108     addps    m2, m3
109     movsd  [lq+nq], m2
110     movhps [rq+nq], m2
111     add      nq, 8
112     jl .loop
113 .ret:
114     REP_RET
115
116 ;*******************************************************************
117 ;void ff_ps_hybrid_analysis_<opt>(float (*out)[2], float (*in)[2],
118 ;                                 const float (*filter)[8][2],
119 ;                                 int stride, int n);
120 ;*******************************************************************
121 %macro PS_HYBRID_ANALYSIS_LOOP 3
122     movu     %1, [inq+mmsize*%3]
123     movu     m1, [inq+mmsize*(5-%3)+8]
124 %if cpuflag(sse3)
125     pshufd   %2, %1, q2301
126     pshufd   m4, m1, q0123
127     pshufd   m1, m1, q1032
128     pshufd   m2, [filterq+nq+mmsize*%3], q2301
129     addsubps %2, m4
130     addsubps %1, m1
131 %else
132     mova     m2, [filterq+nq+mmsize*%3]
133     mova     %2, %1
134     mova     m4, m1
135     shufps   %2, %2, q2301
136     shufps   m4, m4, q0123
137     shufps   m1, m1, q1032
138     shufps   m2, m2, q2301
139     xorps    m4, m7
140     xorps    m1, m7
141     subps    %2, m4
142     subps    %1, m1
143 %endif
144     mulps    %2, m2
145     mulps    %1, m2
146 %if %3
147     addps    m3, %2
148     addps    m0, %1
149 %endif
150 %endmacro
151
152 %macro PS_HYBRID_ANALYSIS 0
153 cglobal ps_hybrid_analysis, 5, 5, 8, out, in, filter, stride, n
154 %if cpuflag(sse3)
155 %define MOVH movsd
156 %else
157 %define MOVH movlps
158 %endif
159     shl strided, 3
160     shl nd, 6
161     add filterq, nq
162     neg nq
163     mova m7, [ps_p1m1p1m1]
164
165 align 16
166 .loop:
167     PS_HYBRID_ANALYSIS_LOOP m0, m3, 0
168     PS_HYBRID_ANALYSIS_LOOP m5, m6, 1
169     PS_HYBRID_ANALYSIS_LOOP m5, m6, 2
170
171 %if cpuflag(sse3)
172     pshufd   m3, m3, q2301
173     xorps    m0, m7
174     hsubps   m3, m0
175     pshufd   m1, m3, q0020
176     pshufd   m3, m3, q0031
177     addps    m1, m3
178     movsd    m2, [inq+6*8]
179 %else
180     mova     m1, m3
181     mova     m2, m0
182     shufps   m1, m1, q2301
183     shufps   m2, m2, q2301
184     subps    m1, m3
185     addps    m2, m0
186     unpcklps m3, m1, m2
187     unpckhps m1, m2
188     addps    m1, m3
189     movu     m2, [inq+6*8] ; faster than movlps and no risk of overread
190 %endif
191     movss    m3, [filterq+nq+8*6]
192     SPLATD   m3
193     mulps    m2, m3
194     addps    m1, m2
195     MOVH [outq], m1
196     add    outq, strideq
197     add      nq, 64
198     jl .loop
199     REP_RET
200 %endmacro
201
202 INIT_XMM sse
203 PS_HYBRID_ANALYSIS
204 INIT_XMM sse3
205 PS_HYBRID_ANALYSIS