]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/aacpsdsp.asm
Merge commit 'd68705c9756e6558c8e28d90b4c364f25ba72083'
[ffmpeg] / libavcodec / x86 / aacpsdsp.asm
1 ;******************************************************************************
2 ;* SIMD optimized MPEG-4 Parametric Stereo decoding functions
3 ;*
4 ;* Copyright (C) 2015 James Almer
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "libavutil/x86/x86util.asm"
24
25 SECTION_RODATA
26
27 ps_p1m1p1m1: dd 0, 0x80000000, 0, 0x80000000
28
29 SECTION .text
30
31 ;*************************************************************************
32 ;void ff_ps_add_squares_<opt>(float *dst, const float (*src)[2], int n);
33 ;*************************************************************************
34 %macro PS_ADD_SQUARES 1
35 cglobal ps_add_squares, 3, 3, %1, dst, src, n
36 .loop:
37     movaps m0, [srcq]
38     movaps m1, [srcq+mmsize]
39     mulps  m0, m0
40     mulps  m1, m1
41 %if cpuflag(sse3)
42     haddps m0, m1
43 %else
44     movaps m3, m0
45     movaps m4, m1
46     shufps m3, m3, q0301
47     shufps m4, m4, q0301
48     addps  m0, m3
49     addps  m1, m4
50     shufps m0, m1, q2020
51 %endif
52     addps  m0, [dstq]
53     movaps [dstq], m0
54     add  dstq, mmsize
55     add  srcq, mmsize*2
56     sub    nd, mmsize/4
57     jg .loop
58     REP_RET
59 %endmacro
60
61 INIT_XMM sse
62 PS_ADD_SQUARES 3
63 INIT_XMM sse3
64 PS_ADD_SQUARES 5
65
66 ;*******************************************************************
67 ;void ff_ps_mul_pair_single_sse(float (*dst)[2], float (*src0)[2],
68 ;                                   float *src1, int n);
69 ;*******************************************************************
70 INIT_XMM sse
71 cglobal ps_mul_pair_single, 4, 5, 4, dst, src1, src2, n
72     xor r4q, r4q
73
74 .loop:
75     movu     m0, [src1q+r4q]
76     movu     m1, [src1q+r4q+mmsize]
77     mova     m2, [src2q]
78     mova     m3, m2
79     unpcklps m2, m2
80     unpckhps m3, m3
81     mulps    m0, m2
82     mulps    m1, m3
83     mova [dstq+r4q], m0
84     mova [dstq+r4q+mmsize], m1
85     add   src2q, mmsize
86     add     r4q, mmsize*2
87     sub      nd, mmsize/4
88     jg .loop
89     REP_RET
90
91 ;***********************************************************************
92 ;void ff_ps_stereo_interpolate_sse3(float (*l)[2], float (*r)[2],
93 ;                                   float h[2][4], float h_step[2][4],
94 ;                                   int len);
95 ;***********************************************************************
96 INIT_XMM sse3
97 cglobal ps_stereo_interpolate, 5, 5, 6, l, r, h, h_step, n
98     movaps   m0, [hq]
99     movaps   m1, [h_stepq]
100     cmp      nd, 0
101     jle .ret
102     shl      nd, 3
103     add      lq, nq
104     add      rq, nq
105     neg      nq
106
107 align 16
108 .loop:
109     addps    m0, m1
110     movddup  m2, [lq+nq]
111     movddup  m3, [rq+nq]
112     movaps   m4, m0
113     movaps   m5, m0
114     unpcklps m4, m4
115     unpckhps m5, m5
116     mulps    m2, m4
117     mulps    m3, m5
118     addps    m2, m3
119     movsd  [lq+nq], m2
120     movhps [rq+nq], m2
121     add      nq, 8
122     jl .loop
123 .ret:
124     REP_RET
125
126 ;*******************************************************************
127 ;void ff_ps_hybrid_analysis_<opt>(float (*out)[2], float (*in)[2],
128 ;                                 const float (*filter)[8][2],
129 ;                                 int stride, int n);
130 ;*******************************************************************
131 %macro PS_HYBRID_ANALYSIS_LOOP 3
132     movu     %1, [inq+mmsize*%3]
133     movu     m1, [inq+mmsize*(5-%3)+8]
134 %if cpuflag(sse3)
135     pshufd   %2, %1, q2301
136     pshufd   m4, m1, q0123
137     pshufd   m1, m1, q1032
138     pshufd   m2, [filterq+nq+mmsize*%3], q2301
139     addsubps %2, m4
140     addsubps %1, m1
141 %else
142     mova     m2, [filterq+nq+mmsize*%3]
143     mova     %2, %1
144     mova     m4, m1
145     shufps   %2, %2, q2301
146     shufps   m4, m4, q0123
147     shufps   m1, m1, q1032
148     shufps   m2, m2, q2301
149     xorps    m4, m7
150     xorps    m1, m7
151     subps    %2, m4
152     subps    %1, m1
153 %endif
154     mulps    %2, m2
155     mulps    %1, m2
156 %if %3
157     addps    m3, %2
158     addps    m0, %1
159 %endif
160 %endmacro
161
162 %macro PS_HYBRID_ANALYSIS 0
163 cglobal ps_hybrid_analysis, 5, 5, 8, out, in, filter, stride, n
164 %if cpuflag(sse3)
165 %define MOVH movsd
166 %else
167 %define MOVH movlps
168 %endif
169     shl strided, 3
170     shl nd, 6
171     add filterq, nq
172     neg nq
173     mova m7, [ps_p1m1p1m1]
174
175 align 16
176 .loop:
177     PS_HYBRID_ANALYSIS_LOOP m0, m3, 0
178     PS_HYBRID_ANALYSIS_LOOP m5, m6, 1
179     PS_HYBRID_ANALYSIS_LOOP m5, m6, 2
180
181 %if cpuflag(sse3)
182     pshufd   m3, m3, q2301
183     xorps    m0, m7
184     hsubps   m3, m0
185     pshufd   m1, m3, q0020
186     pshufd   m3, m3, q0031
187     addps    m1, m3
188     movsd    m2, [inq+6*8]
189 %else
190     mova     m1, m3
191     mova     m2, m0
192     shufps   m1, m1, q2301
193     shufps   m2, m2, q2301
194     subps    m1, m3
195     addps    m2, m0
196     unpcklps m3, m1, m2
197     unpckhps m1, m2
198     addps    m1, m3
199     movu     m2, [inq+6*8] ; faster than movlps and no risk of overread
200 %endif
201     movss    m3, [filterq+nq+8*6]
202     SPLATD   m3
203     mulps    m2, m3
204     addps    m1, m2
205     MOVH [outq], m1
206     add    outq, strideq
207     add      nq, 64
208     jl .loop
209     REP_RET
210 %endmacro
211
212 INIT_XMM sse
213 PS_HYBRID_ANALYSIS
214 INIT_XMM sse3
215 PS_HYBRID_ANALYSIS