]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/ac3dsp.asm
avfilter/vf_psnr: remove unnecessary check
[ffmpeg] / libavcodec / x86 / ac3dsp.asm
1 ;*****************************************************************************
2 ;* x86-optimized AC-3 DSP functions
3 ;* Copyright (c) 2011 Justin Ruggles
4 ;*
5 ;* This file is part of FFmpeg.
6 ;*
7 ;* FFmpeg is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* FFmpeg is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with FFmpeg; if not, write to the Free Software
19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "libavutil/x86/x86util.asm"
23
24 SECTION_RODATA
25
26 ; 16777216.0f - used in ff_float_to_fixed24()
27 pf_1_24: times 4 dd 0x4B800000
28
29 ; used in ff_ac3_compute_mantissa_size()
30 cextern ac3_bap_bits
31 pw_bap_mul1: dw 21846, 21846, 0, 32768, 21846, 21846, 0, 32768
32 pw_bap_mul2: dw 5, 7, 0, 7, 5, 7, 0, 7
33
34 ; used in ff_ac3_extract_exponents()
35 cextern pd_1
36 pd_151: times 4 dd 151
37
38 SECTION .text
39
40 ;-----------------------------------------------------------------------------
41 ; void ff_ac3_exponent_min(uint8_t *exp, int num_reuse_blocks, int nb_coefs)
42 ;-----------------------------------------------------------------------------
43
44 %macro AC3_EXPONENT_MIN 0
45 cglobal ac3_exponent_min, 3, 4, 2, exp, reuse_blks, expn, offset
46     shl  reuse_blksq, 8
47     jz .end
48     LOOP_ALIGN
49 .nextexp:
50     mov      offsetq, reuse_blksq
51     mova          m0, [expq+offsetq]
52     sub      offsetq, 256
53     LOOP_ALIGN
54 .nextblk:
55     PMINUB        m0, [expq+offsetq], m1
56     sub      offsetq, 256
57     jae .nextblk
58     mova      [expq], m0
59     add         expq, mmsize
60     sub        expnq, mmsize
61     jg .nextexp
62 .end:
63     REP_RET
64 %endmacro
65
66 %define LOOP_ALIGN
67 INIT_MMX mmx
68 AC3_EXPONENT_MIN
69 %if HAVE_MMXEXT_EXTERNAL
70 %define LOOP_ALIGN ALIGN 16
71 INIT_MMX mmxext
72 AC3_EXPONENT_MIN
73 %endif
74 %if HAVE_SSE2_EXTERNAL
75 INIT_XMM sse2
76 AC3_EXPONENT_MIN
77 %endif
78 %undef LOOP_ALIGN
79
80 ;-----------------------------------------------------------------------------
81 ; void ff_float_to_fixed24(int32_t *dst, const float *src, unsigned int len)
82 ;-----------------------------------------------------------------------------
83
84 ; The 3DNow! version is not bit-identical because pf2id uses truncation rather
85 ; than round-to-nearest.
86 INIT_MMX 3dnow
87 cglobal float_to_fixed24, 3, 3, 0, dst, src, len
88     movq   m0, [pf_1_24]
89 .loop:
90     movq   m1, [srcq   ]
91     movq   m2, [srcq+8 ]
92     movq   m3, [srcq+16]
93     movq   m4, [srcq+24]
94     pfmul  m1, m0
95     pfmul  m2, m0
96     pfmul  m3, m0
97     pfmul  m4, m0
98     pf2id  m1, m1
99     pf2id  m2, m2
100     pf2id  m3, m3
101     pf2id  m4, m4
102     movq  [dstq   ], m1
103     movq  [dstq+8 ], m2
104     movq  [dstq+16], m3
105     movq  [dstq+24], m4
106     add  srcq, 32
107     add  dstq, 32
108     sub  lend, 8
109     ja .loop
110     femms
111     RET
112
113 INIT_XMM sse
114 cglobal float_to_fixed24, 3, 3, 3, dst, src, len
115     movaps     m0, [pf_1_24]
116 .loop:
117     movaps     m1, [srcq   ]
118     movaps     m2, [srcq+16]
119     mulps      m1, m0
120     mulps      m2, m0
121     cvtps2pi  mm0, m1
122     movhlps    m1, m1
123     cvtps2pi  mm1, m1
124     cvtps2pi  mm2, m2
125     movhlps    m2, m2
126     cvtps2pi  mm3, m2
127     movq  [dstq   ], mm0
128     movq  [dstq+ 8], mm1
129     movq  [dstq+16], mm2
130     movq  [dstq+24], mm3
131     add      srcq, 32
132     add      dstq, 32
133     sub      lend, 8
134     ja .loop
135     emms
136     RET
137
138 INIT_XMM sse2
139 cglobal float_to_fixed24, 3, 3, 9, dst, src, len
140     movaps     m0, [pf_1_24]
141 .loop:
142     movaps     m1, [srcq    ]
143     movaps     m2, [srcq+16 ]
144     movaps     m3, [srcq+32 ]
145     movaps     m4, [srcq+48 ]
146 %ifdef m8
147     movaps     m5, [srcq+64 ]
148     movaps     m6, [srcq+80 ]
149     movaps     m7, [srcq+96 ]
150     movaps     m8, [srcq+112]
151 %endif
152     mulps      m1, m0
153     mulps      m2, m0
154     mulps      m3, m0
155     mulps      m4, m0
156 %ifdef m8
157     mulps      m5, m0
158     mulps      m6, m0
159     mulps      m7, m0
160     mulps      m8, m0
161 %endif
162     cvtps2dq   m1, m1
163     cvtps2dq   m2, m2
164     cvtps2dq   m3, m3
165     cvtps2dq   m4, m4
166 %ifdef m8
167     cvtps2dq   m5, m5
168     cvtps2dq   m6, m6
169     cvtps2dq   m7, m7
170     cvtps2dq   m8, m8
171 %endif
172     movdqa  [dstq    ], m1
173     movdqa  [dstq+16 ], m2
174     movdqa  [dstq+32 ], m3
175     movdqa  [dstq+48 ], m4
176 %ifdef m8
177     movdqa  [dstq+64 ], m5
178     movdqa  [dstq+80 ], m6
179     movdqa  [dstq+96 ], m7
180     movdqa  [dstq+112], m8
181     add      srcq, 128
182     add      dstq, 128
183     sub      lenq, 32
184 %else
185     add      srcq, 64
186     add      dstq, 64
187     sub      lenq, 16
188 %endif
189     ja .loop
190     REP_RET
191
192 ;------------------------------------------------------------------------------
193 ; int ff_ac3_compute_mantissa_size(uint16_t mant_cnt[6][16])
194 ;------------------------------------------------------------------------------
195
196 %macro PHADDD4 2 ; xmm src, xmm tmp
197     movhlps  %2, %1
198     paddd    %1, %2
199     pshufd   %2, %1, 0x1
200     paddd    %1, %2
201 %endmacro
202
203 INIT_XMM sse2
204 cglobal ac3_compute_mantissa_size, 1, 2, 4, mant_cnt, sum
205     movdqa      m0, [mant_cntq      ]
206     movdqa      m1, [mant_cntq+ 1*16]
207     paddw       m0, [mant_cntq+ 2*16]
208     paddw       m1, [mant_cntq+ 3*16]
209     paddw       m0, [mant_cntq+ 4*16]
210     paddw       m1, [mant_cntq+ 5*16]
211     paddw       m0, [mant_cntq+ 6*16]
212     paddw       m1, [mant_cntq+ 7*16]
213     paddw       m0, [mant_cntq+ 8*16]
214     paddw       m1, [mant_cntq+ 9*16]
215     paddw       m0, [mant_cntq+10*16]
216     paddw       m1, [mant_cntq+11*16]
217     pmaddwd     m0, [ac3_bap_bits   ]
218     pmaddwd     m1, [ac3_bap_bits+16]
219     paddd       m0, m1
220     PHADDD4     m0, m1
221     movd      sumd, m0
222     movdqa      m3, [pw_bap_mul1]
223     movhpd      m0, [mant_cntq     +2]
224     movlpd      m0, [mant_cntq+1*32+2]
225     movhpd      m1, [mant_cntq+2*32+2]
226     movlpd      m1, [mant_cntq+3*32+2]
227     movhpd      m2, [mant_cntq+4*32+2]
228     movlpd      m2, [mant_cntq+5*32+2]
229     pmulhuw     m0, m3
230     pmulhuw     m1, m3
231     pmulhuw     m2, m3
232     paddusw     m0, m1
233     paddusw     m0, m2
234     pmaddwd     m0, [pw_bap_mul2]
235     PHADDD4     m0, m1
236     movd       eax, m0
237     add        eax, sumd
238     RET
239
240 ;------------------------------------------------------------------------------
241 ; void ff_ac3_extract_exponents(uint8_t *exp, int32_t *coef, int nb_coefs)
242 ;------------------------------------------------------------------------------
243
244 %macro PABSD 1-2 ; src/dst, unused
245 %if cpuflag(ssse3)
246     pabsd    %1, %1
247 %else ; src/dst, tmp
248     pxor     %2, %2
249     pcmpgtd  %2, %1
250     pxor     %1, %2
251     psubd    %1, %2
252 %endif
253 %endmacro
254
255 %macro AC3_EXTRACT_EXPONENTS 0
256 cglobal ac3_extract_exponents, 3, 3, 4, exp, coef, len
257     add     expq, lenq
258     lea    coefq, [coefq+4*lenq]
259     neg     lenq
260     mova      m2, [pd_1]
261     mova      m3, [pd_151]
262 .loop:
263     ; move 4 32-bit coefs to xmm0
264     mova      m0, [coefq+4*lenq]
265     ; absolute value
266     PABSD     m0, m1
267     ; convert to float and extract exponents
268     pslld     m0, 1
269     por       m0, m2
270     cvtdq2ps  m1, m0
271     psrld     m1, 23
272     mova      m0, m3
273     psubd     m0, m1
274     ; move the lowest byte in each of 4 dwords to the low dword
275     ; NOTE: We cannot just extract the low bytes with pshufb because the dword
276     ;       result for 16777215 is -1 due to float inaccuracy. Using packuswb
277     ;       clips this to 0, which is the correct exponent.
278     packssdw  m0, m0
279     packuswb  m0, m0
280     movd  [expq+lenq], m0
281
282     add     lenq, 4
283     jl .loop
284     REP_RET
285 %endmacro
286
287 %if HAVE_SSE2_EXTERNAL
288 INIT_XMM sse2
289 AC3_EXTRACT_EXPONENTS
290 %endif
291 %if HAVE_SSSE3_EXTERNAL
292 INIT_XMM ssse3
293 AC3_EXTRACT_EXPONENTS
294 %endif