]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/ac3dsp.asm
x86: dsputil: cosmetics: Remove two pointless variable indirections
[ffmpeg] / libavcodec / x86 / ac3dsp.asm
1 ;*****************************************************************************
2 ;* x86-optimized AC-3 DSP utils
3 ;* Copyright (c) 2011 Justin Ruggles
4 ;*
5 ;* This file is part of Libav.
6 ;*
7 ;* Libav is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* Libav is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with Libav; if not, write to the Free Software
19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "libavutil/x86/x86util.asm"
23
24 SECTION_RODATA
25
26 ; 16777216.0f - used in ff_float_to_fixed24()
27 pf_1_24: times 4 dd 0x4B800000
28
29 ; used in ff_ac3_compute_mantissa_size()
30 cextern ac3_bap_bits
31 pw_bap_mul1: dw 21846, 21846, 0, 32768, 21846, 21846, 0, 32768
32 pw_bap_mul2: dw 5, 7, 0, 7, 5, 7, 0, 7
33
34 ; used in ff_ac3_extract_exponents()
35 pd_1:   times 4 dd 1
36 pd_151: times 4 dd 151
37
38 SECTION .text
39
40 ;-----------------------------------------------------------------------------
41 ; void ff_ac3_exponent_min(uint8_t *exp, int num_reuse_blocks, int nb_coefs)
42 ;-----------------------------------------------------------------------------
43
44 %macro AC3_EXPONENT_MIN 0
45 cglobal ac3_exponent_min, 3, 4, 2, exp, reuse_blks, expn, offset
46     shl  reuse_blksq, 8
47     jz .end
48     LOOP_ALIGN
49 .nextexp:
50     mov      offsetq, reuse_blksq
51     mova          m0, [expq+offsetq]
52     sub      offsetq, 256
53     LOOP_ALIGN
54 .nextblk:
55     PMINUB        m0, [expq+offsetq], m1
56     sub      offsetq, 256
57     jae .nextblk
58     mova      [expq], m0
59     add         expq, mmsize
60     sub        expnq, mmsize
61     jg .nextexp
62 .end:
63     REP_RET
64 %endmacro
65
66 %define LOOP_ALIGN
67 INIT_MMX mmx
68 AC3_EXPONENT_MIN
69 %if HAVE_MMXEXT_EXTERNAL
70 %define LOOP_ALIGN ALIGN 16
71 INIT_MMX mmxext
72 AC3_EXPONENT_MIN
73 %endif
74 %if HAVE_SSE2_EXTERNAL
75 INIT_XMM sse2
76 AC3_EXPONENT_MIN
77 %endif
78 %undef LOOP_ALIGN
79
80 ;-----------------------------------------------------------------------------
81 ; int ff_ac3_max_msb_abs_int16(const int16_t *src, int len)
82 ;
83 ; This function uses 2 different methods to calculate a valid result.
84 ; 1) logical 'or' of abs of each element
85 ;        This is used for ssse3 because of the pabsw instruction.
86 ;        It is also used for mmx because of the lack of min/max instructions.
87 ; 2) calculate min/max for the array, then or(abs(min),abs(max))
88 ;        This is used for mmxext and sse2 because they have pminsw/pmaxsw.
89 ;-----------------------------------------------------------------------------
90
91 ; logical 'or' of 4 or 8 words in an mmx or xmm register into the low word
92 %macro OR_WORDS_HORIZ 2 ; src, tmp
93 %if cpuflag(sse2)
94     movhlps     %2, %1
95     por         %1, %2
96     pshuflw     %2, %1, q0032
97     por         %1, %2
98     pshuflw     %2, %1, q0001
99     por         %1, %2
100 %elif cpuflag(mmxext)
101     pshufw      %2, %1, q0032
102     por         %1, %2
103     pshufw      %2, %1, q0001
104     por         %1, %2
105 %else ; mmx
106     movq        %2, %1
107     psrlq       %2, 32
108     por         %1, %2
109     movq        %2, %1
110     psrlq       %2, 16
111     por         %1, %2
112 %endif
113 %endmacro
114
115 %macro AC3_MAX_MSB_ABS_INT16 1
116 cglobal ac3_max_msb_abs_int16, 2,2,5, src, len
117     pxor        m2, m2
118     pxor        m3, m3
119 .loop:
120 %ifidn %1, min_max
121     mova        m0, [srcq]
122     mova        m1, [srcq+mmsize]
123     pminsw      m2, m0
124     pminsw      m2, m1
125     pmaxsw      m3, m0
126     pmaxsw      m3, m1
127 %else ; or_abs
128 %if notcpuflag(ssse3)
129     mova        m0, [srcq]
130     mova        m1, [srcq+mmsize]
131     ABS2        m0, m1, m3, m4
132 %else ; ssse3
133     ; using memory args is faster for ssse3
134     pabsw       m0, [srcq]
135     pabsw       m1, [srcq+mmsize]
136 %endif
137     por         m2, m0
138     por         m2, m1
139 %endif
140     add       srcq, mmsize*2
141     sub       lend, mmsize
142     ja .loop
143 %ifidn %1, min_max
144     ABS2        m2, m3, m0, m1
145     por         m2, m3
146 %endif
147     OR_WORDS_HORIZ m2, m0
148     movd       eax, m2
149     and        eax, 0xFFFF
150     RET
151 %endmacro
152
153 INIT_MMX mmx
154 AC3_MAX_MSB_ABS_INT16 or_abs
155 INIT_MMX mmxext
156 AC3_MAX_MSB_ABS_INT16 min_max
157 INIT_XMM sse2
158 AC3_MAX_MSB_ABS_INT16 min_max
159 INIT_XMM ssse3
160 AC3_MAX_MSB_ABS_INT16 or_abs
161
162 ;-----------------------------------------------------------------------------
163 ; macro used for ff_ac3_lshift_int16() and ff_ac3_rshift_int32()
164 ;-----------------------------------------------------------------------------
165
166 %macro AC3_SHIFT 3 ; l/r, 16/32, shift instruction, instruction set
167 cglobal ac3_%1shift_int%2, 3, 3, 5, src, len, shift
168     movd      m0, shiftd
169 .loop:
170     mova      m1, [srcq         ]
171     mova      m2, [srcq+mmsize  ]
172     mova      m3, [srcq+mmsize*2]
173     mova      m4, [srcq+mmsize*3]
174     %3        m1, m0
175     %3        m2, m0
176     %3        m3, m0
177     %3        m4, m0
178     mova  [srcq         ], m1
179     mova  [srcq+mmsize  ], m2
180     mova  [srcq+mmsize*2], m3
181     mova  [srcq+mmsize*3], m4
182     add     srcq, mmsize*4
183     sub     lend, mmsize*32/%2
184     ja .loop
185 .end:
186     REP_RET
187 %endmacro
188
189 ;-----------------------------------------------------------------------------
190 ; void ff_ac3_lshift_int16(int16_t *src, unsigned int len, unsigned int shift)
191 ;-----------------------------------------------------------------------------
192
193 INIT_MMX mmx
194 AC3_SHIFT l, 16, psllw
195 INIT_XMM sse2
196 AC3_SHIFT l, 16, psllw
197
198 ;-----------------------------------------------------------------------------
199 ; void ff_ac3_rshift_int32(int32_t *src, unsigned int len, unsigned int shift)
200 ;-----------------------------------------------------------------------------
201
202 INIT_MMX mmx
203 AC3_SHIFT r, 32, psrad
204 INIT_XMM sse2
205 AC3_SHIFT r, 32, psrad
206
207 ;-----------------------------------------------------------------------------
208 ; void ff_float_to_fixed24(int32_t *dst, const float *src, unsigned int len)
209 ;-----------------------------------------------------------------------------
210
211 ; The 3DNow! version is not bit-identical because pf2id uses truncation rather
212 ; than round-to-nearest.
213 INIT_MMX 3dnow
214 cglobal float_to_fixed24, 3, 3, 0, dst, src, len
215     movq   m0, [pf_1_24]
216 .loop:
217     movq   m1, [srcq   ]
218     movq   m2, [srcq+8 ]
219     movq   m3, [srcq+16]
220     movq   m4, [srcq+24]
221     pfmul  m1, m0
222     pfmul  m2, m0
223     pfmul  m3, m0
224     pfmul  m4, m0
225     pf2id  m1, m1
226     pf2id  m2, m2
227     pf2id  m3, m3
228     pf2id  m4, m4
229     movq  [dstq   ], m1
230     movq  [dstq+8 ], m2
231     movq  [dstq+16], m3
232     movq  [dstq+24], m4
233     add  srcq, 32
234     add  dstq, 32
235     sub  lend, 8
236     ja .loop
237     femms
238     RET
239
240 INIT_XMM sse
241 cglobal float_to_fixed24, 3, 3, 3, dst, src, len
242     movaps     m0, [pf_1_24]
243 .loop:
244     movaps     m1, [srcq   ]
245     movaps     m2, [srcq+16]
246     mulps      m1, m0
247     mulps      m2, m0
248     cvtps2pi  mm0, m1
249     movhlps    m1, m1
250     cvtps2pi  mm1, m1
251     cvtps2pi  mm2, m2
252     movhlps    m2, m2
253     cvtps2pi  mm3, m2
254     movq  [dstq   ], mm0
255     movq  [dstq+ 8], mm1
256     movq  [dstq+16], mm2
257     movq  [dstq+24], mm3
258     add      srcq, 32
259     add      dstq, 32
260     sub      lend, 8
261     ja .loop
262     emms
263     RET
264
265 INIT_XMM sse2
266 cglobal float_to_fixed24, 3, 3, 9, dst, src, len
267     movaps     m0, [pf_1_24]
268 .loop:
269     movaps     m1, [srcq    ]
270     movaps     m2, [srcq+16 ]
271     movaps     m3, [srcq+32 ]
272     movaps     m4, [srcq+48 ]
273 %ifdef m8
274     movaps     m5, [srcq+64 ]
275     movaps     m6, [srcq+80 ]
276     movaps     m7, [srcq+96 ]
277     movaps     m8, [srcq+112]
278 %endif
279     mulps      m1, m0
280     mulps      m2, m0
281     mulps      m3, m0
282     mulps      m4, m0
283 %ifdef m8
284     mulps      m5, m0
285     mulps      m6, m0
286     mulps      m7, m0
287     mulps      m8, m0
288 %endif
289     cvtps2dq   m1, m1
290     cvtps2dq   m2, m2
291     cvtps2dq   m3, m3
292     cvtps2dq   m4, m4
293 %ifdef m8
294     cvtps2dq   m5, m5
295     cvtps2dq   m6, m6
296     cvtps2dq   m7, m7
297     cvtps2dq   m8, m8
298 %endif
299     movdqa  [dstq    ], m1
300     movdqa  [dstq+16 ], m2
301     movdqa  [dstq+32 ], m3
302     movdqa  [dstq+48 ], m4
303 %ifdef m8
304     movdqa  [dstq+64 ], m5
305     movdqa  [dstq+80 ], m6
306     movdqa  [dstq+96 ], m7
307     movdqa  [dstq+112], m8
308     add      srcq, 128
309     add      dstq, 128
310     sub      lenq, 32
311 %else
312     add      srcq, 64
313     add      dstq, 64
314     sub      lenq, 16
315 %endif
316     ja .loop
317     REP_RET
318
319 ;------------------------------------------------------------------------------
320 ; int ff_ac3_compute_mantissa_size(uint16_t mant_cnt[6][16])
321 ;------------------------------------------------------------------------------
322
323 %macro PHADDD4 2 ; xmm src, xmm tmp
324     movhlps  %2, %1
325     paddd    %1, %2
326     pshufd   %2, %1, 0x1
327     paddd    %1, %2
328 %endmacro
329
330 INIT_XMM sse2
331 cglobal ac3_compute_mantissa_size, 1, 2, 4, mant_cnt, sum
332     movdqa      m0, [mant_cntq      ]
333     movdqa      m1, [mant_cntq+ 1*16]
334     paddw       m0, [mant_cntq+ 2*16]
335     paddw       m1, [mant_cntq+ 3*16]
336     paddw       m0, [mant_cntq+ 4*16]
337     paddw       m1, [mant_cntq+ 5*16]
338     paddw       m0, [mant_cntq+ 6*16]
339     paddw       m1, [mant_cntq+ 7*16]
340     paddw       m0, [mant_cntq+ 8*16]
341     paddw       m1, [mant_cntq+ 9*16]
342     paddw       m0, [mant_cntq+10*16]
343     paddw       m1, [mant_cntq+11*16]
344     pmaddwd     m0, [ac3_bap_bits   ]
345     pmaddwd     m1, [ac3_bap_bits+16]
346     paddd       m0, m1
347     PHADDD4     m0, m1
348     movd      sumd, m0
349     movdqa      m3, [pw_bap_mul1]
350     movhpd      m0, [mant_cntq     +2]
351     movlpd      m0, [mant_cntq+1*32+2]
352     movhpd      m1, [mant_cntq+2*32+2]
353     movlpd      m1, [mant_cntq+3*32+2]
354     movhpd      m2, [mant_cntq+4*32+2]
355     movlpd      m2, [mant_cntq+5*32+2]
356     pmulhuw     m0, m3
357     pmulhuw     m1, m3
358     pmulhuw     m2, m3
359     paddusw     m0, m1
360     paddusw     m0, m2
361     pmaddwd     m0, [pw_bap_mul2]
362     PHADDD4     m0, m1
363     movd       eax, m0
364     add        eax, sumd
365     RET
366
367 ;------------------------------------------------------------------------------
368 ; void ff_ac3_extract_exponents(uint8_t *exp, int32_t *coef, int nb_coefs)
369 ;------------------------------------------------------------------------------
370
371 %macro PABSD 1-2 ; src/dst, unused
372 %if cpuflag(ssse3)
373     pabsd    %1, %1
374 %else ; src/dst, tmp
375     pxor     %2, %2
376     pcmpgtd  %2, %1
377     pxor     %1, %2
378     psubd    %1, %2
379 %endif
380 %endmacro
381
382 %if HAVE_AMD3DNOW_EXTERNAL
383 INIT_MMX 3dnow
384 cglobal ac3_extract_exponents, 3, 3, 0, exp, coef, len
385     add      expq, lenq
386     lea     coefq, [coefq+4*lenq]
387     neg      lenq
388     movq       m3, [pd_1]
389     movq       m4, [pd_151]
390 .loop:
391     movq       m0, [coefq+4*lenq  ]
392     movq       m1, [coefq+4*lenq+8]
393     PABSD      m0, m2
394     PABSD      m1, m2
395     pslld      m0, 1
396     por        m0, m3
397     pi2fd      m2, m0
398     psrld      m2, 23
399     movq       m0, m4
400     psubd      m0, m2
401     pslld      m1, 1
402     por        m1, m3
403     pi2fd      m2, m1
404     psrld      m2, 23
405     movq       m1, m4
406     psubd      m1, m2
407     packssdw   m0, m0
408     packuswb   m0, m0
409     packssdw   m1, m1
410     packuswb   m1, m1
411     punpcklwd  m0, m1
412     movd  [expq+lenq], m0
413     add      lenq, 4
414     jl .loop
415     REP_RET
416 %endif
417
418 %macro AC3_EXTRACT_EXPONENTS 0
419 cglobal ac3_extract_exponents, 3, 3, 4, exp, coef, len
420     add     expq, lenq
421     lea    coefq, [coefq+4*lenq]
422     neg     lenq
423     mova      m2, [pd_1]
424     mova      m3, [pd_151]
425 .loop:
426     ; move 4 32-bit coefs to xmm0
427     mova      m0, [coefq+4*lenq]
428     ; absolute value
429     PABSD     m0, m1
430     ; convert to float and extract exponents
431     pslld     m0, 1
432     por       m0, m2
433     cvtdq2ps  m1, m0
434     psrld     m1, 23
435     mova      m0, m3
436     psubd     m0, m1
437     ; move the lowest byte in each of 4 dwords to the low dword
438     ; NOTE: We cannot just extract the low bytes with pshufb because the dword
439     ;       result for 16777215 is -1 due to float inaccuracy. Using packuswb
440     ;       clips this to 0, which is the correct exponent.
441     packssdw  m0, m0
442     packuswb  m0, m0
443     movd  [expq+lenq], m0
444
445     add     lenq, 4
446     jl .loop
447     REP_RET
448 %endmacro
449
450 %if HAVE_SSE2_EXTERNAL
451 INIT_XMM sse2
452 AC3_EXTRACT_EXPONENTS
453 %endif
454 %if HAVE_SSSE3_EXTERNAL
455 INIT_XMM ssse3
456 AC3_EXTRACT_EXPONENTS
457 %endif