]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/fmtconvert.asm
d59c43ba7a76eb93212358d0e97297ec1d2bb286
[ffmpeg] / libavcodec / x86 / fmtconvert.asm
1 ;******************************************************************************
2 ;* x86 optimized Format Conversion Utils
3 ;* Copyright (c) 2008 Loren Merritt
4 ;*
5 ;* This file is part of Libav.
6 ;*
7 ;* Libav is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* Libav is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with Libav; if not, write to the Free Software
19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "x86util.asm"
23
24 SECTION_TEXT
25
26 ;---------------------------------------------------------------------------------
27 ; void int32_to_float_fmul_scalar(float *dst, const int *src, float mul, int len);
28 ;---------------------------------------------------------------------------------
29 %macro INT32_TO_FLOAT_FMUL_SCALAR 2
30 %if UNIX64
31 cglobal int32_to_float_fmul_scalar_%1, 3,3,%2, dst, src, len
32 %else
33 cglobal int32_to_float_fmul_scalar_%1, 4,4,%2, dst, src, mul, len
34 %endif
35 %if WIN64
36     SWAP 0, 2
37 %elif ARCH_X86_32
38     movss   m0, mulm
39 %endif
40     SPLATD  m0
41     shl     lenq, 2
42     add     srcq, lenq
43     add     dstq, lenq
44     neg     lenq
45 .loop:
46 %ifidn %1, sse2
47     cvtdq2ps  m1, [srcq+lenq   ]
48     cvtdq2ps  m2, [srcq+lenq+16]
49 %else
50     cvtpi2ps  m1, [srcq+lenq   ]
51     cvtpi2ps  m3, [srcq+lenq+ 8]
52     cvtpi2ps  m2, [srcq+lenq+16]
53     cvtpi2ps  m4, [srcq+lenq+24]
54     movlhps   m1, m3
55     movlhps   m2, m4
56 %endif
57     mulps     m1, m0
58     mulps     m2, m0
59     mova  [dstq+lenq   ], m1
60     mova  [dstq+lenq+16], m2
61     add     lenq, 32
62     jl .loop
63     REP_RET
64 %endmacro
65
66 INIT_XMM
67 %define SPLATD SPLATD_SSE
68 %define movdqa movaps
69 INT32_TO_FLOAT_FMUL_SCALAR sse, 5
70 %undef movdqa
71 %define SPLATD SPLATD_SSE2
72 INT32_TO_FLOAT_FMUL_SCALAR sse2, 3
73 %undef SPLATD
74
75
76 ;------------------------------------------------------------------------------
77 ; void ff_float_to_int16(int16_t *dst, const float *src, long len);
78 ;------------------------------------------------------------------------------
79 %macro FLOAT_TO_INT16 2
80 cglobal float_to_int16_%1, 3,3,%2, dst, src, len
81     add       lenq, lenq
82     lea       srcq, [srcq+2*lenq]
83     add       dstq, lenq
84     neg       lenq
85 .loop:
86 %ifidn %1, sse2
87     cvtps2dq    m0, [srcq+2*lenq   ]
88     cvtps2dq    m1, [srcq+2*lenq+16]
89     packssdw    m0, m1
90     mova  [dstq+lenq], m0
91 %else
92     cvtps2pi    m0, [srcq+2*lenq   ]
93     cvtps2pi    m1, [srcq+2*lenq+ 8]
94     cvtps2pi    m2, [srcq+2*lenq+16]
95     cvtps2pi    m3, [srcq+2*lenq+24]
96     packssdw    m0, m1
97     packssdw    m2, m3
98     mova  [dstq+lenq  ], m0
99     mova  [dstq+lenq+8], m2
100 %endif
101     add       lenq, 16
102     js .loop
103 %ifnidn %1, sse2
104     emms
105 %endif
106     REP_RET
107 %endmacro
108
109 INIT_XMM
110 FLOAT_TO_INT16 sse2, 2
111 INIT_MMX
112 FLOAT_TO_INT16 sse, 0
113 %define cvtps2pi pf2id
114 FLOAT_TO_INT16 3dnow, 0
115 %undef cvtps2pi
116
117 ;------------------------------------------------------------------------------
118 ; void ff_float_to_int16_step(int16_t *dst, const float *src, long len, long step);
119 ;------------------------------------------------------------------------------
120 %macro FLOAT_TO_INT16_STEP 2
121 cglobal float_to_int16_step_%1, 4,7,%2, dst, src, len, step, step3, v1, v2
122     add       lenq, lenq
123     lea       srcq, [srcq+2*lenq]
124     lea     step3q, [stepq*3]
125     neg       lenq
126 .loop:
127 %ifidn %1, sse2
128     cvtps2dq    m0, [srcq+2*lenq   ]
129     cvtps2dq    m1, [srcq+2*lenq+16]
130     packssdw    m0, m1
131     movd       v1d, m0
132     psrldq      m0, 4
133     movd       v2d, m0
134     psrldq      m0, 4
135     mov     [dstq], v1w
136     mov  [dstq+stepq*4], v2w
137     shr        v1d, 16
138     shr        v2d, 16
139     mov  [dstq+stepq*2], v1w
140     mov  [dstq+step3q*2], v2w
141     lea       dstq, [dstq+stepq*8]
142     movd       v1d, m0
143     psrldq      m0, 4
144     movd       v2d, m0
145     mov     [dstq], v1w
146     mov  [dstq+stepq*4], v2w
147     shr        v1d, 16
148     shr        v2d, 16
149     mov  [dstq+stepq*2], v1w
150     mov  [dstq+step3q*2], v2w
151     lea       dstq, [dstq+stepq*8]
152 %else
153     cvtps2pi    m0, [srcq+2*lenq   ]
154     cvtps2pi    m1, [srcq+2*lenq+ 8]
155     cvtps2pi    m2, [srcq+2*lenq+16]
156     cvtps2pi    m3, [srcq+2*lenq+24]
157     packssdw    m0, m1
158     packssdw    m2, m3
159     movd       v1d, m0
160     psrlq       m0, 32
161     movd       v2d, m0
162     mov     [dstq], v1w
163     mov  [dstq+stepq*4], v2w
164     shr        v1d, 16
165     shr        v2d, 16
166     mov  [dstq+stepq*2], v1w
167     mov  [dstq+step3q*2], v2w
168     lea       dstq, [dstq+stepq*8]
169     movd       v1d, m2
170     psrlq       m2, 32
171     movd       v2d, m2
172     mov     [dstq], v1w
173     mov  [dstq+stepq*4], v2w
174     shr        v1d, 16
175     shr        v2d, 16
176     mov  [dstq+stepq*2], v1w
177     mov  [dstq+step3q*2], v2w
178     lea       dstq, [dstq+stepq*8]
179 %endif
180     add       lenq, 16
181     js .loop
182 %ifnidn %1, sse2
183     emms
184 %endif
185     REP_RET
186 %endmacro
187
188 INIT_XMM
189 FLOAT_TO_INT16_STEP sse2, 2
190 INIT_MMX
191 FLOAT_TO_INT16_STEP sse, 0
192 %define cvtps2pi pf2id
193 FLOAT_TO_INT16_STEP 3dnow, 0
194 %undef cvtps2pi
195
196 ;-------------------------------------------------------------------------------
197 ; void ff_float_to_int16_interleave2(int16_t *dst, const float **src, long len);
198 ;-------------------------------------------------------------------------------
199 %macro FLOAT_TO_INT16_INTERLEAVE2 1
200 cglobal float_to_int16_interleave2_%1, 3,4,2, dst, src0, src1, len
201     lea      lenq, [4*r2q]
202     mov     src1q, [src0q+gprsize]
203     mov     src0q, [src0q]
204     add      dstq, lenq
205     add     src0q, lenq
206     add     src1q, lenq
207     neg      lenq
208 .loop:
209 %ifidn %1, sse2
210     cvtps2dq   m0, [src0q+lenq]
211     cvtps2dq   m1, [src1q+lenq]
212     packssdw   m0, m1
213     movhlps    m1, m0
214     punpcklwd  m0, m1
215     mova  [dstq+lenq], m0
216 %else
217     cvtps2pi   m0, [src0q+lenq  ]
218     cvtps2pi   m1, [src0q+lenq+8]
219     cvtps2pi   m2, [src1q+lenq  ]
220     cvtps2pi   m3, [src1q+lenq+8]
221     packssdw   m0, m1
222     packssdw   m2, m3
223     mova       m1, m0
224     punpcklwd  m0, m2
225     punpckhwd  m1, m2
226     mova  [dstq+lenq  ], m0
227     mova  [dstq+lenq+8], m1
228 %endif
229     add      lenq, 16
230     js .loop
231 %ifnidn %1, sse2
232     emms
233 %endif
234     REP_RET
235 %endmacro
236
237 INIT_MMX
238 %define cvtps2pi pf2id
239 FLOAT_TO_INT16_INTERLEAVE2 3dnow
240 %undef cvtps2pi
241 %define movdqa movaps
242 FLOAT_TO_INT16_INTERLEAVE2 sse
243 %undef movdqa
244 INIT_XMM
245 FLOAT_TO_INT16_INTERLEAVE2 sse2
246
247
248 %macro PSWAPD_SSE 2
249     pshufw %1, %2, 0x4e
250 %endmacro
251 %macro PSWAPD_3DNOW 2
252     movq  %1, %2
253     psrlq %1, 32
254     punpckldq %1, %2
255 %endmacro
256
257 %macro FLOAT_TO_INT16_INTERLEAVE6 1
258 ; void float_to_int16_interleave6_sse(int16_t *dst, const float **src, int len)
259 cglobal float_to_int16_interleave6_%1, 2,8,0, dst, src, src1, src2, src3, src4, src5, len
260 %if ARCH_X86_64
261     mov     lend, r2d
262 %else
263     %define lend dword r2m
264 %endif
265     mov src1q, [srcq+1*gprsize]
266     mov src2q, [srcq+2*gprsize]
267     mov src3q, [srcq+3*gprsize]
268     mov src4q, [srcq+4*gprsize]
269     mov src5q, [srcq+5*gprsize]
270     mov srcq,  [srcq]
271     sub src1q, srcq
272     sub src2q, srcq
273     sub src3q, srcq
274     sub src4q, srcq
275     sub src5q, srcq
276 .loop:
277     cvtps2pi   mm0, [srcq]
278     cvtps2pi   mm1, [srcq+src1q]
279     cvtps2pi   mm2, [srcq+src2q]
280     cvtps2pi   mm3, [srcq+src3q]
281     cvtps2pi   mm4, [srcq+src4q]
282     cvtps2pi   mm5, [srcq+src5q]
283     packssdw   mm0, mm3
284     packssdw   mm1, mm4
285     packssdw   mm2, mm5
286     pswapd     mm3, mm0
287     punpcklwd  mm0, mm1
288     punpckhwd  mm1, mm2
289     punpcklwd  mm2, mm3
290     pswapd     mm3, mm0
291     punpckldq  mm0, mm2
292     punpckhdq  mm2, mm1
293     punpckldq  mm1, mm3
294     movq [dstq   ], mm0
295     movq [dstq+16], mm2
296     movq [dstq+ 8], mm1
297     add srcq, 8
298     add dstq, 24
299     sub lend, 2
300     jg .loop
301     emms
302     RET
303 %endmacro ; FLOAT_TO_INT16_INTERLEAVE6
304
305 %define pswapd PSWAPD_SSE
306 FLOAT_TO_INT16_INTERLEAVE6 sse
307 %define cvtps2pi pf2id
308 %define pswapd PSWAPD_3DNOW
309 FLOAT_TO_INT16_INTERLEAVE6 3dnow
310 %undef pswapd
311 FLOAT_TO_INT16_INTERLEAVE6 3dnowext
312 %undef cvtps2pi
313
314 ;-----------------------------------------------------------------------------
315 ; void ff_float_interleave6(float *dst, const float **src, unsigned int len);
316 ;-----------------------------------------------------------------------------
317
318 %macro FLOAT_INTERLEAVE6 2
319 cglobal float_interleave6_%1, 2,8,%2, dst, src, src1, src2, src3, src4, src5, len
320 %if ARCH_X86_64
321     mov     lend, r2d
322 %else
323     %define lend dword r2m
324 %endif
325     mov    src1q, [srcq+1*gprsize]
326     mov    src2q, [srcq+2*gprsize]
327     mov    src3q, [srcq+3*gprsize]
328     mov    src4q, [srcq+4*gprsize]
329     mov    src5q, [srcq+5*gprsize]
330     mov     srcq, [srcq]
331     sub    src1q, srcq
332     sub    src2q, srcq
333     sub    src3q, srcq
334     sub    src4q, srcq
335     sub    src5q, srcq
336 .loop:
337 %ifidn %1, sse
338     movaps    m0, [srcq]
339     movaps    m1, [srcq+src1q]
340     movaps    m2, [srcq+src2q]
341     movaps    m3, [srcq+src3q]
342     movaps    m4, [srcq+src4q]
343     movaps    m5, [srcq+src5q]
344
345     SBUTTERFLYPS 0, 1, 6
346     SBUTTERFLYPS 2, 3, 6
347     SBUTTERFLYPS 4, 5, 6
348
349     movaps    m6, m4
350     shufps    m4, m0, 0xe4
351     movlhps   m0, m2
352     movhlps   m6, m2
353     movaps [dstq   ], m0
354     movaps [dstq+16], m4
355     movaps [dstq+32], m6
356
357     movaps    m6, m5
358     shufps    m5, m1, 0xe4
359     movlhps   m1, m3
360     movhlps   m6, m3
361     movaps [dstq+48], m1
362     movaps [dstq+64], m5
363     movaps [dstq+80], m6
364 %else ; mmx
365     movq       m0, [srcq]
366     movq       m1, [srcq+src1q]
367     movq       m2, [srcq+src2q]
368     movq       m3, [srcq+src3q]
369     movq       m4, [srcq+src4q]
370     movq       m5, [srcq+src5q]
371
372     SBUTTERFLY dq, 0, 1, 6
373     SBUTTERFLY dq, 2, 3, 6
374     SBUTTERFLY dq, 4, 5, 6
375     movq [dstq   ], m0
376     movq [dstq+ 8], m2
377     movq [dstq+16], m4
378     movq [dstq+24], m1
379     movq [dstq+32], m3
380     movq [dstq+40], m5
381 %endif
382     add      srcq, mmsize
383     add      dstq, mmsize*6
384     sub      lend, mmsize/4
385     jg .loop
386 %ifidn %1, mmx
387     emms
388 %endif
389     REP_RET
390 %endmacro
391
392 INIT_MMX
393 FLOAT_INTERLEAVE6 mmx, 0
394 INIT_XMM
395 FLOAT_INTERLEAVE6 sse, 7
396
397 ;-----------------------------------------------------------------------------
398 ; void ff_float_interleave2(float *dst, const float **src, unsigned int len);
399 ;-----------------------------------------------------------------------------
400
401 %macro FLOAT_INTERLEAVE2 2
402 cglobal float_interleave2_%1, 3,4,%2, dst, src, len, src1
403     mov     src1q, [srcq+gprsize]
404     mov      srcq, [srcq        ]
405     sub     src1q, srcq
406 .loop:
407     MOVPS      m0, [srcq             ]
408     MOVPS      m1, [srcq+src1q       ]
409     MOVPS      m3, [srcq      +mmsize]
410     MOVPS      m4, [srcq+src1q+mmsize]
411
412     MOVPS      m2, m0
413     PUNPCKLDQ  m0, m1
414     PUNPCKHDQ  m2, m1
415
416     MOVPS      m1, m3
417     PUNPCKLDQ  m3, m4
418     PUNPCKHDQ  m1, m4
419
420     MOVPS [dstq         ], m0
421     MOVPS [dstq+1*mmsize], m2
422     MOVPS [dstq+2*mmsize], m3
423     MOVPS [dstq+3*mmsize], m1
424
425     add      srcq, mmsize*2
426     add      dstq, mmsize*4
427     sub      lend, mmsize/2
428     jg .loop
429 %ifidn %1, mmx
430     emms
431 %endif
432     REP_RET
433 %endmacro
434
435 INIT_MMX
436 %define MOVPS     movq
437 %define PUNPCKLDQ punpckldq
438 %define PUNPCKHDQ punpckhdq
439 FLOAT_INTERLEAVE2 mmx, 0
440 INIT_XMM
441 %define MOVPS     movaps
442 %define PUNPCKLDQ unpcklps
443 %define PUNPCKHDQ unpckhps
444 FLOAT_INTERLEAVE2 sse, 5