]> git.sesse.net Git - ffmpeg/blob - libavutil/x86/x86util.asm
Merge commit '48e2967cd50c2e1a2a539fd697d20ead2c5c4cc8'
[ffmpeg] / libavutil / x86 / x86util.asm
1 ;*****************************************************************************
2 ;* x86util.asm
3 ;*****************************************************************************
4 ;* Copyright (C) 2008-2010 x264 project
5 ;*
6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
7 ;*          Holger Lubitz <holger@lubitz.org>
8 ;*
9 ;* This file is part of FFmpeg.
10 ;*
11 ;* FFmpeg is free software; you can redistribute it and/or
12 ;* modify it under the terms of the GNU Lesser General Public
13 ;* License as published by the Free Software Foundation; either
14 ;* version 2.1 of the License, or (at your option) any later version.
15 ;*
16 ;* FFmpeg is distributed in the hope that it will be useful,
17 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
18 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
19 ;* Lesser General Public License for more details.
20 ;*
21 ;* You should have received a copy of the GNU Lesser General Public
22 ;* License along with FFmpeg; if not, write to the Free Software
23 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
24 ;******************************************************************************
25
26 %define private_prefix ff
27 %define public_prefix  avpriv
28 %define cpuflags_mmxext cpuflags_mmx2
29
30 %include "libavutil/x86/x86inc.asm"
31
32 %macro SBUTTERFLY 4
33 %if avx_enabled == 0
34     mova      m%4, m%2
35     punpckl%1 m%2, m%3
36     punpckh%1 m%4, m%3
37 %else
38     punpckh%1 m%4, m%2, m%3
39     punpckl%1 m%2, m%3
40 %endif
41     SWAP %3, %4
42 %endmacro
43
44 %macro SBUTTERFLY2 4
45     punpckl%1 m%4, m%2, m%3
46     punpckh%1 m%2, m%2, m%3
47     SWAP %2, %4, %3
48 %endmacro
49
50 %macro SBUTTERFLYPS 3
51     unpcklps m%3, m%1, m%2
52     unpckhps m%1, m%1, m%2
53     SWAP %1, %3, %2
54 %endmacro
55
56 %macro TRANSPOSE4x4B 5
57     SBUTTERFLY bw, %1, %2, %5
58     SBUTTERFLY bw, %3, %4, %5
59     SBUTTERFLY wd, %1, %3, %5
60     SBUTTERFLY wd, %2, %4, %5
61     SWAP %2, %3
62 %endmacro
63
64 %macro TRANSPOSE4x4W 5
65     SBUTTERFLY wd, %1, %2, %5
66     SBUTTERFLY wd, %3, %4, %5
67     SBUTTERFLY dq, %1, %3, %5
68     SBUTTERFLY dq, %2, %4, %5
69     SWAP %2, %3
70 %endmacro
71
72 %macro TRANSPOSE2x4x4B 5
73     SBUTTERFLY bw,  %1, %2, %5
74     SBUTTERFLY bw,  %3, %4, %5
75     SBUTTERFLY wd,  %1, %3, %5
76     SBUTTERFLY wd,  %2, %4, %5
77     SBUTTERFLY dq,  %1, %2, %5
78     SBUTTERFLY dq,  %3, %4, %5
79 %endmacro
80
81 %macro TRANSPOSE2x4x4W 5
82     SBUTTERFLY wd,  %1, %2, %5
83     SBUTTERFLY wd,  %3, %4, %5
84     SBUTTERFLY dq,  %1, %3, %5
85     SBUTTERFLY dq,  %2, %4, %5
86     SBUTTERFLY qdq, %1, %2, %5
87     SBUTTERFLY qdq, %3, %4, %5
88 %endmacro
89
90 %macro TRANSPOSE4x4D 5
91     SBUTTERFLY dq,  %1, %2, %5
92     SBUTTERFLY dq,  %3, %4, %5
93     SBUTTERFLY qdq, %1, %3, %5
94     SBUTTERFLY qdq, %2, %4, %5
95     SWAP %2, %3
96 %endmacro
97
98 ; identical behavior to TRANSPOSE4x4D, but using SSE1 float ops
99 %macro TRANSPOSE4x4PS 5
100     SBUTTERFLYPS %1, %2, %5
101     SBUTTERFLYPS %3, %4, %5
102     movlhps m%5, m%1, m%3
103     movhlps m%3, m%1
104     SWAP %5, %1
105     movlhps m%5, m%2, m%4
106     movhlps m%4, m%2
107     SWAP %5, %2, %3
108 %endmacro
109
110 %macro TRANSPOSE8x4D 9-11
111 %if ARCH_X86_64
112     SBUTTERFLY dq,  %1, %2, %9
113     SBUTTERFLY dq,  %3, %4, %9
114     SBUTTERFLY dq,  %5, %6, %9
115     SBUTTERFLY dq,  %7, %8, %9
116     SBUTTERFLY qdq, %1, %3, %9
117     SBUTTERFLY qdq, %2, %4, %9
118     SBUTTERFLY qdq, %5, %7, %9
119     SBUTTERFLY qdq, %6, %8, %9
120     SWAP %2, %5
121     SWAP %4, %7
122 %else
123 ; in:  m0..m7
124 ; out: m0..m7, unless %11 in which case m2 is in %9
125 ; spills into %9 and %10
126     movdqa %9, m%7
127     SBUTTERFLY dq,  %1, %2, %7
128     movdqa %10, m%2
129     movdqa m%7, %9
130     SBUTTERFLY dq,  %3, %4, %2
131     SBUTTERFLY dq,  %5, %6, %2
132     SBUTTERFLY dq,  %7, %8, %2
133     SBUTTERFLY qdq, %1, %3, %2
134     movdqa %9, m%3
135     movdqa m%2, %10
136     SBUTTERFLY qdq, %2, %4, %3
137     SBUTTERFLY qdq, %5, %7, %3
138     SBUTTERFLY qdq, %6, %8, %3
139     SWAP %2, %5
140     SWAP %4, %7
141 %if %0<11
142     movdqa m%3, %9
143 %endif
144 %endif
145 %endmacro
146
147 %macro TRANSPOSE8x8W 9-11
148 %if ARCH_X86_64
149     SBUTTERFLY wd,  %1, %2, %9
150     SBUTTERFLY wd,  %3, %4, %9
151     SBUTTERFLY wd,  %5, %6, %9
152     SBUTTERFLY wd,  %7, %8, %9
153     SBUTTERFLY dq,  %1, %3, %9
154     SBUTTERFLY dq,  %2, %4, %9
155     SBUTTERFLY dq,  %5, %7, %9
156     SBUTTERFLY dq,  %6, %8, %9
157     SBUTTERFLY qdq, %1, %5, %9
158     SBUTTERFLY qdq, %2, %6, %9
159     SBUTTERFLY qdq, %3, %7, %9
160     SBUTTERFLY qdq, %4, %8, %9
161     SWAP %2, %5
162     SWAP %4, %7
163 %else
164 ; in:  m0..m7, unless %11 in which case m6 is in %9
165 ; out: m0..m7, unless %11 in which case m4 is in %10
166 ; spills into %9 and %10
167 %if %0<11
168     movdqa %9, m%7
169 %endif
170     SBUTTERFLY wd,  %1, %2, %7
171     movdqa %10, m%2
172     movdqa m%7, %9
173     SBUTTERFLY wd,  %3, %4, %2
174     SBUTTERFLY wd,  %5, %6, %2
175     SBUTTERFLY wd,  %7, %8, %2
176     SBUTTERFLY dq,  %1, %3, %2
177     movdqa %9, m%3
178     movdqa m%2, %10
179     SBUTTERFLY dq,  %2, %4, %3
180     SBUTTERFLY dq,  %5, %7, %3
181     SBUTTERFLY dq,  %6, %8, %3
182     SBUTTERFLY qdq, %1, %5, %3
183     SBUTTERFLY qdq, %2, %6, %3
184     movdqa %10, m%2
185     movdqa m%3, %9
186     SBUTTERFLY qdq, %3, %7, %2
187     SBUTTERFLY qdq, %4, %8, %2
188     SWAP %2, %5
189     SWAP %4, %7
190 %if %0<11
191     movdqa m%5, %10
192 %endif
193 %endif
194 %endmacro
195
196 ; PABSW macro assumes %1 != %2, while ABS1/2 macros work in-place
197 %macro PABSW 2
198 %if cpuflag(ssse3)
199     pabsw      %1, %2
200 %elif cpuflag(mmxext)
201     pxor    %1, %1
202     psubw   %1, %2
203     pmaxsw  %1, %2
204 %else
205     pxor       %1, %1
206     pcmpgtw    %1, %2
207     pxor       %2, %1
208     psubw      %2, %1
209     SWAP       %1, %2
210 %endif
211 %endmacro
212
213 %macro PSIGNW 2
214 %if cpuflag(ssse3)
215     psignw     %1, %2
216 %else
217     pxor       %1, %2
218     psubw      %1, %2
219 %endif
220 %endmacro
221
222 %macro ABS1 2
223 %if cpuflag(ssse3)
224     pabsw   %1, %1
225 %elif cpuflag(mmxext) ; a, tmp
226     pxor    %2, %2
227     psubw   %2, %1
228     pmaxsw  %1, %2
229 %else ; a, tmp
230     pxor       %2, %2
231     pcmpgtw    %2, %1
232     pxor       %1, %2
233     psubw      %1, %2
234 %endif
235 %endmacro
236
237 %macro ABS2 4
238 %if cpuflag(ssse3)
239     pabsw   %1, %1
240     pabsw   %2, %2
241 %elif cpuflag(mmxext) ; a, b, tmp0, tmp1
242     pxor    %3, %3
243     pxor    %4, %4
244     psubw   %3, %1
245     psubw   %4, %2
246     pmaxsw  %1, %3
247     pmaxsw  %2, %4
248 %else ; a, b, tmp0, tmp1
249     pxor       %3, %3
250     pxor       %4, %4
251     pcmpgtw    %3, %1
252     pcmpgtw    %4, %2
253     pxor       %1, %3
254     pxor       %2, %4
255     psubw      %1, %3
256     psubw      %2, %4
257 %endif
258 %endmacro
259
260 %macro ABSB 2 ; source mmreg, temp mmreg (unused for ssse3)
261 %if cpuflag(ssse3)
262     pabsb   %1, %1
263 %else
264     pxor    %2, %2
265     psubb   %2, %1
266     pminub  %1, %2
267 %endif
268 %endmacro
269
270 %macro ABSB2 4 ; src1, src2, tmp1, tmp2 (tmp1/2 unused for SSSE3)
271 %if cpuflag(ssse3)
272     pabsb   %1, %1
273     pabsb   %2, %2
274 %else
275     pxor    %3, %3
276     pxor    %4, %4
277     psubb   %3, %1
278     psubb   %4, %2
279     pminub  %1, %3
280     pminub  %2, %4
281 %endif
282 %endmacro
283
284 %macro ABSD2_MMX 4
285     pxor    %3, %3
286     pxor    %4, %4
287     pcmpgtd %3, %1
288     pcmpgtd %4, %2
289     pxor    %1, %3
290     pxor    %2, %4
291     psubd   %1, %3
292     psubd   %2, %4
293 %endmacro
294
295 %macro ABS4 6
296     ABS2 %1, %2, %5, %6
297     ABS2 %3, %4, %5, %6
298 %endmacro
299
300 %macro SPLATB_LOAD 3
301 %if cpuflag(ssse3)
302     movd      %1, [%2-3]
303     pshufb    %1, %3
304 %else
305     movd      %1, [%2-3] ;to avoid crossing a cacheline
306     punpcklbw %1, %1
307     SPLATW    %1, %1, 3
308 %endif
309 %endmacro
310
311 %macro SPLATB_REG 3
312 %if cpuflag(ssse3)
313     movd      %1, %2d
314     pshufb    %1, %3
315 %else
316     movd      %1, %2d
317     punpcklbw %1, %1
318     SPLATW    %1, %1, 0
319 %endif
320 %endmacro
321
322 %macro HADDD 2 ; sum junk
323 %if sizeof%1 == 32
324 %define %2 xmm%2
325     vextracti128 %2, %1, 1
326 %define %1 xmm%1
327     paddd   %1, %2
328 %endif
329 %if mmsize >= 16
330 %if cpuflag(xop) && sizeof%1 == 16
331     vphadddq %1, %1
332 %endif
333     movhlps %2, %1
334     paddd   %1, %2
335 %endif
336 %if notcpuflag(xop) || sizeof%1 != 16
337 %if cpuflag(mmxext)
338     PSHUFLW %2, %1, q0032
339 %else ; mmx
340     mova    %2, %1
341     psrlq   %2, 32
342 %endif
343     paddd   %1, %2
344 %endif
345 %undef %1
346 %undef %2
347 %endmacro
348
349 %macro HADDW 2 ; reg, tmp
350 %if cpuflag(xop) && sizeof%1 == 16
351     vphaddwq  %1, %1
352     movhlps   %2, %1
353     paddd     %1, %2
354 %else
355     pmaddwd %1, [pw_1]
356     HADDD   %1, %2
357 %endif
358 %endmacro
359
360 %macro HADDPS 3 ; dst, src, tmp
361 %if cpuflag(sse3)
362     haddps  %1, %1, %2
363 %else
364     movaps  %3, %1
365     shufps  %1, %2, q2020
366     shufps  %3, %2, q3131
367     addps   %1, %3
368 %endif
369 %endmacro
370
371 %macro PALIGNR 4-5
372 %if cpuflag(ssse3)
373 %if %0==5
374     palignr %1, %2, %3, %4
375 %else
376     palignr %1, %2, %3
377 %endif
378 %elif cpuflag(mmx) ; [dst,] src1, src2, imm, tmp
379     %define %%dst %1
380 %if %0==5
381 %ifnidn %1, %2
382     mova    %%dst, %2
383 %endif
384     %rotate 1
385 %endif
386 %ifnidn %4, %2
387     mova    %4, %2
388 %endif
389 %if mmsize==8
390     psllq   %%dst, (8-%3)*8
391     psrlq   %4, %3*8
392 %else
393     pslldq  %%dst, 16-%3
394     psrldq  %4, %3
395 %endif
396     por     %%dst, %4
397 %endif
398 %endmacro
399
400 %macro PAVGB 2-4
401 %if cpuflag(mmxext)
402     pavgb   %1, %2
403 %elif cpuflag(3dnow)
404     pavgusb %1, %2
405 %elif cpuflag(mmx)
406     movu   %3, %2
407     por    %3, %1
408     pxor   %1, %2
409     pand   %1, %4
410     psrlq  %1, 1
411     psubb  %3, %1
412     SWAP   %1, %3
413 %endif
414 %endmacro
415
416 %macro PSHUFLW 1+
417     %if mmsize == 8
418         pshufw %1
419     %else
420         pshuflw %1
421     %endif
422 %endmacro
423
424 %macro PSWAPD 2
425 %if cpuflag(mmxext)
426     pshufw    %1, %2, q1032
427 %elif cpuflag(3dnowext)
428     pswapd    %1, %2
429 %elif cpuflag(3dnow)
430     movq      %1, %2
431     psrlq     %1, 32
432     punpckldq %1, %2
433 %endif
434 %endmacro
435
436 %macro DEINTB 5 ; mask, reg1, mask, reg2, optional src to fill masks from
437 %ifnum %5
438     pand   m%3, m%5, m%4 ; src .. y6 .. y4
439     pand   m%1, m%5, m%2 ; dst .. y6 .. y4
440 %else
441     mova   m%1, %5
442     pand   m%3, m%1, m%4 ; src .. y6 .. y4
443     pand   m%1, m%1, m%2 ; dst .. y6 .. y4
444 %endif
445     psrlw  m%2, 8        ; dst .. y7 .. y5
446     psrlw  m%4, 8        ; src .. y7 .. y5
447 %endmacro
448
449 %macro SUMSUB_BA 3-4
450 %if %0==3
451     padd%1  m%2, m%3
452     padd%1  m%3, m%3
453     psub%1  m%3, m%2
454 %else
455 %if avx_enabled == 0
456     mova    m%4, m%2
457     padd%1  m%2, m%3
458     psub%1  m%3, m%4
459 %else
460     padd%1  m%4, m%2, m%3
461     psub%1  m%3, m%2
462     SWAP    %2, %4
463 %endif
464 %endif
465 %endmacro
466
467 %macro SUMSUB_BADC 5-6
468 %if %0==6
469     SUMSUB_BA %1, %2, %3, %6
470     SUMSUB_BA %1, %4, %5, %6
471 %else
472     padd%1  m%2, m%3
473     padd%1  m%4, m%5
474     padd%1  m%3, m%3
475     padd%1  m%5, m%5
476     psub%1  m%3, m%2
477     psub%1  m%5, m%4
478 %endif
479 %endmacro
480
481 %macro SUMSUB2_AB 4
482 %ifnum %3
483     psub%1  m%4, m%2, m%3
484     psub%1  m%4, m%3
485     padd%1  m%2, m%2
486     padd%1  m%2, m%3
487 %else
488     mova    m%4, m%2
489     padd%1  m%2, m%2
490     padd%1  m%2, %3
491     psub%1  m%4, %3
492     psub%1  m%4, %3
493 %endif
494 %endmacro
495
496 %macro SUMSUB2_BA 4
497 %if avx_enabled == 0
498     mova    m%4, m%2
499     padd%1  m%2, m%3
500     padd%1  m%2, m%3
501     psub%1  m%3, m%4
502     psub%1  m%3, m%4
503 %else
504     padd%1  m%4, m%2, m%3
505     padd%1  m%4, m%3
506     psub%1  m%3, m%2
507     psub%1  m%3, m%2
508     SWAP     %2,  %4
509 %endif
510 %endmacro
511
512 %macro SUMSUBD2_AB 5
513 %ifnum %4
514     psra%1  m%5, m%2, 1  ; %3: %3>>1
515     psra%1  m%4, m%3, 1  ; %2: %2>>1
516     padd%1  m%4, m%2     ; %3: %3>>1+%2
517     psub%1  m%5, m%3     ; %2: %2>>1-%3
518     SWAP     %2, %5
519     SWAP     %3, %4
520 %else
521     mova    %5, m%2
522     mova    %4, m%3
523     psra%1  m%3, 1  ; %3: %3>>1
524     psra%1  m%2, 1  ; %2: %2>>1
525     padd%1  m%3, %5 ; %3: %3>>1+%2
526     psub%1  m%2, %4 ; %2: %2>>1-%3
527 %endif
528 %endmacro
529
530 %macro DCT4_1D 5
531 %ifnum %5
532     SUMSUB_BADC w, %4, %1, %3, %2, %5
533     SUMSUB_BA   w, %3, %4, %5
534     SUMSUB2_AB  w, %1, %2, %5
535     SWAP %1, %3, %4, %5, %2
536 %else
537     SUMSUB_BADC w, %4, %1, %3, %2
538     SUMSUB_BA   w, %3, %4
539     mova     [%5], m%2
540     SUMSUB2_AB  w, %1, [%5], %2
541     SWAP %1, %3, %4, %2
542 %endif
543 %endmacro
544
545 %macro IDCT4_1D 6-7
546 %ifnum %6
547     SUMSUBD2_AB %1, %3, %5, %7, %6
548     ; %3: %3>>1-%5 %5: %3+%5>>1
549     SUMSUB_BA   %1, %4, %2, %7
550     ; %4: %2+%4 %2: %2-%4
551     SUMSUB_BADC %1, %5, %4, %3, %2, %7
552     ; %5: %2+%4 + (%3+%5>>1)
553     ; %4: %2+%4 - (%3+%5>>1)
554     ; %3: %2-%4 + (%3>>1-%5)
555     ; %2: %2-%4 - (%3>>1-%5)
556 %else
557 %ifidn %1, w
558     SUMSUBD2_AB %1, %3, %5, [%6], [%6+16]
559 %else
560     SUMSUBD2_AB %1, %3, %5, [%6], [%6+32]
561 %endif
562     SUMSUB_BA   %1, %4, %2
563     SUMSUB_BADC %1, %5, %4, %3, %2
564 %endif
565     SWAP %2, %5, %4
566     ; %2: %2+%4 + (%3+%5>>1) row0
567     ; %3: %2-%4 + (%3>>1-%5) row1
568     ; %4: %2-%4 - (%3>>1-%5) row2
569     ; %5: %2+%4 - (%3+%5>>1) row3
570 %endmacro
571
572
573 %macro LOAD_DIFF 5
574 %ifidn %3, none
575     movh       %1, %4
576     movh       %2, %5
577     punpcklbw  %1, %2
578     punpcklbw  %2, %2
579     psubw      %1, %2
580 %else
581     movh       %1, %4
582     punpcklbw  %1, %3
583     movh       %2, %5
584     punpcklbw  %2, %3
585     psubw      %1, %2
586 %endif
587 %endmacro
588
589 %macro STORE_DCT 6
590     movq   [%5+%6+ 0], m%1
591     movq   [%5+%6+ 8], m%2
592     movq   [%5+%6+16], m%3
593     movq   [%5+%6+24], m%4
594     movhps [%5+%6+32], m%1
595     movhps [%5+%6+40], m%2
596     movhps [%5+%6+48], m%3
597     movhps [%5+%6+56], m%4
598 %endmacro
599
600 %macro LOAD_DIFF_8x4P 7-10 r0,r2,0 ; 4x dest, 2x temp, 2x pointer, increment?
601     LOAD_DIFF m%1, m%5, m%7, [%8],      [%9]
602     LOAD_DIFF m%2, m%6, m%7, [%8+r1],   [%9+r3]
603     LOAD_DIFF m%3, m%5, m%7, [%8+2*r1], [%9+2*r3]
604     LOAD_DIFF m%4, m%6, m%7, [%8+r4],   [%9+r5]
605 %if %10
606     lea %8, [%8+4*r1]
607     lea %9, [%9+4*r3]
608 %endif
609 %endmacro
610
611 %macro DIFFx2 6-7
612     movh       %3, %5
613     punpcklbw  %3, %4
614     psraw      %1, 6
615     paddsw     %1, %3
616     movh       %3, %6
617     punpcklbw  %3, %4
618     psraw      %2, 6
619     paddsw     %2, %3
620     packuswb   %2, %1
621 %endmacro
622
623 %macro STORE_DIFF 4
624     movh       %2, %4
625     punpcklbw  %2, %3
626     psraw      %1, 6
627     paddsw     %1, %2
628     packuswb   %1, %1
629     movh       %4, %1
630 %endmacro
631
632 %macro STORE_DIFFx2 8 ; add1, add2, reg1, reg2, zero, shift, source, stride
633     movh       %3, [%7]
634     movh       %4, [%7+%8]
635     psraw      %1, %6
636     psraw      %2, %6
637     punpcklbw  %3, %5
638     punpcklbw  %4, %5
639     paddw      %3, %1
640     paddw      %4, %2
641     packuswb   %3, %5
642     packuswb   %4, %5
643     movh     [%7], %3
644     movh  [%7+%8], %4
645 %endmacro
646
647 %macro PMINUB 3 ; dst, src, ignored
648 %if cpuflag(mmxext)
649     pminub   %1, %2
650 %else ; dst, src, tmp
651     mova     %3, %1
652     psubusb  %3, %2
653     psubb    %1, %3
654 %endif
655 %endmacro
656
657 %macro SPLATW 2-3 0
658 %if cpuflag(avx2) && %3 == 0
659     vpbroadcastw %1, %2
660 %elif mmsize == 16
661     pshuflw    %1, %2, (%3)*0x55
662     punpcklqdq %1, %1
663 %elif cpuflag(mmxext)
664     pshufw     %1, %2, (%3)*0x55
665 %else
666     %ifnidn %1, %2
667         mova       %1, %2
668     %endif
669     %if %3 & 2
670         punpckhwd  %1, %1
671     %else
672         punpcklwd  %1, %1
673     %endif
674     %if %3 & 1
675         punpckhwd  %1, %1
676     %else
677         punpcklwd  %1, %1
678     %endif
679 %endif
680 %endmacro
681
682 %macro SPLATD 1
683 %if mmsize == 8
684     punpckldq  %1, %1
685 %elif cpuflag(sse2)
686     pshufd  %1, %1, 0
687 %elif cpuflag(sse)
688     shufps  %1, %1, 0
689 %endif
690 %endmacro
691
692 %macro CLIPUB 3 ;(dst, min, max)
693     pmaxub %1, %2
694     pminub %1, %3
695 %endmacro
696
697 %macro CLIPW 3 ;(dst, min, max)
698     pmaxsw %1, %2
699     pminsw %1, %3
700 %endmacro
701
702 %macro PMINSD_MMX 3 ; dst, src, tmp
703     mova      %3, %2
704     pcmpgtd   %3, %1
705     pxor      %1, %2
706     pand      %1, %3
707     pxor      %1, %2
708 %endmacro
709
710 %macro PMAXSD_MMX 3 ; dst, src, tmp
711     mova      %3, %1
712     pcmpgtd   %3, %2
713     pand      %1, %3
714     pandn     %3, %2
715     por       %1, %3
716 %endmacro
717
718 %macro CLIPD_MMX 3-4 ; src/dst, min, max, tmp
719     PMINSD_MMX %1, %3, %4
720     PMAXSD_MMX %1, %2, %4
721 %endmacro
722
723 %macro CLIPD_SSE2 3-4 ; src/dst, min (float), max (float), unused
724     cvtdq2ps  %1, %1
725     minps     %1, %3
726     maxps     %1, %2
727     cvtps2dq  %1, %1
728 %endmacro
729
730 %macro CLIPD_SSE41 3-4 ;  src/dst, min, max, unused
731     pminsd  %1, %3
732     pmaxsd  %1, %2
733 %endmacro
734
735 %macro VBROADCASTSS 2 ; dst xmm/ymm, src m32
736 %if cpuflag(avx)
737     vbroadcastss %1, %2
738 %else ; sse
739     movss        %1, %2
740     shufps       %1, %1, 0
741 %endif
742 %endmacro
743
744 %macro VBROADCASTSD 2 ; dst xmm/ymm, src m64
745 %if cpuflag(avx) && mmsize == 32
746     vbroadcastsd %1, %2
747 %elif cpuflag(sse3)
748     movddup      %1, %2
749 %else ; sse2
750     movsd        %1, %2
751     movlhps      %1, %1
752 %endif
753 %endmacro
754
755 %macro SHUFFLE_MASK_W 8
756     %rep 8
757         %if %1>=0x80
758             db %1, %1
759         %else
760             db %1*2
761             db %1*2+1
762         %endif
763         %rotate 1
764     %endrep
765 %endmacro
766
767 %macro PMOVSXWD 2; dst, src
768 %if cpuflag(sse4)
769     pmovsxwd     %1, %2
770 %else
771     %ifnidn %1, %2
772     mova         %1, %2
773     %endif
774     punpcklwd    %1, %1
775     psrad        %1, 16
776 %endif
777 %endmacro
778
779 ; Wrapper for non-FMA version of fmaddps
780 %macro FMULADD_PS 5
781     %if cpuflag(fma3) || cpuflag(fma4)
782         fmaddps %1, %2, %3, %4
783     %elifidn %1, %4
784         mulps   %5, %2, %3
785         addps   %1, %4, %5
786     %else
787         mulps   %1, %2, %3
788         addps   %1, %4
789     %endif
790 %endmacro
791
792 %macro LSHIFT 2
793 %if mmsize > 8
794     pslldq  %1, %2
795 %else
796     psllq   %1, 8*(%2)
797 %endif
798 %endmacro
799
800 %macro RSHIFT 2
801 %if mmsize > 8
802     psrldq  %1, %2
803 %else
804     psrlq   %1, 8*(%2)
805 %endif
806 %endmacro