]> git.sesse.net Git - ffmpeg/blob - libavutil/x86/x86util.asm
avcodec: Remove redundant freeing of extradata of encoders
[ffmpeg] / libavutil / x86 / x86util.asm
1 ;*****************************************************************************
2 ;* x86util.asm
3 ;*****************************************************************************
4 ;* Copyright (C) 2008-2010 x264 project
5 ;*
6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
7 ;*          Holger Lubitz <holger@lubitz.org>
8 ;*
9 ;* This file is part of FFmpeg.
10 ;*
11 ;* FFmpeg is free software; you can redistribute it and/or
12 ;* modify it under the terms of the GNU Lesser General Public
13 ;* License as published by the Free Software Foundation; either
14 ;* version 2.1 of the License, or (at your option) any later version.
15 ;*
16 ;* FFmpeg is distributed in the hope that it will be useful,
17 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
18 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
19 ;* Lesser General Public License for more details.
20 ;*
21 ;* You should have received a copy of the GNU Lesser General Public
22 ;* License along with FFmpeg; if not, write to the Free Software
23 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
24 ;******************************************************************************
25
26 %define private_prefix ff
27 %define public_prefix  avpriv
28 %define cpuflags_mmxext cpuflags_mmx2
29
30 %include "libavutil/x86/x86inc.asm"
31
32 ; expands to [base],...,[base+7*stride]
33 %define PASS8ROWS(base, base3, stride, stride3) \
34     [base],           [base  + stride],   [base  + 2*stride], [base3], \
35     [base3 + stride], [base3 + 2*stride], [base3 + stride3],  [base3 + stride*4]
36
37 ; Interleave low src0 with low src1 and store in src0,
38 ; interleave high src0 with high src1 and store in src1.
39 ; %1 - types
40 ; %2 - index of the register with src0
41 ; %3 - index of the register with src1
42 ; %4 - index of the register for intermediate results
43 ; example for %1 - wd: input: src0: x0 x1 x2 x3 z0 z1 z2 z3
44 ;                             src1: y0 y1 y2 y3 q0 q1 q2 q3
45 ;                     output: src0: x0 y0 x1 y1 x2 y2 x3 y3
46 ;                             src1: z0 q0 z1 q1 z2 q2 z3 q3
47 %macro SBUTTERFLY 4
48 %ifidn %1, dqqq
49     vperm2i128  m%4, m%2, m%3, q0301
50     vinserti128 m%2, m%2, xm%3, 1
51 %elif avx_enabled == 0
52     mova      m%4, m%2
53     punpckl%1 m%2, m%3
54     punpckh%1 m%4, m%3
55 %else
56     punpckh%1 m%4, m%2, m%3
57     punpckl%1 m%2, m%3
58 %endif
59     SWAP %3, %4
60 %endmacro
61
62 %macro SBUTTERFLY2 4
63     punpckl%1 m%4, m%2, m%3
64     punpckh%1 m%2, m%2, m%3
65     SWAP %2, %4, %3
66 %endmacro
67
68 %macro SBUTTERFLYPS 3
69     unpcklps m%3, m%1, m%2
70     unpckhps m%1, m%1, m%2
71     SWAP %1, %3, %2
72 %endmacro
73
74 %macro SBUTTERFLYPD 3
75     movlhps m%3, m%1, m%2
76     movhlps m%2, m%2, m%1
77     SWAP %1, %3
78 %endmacro
79
80 %macro TRANSPOSE4x4B 5
81     SBUTTERFLY bw, %1, %2, %5
82     SBUTTERFLY bw, %3, %4, %5
83     SBUTTERFLY wd, %1, %3, %5
84     SBUTTERFLY wd, %2, %4, %5
85     SWAP %2, %3
86 %endmacro
87
88 %macro TRANSPOSE4x4W 5
89     SBUTTERFLY wd, %1, %2, %5
90     SBUTTERFLY wd, %3, %4, %5
91     SBUTTERFLY dq, %1, %3, %5
92     SBUTTERFLY dq, %2, %4, %5
93     SWAP %2, %3
94 %endmacro
95
96 %macro TRANSPOSE2x4x4B 5
97     SBUTTERFLY bw,  %1, %2, %5
98     SBUTTERFLY bw,  %3, %4, %5
99     SBUTTERFLY wd,  %1, %3, %5
100     SBUTTERFLY wd,  %2, %4, %5
101     SBUTTERFLY dq,  %1, %2, %5
102     SBUTTERFLY dq,  %3, %4, %5
103 %endmacro
104
105 %macro TRANSPOSE2x4x4W 5
106     SBUTTERFLY wd,  %1, %2, %5
107     SBUTTERFLY wd,  %3, %4, %5
108     SBUTTERFLY dq,  %1, %3, %5
109     SBUTTERFLY dq,  %2, %4, %5
110     SBUTTERFLY qdq, %1, %2, %5
111     SBUTTERFLY qdq, %3, %4, %5
112 %endmacro
113
114 %macro TRANSPOSE4x4D 5
115     SBUTTERFLY dq,  %1, %2, %5
116     SBUTTERFLY dq,  %3, %4, %5
117     SBUTTERFLY qdq, %1, %3, %5
118     SBUTTERFLY qdq, %2, %4, %5
119     SWAP %2, %3
120 %endmacro
121
122 ; identical behavior to TRANSPOSE4x4D, but using SSE1 float ops
123 %macro TRANSPOSE4x4PS 5
124     SBUTTERFLYPS %1, %2, %5
125     SBUTTERFLYPS %3, %4, %5
126     SBUTTERFLYPD %1, %3, %5
127     SBUTTERFLYPD %2, %4, %5
128     SWAP %2, %3
129 %endmacro
130
131 %macro TRANSPOSE8x4D 9-11
132 %if ARCH_X86_64
133     SBUTTERFLY dq,  %1, %2, %9
134     SBUTTERFLY dq,  %3, %4, %9
135     SBUTTERFLY dq,  %5, %6, %9
136     SBUTTERFLY dq,  %7, %8, %9
137     SBUTTERFLY qdq, %1, %3, %9
138     SBUTTERFLY qdq, %2, %4, %9
139     SBUTTERFLY qdq, %5, %7, %9
140     SBUTTERFLY qdq, %6, %8, %9
141     SWAP %2, %5
142     SWAP %4, %7
143 %else
144 ; in:  m0..m7
145 ; out: m0..m7, unless %11 in which case m2 is in %9
146 ; spills into %9 and %10
147     movdqa %9, m%7
148     SBUTTERFLY dq,  %1, %2, %7
149     movdqa %10, m%2
150     movdqa m%7, %9
151     SBUTTERFLY dq,  %3, %4, %2
152     SBUTTERFLY dq,  %5, %6, %2
153     SBUTTERFLY dq,  %7, %8, %2
154     SBUTTERFLY qdq, %1, %3, %2
155     movdqa %9, m%3
156     movdqa m%2, %10
157     SBUTTERFLY qdq, %2, %4, %3
158     SBUTTERFLY qdq, %5, %7, %3
159     SBUTTERFLY qdq, %6, %8, %3
160     SWAP %2, %5
161     SWAP %4, %7
162 %if %0<11
163     movdqa m%3, %9
164 %endif
165 %endif
166 %endmacro
167
168 %macro TRANSPOSE8x8W 9-11
169 %if ARCH_X86_64
170     SBUTTERFLY wd,  %1, %2, %9
171     SBUTTERFLY wd,  %3, %4, %9
172     SBUTTERFLY wd,  %5, %6, %9
173     SBUTTERFLY wd,  %7, %8, %9
174     SBUTTERFLY dq,  %1, %3, %9
175     SBUTTERFLY dq,  %2, %4, %9
176     SBUTTERFLY dq,  %5, %7, %9
177     SBUTTERFLY dq,  %6, %8, %9
178     SBUTTERFLY qdq, %1, %5, %9
179     SBUTTERFLY qdq, %2, %6, %9
180     SBUTTERFLY qdq, %3, %7, %9
181     SBUTTERFLY qdq, %4, %8, %9
182     SWAP %2, %5
183     SWAP %4, %7
184 %else
185 ; in:  m0..m7, unless %11 in which case m6 is in %9
186 ; out: m0..m7, unless %11 in which case m4 is in %10
187 ; spills into %9 and %10
188 %if %0<11
189     movdqa %9, m%7
190 %endif
191     SBUTTERFLY wd,  %1, %2, %7
192     movdqa %10, m%2
193     movdqa m%7, %9
194     SBUTTERFLY wd,  %3, %4, %2
195     SBUTTERFLY wd,  %5, %6, %2
196     SBUTTERFLY wd,  %7, %8, %2
197     SBUTTERFLY dq,  %1, %3, %2
198     movdqa %9, m%3
199     movdqa m%2, %10
200     SBUTTERFLY dq,  %2, %4, %3
201     SBUTTERFLY dq,  %5, %7, %3
202     SBUTTERFLY dq,  %6, %8, %3
203     SBUTTERFLY qdq, %1, %5, %3
204     SBUTTERFLY qdq, %2, %6, %3
205     movdqa %10, m%2
206     movdqa m%3, %9
207     SBUTTERFLY qdq, %3, %7, %2
208     SBUTTERFLY qdq, %4, %8, %2
209     SWAP %2, %5
210     SWAP %4, %7
211 %if %0<11
212     movdqa m%5, %10
213 %endif
214 %endif
215 %endmacro
216
217 %macro TRANSPOSE16x16W 18-19
218 ; in:  m0..m15, unless %19 in which case m6 is in %17
219 ; out: m0..m15, unless %19 in which case m4 is in %18
220 ; spills into %17 and %18
221 %if %0 < 19
222     mova       %17, m%7
223 %endif
224
225     SBUTTERFLY dqqq, %1,  %9, %7
226     SBUTTERFLY dqqq, %2, %10, %7
227     SBUTTERFLY dqqq, %3, %11, %7
228     SBUTTERFLY dqqq, %4, %12, %7
229     SBUTTERFLY dqqq, %5, %13, %7
230     SBUTTERFLY dqqq, %6, %14, %7
231     mova       %18, m%14
232     mova       m%7, %17
233     SBUTTERFLY dqqq, %7, %15, %14
234     SBUTTERFLY dqqq, %8, %16, %14
235
236     SBUTTERFLY  wd,  %1,  %2, %14
237     SBUTTERFLY  wd,  %3,  %4, %14
238     SBUTTERFLY  wd,  %5,  %6, %14
239     SBUTTERFLY  wd,  %7,  %8, %14
240     SBUTTERFLY  wd,  %9, %10, %14
241     SBUTTERFLY  wd, %11, %12, %14
242     mova       %17, m%12
243     mova      m%14, %18
244     SBUTTERFLY  wd, %13, %14, %12
245     SBUTTERFLY  wd, %15, %16, %12
246
247     SBUTTERFLY  dq,  %1,  %3, %12
248     SBUTTERFLY  dq,  %2,  %4, %12
249     SBUTTERFLY  dq,  %5,  %7, %12
250     SBUTTERFLY  dq,  %6,  %8, %12
251     SBUTTERFLY  dq,  %9, %11, %12
252     mova       %18, m%11
253     mova      m%12, %17
254     SBUTTERFLY  dq, %10, %12, %11
255     SBUTTERFLY  dq, %13, %15, %11
256     SBUTTERFLY  dq, %14, %16, %11
257
258     SBUTTERFLY qdq,  %1,  %5, %11
259     SBUTTERFLY qdq,  %2,  %6, %11
260     SBUTTERFLY qdq,  %3,  %7, %11
261     SBUTTERFLY qdq,  %4,  %8, %11
262
263     SWAP        %2, %5
264     SWAP        %4, %7
265
266     SBUTTERFLY qdq,  %9, %13, %11
267     SBUTTERFLY qdq, %10, %14, %11
268     mova      m%11, %18
269     mova       %18, m%5
270     SBUTTERFLY qdq, %11, %15, %5
271     SBUTTERFLY qdq, %12, %16, %5
272
273 %if %0 < 19
274     mova       m%5, %18
275 %endif
276
277     SWAP       %10, %13
278     SWAP       %12, %15
279 %endmacro
280
281 %macro TRANSPOSE_8X8B 8
282     %if mmsize == 8
283         %error "This macro does not support mmsize == 8"
284     %endif
285     punpcklbw m%1, m%2
286     punpcklbw m%3, m%4
287     punpcklbw m%5, m%6
288     punpcklbw m%7, m%8
289     TRANSPOSE4x4W %1, %3, %5, %7, %2
290     MOVHL m%2, m%1
291     MOVHL m%4, m%3
292     MOVHL m%6, m%5
293     MOVHL m%8, m%7
294 %endmacro
295
296 ; PABSW macro assumes %1 != %2, while ABS1/2 macros work in-place
297 %macro PABSW 2
298 %if cpuflag(ssse3)
299     pabsw      %1, %2
300 %elif cpuflag(mmxext)
301     pxor    %1, %1
302     psubw   %1, %2
303     pmaxsw  %1, %2
304 %else
305     pxor       %1, %1
306     pcmpgtw    %1, %2
307     pxor       %2, %1
308     psubw      %2, %1
309     SWAP       %1, %2
310 %endif
311 %endmacro
312
313 %macro PSIGNW 2
314 %if cpuflag(ssse3)
315     psignw     %1, %2
316 %else
317     pxor       %1, %2
318     psubw      %1, %2
319 %endif
320 %endmacro
321
322 %macro ABS1 2
323 %if cpuflag(ssse3)
324     pabsw   %1, %1
325 %elif cpuflag(mmxext) ; a, tmp
326     pxor    %2, %2
327     psubw   %2, %1
328     pmaxsw  %1, %2
329 %else ; a, tmp
330     pxor       %2, %2
331     pcmpgtw    %2, %1
332     pxor       %1, %2
333     psubw      %1, %2
334 %endif
335 %endmacro
336
337 %macro ABS2 4
338 %if cpuflag(ssse3)
339     pabsw   %1, %1
340     pabsw   %2, %2
341 %elif cpuflag(mmxext) ; a, b, tmp0, tmp1
342     pxor    %3, %3
343     pxor    %4, %4
344     psubw   %3, %1
345     psubw   %4, %2
346     pmaxsw  %1, %3
347     pmaxsw  %2, %4
348 %else ; a, b, tmp0, tmp1
349     pxor       %3, %3
350     pxor       %4, %4
351     pcmpgtw    %3, %1
352     pcmpgtw    %4, %2
353     pxor       %1, %3
354     pxor       %2, %4
355     psubw      %1, %3
356     psubw      %2, %4
357 %endif
358 %endmacro
359
360 %macro ABSB 2 ; source mmreg, temp mmreg (unused for SSSE3)
361 %if cpuflag(ssse3)
362     pabsb   %1, %1
363 %else
364     pxor    %2, %2
365     psubb   %2, %1
366     pminub  %1, %2
367 %endif
368 %endmacro
369
370 %macro ABSB2 4 ; src1, src2, tmp1, tmp2 (tmp1/2 unused for SSSE3)
371 %if cpuflag(ssse3)
372     pabsb   %1, %1
373     pabsb   %2, %2
374 %else
375     pxor    %3, %3
376     pxor    %4, %4
377     psubb   %3, %1
378     psubb   %4, %2
379     pminub  %1, %3
380     pminub  %2, %4
381 %endif
382 %endmacro
383
384 %macro ABSD2 4
385     pxor    %3, %3
386     pxor    %4, %4
387     pcmpgtd %3, %1
388     pcmpgtd %4, %2
389     pxor    %1, %3
390     pxor    %2, %4
391     psubd   %1, %3
392     psubd   %2, %4
393 %endmacro
394
395 %macro ABS4 6
396     ABS2 %1, %2, %5, %6
397     ABS2 %3, %4, %5, %6
398 %endmacro
399
400 %macro SPLATB_LOAD 3
401 %if cpuflag(ssse3)
402     movd      %1, [%2-3]
403     pshufb    %1, %3
404 %else
405     movd      %1, [%2-3] ;to avoid crossing a cacheline
406     punpcklbw %1, %1
407     SPLATW    %1, %1, 3
408 %endif
409 %endmacro
410
411 %macro SPLATB_REG 3
412 %if cpuflag(ssse3)
413     movd      %1, %2d
414     pshufb    %1, %3
415 %else
416     movd      %1, %2d
417     punpcklbw %1, %1
418     SPLATW    %1, %1, 0
419 %endif
420 %endmacro
421
422 %macro HADDD 2 ; sum junk
423 %if sizeof%1 == 32
424 %define %2 xmm%2
425     vextracti128 %2, %1, 1
426 %define %1 xmm%1
427     paddd   %1, %2
428 %endif
429 %if mmsize >= 16
430 %if cpuflag(xop) && sizeof%1 == 16
431     vphadddq %1, %1
432 %endif
433     movhlps %2, %1
434     paddd   %1, %2
435 %endif
436 %if notcpuflag(xop) || sizeof%1 != 16
437 %if cpuflag(mmxext)
438     PSHUFLW %2, %1, q0032
439 %else ; mmx
440     mova    %2, %1
441     psrlq   %2, 32
442 %endif
443     paddd   %1, %2
444 %endif
445 %undef %1
446 %undef %2
447 %endmacro
448
449 %macro HADDW 2 ; reg, tmp
450 %if cpuflag(xop) && sizeof%1 == 16
451     vphaddwq  %1, %1
452     movhlps   %2, %1
453     paddd     %1, %2
454 %else
455     pmaddwd %1, [pw_1]
456     HADDD   %1, %2
457 %endif
458 %endmacro
459
460 %macro HADDPS 3 ; dst, src, tmp
461 %if cpuflag(sse3)
462     haddps  %1, %1, %2
463 %else
464     movaps  %3, %1
465     shufps  %1, %2, q2020
466     shufps  %3, %2, q3131
467     addps   %1, %3
468 %endif
469 %endmacro
470
471 %macro PALIGNR 4-5
472 %if cpuflag(ssse3)
473 %if %0==5
474     palignr %1, %2, %3, %4
475 %else
476     palignr %1, %2, %3
477 %endif
478 %else ; [dst,] src1, src2, imm, tmp
479     %define %%dst %1
480 %if %0==5
481 %ifnidn %1, %2
482     mova    %%dst, %2
483 %endif
484     %rotate 1
485 %endif
486 %ifnidn %4, %2
487     mova    %4, %2
488 %endif
489 %if mmsize==8
490     psllq   %%dst, (8-%3)*8
491     psrlq   %4, %3*8
492 %else
493     pslldq  %%dst, 16-%3
494     psrldq  %4, %3
495 %endif
496     por     %%dst, %4
497 %endif
498 %endmacro
499
500 %macro PAVGB 2-4
501 %if cpuflag(mmxext)
502     pavgb   %1, %2
503 %elif cpuflag(3dnow)
504     pavgusb %1, %2
505 %elif cpuflag(mmx)
506     movu   %3, %2
507     por    %3, %1
508     pxor   %1, %2
509     pand   %1, %4
510     psrlq  %1, 1
511     psubb  %3, %1
512     SWAP   %1, %3
513 %endif
514 %endmacro
515
516 %macro PSHUFLW 1+
517     %if mmsize == 8
518         pshufw %1
519     %else
520         pshuflw %1
521     %endif
522 %endmacro
523
524 %macro PSWAPD 2
525 %if cpuflag(mmxext)
526     pshufw    %1, %2, q1032
527 %elif cpuflag(3dnowext)
528     pswapd    %1, %2
529 %elif cpuflag(3dnow)
530     movq      %1, %2
531     psrlq     %1, 32
532     punpckldq %1, %2
533 %endif
534 %endmacro
535
536 %macro DEINTB 5 ; mask, reg1, mask, reg2, optional src to fill masks from
537 %ifnum %5
538     pand   m%3, m%5, m%4 ; src .. y6 .. y4
539     pand   m%1, m%5, m%2 ; dst .. y6 .. y4
540 %else
541     mova   m%1, %5
542     pand   m%3, m%1, m%4 ; src .. y6 .. y4
543     pand   m%1, m%1, m%2 ; dst .. y6 .. y4
544 %endif
545     psrlw  m%2, 8        ; dst .. y7 .. y5
546     psrlw  m%4, 8        ; src .. y7 .. y5
547 %endmacro
548
549 %macro SUMSUB_BA 3-4
550 %if %0==3
551     padd%1  m%2, m%3
552     padd%1  m%3, m%3
553     psub%1  m%3, m%2
554 %else
555 %if avx_enabled == 0
556     mova    m%4, m%2
557     padd%1  m%2, m%3
558     psub%1  m%3, m%4
559 %else
560     padd%1  m%4, m%2, m%3
561     psub%1  m%3, m%2
562     SWAP    %2, %4
563 %endif
564 %endif
565 %endmacro
566
567 %macro SUMSUB_BADC 5-6
568 %if %0==6
569     SUMSUB_BA %1, %2, %3, %6
570     SUMSUB_BA %1, %4, %5, %6
571 %else
572     padd%1  m%2, m%3
573     padd%1  m%4, m%5
574     padd%1  m%3, m%3
575     padd%1  m%5, m%5
576     psub%1  m%3, m%2
577     psub%1  m%5, m%4
578 %endif
579 %endmacro
580
581 %macro SUMSUB2_AB 4
582 %ifnum %3
583     psub%1  m%4, m%2, m%3
584     psub%1  m%4, m%3
585     padd%1  m%2, m%2
586     padd%1  m%2, m%3
587 %else
588     mova    m%4, m%2
589     padd%1  m%2, m%2
590     padd%1  m%2, %3
591     psub%1  m%4, %3
592     psub%1  m%4, %3
593 %endif
594 %endmacro
595
596 %macro SUMSUB2_BA 4
597 %if avx_enabled == 0
598     mova    m%4, m%2
599     padd%1  m%2, m%3
600     padd%1  m%2, m%3
601     psub%1  m%3, m%4
602     psub%1  m%3, m%4
603 %else
604     padd%1  m%4, m%2, m%3
605     padd%1  m%4, m%3
606     psub%1  m%3, m%2
607     psub%1  m%3, m%2
608     SWAP     %2,  %4
609 %endif
610 %endmacro
611
612 %macro SUMSUBD2_AB 5
613 %ifnum %4
614     psra%1  m%5, m%2, 1  ; %3: %3>>1
615     psra%1  m%4, m%3, 1  ; %2: %2>>1
616     padd%1  m%4, m%2     ; %3: %3>>1+%2
617     psub%1  m%5, m%3     ; %2: %2>>1-%3
618     SWAP     %2, %5
619     SWAP     %3, %4
620 %else
621     mova    %5, m%2
622     mova    %4, m%3
623     psra%1  m%3, 1  ; %3: %3>>1
624     psra%1  m%2, 1  ; %2: %2>>1
625     padd%1  m%3, %5 ; %3: %3>>1+%2
626     psub%1  m%2, %4 ; %2: %2>>1-%3
627 %endif
628 %endmacro
629
630 %macro DCT4_1D 5
631 %ifnum %5
632     SUMSUB_BADC w, %4, %1, %3, %2, %5
633     SUMSUB_BA   w, %3, %4, %5
634     SUMSUB2_AB  w, %1, %2, %5
635     SWAP %1, %3, %4, %5, %2
636 %else
637     SUMSUB_BADC w, %4, %1, %3, %2
638     SUMSUB_BA   w, %3, %4
639     mova     [%5], m%2
640     SUMSUB2_AB  w, %1, [%5], %2
641     SWAP %1, %3, %4, %2
642 %endif
643 %endmacro
644
645 %macro IDCT4_1D 6-7
646 %ifnum %6
647     SUMSUBD2_AB %1, %3, %5, %7, %6
648     ; %3: %3>>1-%5 %5: %3+%5>>1
649     SUMSUB_BA   %1, %4, %2, %7
650     ; %4: %2+%4 %2: %2-%4
651     SUMSUB_BADC %1, %5, %4, %3, %2, %7
652     ; %5: %2+%4 + (%3+%5>>1)
653     ; %4: %2+%4 - (%3+%5>>1)
654     ; %3: %2-%4 + (%3>>1-%5)
655     ; %2: %2-%4 - (%3>>1-%5)
656 %else
657 %ifidn %1, w
658     SUMSUBD2_AB %1, %3, %5, [%6], [%6+16]
659 %else
660     SUMSUBD2_AB %1, %3, %5, [%6], [%6+32]
661 %endif
662     SUMSUB_BA   %1, %4, %2
663     SUMSUB_BADC %1, %5, %4, %3, %2
664 %endif
665     SWAP %2, %5, %4
666     ; %2: %2+%4 + (%3+%5>>1) row0
667     ; %3: %2-%4 + (%3>>1-%5) row1
668     ; %4: %2-%4 - (%3>>1-%5) row2
669     ; %5: %2+%4 - (%3+%5>>1) row3
670 %endmacro
671
672
673 %macro LOAD_DIFF 5
674 %ifidn %3, none
675     movh       %1, %4
676     movh       %2, %5
677     punpcklbw  %1, %2
678     punpcklbw  %2, %2
679     psubw      %1, %2
680 %else
681     movh       %1, %4
682     punpcklbw  %1, %3
683     movh       %2, %5
684     punpcklbw  %2, %3
685     psubw      %1, %2
686 %endif
687 %endmacro
688
689 %macro STORE_DCT 6
690     movq   [%5+%6+ 0], m%1
691     movq   [%5+%6+ 8], m%2
692     movq   [%5+%6+16], m%3
693     movq   [%5+%6+24], m%4
694     movhps [%5+%6+32], m%1
695     movhps [%5+%6+40], m%2
696     movhps [%5+%6+48], m%3
697     movhps [%5+%6+56], m%4
698 %endmacro
699
700 %macro LOAD_DIFF_8x4P 7-10 r0,r2,0 ; 4x dest, 2x temp, 2x pointer, increment?
701     LOAD_DIFF m%1, m%5, m%7, [%8],      [%9]
702     LOAD_DIFF m%2, m%6, m%7, [%8+r1],   [%9+r3]
703     LOAD_DIFF m%3, m%5, m%7, [%8+2*r1], [%9+2*r3]
704     LOAD_DIFF m%4, m%6, m%7, [%8+r4],   [%9+r5]
705 %if %10
706     lea %8, [%8+4*r1]
707     lea %9, [%9+4*r3]
708 %endif
709 %endmacro
710
711 %macro DIFFx2 6-7
712     movh       %3, %5
713     punpcklbw  %3, %4
714     psraw      %1, 6
715     paddsw     %1, %3
716     movh       %3, %6
717     punpcklbw  %3, %4
718     psraw      %2, 6
719     paddsw     %2, %3
720     packuswb   %2, %1
721 %endmacro
722
723 %macro STORE_DIFF 4
724     movh       %2, %4
725     punpcklbw  %2, %3
726     psraw      %1, 6
727     paddsw     %1, %2
728     packuswb   %1, %1
729     movh       %4, %1
730 %endmacro
731
732 %macro STORE_DIFFx2 8 ; add1, add2, reg1, reg2, zero, shift, source, stride
733     movh       %3, [%7]
734     movh       %4, [%7+%8]
735     psraw      %1, %6
736     psraw      %2, %6
737     punpcklbw  %3, %5
738     punpcklbw  %4, %5
739     paddw      %3, %1
740     paddw      %4, %2
741     packuswb   %3, %5
742     packuswb   %4, %5
743     movh     [%7], %3
744     movh  [%7+%8], %4
745 %endmacro
746
747 %macro PMINUB 3 ; dst, src, ignored
748 %if cpuflag(mmxext)
749     pminub   %1, %2
750 %else ; dst, src, tmp
751     mova     %3, %1
752     psubusb  %3, %2
753     psubb    %1, %3
754 %endif
755 %endmacro
756
757 %macro SPLATW 2-3 0
758 %if cpuflag(avx2) && %3 == 0
759     vpbroadcastw %1, %2
760 %elif mmsize == 16
761     pshuflw    %1, %2, (%3)*0x55
762     punpcklqdq %1, %1
763 %elif cpuflag(mmxext)
764     pshufw     %1, %2, (%3)*0x55
765 %else
766     %ifnidn %1, %2
767         mova       %1, %2
768     %endif
769     %if %3 & 2
770         punpckhwd  %1, %1
771     %else
772         punpcklwd  %1, %1
773     %endif
774     %if %3 & 1
775         punpckhwd  %1, %1
776     %else
777         punpcklwd  %1, %1
778     %endif
779 %endif
780 %endmacro
781
782 %macro SPLATD 1
783 %if mmsize == 8
784     punpckldq  %1, %1
785 %elif cpuflag(sse2)
786     pshufd  %1, %1, 0
787 %elif cpuflag(sse)
788     shufps  %1, %1, 0
789 %endif
790 %endmacro
791
792 %macro CLIPUB 3 ;(dst, min, max)
793     pmaxub %1, %2
794     pminub %1, %3
795 %endmacro
796
797 %macro CLIPW 3 ;(dst, min, max)
798     pmaxsw %1, %2
799     pminsw %1, %3
800 %endmacro
801
802 %macro PMINSD 3 ; dst, src, tmp/unused
803 %if cpuflag(sse4)
804     pminsd    %1, %2
805 %elif cpuflag(sse2)
806     cvtdq2ps  %1, %1
807     minps     %1, %2
808     cvtps2dq  %1, %1
809 %else
810     mova      %3, %2
811     pcmpgtd   %3, %1
812     pxor      %1, %2
813     pand      %1, %3
814     pxor      %1, %2
815 %endif
816 %endmacro
817
818 %macro PMAXSD 3 ; dst, src, tmp/unused
819 %if cpuflag(sse4)
820     pmaxsd    %1, %2
821 %else
822     mova      %3, %1
823     pcmpgtd   %3, %2
824     pand      %1, %3
825     pandn     %3, %2
826     por       %1, %3
827 %endif
828 %endmacro
829
830 %macro CLIPD 3-4
831 %if cpuflag(sse4);  src/dst, min, max, unused
832     pminsd  %1, %3
833     pmaxsd  %1, %2
834 %elif cpuflag(sse2) ; src/dst, min (float), max (float), unused
835     cvtdq2ps  %1, %1
836     minps     %1, %3
837     maxps     %1, %2
838     cvtps2dq  %1, %1
839 %else               ; src/dst, min, max, tmp
840     PMINSD    %1, %3, %4
841     PMAXSD    %1, %2, %4
842 %endif
843 %endmacro
844
845 %macro VBROADCASTSS 2 ; dst xmm/ymm, src m32/xmm
846 %if cpuflag(avx2)
847     vbroadcastss  %1, %2
848 %elif cpuflag(avx)
849     %ifnum sizeof%2         ; avx1 register
850         shufps  xmm%1, xmm%2, xmm%2, q0000
851         %if sizeof%1 >= 32  ; mmsize>=32
852             vinsertf128  %1, %1, xmm%1, 1
853         %endif
854     %else                   ; avx1 memory
855         vbroadcastss  %1, %2
856     %endif
857 %else
858     %ifnum sizeof%2         ; sse register
859         shufps  %1, %2, %2, q0000
860     %else                   ; sse memory
861         movss   %1, %2
862         shufps  %1, %1, 0
863     %endif
864 %endif
865 %endmacro
866
867 %macro VBROADCASTSD 2 ; dst xmm/ymm, src m64
868 %if cpuflag(avx) && mmsize == 32
869     vbroadcastsd %1, %2
870 %elif cpuflag(sse3)
871     movddup      %1, %2
872 %else ; sse2
873     movsd        %1, %2
874     movlhps      %1, %1
875 %endif
876 %endmacro
877
878 %macro VPBROADCASTD 2 ; dst xmm/ymm, src m32/xmm
879 %if cpuflag(avx2)
880     vpbroadcastd  %1, %2
881 %elif cpuflag(avx) && sizeof%1 >= 32
882     %error vpbroadcastd not possible with ymm on avx1. try vbroadcastss
883 %else
884     %ifnum sizeof%2         ; sse2 register
885         pshufd  %1, %2, q0000
886     %else                   ; sse memory
887         movd    %1, %2
888         pshufd  %1, %1, 0
889     %endif
890 %endif
891 %endmacro
892
893 %macro VBROADCASTI128 2 ; dst xmm/ymm, src : 128bits val
894 %if mmsize > 16
895     vbroadcasti128 %1, %2
896 %else
897     mova           %1, %2
898 %endif
899 %endmacro
900
901 %macro SHUFFLE_MASK_W 8
902     %rep 8
903         %if %1>=0x80
904             db %1, %1
905         %else
906             db %1*2
907             db %1*2+1
908         %endif
909         %rotate 1
910     %endrep
911 %endmacro
912
913 %macro PMOVSXWD 2; dst, src
914 %if cpuflag(sse4)
915     pmovsxwd     %1, %2
916 %else
917     %ifnidn %1, %2
918     mova         %1, %2
919     %endif
920     punpcklwd    %1, %1
921     psrad        %1, 16
922 %endif
923 %endmacro
924
925 ; Wrapper for non-FMA version of fmaddps
926 %macro FMULADD_PS 5
927     %if cpuflag(fma3) || cpuflag(fma4)
928         fmaddps %1, %2, %3, %4
929     %elifidn %1, %4
930         mulps   %5, %2, %3
931         addps   %1, %4, %5
932     %else
933         mulps   %1, %2, %3
934         addps   %1, %4
935     %endif
936 %endmacro
937
938 %macro LSHIFT 2
939 %if mmsize > 8
940     pslldq  %1, %2
941 %else
942     psllq   %1, 8*(%2)
943 %endif
944 %endmacro
945
946 %macro RSHIFT 2
947 %if mmsize > 8
948     psrldq  %1, %2
949 %else
950     psrlq   %1, 8*(%2)
951 %endif
952 %endmacro
953
954 %macro MOVHL 2 ; dst, src
955 %ifidn %1, %2
956     punpckhqdq %1, %2
957 %elif cpuflag(avx)
958     punpckhqdq %1, %2, %2
959 %elif cpuflag(sse4)
960     pshufd     %1, %2, q3232 ; pshufd is slow on some older CPUs, so only use it on more modern ones
961 %else
962     movhlps    %1, %2        ; may cause an int/float domain transition and has a dependency on dst
963 %endif
964 %endmacro
965
966 ; Horizontal Sum of Packed Single precision floats
967 ; The resulting sum is in all elements.
968 %macro HSUMPS 2 ; dst/src, tmp
969 %if cpuflag(avx)
970     %if sizeof%1>=32  ; avx
971         vperm2f128  %2, %1, %1, (0)*16+(1)
972         addps       %1, %2
973     %endif
974     shufps      %2, %1, %1, q1032
975     addps       %1, %2
976     shufps      %2, %1, %1, q0321
977     addps       %1, %2
978 %else  ; this form is a bit faster than the short avx-like emulation.
979     movaps      %2, %1
980     shufps      %1, %1, q1032
981     addps       %1, %2
982     movaps      %2, %1
983     shufps      %1, %1, q0321
984     addps       %1, %2
985     ; all %1 members should be equal for as long as float a+b==b+a
986 %endif
987 %endmacro
988
989 ; Emulate blendvps if not available
990 ;
991 ; src_b is destroyed when using emulation with logical operands
992 ; SSE41 blendv instruction is hard coded to use xmm0 as mask
993 %macro BLENDVPS 3 ; dst/src_a, src_b, mask
994 %if cpuflag(avx)
995     blendvps  %1, %1, %2, %3
996 %elif cpuflag(sse4)
997     %ifnidn %3,xmm0
998         %error sse41 blendvps uses xmm0 as default 3d operand, you used %3
999     %endif
1000     blendvps  %1, %2, %3
1001 %else
1002     xorps  %2, %1
1003     andps  %2, %3
1004     xorps  %1, %2
1005 %endif
1006 %endmacro
1007
1008 ; Emulate pblendvb if not available
1009 ;
1010 ; src_b is destroyed when using emulation with logical operands
1011 ; SSE41 blendv instruction is hard coded to use xmm0 as mask
1012 %macro PBLENDVB 3 ; dst/src_a, src_b, mask
1013 %if cpuflag(avx)
1014     %if cpuflag(avx) && notcpuflag(avx2) && sizeof%1 >= 32
1015         %error pblendb not possible with ymm on avx1, try blendvps.
1016     %endif
1017     pblendvb  %1, %1, %2, %3
1018 %elif cpuflag(sse4)
1019     %ifnidn %3,xmm0
1020         %error sse41 pblendvd uses xmm0 as default 3d operand, you used %3
1021     %endif
1022     pblendvb  %1, %2, %3
1023 %else
1024     pxor  %2, %1
1025     pand  %2, %3
1026     pxor  %1, %2
1027 %endif
1028 %endmacro