]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_qpel_10bit.asm
truemotion1: remove disabled code
[ffmpeg] / libavcodec / x86 / h264_qpel_10bit.asm
1 ;*****************************************************************************
2 ;* MMX/SSE2/AVX-optimized 10-bit H.264 qpel code
3 ;*****************************************************************************
4 ;* Copyright (C) 2011 x264 project
5 ;*
6 ;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
7 ;*
8 ;* This file is part of Libav.
9 ;*
10 ;* Libav is free software; you can redistribute it and/or
11 ;* modify it under the terms of the GNU Lesser General Public
12 ;* License as published by the Free Software Foundation; either
13 ;* version 2.1 of the License, or (at your option) any later version.
14 ;*
15 ;* Libav is distributed in the hope that it will be useful,
16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
18 ;* Lesser General Public License for more details.
19 ;*
20 ;* You should have received a copy of the GNU Lesser General Public
21 ;* License along with Libav; if not, write to the Free Software
22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
23 ;******************************************************************************
24
25 %include "x86inc.asm"
26 %include "x86util.asm"
27
28 SECTION_RODATA 32
29
30 cextern pw_16
31 cextern pw_1
32 cextern pb_0
33
34 pw_pixel_max: times 8 dw ((1 << 10)-1)
35
36 pad10: times 8 dw 10*1023
37 pad20: times 8 dw 20*1023
38 pad30: times 8 dw 30*1023
39 depad: times 4 dd 32*20*1023 + 512
40 depad2: times 8 dw 20*1023 + 16*1022 + 16
41 unpad: times 8 dw 16*1022/32 ; needs to be mod 16
42
43 tap1: times 4 dw  1, -5
44 tap2: times 4 dw 20, 20
45 tap3: times 4 dw -5,  1
46 pd_0f: times 4 dd 0xffff
47
48 SECTION .text
49
50
51 %macro AVG_MOV 2
52     pavgw %2, %1
53     mova  %1, %2
54 %endmacro
55
56 %macro ADDW 3
57 %if mmsize == 8
58     paddw %1, %2
59 %else
60     movu  %3, %2
61     paddw %1, %3
62 %endif
63 %endmacro
64
65 %macro FILT_H 4
66     paddw  %1, %4
67     psubw  %1, %2  ; a-b
68     psraw  %1, 2   ; (a-b)/4
69     psubw  %1, %2  ; (a-b)/4-b
70     paddw  %1, %3  ; (a-b)/4-b+c
71     psraw  %1, 2   ; ((a-b)/4-b+c)/4
72     paddw  %1, %3  ; ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
73 %endmacro
74
75 %macro PRELOAD_V 0
76     lea      r3, [r2*3]
77     sub      r1, r3
78     movu     m0, [r1+r2]
79     movu     m1, [r1+r2*2]
80     add      r1, r3
81     movu     m2, [r1]
82     movu     m3, [r1+r2]
83     movu     m4, [r1+r2*2]
84     add      r1, r3
85 %endmacro
86
87 %macro FILT_V 8
88     movu     %6, [r1]
89     paddw    %1, %6
90     mova     %7, %2
91     paddw    %7, %5
92     mova     %8, %3
93     paddw    %8, %4
94     FILT_H   %1, %7, %8, [pw_16]
95     psraw    %1, 1
96     CLIPW    %1, [pb_0], [pw_pixel_max]
97 %endmacro
98
99 %macro MC 1
100 %define OP_MOV mova
101 INIT_MMX
102 %1 mmxext, put, 4
103 INIT_XMM
104 %1 sse2  , put, 8
105
106 %define OP_MOV AVG_MOV
107 INIT_MMX
108 %1 mmxext, avg, 4
109 INIT_XMM
110 %1 sse2  , avg, 8
111 %endmacro
112
113 %macro MCAxA 8
114 %if ARCH_X86_64
115 %ifnidn %1,mmxext
116 MCAxA_OP %1,%2,%3,%4,%5,%6,%7,%8
117 %endif
118 %else
119 MCAxA_OP %1,%2,%3,%4,%5,%6,%7,%8
120 %endif
121 %endmacro
122
123 %macro MCAxA_OP 8
124 %if ARCH_X86_32
125 cglobal %2_h264_qpel%5_%3_10_%1, %6,%7,%8
126     call stub_%2_h264_qpel%4_%3_10_%1
127     mov  r0, r0m
128     mov  r1, r1m
129     add  r0, %4*2
130     add  r1, %4*2
131     call stub_%2_h264_qpel%4_%3_10_%1
132     mov  r0, r0m
133     mov  r1, r1m
134     lea  r0, [r0+r2*%4]
135     lea  r1, [r1+r2*%4]
136     call stub_%2_h264_qpel%4_%3_10_%1
137     mov  r0, r0m
138     mov  r1, r1m
139     lea  r0, [r0+r2*%4+%4*2]
140     lea  r1, [r1+r2*%4+%4*2]
141     call stub_%2_h264_qpel%4_%3_10_%1
142     RET
143 %else ; ARCH_X86_64
144 cglobal %2_h264_qpel%5_%3_10_%1, %6,%7 + 2,%8
145     mov r%7, r0
146 %assign p1 %7+1
147     mov r %+ p1, r1
148     call stub_%2_h264_qpel%4_%3_10_%1
149     lea  r0, [r%7+%4*2]
150     lea  r1, [r %+ p1+%4*2]
151     call stub_%2_h264_qpel%4_%3_10_%1
152     lea  r0, [r%7+r2*%4]
153     lea  r1, [r %+ p1+r2*%4]
154     call stub_%2_h264_qpel%4_%3_10_%1
155     lea  r0, [r%7+r2*%4+%4*2]
156     lea  r1, [r %+ p1+r2*%4+%4*2]
157 %if UNIX64 == 0 ; fall through to function
158     call stub_%2_h264_qpel%4_%3_10_%1
159     RET
160 %endif
161 %endif
162 %endmacro
163
164 ;cpu, put/avg, mc, 4/8, ...
165 %macro cglobal_mc 7
166 %assign i %4*2
167 MCAxA %1, %2, %3, %4, i, %5,%6,%7
168
169 cglobal %2_h264_qpel%4_%3_10_%1, %5,%6,%7
170 %if UNIX64 == 0 ; no prologue or epilogue for UNIX64
171     call stub_%2_h264_qpel%4_%3_10_%1
172     RET
173 %endif
174
175 stub_%2_h264_qpel%4_%3_10_%1:
176 %endmacro
177
178 ;-----------------------------------------------------------------------------
179 ; void h264_qpel_mc00(uint8_t *dst, uint8_t *src, int stride)
180 ;-----------------------------------------------------------------------------
181 %macro COPY4 0
182     movu          m0, [r1     ]
183     OP_MOV [r0     ], m0
184     movu          m0, [r1+r2  ]
185     OP_MOV [r0+r2  ], m0
186     movu          m0, [r1+r2*2]
187     OP_MOV [r0+r2*2], m0
188     movu          m0, [r1+r3  ]
189     OP_MOV [r0+r3  ], m0
190 %endmacro
191
192 %macro MC00 1
193 INIT_MMX
194 cglobal_mc mmxext, %1, mc00, 4, 3,4,0
195     lea           r3, [r2*3]
196     COPY4
197     ret
198
199 INIT_XMM
200 cglobal %1_h264_qpel8_mc00_10_sse2, 3,4
201     lea  r3, [r2*3]
202     COPY4
203     lea  r0, [r0+r2*4]
204     lea  r1, [r1+r2*4]
205     COPY4
206     RET
207
208 cglobal %1_h264_qpel16_mc00_10_sse2, 3,4
209     mov r3d, 8
210 .loop:
211     movu           m0, [r1      ]
212     movu           m1, [r1   +16]
213     OP_MOV [r0      ], m0
214     OP_MOV [r0   +16], m1
215     movu           m0, [r1+r2   ]
216     movu           m1, [r1+r2+16]
217     OP_MOV [r0+r2   ], m0
218     OP_MOV [r0+r2+16], m1
219     lea            r0, [r0+r2*2]
220     lea            r1, [r1+r2*2]
221     dec r3d
222     jg .loop
223     REP_RET
224 %endmacro
225
226 %define OP_MOV mova
227 MC00 put
228
229 %define OP_MOV AVG_MOV
230 MC00 avg
231
232 ;-----------------------------------------------------------------------------
233 ; void h264_qpel_mc20(uint8_t *dst, uint8_t *src, int stride)
234 ;-----------------------------------------------------------------------------
235 %macro MC_CACHE 1
236 %define OP_MOV mova
237 %define PALIGNR PALIGNR_MMX
238 INIT_MMX
239 %1 mmxext       , put, 4
240 INIT_XMM
241 %1 sse2_cache64 , put, 8
242 %define PALIGNR PALIGNR_SSSE3
243 %1 ssse3_cache64, put, 8
244 %1 sse2         , put, 8, 0
245
246 %define OP_MOV AVG_MOV
247 %define PALIGNR PALIGNR_MMX
248 INIT_MMX
249 %1 mmxext       , avg, 4
250 INIT_XMM
251 %1 sse2_cache64 , avg, 8
252 %define PALIGNR PALIGNR_SSSE3
253 %1 ssse3_cache64, avg, 8
254 %1 sse2         , avg, 8, 0
255 %endmacro
256
257 %macro MC20 3-4
258 cglobal_mc %1, %2, mc20, %3, 3,4,9
259     mov     r3d, %3
260     mova     m1, [pw_pixel_max]
261 %if num_mmregs > 8
262     mova     m8, [pw_16]
263     %define p16 m8
264 %else
265     %define p16 [pw_16]
266 %endif
267 .nextrow
268 %if %0 == 4
269     movu     m2, [r1-4]
270     movu     m3, [r1-2]
271     movu     m4, [r1+0]
272     ADDW     m2, [r1+6], m5
273     ADDW     m3, [r1+4], m5
274     ADDW     m4, [r1+2], m5
275 %else ; movu is slow on these processors
276 %if mmsize==16
277     movu     m2, [r1-4]
278     movu     m0, [r1+6]
279     mova     m6, m0
280     psrldq   m0, 6
281
282     paddw    m6, m2
283     PALIGNR  m3, m0, m2, 2, m5
284     PALIGNR  m7, m0, m2, 8, m5
285     paddw    m3, m7
286     PALIGNR  m4, m0, m2, 4, m5
287     PALIGNR  m7, m0, m2, 6, m5
288     paddw    m4, m7
289     SWAP      2, 6
290 %else
291     movu     m2, [r1-4]
292     movu     m6, [r1+4]
293     PALIGNR  m3, m6, m2, 2, m5
294     paddw    m3, m6
295     PALIGNR  m4, m6, m2, 4, m5
296     PALIGNR  m7, m6, m2, 6, m5
297     paddw    m4, m7
298     paddw    m2, [r1+6]
299 %endif
300 %endif
301
302     FILT_H   m2, m3, m4, p16
303     psraw    m2, 1
304     pxor     m0, m0
305     CLIPW    m2, m0, m1
306     OP_MOV [r0], m2
307     add      r0, r2
308     add      r1, r2
309     dec     r3d
310     jg .nextrow
311     rep ret
312 %endmacro
313
314 MC_CACHE MC20
315
316 ;-----------------------------------------------------------------------------
317 ; void h264_qpel_mc30(uint8_t *dst, uint8_t *src, int stride)
318 ;-----------------------------------------------------------------------------
319 %macro MC30 3-4
320 cglobal_mc %1, %2, mc30, %3, 3,5,9
321     lea r4, [r1+2]
322     jmp stub_%2_h264_qpel%3_mc10_10_%1.body
323 %endmacro
324
325 MC_CACHE MC30
326
327 ;-----------------------------------------------------------------------------
328 ; void h264_qpel_mc10(uint8_t *dst, uint8_t *src, int stride)
329 ;-----------------------------------------------------------------------------
330 %macro MC10 3-4
331 cglobal_mc %1, %2, mc10, %3, 3,5,9
332     mov      r4, r1
333 .body
334     mov     r3d, %3
335     mova     m1, [pw_pixel_max]
336 %if num_mmregs > 8
337     mova     m8, [pw_16]
338     %define p16 m8
339 %else
340     %define p16 [pw_16]
341 %endif
342 .nextrow
343 %if %0 == 4
344     movu     m2, [r1-4]
345     movu     m3, [r1-2]
346     movu     m4, [r1+0]
347     ADDW     m2, [r1+6], m5
348     ADDW     m3, [r1+4], m5
349     ADDW     m4, [r1+2], m5
350 %else ; movu is slow on these processors
351 %if mmsize==16
352     movu     m2, [r1-4]
353     movu     m0, [r1+6]
354     mova     m6, m0
355     psrldq   m0, 6
356
357     paddw    m6, m2
358     PALIGNR  m3, m0, m2, 2, m5
359     PALIGNR  m7, m0, m2, 8, m5
360     paddw    m3, m7
361     PALIGNR  m4, m0, m2, 4, m5
362     PALIGNR  m7, m0, m2, 6, m5
363     paddw    m4, m7
364     SWAP      2, 6
365 %else
366     movu     m2, [r1-4]
367     movu     m6, [r1+4]
368     PALIGNR  m3, m6, m2, 2, m5
369     paddw    m3, m6
370     PALIGNR  m4, m6, m2, 4, m5
371     PALIGNR  m7, m6, m2, 6, m5
372     paddw    m4, m7
373     paddw    m2, [r1+6]
374 %endif
375 %endif
376
377     FILT_H   m2, m3, m4, p16
378     psraw    m2, 1
379     pxor     m0, m0
380     CLIPW    m2, m0, m1
381     movu     m3, [r4]
382     pavgw    m2, m3
383     OP_MOV [r0], m2
384     add      r0, r2
385     add      r1, r2
386     add      r4, r2
387     dec     r3d
388     jg .nextrow
389     rep ret
390 %endmacro
391
392 MC_CACHE MC10
393
394 ;-----------------------------------------------------------------------------
395 ; void h264_qpel_mc02(uint8_t *dst, uint8_t *src, int stride)
396 ;-----------------------------------------------------------------------------
397 %macro V_FILT 11
398 v_filt%9_%10_10_%11:
399     add    r4, r2
400 .no_addr4:
401     FILT_V m0, m1, m2, m3, m4, m5, m6, m7
402     add    r1, r2
403     add    r0, r2
404     ret
405 %endmacro
406
407 INIT_MMX
408 RESET_MM_PERMUTATION
409 %assign i 0
410 %rep 4
411 V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 4, i, mmxext
412 SWAP 0,1,2,3,4,5
413 %assign i i+1
414 %endrep
415
416 INIT_XMM
417 RESET_MM_PERMUTATION
418 %assign i 0
419 %rep 6
420 V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 8, i, sse2
421 SWAP 0,1,2,3,4,5
422 %assign i i+1
423 %endrep
424
425 %macro MC02 3
426 cglobal_mc %1, %2, mc02, %3, 3,4,8
427     PRELOAD_V
428
429     sub      r0, r2
430 %assign j 0
431 %rep %3
432     %assign i (j % 6)
433     call v_filt%3_ %+ i %+ _10_%1.no_addr4
434     OP_MOV [r0], m0
435     SWAP 0,1,2,3,4,5
436     %assign j j+1
437 %endrep
438     ret
439 %endmacro
440
441 MC MC02
442
443 ;-----------------------------------------------------------------------------
444 ; void h264_qpel_mc01(uint8_t *dst, uint8_t *src, int stride)
445 ;-----------------------------------------------------------------------------
446 %macro MC01 3
447 cglobal_mc %1, %2, mc01, %3, 3,5,8
448     mov      r4, r1
449 .body
450     PRELOAD_V
451
452     sub      r4, r2
453     sub      r0, r2
454 %assign j 0
455 %rep %3
456     %assign i (j % 6)
457     call v_filt%3_ %+ i %+ _10_%1
458     movu     m7, [r4]
459     pavgw    m0, m7
460     OP_MOV [r0], m0
461     SWAP 0,1,2,3,4,5
462     %assign j j+1
463 %endrep
464     ret
465 %endmacro
466
467 MC MC01
468
469 ;-----------------------------------------------------------------------------
470 ; void h264_qpel_mc03(uint8_t *dst, uint8_t *src, int stride)
471 ;-----------------------------------------------------------------------------
472 %macro MC03 3
473 cglobal_mc %1, %2, mc03, %3, 3,5,8
474     lea r4, [r1+r2]
475     jmp stub_%2_h264_qpel%3_mc01_10_%1.body
476 %endmacro
477
478 MC MC03
479
480 ;-----------------------------------------------------------------------------
481 ; void h264_qpel_mc11(uint8_t *dst, uint8_t *src, int stride)
482 ;-----------------------------------------------------------------------------
483 %macro H_FILT_AVG 3-4
484 h_filt%2_%3_10_%1:
485 ;FILT_H with fewer registers and averaged with the FILT_V result
486 ;m6,m7 are tmp registers, m0 is the FILT_V result, the rest are to be used next in the next iteration
487 ;unfortunately I need three registers, so m5 will have to be re-read from memory
488     movu     m5, [r4-4]
489     ADDW     m5, [r4+6], m7
490     movu     m6, [r4-2]
491     ADDW     m6, [r4+4], m7
492     paddw    m5, [pw_16]
493     psubw    m5, m6  ; a-b
494     psraw    m5, 2   ; (a-b)/4
495     psubw    m5, m6  ; (a-b)/4-b
496     movu     m6, [r4+0]
497     ADDW     m6, [r4+2], m7
498     paddw    m5, m6  ; (a-b)/4-b+c
499     psraw    m5, 2   ; ((a-b)/4-b+c)/4
500     paddw    m5, m6  ; ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
501     psraw    m5, 1
502     CLIPW    m5, [pb_0], [pw_pixel_max]
503 ;avg FILT_V, FILT_H
504     pavgw    m0, m5
505 %if %0!=4
506     movu     m5, [r1+r5]
507 %endif
508     ret
509 %endmacro
510
511 INIT_MMX
512 RESET_MM_PERMUTATION
513 %assign i 0
514 %rep 3
515 H_FILT_AVG mmxext, 4, i
516 SWAP 0,1,2,3,4,5
517 %assign i i+1
518 %endrep
519 H_FILT_AVG mmxext, 4, i, 0
520
521 INIT_XMM
522 RESET_MM_PERMUTATION
523 %assign i 0
524 %rep 6
525 %if i==1
526 H_FILT_AVG sse2,   8, i, 0
527 %else
528 H_FILT_AVG sse2,   8, i
529 %endif
530 SWAP 0,1,2,3,4,5
531 %assign i i+1
532 %endrep
533
534 %macro MC11 3
535 ; this REALLY needs x86_64
536 cglobal_mc %1, %2, mc11, %3, 3,6,8
537     mov      r4, r1
538 .body
539     PRELOAD_V
540
541     sub      r0, r2
542     sub      r4, r2
543     mov      r5, r2
544     neg      r5
545 %assign j 0
546 %rep %3
547     %assign i (j % 6)
548     call v_filt%3_ %+ i %+ _10_%1
549     call h_filt%3_ %+ i %+ _10_%1
550 %if %3==8 && i==1
551     movu     m5, [r1+r5]
552 %endif
553     OP_MOV [r0], m0
554     SWAP 0,1,2,3,4,5
555     %assign j j+1
556 %endrep
557     ret
558 %endmacro
559
560 MC MC11
561
562 ;-----------------------------------------------------------------------------
563 ; void h264_qpel_mc31(uint8_t *dst, uint8_t *src, int stride)
564 ;-----------------------------------------------------------------------------
565 %macro MC31 3
566 cglobal_mc %1, %2, mc31, %3, 3,6,8
567     mov r4, r1
568     add r1, 2
569     jmp stub_%2_h264_qpel%3_mc11_10_%1.body
570 %endmacro
571
572 MC MC31
573
574 ;-----------------------------------------------------------------------------
575 ; void h264_qpel_mc13(uint8_t *dst, uint8_t *src, int stride)
576 ;-----------------------------------------------------------------------------
577 %macro MC13 3
578 cglobal_mc %1, %2, mc13, %3, 3,7,12
579     lea r4, [r1+r2]
580     jmp stub_%2_h264_qpel%3_mc11_10_%1.body
581 %endmacro
582
583 MC MC13
584
585 ;-----------------------------------------------------------------------------
586 ; void h264_qpel_mc33(uint8_t *dst, uint8_t *src, int stride)
587 ;-----------------------------------------------------------------------------
588 %macro MC33 3
589 cglobal_mc %1, %2, mc33, %3, 3,6,8
590     lea r4, [r1+r2]
591     add r1, 2
592     jmp stub_%2_h264_qpel%3_mc11_10_%1.body
593 %endmacro
594
595 MC MC33
596
597 ;-----------------------------------------------------------------------------
598 ; void h264_qpel_mc22(uint8_t *dst, uint8_t *src, int stride)
599 ;-----------------------------------------------------------------------------
600 %macro FILT_H2 3
601     psubw  %1, %2  ; a-b
602     psubw  %2, %3  ; b-c
603     psllw  %2, 2
604     psubw  %1, %2  ; a-5*b+4*c
605     psllw  %3, 4
606     paddw  %1, %3  ; a-5*b+20*c
607 %endmacro
608
609 %macro FILT_VNRD 8
610     movu     %6, [r1]
611     paddw    %1, %6
612     mova     %7, %2
613     paddw    %7, %5
614     mova     %8, %3
615     paddw    %8, %4
616     FILT_H2  %1, %7, %8
617 %endmacro
618
619 %macro HV 2
620 %ifidn %1,sse2
621 %define PAD 12
622 %define COUNT 2
623 %else
624 %define PAD 4
625 %define COUNT 3
626 %endif
627 put_hv%2_10_%1:
628     neg      r2           ; This actually saves instructions
629     lea      r1, [r1+r2*2-mmsize+PAD]
630     lea      r4, [rsp+PAD+gprsize]
631     mov     r3d, COUNT
632 .v_loop:
633     movu     m0, [r1]
634     sub      r1, r2
635     movu     m1, [r1]
636     sub      r1, r2
637     movu     m2, [r1]
638     sub      r1, r2
639     movu     m3, [r1]
640     sub      r1, r2
641     movu     m4, [r1]
642     sub      r1, r2
643 %assign i 0
644 %rep %2-1
645     FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
646     psubw    m0, [pad20]
647     movu     [r4+i*mmsize*3], m0
648     sub      r1, r2
649     SWAP 0,1,2,3,4,5
650 %assign i i+1
651 %endrep
652     FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
653     psubw    m0, [pad20]
654     movu     [r4+i*mmsize*3], m0
655     add      r4, mmsize
656     lea      r1, [r1+r2*8+mmsize]
657 %if %2==8
658     lea      r1, [r1+r2*4]
659 %endif
660     dec      r3d
661     jg .v_loop
662     neg      r2
663     ret
664 %endmacro
665
666 INIT_MMX
667 HV mmxext, 4
668 INIT_XMM
669 HV sse2  , 8
670
671 %macro H_LOOP 2
672 %if num_mmregs > 8
673     %define s1 m8
674     %define s2 m9
675     %define s3 m10
676     %define d1 m11
677 %else
678     %define s1 [tap1]
679     %define s2 [tap2]
680     %define s3 [tap3]
681     %define d1 [depad]
682 %endif
683 h%2_loop_op_%1:
684     movu       m1, [r1+mmsize-4]
685     movu       m2, [r1+mmsize-2]
686     mova       m3, [r1+mmsize+0]
687     movu       m4, [r1+mmsize+2]
688     movu       m5, [r1+mmsize+4]
689     movu       m6, [r1+mmsize+6]
690 %if num_mmregs > 8
691     pmaddwd    m1, s1
692     pmaddwd    m2, s1
693     pmaddwd    m3, s2
694     pmaddwd    m4, s2
695     pmaddwd    m5, s3
696     pmaddwd    m6, s3
697     paddd      m1, d1
698     paddd      m2, d1
699 %else
700     mova       m0, s1
701     pmaddwd    m1, m0
702     pmaddwd    m2, m0
703     mova       m0, s2
704     pmaddwd    m3, m0
705     pmaddwd    m4, m0
706     mova       m0, s3
707     pmaddwd    m5, m0
708     pmaddwd    m6, m0
709     mova       m0, d1
710     paddd      m1, m0
711     paddd      m2, m0
712 %endif
713     paddd      m3, m5
714     paddd      m4, m6
715     paddd      m1, m3
716     paddd      m2, m4
717     psrad      m1, 10
718     psrad      m2, 10
719     pslld      m2, 16
720     pand       m1, [pd_0f]
721     por        m1, m2
722 %if num_mmregs <= 8
723     pxor       m0, m0
724 %endif
725     CLIPW      m1, m0, m7
726     add        r1, mmsize*3
727     ret
728 %endmacro
729
730 INIT_MMX
731 H_LOOP mmxext, 4
732 INIT_XMM
733 H_LOOP sse2  , 8
734
735 %macro MC22 3
736 cglobal_mc %1, %2, mc22, %3, 3,7,12
737 %define PAD mmsize*8*4*2      ; SIZE*16*4*sizeof(pixel)
738     mov      r6, rsp          ; backup stack pointer
739     and     rsp, ~(mmsize-1)  ; align stack
740     sub     rsp, PAD
741
742     call put_hv%3_10_%1
743
744     mov       r3d, %3
745     mova       m7, [pw_pixel_max]
746 %if num_mmregs > 8
747     pxor       m0, m0
748     mova       m8, [tap1]
749     mova       m9, [tap2]
750     mova      m10, [tap3]
751     mova      m11, [depad]
752 %endif
753     mov        r1, rsp
754 .h_loop:
755     call h%3_loop_op_%1
756
757     OP_MOV   [r0], m1
758     add        r0, r2
759     dec       r3d
760     jg .h_loop
761
762     mov     rsp, r6          ; restore stack pointer
763     ret
764 %endmacro
765
766 MC MC22
767
768 ;-----------------------------------------------------------------------------
769 ; void h264_qpel_mc12(uint8_t *dst, uint8_t *src, int stride)
770 ;-----------------------------------------------------------------------------
771 %macro MC12 3
772 cglobal_mc %1, %2, mc12, %3, 3,7,12
773 %define PAD mmsize*8*4*2        ; SIZE*16*4*sizeof(pixel)
774     mov        r6, rsp          ; backup stack pointer
775     and       rsp, ~(mmsize-1)  ; align stack
776     sub       rsp, PAD
777
778     call put_hv%3_10_%1
779
780     xor       r4d, r4d
781 .body
782     mov       r3d, %3
783     pxor       m0, m0
784     mova       m7, [pw_pixel_max]
785 %if num_mmregs > 8
786     mova       m8, [tap1]
787     mova       m9, [tap2]
788     mova      m10, [tap3]
789     mova      m11, [depad]
790 %endif
791     mov        r1, rsp
792 .h_loop:
793     call h%3_loop_op_%1
794
795     movu       m3, [r1+r4-2*mmsize] ; movu needed for mc32, etc
796     paddw      m3, [depad2]
797     psrlw      m3, 5
798     psubw      m3, [unpad]
799     CLIPW      m3, m0, m7
800     pavgw      m1, m3
801
802     OP_MOV   [r0], m1
803     add        r0, r2
804     dec       r3d
805     jg .h_loop
806
807     mov     rsp, r6          ; restore stack pointer
808     ret
809 %endmacro
810
811 MC MC12
812
813 ;-----------------------------------------------------------------------------
814 ; void h264_qpel_mc32(uint8_t *dst, uint8_t *src, int stride)
815 ;-----------------------------------------------------------------------------
816 %macro MC32 3
817 cglobal_mc %1, %2, mc32, %3, 3,7,12
818 %define PAD mmsize*8*3*2  ; SIZE*16*4*sizeof(pixel)
819     mov  r6, rsp          ; backup stack pointer
820     and rsp, ~(mmsize-1)  ; align stack
821     sub rsp, PAD
822
823     call put_hv%3_10_%1
824
825     mov r4d, 2            ; sizeof(pixel)
826     jmp stub_%2_h264_qpel%3_mc12_10_%1.body
827 %endmacro
828
829 MC MC32
830
831 ;-----------------------------------------------------------------------------
832 ; void h264_qpel_mc21(uint8_t *dst, uint8_t *src, int stride)
833 ;-----------------------------------------------------------------------------
834 %macro H_NRD 2
835 put_h%2_10_%1:
836     add       rsp, gprsize
837     mov       r3d, %2
838     xor       r4d, r4d
839     mova       m6, [pad20]
840 .nextrow
841     movu       m2, [r5-4]
842     movu       m3, [r5-2]
843     movu       m4, [r5+0]
844     ADDW       m2, [r5+6], m5
845     ADDW       m3, [r5+4], m5
846     ADDW       m4, [r5+2], m5
847
848     FILT_H2    m2, m3, m4
849     psubw      m2, m6
850     mova [rsp+r4], m2
851     add       r4d, mmsize*3
852     add        r5, r2
853     dec       r3d
854     jg .nextrow
855     sub       rsp, gprsize
856     ret
857 %endmacro
858
859 INIT_MMX
860 H_NRD mmxext, 4
861 INIT_XMM
862 H_NRD sse2  , 8
863
864 %macro MC21 3
865 cglobal_mc %1, %2, mc21, %3, 3,7,12
866     mov   r5, r1
867 .body
868 %define PAD mmsize*8*3*2   ; SIZE*16*4*sizeof(pixel)
869     mov   r6, rsp          ; backup stack pointer
870     and  rsp, ~(mmsize-1)  ; align stack
871
872     sub  rsp, PAD
873     call put_h%3_10_%1
874
875     sub  rsp, PAD
876     call put_hv%3_10_%1
877
878     mov r4d, PAD-mmsize    ; H buffer
879     jmp stub_%2_h264_qpel%3_mc12_10_%1.body
880 %endmacro
881
882 MC MC21
883
884 ;-----------------------------------------------------------------------------
885 ; void h264_qpel_mc23(uint8_t *dst, uint8_t *src, int stride)
886 ;-----------------------------------------------------------------------------
887 %macro MC23 3
888 cglobal_mc %1, %2, mc23, %3, 3,7,12
889     lea   r5, [r1+r2]
890     jmp stub_%2_h264_qpel%3_mc21_10_%1.body
891 %endmacro
892
893 MC MC23