]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/vp8dsp.asm
Implement chroma (width=8) inner loopfilter MMX/MMX2/SSE2 functions.
[ffmpeg] / libavcodec / x86 / vp8dsp.asm
1 ;******************************************************************************
2 ;* VP8 MMXEXT optimizations
3 ;* Copyright (c) 2010 Ronald S. Bultje <rsbultje@gmail.com>
4 ;* Copyright (c) 2010 Jason Garrett-Glaser <darkshikari@gmail.com>
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "x86inc.asm"
24 %include "x86util.asm"
25
26 SECTION_RODATA
27
28 fourtap_filter_hw_m: times 4 dw  -6, 123
29                      times 4 dw  12,  -1
30                      times 4 dw  -9,  93
31                      times 4 dw  50,  -6
32                      times 4 dw  -6,  50
33                      times 4 dw  93,  -9
34                      times 4 dw  -1,  12
35                      times 4 dw 123,  -6
36
37 sixtap_filter_hw_m:  times 4 dw   2, -11
38                      times 4 dw 108,  36
39                      times 4 dw  -8,   1
40                      times 4 dw   3, -16
41                      times 4 dw  77,  77
42                      times 4 dw -16,   3
43                      times 4 dw   1,  -8
44                      times 4 dw  36, 108
45                      times 4 dw -11,   2
46
47 fourtap_filter_hb_m: times 8 db  -6, 123
48                      times 8 db  12,  -1
49                      times 8 db  -9,  93
50                      times 8 db  50,  -6
51                      times 8 db  -6,  50
52                      times 8 db  93,  -9
53                      times 8 db  -1,  12
54                      times 8 db 123,  -6
55
56 sixtap_filter_hb_m:  times 8 db   2,   1
57                      times 8 db -11, 108
58                      times 8 db  36,  -8
59                      times 8 db   3,   3
60                      times 8 db -16,  77
61                      times 8 db  77, -16
62                      times 8 db   1,   2
63                      times 8 db  -8,  36
64                      times 8 db 108, -11
65
66 fourtap_filter_v_m:  times 8 dw  -6
67                      times 8 dw 123
68                      times 8 dw  12
69                      times 8 dw  -1
70                      times 8 dw  -9
71                      times 8 dw  93
72                      times 8 dw  50
73                      times 8 dw  -6
74                      times 8 dw  -6
75                      times 8 dw  50
76                      times 8 dw  93
77                      times 8 dw  -9
78                      times 8 dw  -1
79                      times 8 dw  12
80                      times 8 dw 123
81                      times 8 dw  -6
82
83 sixtap_filter_v_m:   times 8 dw   2
84                      times 8 dw -11
85                      times 8 dw 108
86                      times 8 dw  36
87                      times 8 dw  -8
88                      times 8 dw   1
89                      times 8 dw   3
90                      times 8 dw -16
91                      times 8 dw  77
92                      times 8 dw  77
93                      times 8 dw -16
94                      times 8 dw   3
95                      times 8 dw   1
96                      times 8 dw  -8
97                      times 8 dw  36
98                      times 8 dw 108
99                      times 8 dw -11
100                      times 8 dw   2
101
102 bilinear_filter_vw_m: times 8 dw 1
103                       times 8 dw 2
104                       times 8 dw 3
105                       times 8 dw 4
106                       times 8 dw 5
107                       times 8 dw 6
108                       times 8 dw 7
109
110 bilinear_filter_vb_m: times 8 db 7, 1
111                       times 8 db 6, 2
112                       times 8 db 5, 3
113                       times 8 db 4, 4
114                       times 8 db 3, 5
115                       times 8 db 2, 6
116                       times 8 db 1, 7
117
118 %ifdef PIC
119 %define fourtap_filter_hw    r11
120 %define sixtap_filter_hw     r11
121 %define fourtap_filter_hb    r11
122 %define sixtap_filter_hb     r11
123 %define fourtap_filter_v     r11
124 %define sixtap_filter_v      r11
125 %define bilinear_filter_vw   r11
126 %define bilinear_filter_vb   r11
127 %else
128 %define fourtap_filter_hw fourtap_filter_hw_m
129 %define sixtap_filter_hw  sixtap_filter_hw_m
130 %define fourtap_filter_hb fourtap_filter_hb_m
131 %define sixtap_filter_hb  sixtap_filter_hb_m
132 %define fourtap_filter_v  fourtap_filter_v_m
133 %define sixtap_filter_v   sixtap_filter_v_m
134 %define bilinear_filter_vw bilinear_filter_vw_m
135 %define bilinear_filter_vb bilinear_filter_vb_m
136 %endif
137
138 filter_h2_shuf:  db 0, 1, 1, 2, 2, 3, 3, 4, 4, 5, 5,  6, 6,  7,  7,  8
139 filter_h4_shuf:  db 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7,  8, 8,  9,  9, 10
140
141 filter_h6_shuf1: db 0, 5, 1, 6, 2, 7, 3, 8, 4, 9, 5, 10, 6, 11,  7, 12
142 filter_h6_shuf2: db 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6,  7, 7,  8,  8,  9
143 filter_h6_shuf3: db 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8,  9, 9, 10, 10, 11
144
145 pw_20091: times 4 dw 20091
146 pw_17734: times 4 dw 17734
147
148 cextern pb_1
149 cextern pw_3
150 cextern pb_3
151 cextern pw_4
152 cextern pb_4
153 cextern pw_64
154 cextern pb_80
155 cextern pb_F8
156 cextern pb_FE
157
158 SECTION .text
159
160 ;-----------------------------------------------------------------------------
161 ; subpel MC functions:
162 ;
163 ; void put_vp8_epel<size>_h<htap>v<vtap>_<opt>(uint8_t *dst, int deststride,
164 ;                                              uint8_t *src, int srcstride,
165 ;                                              int height,   int mx, int my);
166 ;-----------------------------------------------------------------------------
167
168 %macro FILTER_SSSE3 3
169 cglobal put_vp8_epel%1_h6_ssse3, 6, 6, %2
170     lea      r5d, [r5*3]
171     mova      m3, [filter_h6_shuf2]
172     mova      m4, [filter_h6_shuf3]
173 %ifdef PIC
174     lea      r11, [sixtap_filter_hb_m]
175 %endif
176     mova      m5, [sixtap_filter_hb+r5*8-48] ; set up 6tap filter in bytes
177     mova      m6, [sixtap_filter_hb+r5*8-32]
178     mova      m7, [sixtap_filter_hb+r5*8-16]
179
180 .nextrow
181     movu      m0, [r2-2]
182     mova      m1, m0
183     mova      m2, m0
184 %ifidn %1, 4
185 ; For epel4, we need 9 bytes, but only 8 get loaded; to compensate, do the
186 ; shuffle with a memory operand
187     punpcklbw m0, [r2+3]
188 %else
189     pshufb    m0, [filter_h6_shuf1]
190 %endif
191     pshufb    m1, m3
192     pshufb    m2, m4
193     pmaddubsw m0, m5
194     pmaddubsw m1, m6
195     pmaddubsw m2, m7
196     paddsw    m0, m1
197     paddsw    m0, m2
198     paddsw    m0, [pw_64]
199     psraw     m0, 7
200     packuswb  m0, m0
201     movh    [r0], m0        ; store
202
203     ; go to next line
204     add       r0, r1
205     add       r2, r3
206     dec       r4            ; next row
207     jg .nextrow
208     REP_RET
209
210 cglobal put_vp8_epel%1_h4_ssse3, 6, 6, %3
211     shl      r5d, 4
212     mova      m2, [pw_64]
213     mova      m3, [filter_h2_shuf]
214     mova      m4, [filter_h4_shuf]
215 %ifdef PIC
216     lea      r11, [fourtap_filter_hb_m]
217 %endif
218     mova      m5, [fourtap_filter_hb+r5-16] ; set up 4tap filter in bytes
219     mova      m6, [fourtap_filter_hb+r5]
220
221 .nextrow
222     movu      m0, [r2-1]
223     mova      m1, m0
224     pshufb    m0, m3
225     pshufb    m1, m4
226     pmaddubsw m0, m5
227     pmaddubsw m1, m6
228     paddsw    m0, m2
229     paddsw    m0, m1
230     psraw     m0, 7
231     packuswb  m0, m0
232     movh    [r0], m0        ; store
233
234     ; go to next line
235     add       r0, r1
236     add       r2, r3
237     dec       r4            ; next row
238     jg .nextrow
239     REP_RET
240
241 cglobal put_vp8_epel%1_v4_ssse3, 7, 7, %2
242     shl      r6d, 4
243 %ifdef PIC
244     lea      r11, [fourtap_filter_hb_m]
245 %endif
246     mova      m5, [fourtap_filter_hb+r6-16]
247     mova      m6, [fourtap_filter_hb+r6]
248     mova      m7, [pw_64]
249
250     ; read 3 lines
251     sub       r2, r3
252     movh      m0, [r2]
253     movh      m1, [r2+  r3]
254     movh      m2, [r2+2*r3]
255     add       r2, r3
256
257 .nextrow
258     movh      m3, [r2+2*r3]                ; read new row
259     mova      m4, m0
260     mova      m0, m1
261     punpcklbw m4, m1
262     mova      m1, m2
263     punpcklbw m2, m3
264     pmaddubsw m4, m5
265     pmaddubsw m2, m6
266     paddsw    m4, m2
267     mova      m2, m3
268     paddsw    m4, m7
269     psraw     m4, 7
270     packuswb  m4, m4
271     movh    [r0], m4
272
273     ; go to next line
274     add        r0, r1
275     add        r2, r3
276     dec        r4                          ; next row
277     jg .nextrow
278     REP_RET
279
280 cglobal put_vp8_epel%1_v6_ssse3, 7, 7, %2
281     lea      r6d, [r6*3]
282 %ifdef PIC
283     lea      r11, [sixtap_filter_hb_m]
284 %endif
285     lea       r6, [sixtap_filter_hb+r6*8]
286
287     ; read 5 lines
288     sub       r2, r3
289     sub       r2, r3
290     movh      m0, [r2]
291     movh      m1, [r2+r3]
292     movh      m2, [r2+r3*2]
293     lea       r2, [r2+r3*2]
294     add       r2, r3
295     movh      m3, [r2]
296     movh      m4, [r2+r3]
297
298 .nextrow
299     movh      m5, [r2+2*r3]                ; read new row
300     mova      m6, m0
301     punpcklbw m6, m5
302     mova      m0, m1
303     punpcklbw m1, m2
304     mova      m7, m3
305     punpcklbw m7, m4
306     pmaddubsw m6, [r6-48]
307     pmaddubsw m1, [r6-32]
308     pmaddubsw m7, [r6-16]
309     paddsw    m6, m1
310     paddsw    m6, m7
311     mova      m1, m2
312     paddsw    m6, [pw_64]
313     mova      m2, m3
314     psraw     m6, 7
315     mova      m3, m4
316     packuswb  m6, m6
317     mova      m4, m5
318     movh    [r0], m6
319
320     ; go to next line
321     add        r0, r1
322     add        r2, r3
323     dec        r4                          ; next row
324     jg .nextrow
325     REP_RET
326 %endmacro
327
328 INIT_MMX
329 FILTER_SSSE3 4, 0, 0
330 INIT_XMM
331 FILTER_SSSE3 8, 8, 7
332
333 ; 4x4 block, H-only 4-tap filter
334 cglobal put_vp8_epel4_h4_mmxext, 6, 6
335     shl       r5d, 4
336 %ifdef PIC
337     lea       r11, [fourtap_filter_hw_m]
338 %endif
339     movq      mm4, [fourtap_filter_hw+r5-16] ; set up 4tap filter in words
340     movq      mm5, [fourtap_filter_hw+r5]
341     movq      mm7, [pw_64]
342     pxor      mm6, mm6
343
344 .nextrow
345     movq      mm1, [r2-1]                  ; (ABCDEFGH) load 8 horizontal pixels
346
347     ; first set of 2 pixels
348     movq      mm2, mm1                     ; byte ABCD..
349     punpcklbw mm1, mm6                     ; byte->word ABCD
350     pshufw    mm0, mm2, 9                  ; byte CDEF..
351     punpcklbw mm0, mm6                     ; byte->word CDEF
352     pshufw    mm3, mm1, 0x94               ; word ABBC
353     pshufw    mm1, mm0, 0x94               ; word CDDE
354     pmaddwd   mm3, mm4                     ; multiply 2px with F0/F1
355     movq      mm0, mm1                     ; backup for second set of pixels
356     pmaddwd   mm1, mm5                     ; multiply 2px with F2/F3
357     paddd     mm3, mm1                     ; finish 1st 2px
358
359     ; second set of 2 pixels, use backup of above
360     punpckhbw mm2, mm6                     ; byte->word EFGH
361     pmaddwd   mm0, mm4                     ; multiply backed up 2px with F0/F1
362     pshufw    mm1, mm2, 0x94               ; word EFFG
363     pmaddwd   mm1, mm5                     ; multiply 2px with F2/F3
364     paddd     mm0, mm1                     ; finish 2nd 2px
365
366     ; merge two sets of 2 pixels into one set of 4, round/clip/store
367     packssdw  mm3, mm0                     ; merge dword->word (4px)
368     paddsw    mm3, mm7                     ; rounding
369     psraw     mm3, 7
370     packuswb  mm3, mm6                     ; clip and word->bytes
371     movd     [r0], mm3                     ; store
372
373     ; go to next line
374     add        r0, r1
375     add        r2, r3
376     dec        r4                          ; next row
377     jg .nextrow
378     REP_RET
379
380 ; 4x4 block, H-only 6-tap filter
381 cglobal put_vp8_epel4_h6_mmxext, 6, 6
382     lea       r5d, [r5*3]
383 %ifdef PIC
384     lea       r11, [sixtap_filter_hw_m]
385 %endif
386     movq      mm4, [sixtap_filter_hw+r5*8-48] ; set up 4tap filter in words
387     movq      mm5, [sixtap_filter_hw+r5*8-32]
388     movq      mm6, [sixtap_filter_hw+r5*8-16]
389     movq      mm7, [pw_64]
390     pxor      mm3, mm3
391
392 .nextrow
393     movq      mm1, [r2-2]                  ; (ABCDEFGH) load 8 horizontal pixels
394
395     ; first set of 2 pixels
396     movq      mm2, mm1                     ; byte ABCD..
397     punpcklbw mm1, mm3                     ; byte->word ABCD
398     pshufw    mm0, mm2, 0x9                ; byte CDEF..
399     punpckhbw mm2, mm3                     ; byte->word EFGH
400     punpcklbw mm0, mm3                     ; byte->word CDEF
401     pshufw    mm1, mm1, 0x94               ; word ABBC
402     pshufw    mm2, mm2, 0x94               ; word EFFG
403     pmaddwd   mm1, mm4                     ; multiply 2px with F0/F1
404     pshufw    mm3, mm0, 0x94               ; word CDDE
405     movq      mm0, mm3                     ; backup for second set of pixels
406     pmaddwd   mm3, mm5                     ; multiply 2px with F2/F3
407     paddd     mm1, mm3                     ; add to 1st 2px cache
408     movq      mm3, mm2                     ; backup for second set of pixels
409     pmaddwd   mm2, mm6                     ; multiply 2px with F4/F5
410     paddd     mm1, mm2                     ; finish 1st 2px
411
412     ; second set of 2 pixels, use backup of above
413     movd      mm2, [r2+3]                  ; byte FGHI (prevent overreads)
414     pmaddwd   mm0, mm4                     ; multiply 1st backed up 2px with F0/F1
415     pmaddwd   mm3, mm5                     ; multiply 2nd backed up 2px with F2/F3
416     paddd     mm0, mm3                     ; add to 2nd 2px cache
417     pxor      mm3, mm3
418     punpcklbw mm2, mm3                     ; byte->word FGHI
419     pshufw    mm2, mm2, 0xE9               ; word GHHI
420     pmaddwd   mm2, mm6                     ; multiply 2px with F4/F5
421     paddd     mm0, mm2                     ; finish 2nd 2px
422
423     ; merge two sets of 2 pixels into one set of 4, round/clip/store
424     packssdw  mm1, mm0                     ; merge dword->word (4px)
425     paddsw    mm1, mm7                     ; rounding
426     psraw     mm1, 7
427     packuswb  mm1, mm3                     ; clip and word->bytes
428     movd     [r0], mm1                     ; store
429
430     ; go to next line
431     add        r0, r1
432     add        r2, r3
433     dec        r4                          ; next row
434     jg .nextrow
435     REP_RET
436
437 ; 4x4 block, H-only 4-tap filter
438 INIT_XMM
439 cglobal put_vp8_epel8_h4_sse2, 6, 6, 8
440     shl      r5d, 4
441 %ifdef PIC
442     lea      r11, [fourtap_filter_hw_m]
443 %endif
444     mova      m5, [fourtap_filter_hw+r5-16] ; set up 4tap filter in words
445     mova      m6, [fourtap_filter_hw+r5]
446     pxor      m7, m7
447
448 .nextrow
449     movh      m0, [r2-1]
450     punpcklbw m0, m7        ; ABCDEFGH
451     mova      m1, m0
452     mova      m2, m0
453     mova      m3, m0
454     psrldq    m1, 2         ; BCDEFGH
455     psrldq    m2, 4         ; CDEFGH
456     psrldq    m3, 6         ; DEFGH
457     punpcklwd m0, m1        ; ABBCCDDE
458     punpcklwd m2, m3        ; CDDEEFFG
459     pmaddwd   m0, m5
460     pmaddwd   m2, m6
461     paddd     m0, m2
462
463     movh      m1, [r2+3]
464     punpcklbw m1, m7        ; ABCDEFGH
465     mova      m2, m1
466     mova      m3, m1
467     mova      m4, m1
468     psrldq    m2, 2         ; BCDEFGH
469     psrldq    m3, 4         ; CDEFGH
470     psrldq    m4, 6         ; DEFGH
471     punpcklwd m1, m2        ; ABBCCDDE
472     punpcklwd m3, m4        ; CDDEEFFG
473     pmaddwd   m1, m5
474     pmaddwd   m3, m6
475     paddd     m1, m3
476
477     packssdw  m0, m1
478     paddsw    m0, [pw_64]
479     psraw     m0, 7
480     packuswb  m0, m7
481     movh    [r0], m0        ; store
482
483     ; go to next line
484     add       r0, r1
485     add       r2, r3
486     dec       r4            ; next row
487     jg .nextrow
488     REP_RET
489
490 cglobal put_vp8_epel8_h6_sse2, 6, 6, 8
491     lea      r5d, [r5*3]
492 %ifdef PIC
493     lea      r11, [sixtap_filter_hw_m]
494 %endif
495     lea       r5, [sixtap_filter_hw+r5*8]
496     pxor      m7, m7
497
498 .nextrow
499     movu      m0, [r2-2]
500     mova      m6, m0
501     mova      m4, m0
502     punpcklbw m0, m7        ; ABCDEFGHI
503     mova      m1, m0
504     mova      m2, m0
505     mova      m3, m0
506     psrldq    m1, 2         ; BCDEFGH
507     psrldq    m2, 4         ; CDEFGH
508     psrldq    m3, 6         ; DEFGH
509     psrldq    m4, 4
510     punpcklbw m4, m7        ; EFGH
511     mova      m5, m4
512     psrldq    m5, 2         ; FGH
513     punpcklwd m0, m1        ; ABBCCDDE
514     punpcklwd m2, m3        ; CDDEEFFG
515     punpcklwd m4, m5        ; EFFGGHHI
516     pmaddwd   m0, [r5-48]
517     pmaddwd   m2, [r5-32]
518     pmaddwd   m4, [r5-16]
519     paddd     m0, m2
520     paddd     m0, m4
521
522     psrldq    m6, 4
523     mova      m4, m6
524     punpcklbw m6, m7        ; ABCDEFGHI
525     mova      m1, m6
526     mova      m2, m6
527     mova      m3, m6
528     psrldq    m1, 2         ; BCDEFGH
529     psrldq    m2, 4         ; CDEFGH
530     psrldq    m3, 6         ; DEFGH
531     psrldq    m4, 4
532     punpcklbw m4, m7        ; EFGH
533     mova      m5, m4
534     psrldq    m5, 2         ; FGH
535     punpcklwd m6, m1        ; ABBCCDDE
536     punpcklwd m2, m3        ; CDDEEFFG
537     punpcklwd m4, m5        ; EFFGGHHI
538     pmaddwd   m6, [r5-48]
539     pmaddwd   m2, [r5-32]
540     pmaddwd   m4, [r5-16]
541     paddd     m6, m2
542     paddd     m6, m4
543
544     packssdw  m0, m6
545     paddsw    m0, [pw_64]
546     psraw     m0, 7
547     packuswb  m0, m7
548     movh    [r0], m0        ; store
549
550     ; go to next line
551     add       r0, r1
552     add       r2, r3
553     dec       r4            ; next row
554     jg .nextrow
555     REP_RET
556
557 %macro FILTER_V 3
558 ; 4x4 block, V-only 4-tap filter
559 cglobal put_vp8_epel%2_v4_%1, 7, 7, %3
560     shl      r6d, 5
561 %ifdef PIC
562     lea      r11, [fourtap_filter_v_m]
563 %endif
564     lea       r6, [fourtap_filter_v+r6-32]
565     mova      m6, [pw_64]
566     pxor      m7, m7
567     mova      m5, [r6+48]
568
569     ; read 3 lines
570     sub       r2, r3
571     movh      m0, [r2]
572     movh      m1, [r2+  r3]
573     movh      m2, [r2+2*r3]
574     add       r2, r3
575     punpcklbw m0, m7
576     punpcklbw m1, m7
577     punpcklbw m2, m7
578
579 .nextrow
580     ; first calculate negative taps (to prevent losing positive overflows)
581     movh      m4, [r2+2*r3]                ; read new row
582     punpcklbw m4, m7
583     mova      m3, m4
584     pmullw    m0, [r6+0]
585     pmullw    m4, m5
586     paddsw    m4, m0
587
588     ; then calculate positive taps
589     mova      m0, m1
590     pmullw    m1, [r6+16]
591     paddsw    m4, m1
592     mova      m1, m2
593     pmullw    m2, [r6+32]
594     paddsw    m4, m2
595     mova      m2, m3
596
597     ; round/clip/store
598     paddsw    m4, m6
599     psraw     m4, 7
600     packuswb  m4, m7
601     movh    [r0], m4
602
603     ; go to next line
604     add       r0, r1
605     add       r2, r3
606     dec       r4                           ; next row
607     jg .nextrow
608     REP_RET
609
610
611 ; 4x4 block, V-only 6-tap filter
612 cglobal put_vp8_epel%2_v6_%1, 7, 7, %3
613     shl      r6d, 4
614     lea       r6, [r6*3]
615 %ifdef PIC
616     lea      r11, [sixtap_filter_v_m]
617 %endif
618     lea       r6, [sixtap_filter_v+r6-96]
619     pxor      m7, m7
620
621     ; read 5 lines
622     sub       r2, r3
623     sub       r2, r3
624     movh      m0, [r2]
625     movh      m1, [r2+r3]
626     movh      m2, [r2+r3*2]
627     lea       r2, [r2+r3*2]
628     add       r2, r3
629     movh      m3, [r2]
630     movh      m4, [r2+r3]
631     punpcklbw m0, m7
632     punpcklbw m1, m7
633     punpcklbw m2, m7
634     punpcklbw m3, m7
635     punpcklbw m4, m7
636
637 .nextrow
638     ; first calculate negative taps (to prevent losing positive overflows)
639     mova      m5, m1
640     pmullw    m5, [r6+16]
641     mova      m6, m4
642     pmullw    m6, [r6+64]
643     paddsw    m6, m5
644
645     ; then calculate positive taps
646     movh      m5, [r2+2*r3]                ; read new row
647     punpcklbw m5, m7
648     pmullw    m0, [r6+0]
649     paddsw    m6, m0
650     mova      m0, m1
651     mova      m1, m2
652     pmullw    m2, [r6+32]
653     paddsw    m6, m2
654     mova      m2, m3
655     pmullw    m3, [r6+48]
656     paddsw    m6, m3
657     mova      m3, m4
658     mova      m4, m5
659     pmullw    m5, [r6+80]
660     paddsw    m6, m5
661
662     ; round/clip/store
663     paddsw    m6, [pw_64]
664     psraw     m6, 7
665     packuswb  m6, m7
666     movh    [r0], m6
667
668     ; go to next line
669     add       r0, r1
670     add       r2, r3
671     dec       r4                           ; next row
672     jg .nextrow
673     REP_RET
674 %endmacro
675
676 INIT_MMX
677 FILTER_V mmxext, 4, 0
678 INIT_XMM
679 FILTER_V sse2,   8, 8
680
681 %macro FILTER_BILINEAR 3
682 cglobal put_vp8_bilinear%2_v_%1, 7,7,%3
683     mov      r5d, 8*16
684     shl      r6d, 4
685     sub      r5d, r6d
686 %ifdef PIC
687     lea      r11, [bilinear_filter_vw_m]
688 %endif
689     pxor      m6, m6
690     mova      m4, [bilinear_filter_vw+r5-16]
691     mova      m5, [bilinear_filter_vw+r6-16]
692 .nextrow
693     movh      m0, [r2+r3*0]
694     movh      m1, [r2+r3*1]
695     movh      m3, [r2+r3*2]
696     punpcklbw m0, m6
697     punpcklbw m1, m6
698     punpcklbw m3, m6
699     mova      m2, m1
700     pmullw    m0, m4
701     pmullw    m1, m5
702     pmullw    m2, m4
703     pmullw    m3, m5
704     paddsw    m0, m1
705     paddsw    m2, m3
706     psraw     m0, 2
707     psraw     m2, 2
708     pavgw     m0, m6
709     pavgw     m2, m6
710 %ifidn %1, mmxext
711     packuswb  m0, m0
712     packuswb  m2, m2
713     movh [r0+r1*0], m0
714     movh [r0+r1*1], m2
715 %else
716     packuswb  m0, m2
717     movh   [r0+r1*0], m0
718     movhps [r0+r1*1], m0
719 %endif
720
721     lea       r0, [r0+r1*2]
722     lea       r2, [r2+r3*2]
723     sub       r4, 2
724     jg .nextrow
725     REP_RET
726
727 cglobal put_vp8_bilinear%2_h_%1, 7,7,%3
728     mov      r6d, 8*16
729     shl      r5d, 4
730     sub      r6d, r5d
731 %ifdef PIC
732     lea      r11, [bilinear_filter_vw_m]
733 %endif
734     pxor      m6, m6
735     mova      m4, [bilinear_filter_vw+r6-16]
736     mova      m5, [bilinear_filter_vw+r5-16]
737 .nextrow
738     movh      m0, [r2+r3*0+0]
739     movh      m1, [r2+r3*0+1]
740     movh      m2, [r2+r3*1+0]
741     movh      m3, [r2+r3*1+1]
742     punpcklbw m0, m6
743     punpcklbw m1, m6
744     punpcklbw m2, m6
745     punpcklbw m3, m6
746     pmullw    m0, m4
747     pmullw    m1, m5
748     pmullw    m2, m4
749     pmullw    m3, m5
750     paddsw    m0, m1
751     paddsw    m2, m3
752     psraw     m0, 2
753     psraw     m2, 2
754     pavgw     m0, m6
755     pavgw     m2, m6
756 %ifidn %1, mmxext
757     packuswb  m0, m0
758     packuswb  m2, m2
759     movh [r0+r1*0], m0
760     movh [r0+r1*1], m2
761 %else
762     packuswb  m0, m2
763     movh   [r0+r1*0], m0
764     movhps [r0+r1*1], m0
765 %endif
766
767     lea       r0, [r0+r1*2]
768     lea       r2, [r2+r3*2]
769     sub       r4, 2
770     jg .nextrow
771     REP_RET
772 %endmacro
773
774 INIT_MMX
775 FILTER_BILINEAR mmxext, 4, 0
776 INIT_XMM
777 FILTER_BILINEAR   sse2, 8, 7
778
779 %macro FILTER_BILINEAR_SSSE3 1
780 cglobal put_vp8_bilinear%1_v_ssse3, 7,7
781     shl      r6d, 4
782 %ifdef PIC
783     lea      r11, [bilinear_filter_vb_m]
784 %endif
785     pxor      m4, m4
786     mova      m3, [bilinear_filter_vb+r6-16]
787 .nextrow
788     movh      m0, [r2+r3*0]
789     movh      m1, [r2+r3*1]
790     movh      m2, [r2+r3*2]
791     punpcklbw m0, m1
792     punpcklbw m1, m2
793     pmaddubsw m0, m3
794     pmaddubsw m1, m3
795     psraw     m0, 2
796     psraw     m1, 2
797     pavgw     m0, m4
798     pavgw     m1, m4
799 %if mmsize==8
800     packuswb  m0, m0
801     packuswb  m1, m1
802     movh [r0+r1*0], m0
803     movh [r0+r1*1], m1
804 %else
805     packuswb  m0, m1
806     movh   [r0+r1*0], m0
807     movhps [r0+r1*1], m0
808 %endif
809
810     lea       r0, [r0+r1*2]
811     lea       r2, [r2+r3*2]
812     sub       r4, 2
813     jg .nextrow
814     REP_RET
815
816 cglobal put_vp8_bilinear%1_h_ssse3, 7,7
817     shl      r5d, 4
818 %ifdef PIC
819     lea      r11, [bilinear_filter_vb_m]
820 %endif
821     pxor      m4, m4
822     mova      m2, [filter_h2_shuf]
823     mova      m3, [bilinear_filter_vb+r5-16]
824 .nextrow
825     movu      m0, [r2+r3*0]
826     movu      m1, [r2+r3*1]
827     pshufb    m0, m2
828     pshufb    m1, m2
829     pmaddubsw m0, m3
830     pmaddubsw m1, m3
831     psraw     m0, 2
832     psraw     m1, 2
833     pavgw     m0, m4
834     pavgw     m1, m4
835 %if mmsize==8
836     packuswb  m0, m0
837     packuswb  m1, m1
838     movh [r0+r1*0], m0
839     movh [r0+r1*1], m1
840 %else
841     packuswb  m0, m1
842     movh   [r0+r1*0], m0
843     movhps [r0+r1*1], m0
844 %endif
845
846     lea       r0, [r0+r1*2]
847     lea       r2, [r2+r3*2]
848     sub       r4, 2
849     jg .nextrow
850     REP_RET
851 %endmacro
852
853 INIT_MMX
854 FILTER_BILINEAR_SSSE3 4
855 INIT_XMM
856 FILTER_BILINEAR_SSSE3 8
857
858 cglobal put_vp8_pixels8_mmx, 5,5
859 .nextrow:
860     movq  mm0, [r2+r3*0]
861     movq  mm1, [r2+r3*1]
862     lea    r2, [r2+r3*2]
863     movq [r0+r1*0], mm0
864     movq [r0+r1*1], mm1
865     lea    r0, [r0+r1*2]
866     sub   r4d, 2
867     jg .nextrow
868     REP_RET
869
870 cglobal put_vp8_pixels16_mmx, 5,5
871 .nextrow:
872     movq  mm0, [r2+r3*0+0]
873     movq  mm1, [r2+r3*0+8]
874     movq  mm2, [r2+r3*1+0]
875     movq  mm3, [r2+r3*1+8]
876     lea    r2, [r2+r3*2]
877     movq [r0+r1*0+0], mm0
878     movq [r0+r1*0+8], mm1
879     movq [r0+r1*1+0], mm2
880     movq [r0+r1*1+8], mm3
881     lea    r0, [r0+r1*2]
882     sub   r4d, 2
883     jg .nextrow
884     REP_RET
885
886 cglobal put_vp8_pixels16_sse, 5,5,2
887 .nextrow:
888     movups xmm0, [r2+r3*0]
889     movups xmm1, [r2+r3*1]
890     lea     r2, [r2+r3*2]
891     movaps [r0+r1*0], xmm0
892     movaps [r0+r1*1], xmm1
893     lea     r0, [r0+r1*2]
894     sub    r4d, 2
895     jg .nextrow
896     REP_RET
897
898 ;-----------------------------------------------------------------------------
899 ; IDCT functions:
900 ;
901 ; void vp8_idct_dc_add_<opt>(uint8_t *dst, DCTELEM block[16], int stride);
902 ;-----------------------------------------------------------------------------
903
904 cglobal vp8_idct_dc_add_mmx, 3, 3
905     ; load data
906     movd       mm0, [r1]
907
908     ; calculate DC
909     paddw      mm0, [pw_4]
910     pxor       mm1, mm1
911     psraw      mm0, 3
912     psubw      mm1, mm0
913     packuswb   mm0, mm0
914     packuswb   mm1, mm1
915     punpcklbw  mm0, mm0
916     punpcklbw  mm1, mm1
917     punpcklwd  mm0, mm0
918     punpcklwd  mm1, mm1
919
920     ; add DC
921     lea         r1, [r0+r2*2]
922     movd       mm2, [r0]
923     movd       mm3, [r0+r2]
924     movd       mm4, [r1]
925     movd       mm5, [r1+r2]
926     paddusb    mm2, mm0
927     paddusb    mm3, mm0
928     paddusb    mm4, mm0
929     paddusb    mm5, mm0
930     psubusb    mm2, mm1
931     psubusb    mm3, mm1
932     psubusb    mm4, mm1
933     psubusb    mm5, mm1
934     movd      [r0], mm2
935     movd   [r0+r2], mm3
936     movd      [r1], mm4
937     movd   [r1+r2], mm5
938     RET
939
940 cglobal vp8_idct_dc_add_sse4, 3, 3, 6
941     ; load data
942     movd       xmm0, [r1]
943     lea          r1, [r0+r2*2]
944     pxor       xmm1, xmm1
945     movq       xmm2, [pw_4]
946
947     ; calculate DC
948     paddw      xmm0, xmm2
949     movd       xmm2, [r0]
950     movd       xmm3, [r0+r2]
951     movd       xmm4, [r1]
952     movd       xmm5, [r1+r2]
953     psraw      xmm0, 3
954     pshuflw    xmm0, xmm0, 0
955     punpcklqdq xmm0, xmm0
956     punpckldq  xmm2, xmm3
957     punpckldq  xmm4, xmm5
958     punpcklbw  xmm2, xmm1
959     punpcklbw  xmm4, xmm1
960     paddw      xmm2, xmm0
961     paddw      xmm4, xmm0
962     packuswb   xmm2, xmm4
963     movd       [r0], xmm2
964     pextrd  [r0+r2], xmm2, 1
965     pextrd     [r1], xmm2, 2
966     pextrd  [r1+r2], xmm2, 3
967     RET
968
969 ;-----------------------------------------------------------------------------
970 ; void vp8_idct_add_<opt>(uint8_t *dst, DCTELEM block[16], int stride);
971 ;-----------------------------------------------------------------------------
972
973 ; calculate %1=mul_35468(%1)-mul_20091(%2); %2=mul_20091(%1)+mul_35468(%2)
974 ;           this macro assumes that m6/m7 have words for 20091/17734 loaded
975 %macro VP8_MULTIPLY_SUMSUB 4
976     mova      %3, %1
977     mova      %4, %2
978     pmulhw    %3, m6 ;20091(1)
979     pmulhw    %4, m6 ;20091(2)
980     paddw     %3, %1
981     paddw     %4, %2
982     paddw     %1, %1
983     paddw     %2, %2
984     pmulhw    %1, m7 ;35468(1)
985     pmulhw    %2, m7 ;35468(2)
986     psubw     %1, %4
987     paddw     %2, %3
988 %endmacro
989
990 ; calculate x0=%1+%3; x1=%1-%3
991 ;           x2=mul_35468(%2)-mul_20091(%4); x3=mul_20091(%2)+mul_35468(%4)
992 ;           %1=x0+x3 (tmp0); %2=x1+x2 (tmp1); %3=x1-x2 (tmp2); %4=x0-x3 (tmp3)
993 ;           %5/%6 are temporary registers
994 ;           we assume m6/m7 have constant words 20091/17734 loaded in them
995 %macro VP8_IDCT_TRANSFORM4x4_1D 6
996     SUMSUB_BA           m%3, m%1, m%5     ;t0, t1
997     VP8_MULTIPLY_SUMSUB m%2, m%4, m%5,m%6 ;t2, t3
998     SUMSUB_BA           m%4, m%3, m%5     ;tmp0, tmp3
999     SUMSUB_BA           m%2, m%1, m%5     ;tmp1, tmp2
1000     SWAP                 %4,  %1
1001     SWAP                 %4,  %3
1002 %endmacro
1003
1004 INIT_MMX
1005 cglobal vp8_idct_add_mmx, 3, 3
1006     ; load block data
1007     movq         m0, [r1]
1008     movq         m1, [r1+8]
1009     movq         m2, [r1+16]
1010     movq         m3, [r1+24]
1011     movq         m6, [pw_20091]
1012     movq         m7, [pw_17734]
1013
1014     ; actual IDCT
1015     VP8_IDCT_TRANSFORM4x4_1D 0, 1, 2, 3, 4, 5
1016     TRANSPOSE4x4W            0, 1, 2, 3, 4
1017     paddw        m0, [pw_4]
1018     VP8_IDCT_TRANSFORM4x4_1D 0, 1, 2, 3, 4, 5
1019     TRANSPOSE4x4W            0, 1, 2, 3, 4
1020
1021     ; store
1022     pxor         m4, m4
1023     lea          r1, [r0+2*r2]
1024     STORE_DIFFx2 m0, m1, m6, m7, m4, 3, r0, r2
1025     STORE_DIFFx2 m2, m3, m6, m7, m4, 3, r1, r2
1026
1027     RET
1028
1029 ;-----------------------------------------------------------------------------
1030 ; void vp8_luma_dc_wht_mmxext(DCTELEM block[4][4][16], DCTELEM dc[16])
1031 ;-----------------------------------------------------------------------------
1032
1033 %macro SCATTER_WHT 1
1034     pextrw r1d, m0, %1
1035     pextrw r2d, m1, %1
1036     mov [r0+2*16*0], r1w
1037     mov [r0+2*16*1], r2w
1038     pextrw r1d, m2, %1
1039     pextrw r2d, m3, %1
1040     mov [r0+2*16*2], r1w
1041     mov [r0+2*16*3], r2w
1042 %endmacro
1043
1044 %macro HADAMARD4_1D 4
1045     SUMSUB_BADC m%2, m%1, m%4, m%3
1046     SUMSUB_BADC m%4, m%2, m%3, m%1
1047     SWAP %1, %4, %3
1048 %endmacro
1049
1050 INIT_MMX
1051 cglobal vp8_luma_dc_wht_mmxext, 2,3
1052     movq          m0, [r1]
1053     movq          m1, [r1+8]
1054     movq          m2, [r1+16]
1055     movq          m3, [r1+24]
1056     HADAMARD4_1D  0, 1, 2, 3
1057     TRANSPOSE4x4W 0, 1, 2, 3, 4
1058     paddw         m0, [pw_3]
1059     HADAMARD4_1D  0, 1, 2, 3
1060     psraw         m0, 3
1061     psraw         m1, 3
1062     psraw         m2, 3
1063     psraw         m3, 3
1064     SCATTER_WHT   0
1065     add           r0, 2*16*4
1066     SCATTER_WHT   1
1067     add           r0, 2*16*4
1068     SCATTER_WHT   2
1069     add           r0, 2*16*4
1070     SCATTER_WHT   3
1071     RET
1072
1073 ;-----------------------------------------------------------------------------
1074 ; void vp8_h/v_loop_filter_simple_<opt>(uint8_t *dst, int stride, int flim);
1075 ;-----------------------------------------------------------------------------
1076
1077 ; macro called with 7 mm register indexes as argument, and 4 regular registers
1078 ;
1079 ; first 4 mm registers will carry the transposed pixel data
1080 ; the other three are scratchspace (one would be sufficient, but this allows
1081 ; for more spreading/pipelining and thus faster execution on OOE CPUs)
1082 ;
1083 ; first two regular registers are buf+4*stride and buf+5*stride
1084 ; third is -stride, fourth is +stride
1085 %macro READ_8x4_INTERLEAVED 11
1086     ; interleave 8 (A-H) rows of 4 pixels each
1087     movd          m%1, [%8+%10*4]   ; A0-3
1088     movd          m%5, [%9+%10*4]   ; B0-3
1089     movd          m%2, [%8+%10*2]   ; C0-3
1090     movd          m%6, [%8+%10]     ; D0-3
1091     movd          m%3, [%8]         ; E0-3
1092     movd          m%7, [%9]         ; F0-3
1093     movd          m%4, [%9+%11]     ; G0-3
1094     punpcklbw     m%1, m%5          ; A/B interleaved
1095     movd          m%5, [%9+%11*2]   ; H0-3
1096     punpcklbw     m%2, m%6          ; C/D interleaved
1097     punpcklbw     m%3, m%7          ; E/F interleaved
1098     punpcklbw     m%4, m%5          ; G/H interleaved
1099 %endmacro
1100
1101 ; macro called with 7 mm register indexes as argument, and 5 regular registers
1102 ; first 11 mean the same as READ_8x4_TRANSPOSED above
1103 ; fifth regular register is scratchspace to reach the bottom 8 rows, it
1104 ; will be set to second regular register + 8*stride at the end
1105 %macro READ_16x4_INTERLEAVED 12
1106     ; transpose 16 (A-P) rows of 4 pixels each
1107     lea           %12, [r0+8*r2]
1108
1109     ; read (and interleave) those addressable by %8 (=r0), A/C/D/E/I/K/L/M
1110     movd          m%1, [%8+%10*4]   ; A0-3
1111     movd          m%3, [%12+%10*4]  ; I0-3
1112     movd          m%2, [%8+%10*2]   ; C0-3
1113     movd          m%4, [%12+%10*2]  ; K0-3
1114     movd          m%6, [%8+%10]     ; D0-3
1115     movd          m%5, [%12+%10]    ; L0-3
1116     movd          m%7, [%12]        ; M0-3
1117     add           %12, %11
1118     punpcklbw     m%1, m%3          ; A/I
1119     movd          m%3, [%8]         ; E0-3
1120     punpcklbw     m%2, m%4          ; C/K
1121     punpcklbw     m%6, m%5          ; D/L
1122     punpcklbw     m%3, m%7          ; E/M
1123     punpcklbw     m%2, m%6          ; C/D/K/L interleaved
1124
1125     ; read (and interleave) those addressable by %9 (=r4), B/F/G/H/J/N/O/P
1126     movd         m%5, [%9+%10*4]   ; B0-3
1127     movd         m%4, [%12+%10*4]  ; J0-3
1128     movd         m%7, [%9]         ; F0-3
1129     movd         m%6, [%12]        ; N0-3
1130     punpcklbw    m%5, m%4          ; B/J
1131     punpcklbw    m%7, m%6          ; F/N
1132     punpcklbw    m%1, m%5          ; A/B/I/J interleaved
1133     punpcklbw    m%3, m%7          ; E/F/M/N interleaved
1134     movd         m%4, [%9+%11]     ; G0-3
1135     movd         m%6, [%12+%11]    ; O0-3
1136     movd         m%5, [%9+%11*2]   ; H0-3
1137     movd         m%7, [%12+%11*2]  ; P0-3
1138     punpcklbw    m%4, m%6          ; G/O
1139     punpcklbw    m%5, m%7          ; H/P
1140     punpcklbw    m%4, m%5          ; G/H/O/P interleaved
1141 %endmacro
1142
1143 ; write 4 mm registers of 2 dwords each
1144 ; first four arguments are mm register indexes containing source data
1145 ; last four are registers containing buf+4*stride, buf+5*stride,
1146 ; -stride and +stride
1147 %macro WRITE_4x2D 8
1148     ; write out (2 dwords per register)
1149     movd    [%5+%7*4], m%1
1150     movd    [%5+%7*2], m%2
1151     movd         [%5], m%3
1152     movd      [%6+%8], m%4
1153     punpckhdq     m%1, m%1
1154     punpckhdq     m%2, m%2
1155     punpckhdq     m%3, m%3
1156     punpckhdq     m%4, m%4
1157     movd    [%6+%7*4], m%1
1158     movd      [%5+%7], m%2
1159     movd         [%6], m%3
1160     movd    [%6+%8*2], m%4
1161 %endmacro
1162
1163 ; write 4 xmm registers of 4 dwords each
1164 ; arguments same as WRITE_2x4D, but with an extra register, so that the 5 regular
1165 ; registers contain buf+4*stride, buf+5*stride, buf+12*stride, -stride and +stride
1166 ; we add 1*stride to the third regular registry in the process
1167 ; the 10th argument is 16 if it's a Y filter (i.e. all regular registers cover the
1168 ; same memory region), or 8 if they cover two separate buffers (third one points to
1169 ; a different memory region than the first two), allowing for more optimal code for
1170 ; the 16-width case
1171 %macro WRITE_4x4D 10
1172     ; write out (4 dwords per register), start with dwords zero
1173     movd    [%5+%8*4], m%1
1174     movd         [%5], m%2
1175     movd    [%7+%8*4], m%3
1176     movd         [%7], m%4
1177
1178     ; store dwords 1
1179     psrldq        m%1, 4
1180     psrldq        m%2, 4
1181     psrldq        m%3, 4
1182     psrldq        m%4, 4
1183     movd    [%6+%8*4], m%1
1184     movd         [%6], m%2
1185 %if %10 == 16
1186     movd    [%6+%9*4], m%3
1187 %endif
1188     movd      [%7+%9], m%4
1189
1190     ; write dwords 2
1191     psrldq        m%1, 4
1192     psrldq        m%2, 4
1193 %if %10 == 8
1194     movd    [%5+%8*2], m%1
1195     movd           %5, m%3
1196 %endif
1197     psrldq        m%3, 4
1198     psrldq        m%4, 4
1199 %if %10 == 16
1200     movd    [%5+%8*2], m%1
1201 %endif
1202     movd      [%6+%9], m%2
1203     movd    [%7+%8*2], m%3
1204     movd    [%7+%9*2], m%4
1205     add            %7, %9
1206
1207     ; store dwords 3
1208     psrldq        m%1, 4
1209     psrldq        m%2, 4
1210     psrldq        m%3, 4
1211     psrldq        m%4, 4
1212 %if %10 == 8
1213     mov     [%7+%8*4], %5
1214     movd    [%6+%8*2], m%1
1215 %else
1216     movd      [%5+%8], m%1
1217 %endif
1218     movd    [%6+%9*2], m%2
1219     movd    [%7+%8*2], m%3
1220     movd    [%7+%9*2], m%4
1221 %endmacro
1222
1223 %macro SPLATB_REG 3
1224     movd           %1, %2
1225     punpcklbw      %1, %1
1226 %if mmsize == 16 ; sse2
1227     punpcklwd      %1, %1
1228     pshufd         %1, %1, 0x0
1229 %elifidn %3, mmx
1230     punpcklwd      %1, %1
1231     punpckldq      %1, %1
1232 %else ; mmxext
1233     pshufw         %1, %1, 0x0
1234 %endif
1235 %endmacro
1236
1237 %macro SIMPLE_LOOPFILTER 3
1238 cglobal vp8_%2_loop_filter_simple_%1, 3, %3
1239 %ifidn %2, h
1240     mov            r5, rsp          ; backup stack pointer
1241     and           rsp, ~(mmsize-1)  ; align stack
1242 %endif
1243 %if mmsize == 8 ; mmx/mmxext
1244     mov            r3, 2
1245 %endif
1246     SPLATB_REG     m7, r2, %1       ; splat "flim" into register
1247
1248     ; set up indexes to address 4 rows
1249     mov            r2, r1
1250     neg            r1
1251 %ifidn %2, h
1252     lea            r0, [r0+4*r2-2]
1253     sub           rsp, mmsize*2     ; (aligned) storage space for saving p1/q1
1254 %endif
1255
1256 %if mmsize == 8 ; mmx / mmxext
1257 .next8px
1258 %endif
1259 %ifidn %2, v
1260     ; read 4 half/full rows of pixels
1261     mova           m0, [r0+r1*2]    ; p1
1262     mova           m1, [r0+r1]      ; p0
1263     mova           m2, [r0]         ; q0
1264     mova           m3, [r0+r2]      ; q1
1265 %else ; h
1266     lea            r4, [r0+r2]
1267
1268 %if mmsize == 8 ; mmx/mmxext
1269     READ_8x4_INTERLEAVED  0, 1, 2, 3, 4, 5, 6, r0, r4, r1, r2
1270 %else ; sse2
1271     READ_16x4_INTERLEAVED 0, 1, 2, 3, 4, 5, 6, r0, r4, r1, r2, r3
1272 %endif
1273     TRANSPOSE4x4W         0, 1, 2, 3, 4
1274
1275     mova        [rsp], m0           ; store p1
1276     mova [rsp+mmsize], m3           ; store q1
1277 %endif
1278
1279     ; simple_limit
1280     mova           m5, m2           ; m5=backup of q0
1281     mova           m6, m1           ; m6=backup of p0
1282     psubusb        m1, m2           ; p0-q0
1283     psubusb        m2, m6           ; q0-p0
1284     por            m1, m2           ; FFABS(p0-q0)
1285     paddusb        m1, m1           ; m1=FFABS(p0-q0)*2
1286
1287     mova           m4, m3
1288     mova           m2, m0
1289     psubusb        m3, m0           ; q1-p1
1290     psubusb        m0, m4           ; p1-q1
1291     por            m3, m0           ; FFABS(p1-q1)
1292     mova           m0, [pb_80]
1293     pxor           m2, m0
1294     pxor           m4, m0
1295     psubsb         m2, m4           ; m2=p1-q1 (signed) backup for below
1296     pand           m3, [pb_FE]
1297     psrlq          m3, 1            ; m3=FFABS(p1-q1)/2, this can be used signed
1298     paddusb        m3, m1
1299     psubusb        m3, m7
1300     pxor           m1, m1
1301     pcmpeqb        m3, m1           ; abs(p0-q0)*2+abs(p1-q1)/2<=flim mask(0xff/0x0)
1302
1303     ; filter_common (use m2/p1-q1, m4=q0, m6=p0, m5/q0-p0 and m3/mask)
1304     mova           m4, m5
1305     pxor           m5, m0
1306     pxor           m0, m6
1307     psubsb         m5, m0           ; q0-p0 (signed)
1308     paddsb         m2, m5
1309     paddsb         m2, m5
1310     paddsb         m2, m5           ; a=(p1-q1) + 3*(q0-p0)
1311     pand           m2, m3           ; apply filter mask (m3)
1312
1313     mova           m3, [pb_F8]
1314     mova           m1, m2
1315     paddsb         m2, [pb_4]       ; f1<<3=a+4
1316     paddsb         m1, [pb_3]       ; f2<<3=a+3
1317     pand           m2, m3
1318     pand           m1, m3           ; cache f2<<3
1319
1320     pxor           m0, m0
1321     pxor           m3, m3
1322     pcmpgtb        m0, m2           ; which values are <0?
1323     psubb          m3, m2           ; -f1<<3
1324     psrlq          m2, 3            ; +f1
1325     psrlq          m3, 3            ; -f1
1326     pand           m3, m0
1327     pandn          m0, m2
1328     psubusb        m4, m0
1329     paddusb        m4, m3           ; q0-f1
1330
1331     pxor           m0, m0
1332     pxor           m3, m3
1333     pcmpgtb        m0, m1           ; which values are <0?
1334     psubb          m3, m1           ; -f2<<3
1335     psrlq          m1, 3            ; +f2
1336     psrlq          m3, 3            ; -f2
1337     pand           m3, m0
1338     pandn          m0, m1
1339     paddusb        m6, m0
1340     psubusb        m6, m3           ; p0+f2
1341
1342     ; store
1343 %ifidn %2, v
1344     mova         [r0], m4
1345     mova      [r0+r1], m6
1346 %else ; h
1347     mova           m0, [rsp]        ; p1
1348     SWAP            2, 4            ; p0
1349     SWAP            1, 6            ; q0
1350     mova           m3, [rsp+mmsize] ; q1
1351
1352     TRANSPOSE4x4B  0, 1, 2, 3, 4
1353 %if mmsize == 16 ; sse2
1354     add            r3, r1           ; change from r4*8*stride to r0+8*stride
1355     WRITE_4x4D 0, 1, 2, 3, r0, r4, r3, r1, r2, 16
1356 %else ; mmx/mmxext
1357     WRITE_4x2D 0, 1, 2, 3, r0, r4, r1, r2
1358 %endif
1359 %endif
1360
1361 %if mmsize == 8 ; mmx/mmxext
1362     ; next 8 pixels
1363 %ifidn %2, v
1364     add            r0, 8            ; advance 8 cols = pixels
1365 %else ; h
1366     lea            r0, [r0+r2*8]    ; advance 8 rows = lines
1367 %endif
1368     dec            r3
1369     jg .next8px
1370 %ifidn %2, v
1371     REP_RET
1372 %else ; h
1373     mov           rsp, r5           ; restore stack pointer
1374     RET
1375 %endif
1376 %else ; sse2
1377 %ifidn %2, h
1378     mov           rsp, r5           ; restore stack pointer
1379 %endif
1380     RET
1381 %endif
1382 %endmacro
1383
1384 INIT_MMX
1385 SIMPLE_LOOPFILTER mmx,    v, 4
1386 SIMPLE_LOOPFILTER mmx,    h, 6
1387 SIMPLE_LOOPFILTER mmxext, v, 4
1388 SIMPLE_LOOPFILTER mmxext, h, 6
1389 INIT_XMM
1390 SIMPLE_LOOPFILTER sse2,   v, 3
1391 SIMPLE_LOOPFILTER sse2,   h, 6
1392
1393 ;-----------------------------------------------------------------------------
1394 ; void vp8_h/v_loop_filter<size>_inner_<opt>(uint8_t *dst, [uint8_t *v,] int stride,
1395 ;                                            int flimE, int flimI, int hev_thr);
1396 ;-----------------------------------------------------------------------------
1397
1398 %macro INNER_LOOPFILTER 5
1399 %if %4 == 8 ; chroma
1400 cglobal vp8_%2_loop_filter8uv_inner_%1, 6, %3, %5
1401 %define dst8_reg    r1
1402 %define mstride_reg r2
1403 %define E_reg       r3
1404 %define I_reg       r4
1405 %define hev_thr_reg r5
1406 %else ; luma
1407 cglobal vp8_%2_loop_filter16y_inner_%1, 5, %3, %5
1408 %define mstride_reg r1
1409 %define E_reg       r2
1410 %define I_reg       r3
1411 %define hev_thr_reg r4
1412 %ifdef m8 ; x86-64, sse2
1413 %define dst8_reg    r4
1414 %elif mmsize == 16 ; x86-32, sse2
1415 %define dst8_reg    r5
1416 %else ; x86-32, mmx/mmxext
1417 %define cnt_reg     r5
1418 %endif
1419 %endif
1420 %define dst_reg     r0
1421 %define stride_reg  E_reg
1422 %define dst2_reg    I_reg
1423 %ifndef m8
1424 %define stack_reg   hev_thr_reg
1425 %endif
1426
1427 %ifndef m8 ; mmx/mmxext or sse2 on x86-32
1428     ; splat function arguments
1429     SPLATB_REG       m0, E_reg, %1   ; E
1430     SPLATB_REG       m1, I_reg, %1   ; I
1431     SPLATB_REG       m2, hev_thr_reg, %1 ; hev_thresh
1432
1433     ; align stack
1434     mov       stack_reg, rsp         ; backup stack pointer
1435     and             rsp, ~(mmsize-1) ; align stack
1436 %ifidn %2, v
1437     sub             rsp, mmsize * 4  ; stack layout: [0]=E, [1]=I, [2]=hev_thr
1438                                      ;               [3]=hev() result
1439 %else ; h
1440     sub             rsp, mmsize * 5  ; extra storage space for transposes
1441 %endif
1442
1443 %define flim_E   [rsp]
1444 %define flim_I   [rsp+mmsize]
1445 %define hev_thr  [rsp+mmsize*2]
1446 %define mask_res [rsp+mmsize*3]
1447
1448     mova         flim_E, m0
1449     mova         flim_I, m1
1450     mova        hev_thr, m2
1451
1452 %else ; sse2 on x86-64
1453
1454 %define flim_E   m9
1455 %define flim_I   m10
1456 %define hev_thr  m11
1457 %define mask_res m12
1458
1459     ; splat function arguments
1460     SPLATB_REG   flim_E, E_reg, %1   ; E
1461     SPLATB_REG   flim_I, I_reg, %1   ; I
1462     SPLATB_REG  hev_thr, hev_thr_reg, %1 ; hev_thresh
1463 %endif
1464
1465 %if mmsize == 8 && %4 == 16 ; mmx/mmxext
1466     mov         cnt_reg, 2
1467 %endif
1468     mov      stride_reg, mstride_reg
1469     neg     mstride_reg
1470 %ifidn %2, h
1471     lea         dst_reg, [dst_reg + stride_reg*4-4]
1472 %if %4 == 8
1473     lea        dst8_reg, [dst8_reg+ stride_reg*4-4]
1474 %endif
1475 %endif
1476
1477 %if mmsize == 8
1478 .next8px
1479 %endif
1480     ; read
1481     lea        dst2_reg, [dst_reg + stride_reg]
1482 %ifidn %2, v
1483 %if %4 == 8 && mmsize == 16
1484 %define movrow movh
1485 %else
1486 %define movrow mova
1487 %endif
1488     movrow           m0, [dst_reg +mstride_reg*4] ; p3
1489     movrow           m1, [dst2_reg+mstride_reg*4] ; p2
1490     movrow           m2, [dst_reg +mstride_reg*2] ; p1
1491     movrow           m5, [dst2_reg]               ; q1
1492     movrow           m6, [dst2_reg+ stride_reg]   ; q2
1493     movrow           m7, [dst2_reg+ stride_reg*2] ; q3
1494 %if mmsize == 16 && %4 == 8
1495     movhps           m0, [dst8_reg+mstride_reg*4]
1496     movhps           m2, [dst8_reg+mstride_reg*2]
1497     add        dst8_reg, stride_reg
1498     movhps           m1, [dst8_reg+mstride_reg*4]
1499     movhps           m5, [dst8_reg]
1500     movhps           m6, [dst8_reg+ stride_reg]
1501     movhps           m7, [dst8_reg+ stride_reg*2]
1502     add        dst8_reg, mstride_reg
1503 %endif
1504 %elif mmsize == 8 ; mmx/mmxext (h)
1505     ; read 8 rows of 8px each
1506     movu             m0, [dst_reg +mstride_reg*4]
1507     movu             m1, [dst2_reg+mstride_reg*4]
1508     movu             m2, [dst_reg +mstride_reg*2]
1509     movu             m3, [dst_reg +mstride_reg]
1510     movu             m4, [dst_reg]
1511     movu             m5, [dst2_reg]
1512     movu             m6, [dst2_reg+ stride_reg]
1513
1514     ; 8x8 transpose
1515     TRANSPOSE4x4B     0, 1, 2, 3, 7
1516 %ifdef m13
1517     SWAP              1, 8
1518 %else
1519     mova [rsp+mmsize*4], m1
1520 %endif
1521     movu             m7, [dst2_reg+ stride_reg*2]
1522     TRANSPOSE4x4B     4, 5, 6, 7, 1
1523     SBUTTERFLY       dq, 0, 4, 1     ; p3/p2
1524     SBUTTERFLY       dq, 2, 6, 1     ; q0/q1
1525     SBUTTERFLY       dq, 3, 7, 1     ; q2/q3
1526 %ifdef m13
1527     SWAP              1, 8
1528     SWAP              2, 8
1529 %else
1530     mova             m1, [rsp+mmsize*4]
1531     mova [rsp+mmsize*4], m2          ; store q0
1532 %endif
1533     SBUTTERFLY       dq, 1, 5, 2     ; p1/p0
1534 %ifdef m14
1535     SWAP              5, 12
1536 %else
1537     mova [rsp+mmsize*3], m5          ; store p0
1538 %endif
1539     SWAP              1, 4
1540     SWAP              2, 4
1541     SWAP              6, 3
1542     SWAP              5, 3
1543 %else ; sse2 (h)
1544 %if %4 == 16
1545     lea        dst8_reg, [dst_reg + stride_reg*8]
1546 %endif
1547
1548     ; read 16 rows of 8px each, interleave
1549     movh             m0, [dst_reg +mstride_reg*4]
1550     movh             m1, [dst8_reg+mstride_reg*4]
1551     movh             m2, [dst_reg +mstride_reg*2]
1552     movh             m5, [dst8_reg+mstride_reg*2]
1553     movh             m3, [dst_reg +mstride_reg]
1554     movh             m6, [dst8_reg+mstride_reg]
1555     movh             m4, [dst_reg]
1556     movh             m7, [dst8_reg]
1557     punpcklbw        m0, m1          ; A/I
1558     punpcklbw        m2, m5          ; C/K
1559     punpcklbw        m3, m6          ; D/L
1560     punpcklbw        m4, m7          ; E/M
1561
1562     add        dst8_reg, stride_reg
1563     movh             m1, [dst2_reg+mstride_reg*4]
1564     movh             m6, [dst8_reg+mstride_reg*4]
1565     movh             m5, [dst2_reg]
1566     movh             m7, [dst8_reg]
1567     punpcklbw        m1, m6          ; B/J
1568     punpcklbw        m5, m7          ; F/N
1569     movh             m6, [dst2_reg+ stride_reg]
1570     movh             m7, [dst8_reg+ stride_reg]
1571     punpcklbw        m6, m7          ; G/O
1572
1573     ; 8x16 transpose
1574     TRANSPOSE4x4B     0, 1, 2, 3, 7
1575 %ifdef m13
1576     SWAP              1, 8
1577 %else
1578     mova [rsp+mmsize*4], m1
1579 %endif
1580     movh             m7, [dst2_reg+ stride_reg*2]
1581     movh             m1, [dst8_reg+ stride_reg*2]
1582     punpcklbw        m7, m1          ; H/P
1583     TRANSPOSE4x4B     4, 5, 6, 7, 1
1584     SBUTTERFLY       dq, 0, 4, 1     ; p3/p2
1585     SBUTTERFLY       dq, 2, 6, 1     ; q0/q1
1586     SBUTTERFLY       dq, 3, 7, 1     ; q2/q3
1587 %ifdef m13
1588     SWAP              1, 8
1589     SWAP              2, 8
1590 %else
1591     mova             m1, [rsp+mmsize*4]
1592     mova [rsp+mmsize*4], m2          ; store q0
1593 %endif
1594     SBUTTERFLY       dq, 1, 5, 2     ; p1/p0
1595 %ifdef m14
1596     SWAP              5, 12
1597 %else
1598     mova [rsp+mmsize*3], m5          ; store p0
1599 %endif
1600     SWAP              1, 4
1601     SWAP              2, 4
1602     SWAP              6, 3
1603     SWAP              5, 3
1604 %endif
1605
1606     ; normal_limit for p3-p2, p2-p1, q3-q2 and q2-q1
1607     mova             m4, m1
1608     SWAP              4, 1
1609     psubusb          m4, m0          ; p2-p3
1610     psubusb          m0, m1          ; p3-p2
1611     por              m0, m4          ; abs(p3-p2)
1612
1613     mova             m4, m2
1614     SWAP              4, 2
1615     psubusb          m4, m1          ; p1-p2
1616     psubusb          m1, m2          ; p2-p1
1617     por              m1, m4          ; abs(p2-p1)
1618
1619     mova             m4, m6
1620     SWAP              4, 6
1621     psubusb          m4, m7          ; q2-q3
1622     psubusb          m7, m6          ; q3-q2
1623     por              m7, m4          ; abs(q3-q2)
1624
1625     mova             m4, m5
1626     SWAP              4, 5
1627     psubusb          m4, m6          ; q1-q2
1628     psubusb          m6, m5          ; q2-q1
1629     por              m6, m4          ; abs(q2-q1)
1630
1631 %ifidn %1, mmx
1632 %ifdef m10
1633     SWAP              4, 10
1634 %else
1635     mova             m4, [rsp+mmsize]
1636 %endif
1637     pxor             m3, m3
1638     psubusb          m0, m4
1639     psubusb          m1, m4
1640     psubusb          m7, m4
1641     psubusb          m6, m4
1642     pcmpeqb          m0, m3          ; abs(p3-p2) <= I
1643     pcmpeqb          m1, m3          ; abs(p2-p1) <= I
1644     pcmpeqb          m7, m3          ; abs(q3-q2) <= I
1645     pcmpeqb          m6, m3          ; abs(q2-q1) <= I
1646     pand             m0, m1
1647     pand             m7, m6
1648     pand             m0, m7
1649 %else ; mmxext/sse2
1650     pmaxub           m0, m1
1651     pmaxub           m6, m7
1652     pmaxub           m0, m6
1653 %endif
1654
1655     ; normal_limit and high_edge_variance for p1-p0, q1-q0
1656     SWAP              7, 3           ; now m7 is zero
1657 %ifidn %2, v
1658     movrow           m3, [dst_reg +mstride_reg] ; p0
1659 %if mmsize == 16 && %4 == 8
1660     movhps           m3, [dst8_reg+mstride_reg]
1661 %endif
1662 %elifdef m14
1663     SWAP              3, 12
1664 %else
1665     mova             m3, [rsp+mmsize*3]
1666 %endif
1667
1668     mova             m1, m2
1669     SWAP              1, 2
1670     mova             m6, m3
1671     SWAP              3, 6
1672     psubusb          m1, m3          ; p1-p0
1673     psubusb          m6, m2          ; p0-p1
1674     por              m1, m6          ; abs(p1-p0)
1675 %ifidn %1, mmx
1676     mova             m6, m1
1677     psubusb          m1, m4
1678     psubusb          m6, hev_thr
1679     pcmpeqb          m1, m7          ; abs(p1-p0) <= I
1680     pcmpeqb          m6, m7          ; abs(p1-p0) <= hev_thresh
1681     pand             m0, m1
1682 %ifdef m12
1683     SWAP              6, 12
1684 %else
1685     mova [rsp+mmsize*3], m6
1686 %endif
1687 %else ; mmxext/sse2
1688     pmaxub           m0, m1          ; max_I
1689     SWAP              1, 4           ; max_hev_thresh
1690 %endif
1691
1692     SWAP              6, 4           ; now m6 is I
1693 %ifidn %2, v
1694     movrow           m4, [dst_reg]   ; q0
1695 %if mmsize == 16 && %4 == 8
1696     movhps           m4, [dst8_reg]
1697 %endif
1698 %elifdef m13
1699     SWAP              4, 8
1700 %else
1701     mova             m4, [rsp+mmsize*4]
1702 %endif
1703     mova             m1, m4
1704     SWAP              1, 4
1705     mova             m7, m5
1706     SWAP              7, 5
1707     psubusb          m1, m5          ; q0-q1
1708     psubusb          m7, m4          ; q1-q0
1709     por              m1, m7          ; abs(q1-q0)
1710 %ifidn %1, mmx
1711     mova             m7, m1
1712     psubusb          m1, m6
1713     psubusb          m7, hev_thr
1714     pxor             m6, m6
1715     pcmpeqb          m1, m6          ; abs(q1-q0) <= I
1716     pcmpeqb          m7, m6          ; abs(q1-q0) <= hev_thresh
1717 %ifdef m12
1718     SWAP              6, 12
1719 %else
1720     mova             m6, [rsp+mmsize*3]
1721 %endif
1722     pand             m0, m1          ; abs([pq][321]-[pq][210]) <= I
1723     pand             m6, m7
1724 %else ; mmxext/sse2
1725     pxor             m7, m7
1726     pmaxub           m0, m1
1727     pmaxub           m6, m1
1728     psubusb          m0, flim_I
1729     psubusb          m6, hev_thr
1730     pcmpeqb          m0, m7          ; max(abs(..)) <= I
1731     pcmpeqb          m6, m7          ; !(max(abs..) > thresh)
1732 %endif
1733 %ifdef m12
1734     SWAP              6, 12
1735 %else
1736     mova [rsp+mmsize*3], m6          ; !(abs(p1-p0) > hev_t || abs(q1-q0) > hev_t)
1737 %endif
1738
1739     ; simple_limit
1740     mova             m1, m3
1741     SWAP              1, 3
1742     mova             m6, m4          ; keep copies of p0/q0 around for later use
1743     SWAP              6, 4
1744     psubusb          m1, m4          ; p0-q0
1745     psubusb          m6, m3          ; q0-p0
1746     por              m1, m6          ; abs(q0-p0)
1747     paddusb          m1, m1          ; m1=2*abs(q0-p0)
1748
1749     mova             m7, m2
1750     SWAP              7, 2
1751     mova             m6, m5
1752     SWAP              6, 5
1753     psubusb          m7, m5          ; p1-q1
1754     psubusb          m6, m2          ; q1-p1
1755     por              m7, m6          ; abs(q1-p1)
1756     pxor             m6, m6
1757     pand             m7, [pb_FE]
1758     psrlq            m7, 1           ; abs(q1-p1)/2
1759     paddusb          m7, m1          ; abs(q0-p0)*2+abs(q1-p1)/2
1760     psubusb          m7, flim_E
1761     pcmpeqb          m7, m6          ; abs(q0-p0)*2+abs(q1-p1)/2 <= E
1762     pand             m0, m7          ; normal_limit result
1763
1764     ; filter_common; at this point, m2-m5=p1-q1 and m0 is filter_mask
1765 %ifdef m8 ; x86-64 && sse2
1766     mova             m8, [pb_80]
1767 %define pb_80_var m8
1768 %else ; x86-32 or mmx/mmxext
1769 %define pb_80_var [pb_80]
1770 %endif
1771     mova             m1, m4
1772     mova             m7, m3
1773     pxor             m1, pb_80_var
1774     pxor             m7, pb_80_var
1775     psubsb           m1, m7          ; (signed) q0-p0
1776     mova             m6, m2
1777     mova             m7, m5
1778     pxor             m6, pb_80_var
1779     pxor             m7, pb_80_var
1780     psubsb           m6, m7          ; (signed) p1-q1
1781     mova             m7, mask_res
1782     pandn            m7, m6
1783     paddsb           m7, m1
1784     paddsb           m7, m1
1785     paddsb           m7, m1          ; 3*(q0-p0)+is4tap?(p1-q1)
1786
1787     pand             m7, m0
1788     mova             m1, [pb_F8]
1789     mova             m6, m7
1790     paddsb           m7, [pb_3]
1791     paddsb           m6, [pb_4]
1792     pand             m7, m1
1793     pand             m6, m1
1794
1795     pxor             m1, m1
1796     pxor             m0, m0
1797     pcmpgtb          m1, m7
1798     psubb            m0, m7
1799     psrlq            m7, 3           ; +f2
1800     psrlq            m0, 3           ; -f2
1801     pand             m0, m1
1802     pandn            m1, m7
1803     psubusb          m3, m0
1804     paddusb          m3, m1          ; p0+f2
1805
1806     pxor             m1, m1
1807     pxor             m0, m0
1808     pcmpgtb          m0, m6
1809     psubb            m1, m6
1810     psrlq            m6, 3           ; +f1
1811     psrlq            m1, 3           ; -f1
1812     pand             m1, m0
1813     pandn            m0, m6
1814     psubusb          m4, m0
1815     paddusb          m4, m1          ; q0-f1
1816
1817 %ifdef m12
1818     SWAP              6, 12
1819 %else
1820     mova             m6, [rsp+mmsize*3]
1821 %endif
1822 %ifidn %1, mmx
1823     mova             m7, [pb_1]
1824 %else ; mmxext/sse2
1825     pxor             m7, m7
1826 %endif
1827     pand             m0, m6
1828     pand             m1, m6
1829 %ifidn %1, mmx
1830     paddusb          m0, m7
1831     pand             m1, [pb_FE]
1832     pandn            m7, m0
1833     psrlq            m1, 1
1834     psrlq            m7, 1
1835     SWAP              0, 7
1836 %else ; mmxext/sse2
1837     psubusb          m1, [pb_1]
1838     pavgb            m0, m7          ; a
1839     pavgb            m1, m7          ; -a
1840 %endif
1841     psubusb          m5, m0
1842     psubusb          m2, m1
1843     paddusb          m5, m1          ; q1-a
1844     paddusb          m2, m0          ; p1+a
1845
1846     ; store
1847 %ifidn %2, v
1848     movrow [dst_reg +mstride_reg*2], m2
1849     movrow [dst_reg +mstride_reg  ], m3
1850     movrow    [dst_reg], m4
1851     movrow [dst_reg + stride_reg  ], m5
1852 %if mmsize == 16 && %4 == 8
1853     movhps [dst8_reg+mstride_reg*2], m2
1854     movhps [dst8_reg+mstride_reg  ], m3
1855     movhps   [dst8_reg], m4
1856     movhps [dst8_reg+ stride_reg  ], m5
1857 %endif
1858 %else ; h
1859     add         dst_reg, 2
1860     add        dst2_reg, 2
1861
1862     ; 4x8/16 transpose
1863     TRANSPOSE4x4B     2, 3, 4, 5, 6
1864
1865 %if mmsize == 8 ; mmx/mmxext (h)
1866     WRITE_4x2D        2, 3, 4, 5, dst_reg, dst2_reg, mstride_reg, stride_reg
1867 %else ; sse2 (h)
1868     lea        dst8_reg, [dst8_reg+mstride_reg+2]
1869     WRITE_4x4D        2, 3, 4, 5, dst_reg, dst2_reg, dst8_reg, mstride_reg, stride_reg, %4
1870 %endif
1871 %endif
1872
1873 %if mmsize == 8
1874 %if %4 == 8 ; chroma
1875 %ifidn %2, h
1876     sub         dst_reg, 2
1877 %endif
1878     cmp         dst_reg, dst8_reg
1879     mov         dst_reg, dst8_reg
1880     jnz .next8px
1881 %else
1882 %ifidn %2, h
1883     lea         dst_reg, [dst_reg + stride_reg*8-2]
1884 %else ; v
1885     add         dst_reg, 8
1886 %endif
1887     dec         cnt_reg
1888     jg .next8px
1889 %endif
1890 %endif
1891
1892 %ifndef m8 ; sse2 on x86-32 or mmx/mmxext
1893     mov             rsp, stack_reg   ; restore stack pointer
1894 %endif
1895     RET
1896 %endmacro
1897
1898 INIT_MMX
1899 INNER_LOOPFILTER mmx,    v, 6, 16, 8
1900 INNER_LOOPFILTER mmx,    h, 6, 16, 8
1901 INNER_LOOPFILTER mmxext, v, 6, 16, 8
1902 INNER_LOOPFILTER mmxext, h, 6, 16, 8
1903
1904 INNER_LOOPFILTER mmx,    v, 6,  8, 8
1905 INNER_LOOPFILTER mmx,    h, 6,  8, 8
1906 INNER_LOOPFILTER mmxext, v, 6,  8, 8
1907 INNER_LOOPFILTER mmxext, h, 6,  8, 8
1908
1909 INIT_XMM
1910 INNER_LOOPFILTER sse2,   v, 5, 16, 13
1911 %ifdef m8
1912 INNER_LOOPFILTER sse2,   h, 5, 16, 13
1913 %else
1914 INNER_LOOPFILTER sse2,   h, 6, 16, 13
1915 %endif
1916
1917 INNER_LOOPFILTER sse2,   v, 6,  8, 13
1918 INNER_LOOPFILTER sse2,   h, 6,  8, 13