]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_intrapred.asm
Mark recently added pred4x4_down_left_mmxext as CONFIG_GPL. Although Holger
[ffmpeg] / libavcodec / x86 / h264_intrapred.asm
1 ;******************************************************************************
2 ;* H.264 intra prediction asm optimizations
3 ;* Copyright (c) 2010 Jason Garrett-Glaser
4 ;*
5 ;* This file is part of FFmpeg.
6 ;*
7 ;* FFmpeg is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* FFmpeg is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with FFmpeg; if not, write to the Free Software
19 ;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "x86inc.asm"
23
24 SECTION_RODATA
25
26 tm_shuf: times 8 db 0x03, 0x80
27 plane_shuf:  db -8, -7, -6, -5, -4, -3, -2, -1
28              db  1,  2,  3,  4,  5,  6,  7,  8
29 plane8_shuf: db -4, -3, -2, -1,  0,  0,  0,  0
30              db  1,  2,  3,  4,  0,  0,  0,  0
31 pw_0to7:     dw  0,  1,  2,  3,  4,  5,  6,  7
32 pw_1to8:     dw  1,  2,  3,  4,  5,  6,  7,  8
33 pw_m8tom1:   dw -8, -7, -6, -5, -4, -3, -2, -1
34 pw_m4to4:    dw -4, -3, -2, -1,  1,  2,  3,  4
35
36 SECTION .text
37
38 cextern pb_1
39 cextern pb_3
40 cextern pw_5
41 cextern pw_16
42 cextern pw_17
43 cextern pw_32
44
45 ;-----------------------------------------------------------------------------
46 ; void pred16x16_vertical(uint8_t *src, int stride)
47 ;-----------------------------------------------------------------------------
48
49 cglobal pred16x16_vertical_mmx, 2,3
50     sub   r0, r1
51     mov   r2, 8
52     movq mm0, [r0+0]
53     movq mm1, [r0+8]
54 .loop:
55     movq [r0+r1*1+0], mm0
56     movq [r0+r1*1+8], mm1
57     movq [r0+r1*2+0], mm0
58     movq [r0+r1*2+8], mm1
59     lea   r0, [r0+r1*2]
60     dec   r2
61     jg .loop
62     REP_RET
63
64 cglobal pred16x16_vertical_sse, 2,3
65     sub   r0, r1
66     mov   r2, 4
67     movaps xmm0, [r0]
68 .loop:
69     movaps [r0+r1*1], xmm0
70     movaps [r0+r1*2], xmm0
71     lea   r0, [r0+r1*2]
72     movaps [r0+r1*1], xmm0
73     movaps [r0+r1*2], xmm0
74     lea   r0, [r0+r1*2]
75     dec   r2
76     jg .loop
77     REP_RET
78
79 ;-----------------------------------------------------------------------------
80 ; void pred16x16_horizontal(uint8_t *src, int stride)
81 ;-----------------------------------------------------------------------------
82
83 %macro PRED16x16_H 1
84 cglobal pred16x16_horizontal_%1, 2,3
85     mov       r2, 8
86 %ifidn %1, ssse3
87     mova      m2, [pb_3]
88 %endif
89 .loop:
90     movd      m0, [r0+r1*0-4]
91     movd      m1, [r0+r1*1-4]
92
93 %ifidn %1, ssse3
94     pshufb    m0, m2
95     pshufb    m1, m2
96 %else
97     punpcklbw m0, m0
98     punpcklbw m1, m1
99 %ifidn %1, mmxext
100     pshufw    m0, m0, 0xff
101     pshufw    m1, m1, 0xff
102 %else
103     punpckhwd m0, m0
104     punpckhwd m1, m1
105     punpckhdq m0, m0
106     punpckhdq m1, m1
107 %endif
108     mova [r0+r1*0+8], m0
109     mova [r0+r1*1+8], m1
110 %endif
111
112     mova [r0+r1*0], m0
113     mova [r0+r1*1], m1
114     lea       r0, [r0+r1*2]
115     dec       r2
116     jg .loop
117     REP_RET
118 %endmacro
119
120 INIT_MMX
121 PRED16x16_H mmx
122 PRED16x16_H mmxext
123 INIT_XMM
124 PRED16x16_H ssse3
125
126 ;-----------------------------------------------------------------------------
127 ; void pred16x16_dc(uint8_t *src, int stride)
128 ;-----------------------------------------------------------------------------
129
130 %macro PRED16x16_DC 1
131 cglobal pred16x16_dc_%1, 2,7
132     mov       r4, r0
133     sub       r0, r1
134     pxor      mm0, mm0
135     pxor      mm1, mm1
136     psadbw    mm0, [r0+0]
137     psadbw    mm1, [r0+8]
138     dec        r0
139     movzx     r5d, byte [r0+r1*1]
140     paddw     mm0, mm1
141     movd      r6d, mm0
142     lea        r0, [r0+r1*2]
143 %rep 7
144     movzx     r2d, byte [r0+r1*0]
145     movzx     r3d, byte [r0+r1*1]
146     add       r5d, r2d
147     add       r6d, r3d
148     lea        r0, [r0+r1*2]
149 %endrep
150     movzx     r2d, byte [r0+r1*0]
151     add       r5d, r6d
152     lea       r2d, [r2+r5+16]
153     shr       r2d, 5
154 %ifidn %1, mmxext
155     movd       m0, r2d
156     punpcklbw  m0, m0
157     pshufw     m0, m0, 0
158 %elifidn %1, sse2
159     movd       m0, r2d
160     punpcklbw  m0, m0
161     pshuflw    m0, m0, 0
162     punpcklqdq m0, m0
163 %elifidn %1, ssse3
164     pxor       m1, m1
165     movd       m0, r2d
166     pshufb     m0, m1
167 %endif
168
169 %if mmsize==8
170     mov       r3d, 8
171 .loop:
172     mova [r4+r1*0+0], m0
173     mova [r4+r1*0+8], m0
174     mova [r4+r1*1+0], m0
175     mova [r4+r1*1+8], m0
176 %else
177     mov       r3d, 4
178 .loop:
179     mova [r4+r1*0], m0
180     mova [r4+r1*1], m0
181     lea   r4, [r4+r1*2]
182     mova [r4+r1*0], m0
183     mova [r4+r1*1], m0
184 %endif
185     lea   r4, [r4+r1*2]
186     dec   r3d
187     jg .loop
188     REP_RET
189 %endmacro
190
191 INIT_MMX
192 PRED16x16_DC mmxext
193 INIT_XMM
194 PRED16x16_DC   sse2
195 PRED16x16_DC  ssse3
196
197 ;-----------------------------------------------------------------------------
198 ; void pred16x16_tm_vp8(uint8_t *src, int stride)
199 ;-----------------------------------------------------------------------------
200
201 %macro PRED16x16_TM_MMX 1
202 cglobal pred16x16_tm_vp8_%1, 2,5
203     sub        r0, r1
204     pxor      mm7, mm7
205     movq      mm0, [r0+0]
206     movq      mm2, [r0+8]
207     movq      mm1, mm0
208     movq      mm3, mm2
209     punpcklbw mm0, mm7
210     punpckhbw mm1, mm7
211     punpcklbw mm2, mm7
212     punpckhbw mm3, mm7
213     movzx     r3d, byte [r0-1]
214     mov       r4d, 16
215 .loop:
216     movzx     r2d, byte [r0+r1-1]
217     sub       r2d, r3d
218     movd      mm4, r2d
219 %ifidn %1, mmx
220     punpcklwd mm4, mm4
221     punpckldq mm4, mm4
222 %else
223     pshufw    mm4, mm4, 0
224 %endif
225     movq      mm5, mm4
226     movq      mm6, mm4
227     movq      mm7, mm4
228     paddw     mm4, mm0
229     paddw     mm5, mm1
230     paddw     mm6, mm2
231     paddw     mm7, mm3
232     packuswb  mm4, mm5
233     packuswb  mm6, mm7
234     movq [r0+r1+0], mm4
235     movq [r0+r1+8], mm6
236     add        r0, r1
237     dec       r4d
238     jg .loop
239     REP_RET
240 %endmacro
241
242 PRED16x16_TM_MMX mmx
243 PRED16x16_TM_MMX mmxext
244
245 cglobal pred16x16_tm_vp8_sse2, 2,6,6
246     sub          r0, r1
247     pxor       xmm2, xmm2
248     movdqa     xmm0, [r0]
249     movdqa     xmm1, xmm0
250     punpcklbw  xmm0, xmm2
251     punpckhbw  xmm1, xmm2
252     movzx       r4d, byte [r0-1]
253     mov         r5d, 8
254 .loop:
255     movzx       r2d, byte [r0+r1*1-1]
256     movzx       r3d, byte [r0+r1*2-1]
257     sub         r2d, r4d
258     sub         r3d, r4d
259     movd       xmm2, r2d
260     movd       xmm4, r3d
261     pshuflw    xmm2, xmm2, 0
262     pshuflw    xmm4, xmm4, 0
263     punpcklqdq xmm2, xmm2
264     punpcklqdq xmm4, xmm4
265     movdqa     xmm3, xmm2
266     movdqa     xmm5, xmm4
267     paddw      xmm2, xmm0
268     paddw      xmm3, xmm1
269     paddw      xmm4, xmm0
270     paddw      xmm5, xmm1
271     packuswb   xmm2, xmm3
272     packuswb   xmm4, xmm5
273     movdqa [r0+r1*1], xmm2
274     movdqa [r0+r1*2], xmm4
275     lea          r0, [r0+r1*2]
276     dec         r5d
277     jg .loop
278     REP_RET
279
280 ;-----------------------------------------------------------------------------
281 ; void pred16x16_plane(uint8_t *src, int stride)
282 ;-----------------------------------------------------------------------------
283
284 %macro H264_PRED16x16_PLANE 3
285 cglobal pred16x16_plane_%3_%1, 2, 7, %2
286     mov          r2, r1           ; +stride
287     neg          r1               ; -stride
288
289     movh         m0, [r0+r1  -1]
290 %if mmsize == 8
291     pxor         m4, m4
292     movh         m1, [r0+r1  +3 ]
293     movh         m2, [r0+r1  +8 ]
294     movh         m3, [r0+r1  +12]
295     punpcklbw    m0, m4
296     punpcklbw    m1, m4
297     punpcklbw    m2, m4
298     punpcklbw    m3, m4
299     pmullw       m0, [pw_m8tom1  ]
300     pmullw       m1, [pw_m8tom1+8]
301     pmullw       m2, [pw_1to8    ]
302     pmullw       m3, [pw_1to8  +8]
303     paddw        m0, m2
304     paddw        m1, m3
305 %else ; mmsize == 16
306 %ifidn %1, sse2
307     pxor         m2, m2
308     movh         m1, [r0+r1  +8]
309     punpcklbw    m0, m2
310     punpcklbw    m1, m2
311     pmullw       m0, [pw_m8tom1]
312     pmullw       m1, [pw_1to8]
313     paddw        m0, m1
314 %else ; ssse3
315     movhps       m0, [r0+r1  +8]
316     pmaddubsw    m0, [plane_shuf] ; H coefficients
317 %endif
318     movhlps      m1, m0
319 %endif
320     paddw        m0, m1
321 %ifidn %1, mmx
322     mova         m1, m0
323     psrlq        m1, 32
324 %elifidn %1, mmx2
325     pshufw       m1, m0, 0xE
326 %else ; mmsize == 16
327     pshuflw      m1, m0, 0xE
328 %endif
329     paddw        m0, m1
330 %ifidn %1, mmx
331     mova         m1, m0
332     psrlq        m1, 16
333 %elifidn %1, mmx2
334     pshufw       m1, m0, 0x1
335 %else
336     pshuflw      m1, m0, 0x1
337 %endif
338     paddw        m0, m1           ; sum of H coefficients
339
340 %ifidn %3, h264
341     pmullw       m0, [pw_5]
342     paddw        m0, [pw_32]
343     psraw        m0, 6
344 %elifidn %3, rv40
345     pmullw       m0, [pw_5]
346     psraw        m0, 6
347 %elifidn %3, svq3
348     movd        r3d, m0
349     movsx        r3, r3w
350     test         r3, r3
351     lea          r4, [r3+3]
352     cmovs        r3, r4
353     sar          r3, 2           ; H/4
354     lea          r3, [r3*5]      ; 5*(H/4)
355     test         r3, r3
356     lea          r4, [r3+15]
357     cmovs        r3, r4
358     sar          r3, 4           ; (5*(H/4))/16
359     movd         m0, r3d
360 %endif
361
362     lea          r4, [r0+r2*8-1]
363     lea          r3, [r0+r2*4-1]
364     add          r4, r2
365
366 %ifdef ARCH_X86_64
367 %define e_reg r11
368 %else
369 %define e_reg r0
370 %endif
371
372     movzx     e_reg, byte [r3+r2*2   ]
373     movzx        r5, byte [r4+r1     ]
374     sub          r5, e_reg
375
376     movzx     e_reg, byte [r3+r2     ]
377     movzx        r6, byte [r4        ]
378     sub          r6, e_reg
379     lea          r5, [r5+r6*2]
380
381     movzx     e_reg, byte [r3+r1     ]
382     movzx        r6, byte [r4+r2*2   ]
383     sub          r6, e_reg
384     lea          r5, [r5+r6*4]
385
386     movzx     e_reg, byte [r3        ]
387 %ifdef ARCH_X86_64
388     movzx       r10, byte [r4+r2     ]
389     sub         r10, e_reg
390 %else
391     movzx        r6, byte [r4+r2     ]
392     sub          r6, e_reg
393     lea          r5, [r5+r6*4]
394     sub          r5, r6
395 %endif
396
397     lea       e_reg, [r3+r1*4]
398     lea          r3, [r4+r2*4]
399
400     movzx        r4, byte [e_reg+r2  ]
401     movzx        r6, byte [r3        ]
402     sub          r6, r4
403 %ifdef ARCH_X86_64
404     lea          r6, [r10+r6*2]
405     lea          r5, [r5+r6*2]
406     add          r5, r6
407 %else
408     lea          r5, [r5+r6*4]
409     lea          r5, [r5+r6*2]
410 %endif
411
412     movzx        r4, byte [e_reg     ]
413 %ifdef ARCH_X86_64
414     movzx       r10, byte [r3   +r2  ]
415     sub         r10, r4
416     sub          r5, r10
417 %else
418     movzx        r6, byte [r3   +r2  ]
419     sub          r6, r4
420     lea          r5, [r5+r6*8]
421     sub          r5, r6
422 %endif
423
424     movzx        r4, byte [e_reg+r1  ]
425     movzx        r6, byte [r3   +r2*2]
426     sub          r6, r4
427 %ifdef ARCH_X86_64
428     add          r6, r10
429 %endif
430     lea          r5, [r5+r6*8]
431
432     movzx        r4, byte [e_reg+r2*2]
433     movzx        r6, byte [r3   +r1  ]
434     sub          r6, r4
435     lea          r5, [r5+r6*4]
436     add          r5, r6           ; sum of V coefficients
437
438 %ifndef ARCH_X86_64
439     mov          r0, r0m
440 %endif
441
442 %ifidn %3, h264
443     lea          r5, [r5*5+32]
444     sar          r5, 6
445 %elifidn %3, rv40
446     lea          r5, [r5*5]
447     sar          r5, 6
448 %elifidn %3, svq3
449     test         r5, r5
450     lea          r6, [r5+3]
451     cmovs        r5, r6
452     sar          r5, 2            ; V/4
453     lea          r5, [r5*5]       ; 5*(V/4)
454     test         r5, r5
455     lea          r6, [r5+15]
456     cmovs        r5, r6
457     sar          r5, 4            ; (5*(V/4))/16
458 %endif
459
460     movzx        r4, byte [r0+r1  +15]
461     movzx        r3, byte [r3+r2*2   ]
462     lea          r3, [r3+r4+1]
463     shl          r3, 4
464     movd        r1d, m0
465     movsx       r1d, r1w
466     add         r1d, r5d
467     add         r3d, r1d
468     shl         r1d, 3
469     sub         r3d, r1d          ; a
470
471     movd         m1, r5d
472     movd         m3, r3d
473 %ifidn %1, mmx
474     punpcklwd    m0, m0
475     punpcklwd    m1, m1
476     punpcklwd    m3, m3
477     punpckldq    m0, m0
478     punpckldq    m1, m1
479     punpckldq    m3, m3
480 %elifidn %1, mmx2
481     pshufw       m0, m0, 0x0
482     pshufw       m1, m1, 0x0
483     pshufw       m3, m3, 0x0
484 %else
485     pshuflw      m0, m0, 0x0
486     pshuflw      m1, m1, 0x0
487     pshuflw      m3, m3, 0x0
488     punpcklqdq   m0, m0           ; splat H (words)
489     punpcklqdq   m1, m1           ; splat V (words)
490     punpcklqdq   m3, m3           ; splat a (words)
491 %endif
492 %ifidn %3, svq3
493     SWAP          0, 1
494 %endif
495     mova         m2, m0
496 %if mmsize == 8
497     mova         m5, m0
498 %endif
499     pmullw       m0, [pw_0to7]    ; 0*H, 1*H, ..., 7*H  (words)
500 %if mmsize == 16
501     psllw        m2, 3
502 %else
503     psllw        m5, 3
504     psllw        m2, 2
505     mova         m6, m5
506     paddw        m6, m2
507 %endif
508     paddw        m0, m3           ; a + {0,1,2,3,4,5,6,7}*H
509     paddw        m2, m0           ; a + {8,9,10,11,12,13,14,15}*H
510 %if mmsize == 8
511     paddw        m5, m0           ; a + {8,9,10,11}*H
512     paddw        m6, m0           ; a + {12,13,14,15}*H
513 %endif
514
515     mov          r4, 8
516 .loop
517     mova         m3, m0           ; b[0..7]
518     mova         m4, m2           ; b[8..15]
519     psraw        m3, 5
520     psraw        m4, 5
521     packuswb     m3, m4
522     mova       [r0], m3
523 %if mmsize == 8
524     mova         m3, m5           ; b[8..11]
525     mova         m4, m6           ; b[12..15]
526     psraw        m3, 5
527     psraw        m4, 5
528     packuswb     m3, m4
529     mova     [r0+8], m3
530 %endif
531     paddw        m0, m1
532     paddw        m2, m1
533 %if mmsize == 8
534     paddw        m5, m1
535     paddw        m6, m1
536 %endif
537
538     mova         m3, m0           ; b[0..7]
539     mova         m4, m2           ; b[8..15]
540     psraw        m3, 5
541     psraw        m4, 5
542     packuswb     m3, m4
543     mova    [r0+r2], m3
544 %if mmsize == 8
545     mova         m3, m5           ; b[8..11]
546     mova         m4, m6           ; b[12..15]
547     psraw        m3, 5
548     psraw        m4, 5
549     packuswb     m3, m4
550     mova  [r0+r2+8], m3
551 %endif
552     paddw        m0, m1
553     paddw        m2, m1
554 %if mmsize == 8
555     paddw        m5, m1
556     paddw        m6, m1
557 %endif
558
559     lea          r0, [r0+r2*2]
560     dec          r4
561     jg .loop
562     REP_RET
563 %endmacro
564
565 INIT_MMX
566 H264_PRED16x16_PLANE mmx,   0, h264
567 H264_PRED16x16_PLANE mmx,   0, rv40
568 H264_PRED16x16_PLANE mmx,   0, svq3
569 H264_PRED16x16_PLANE mmx2,  0, h264
570 H264_PRED16x16_PLANE mmx2,  0, rv40
571 H264_PRED16x16_PLANE mmx2,  0, svq3
572 INIT_XMM
573 H264_PRED16x16_PLANE sse2,  8, h264
574 H264_PRED16x16_PLANE sse2,  8, rv40
575 H264_PRED16x16_PLANE sse2,  8, svq3
576 H264_PRED16x16_PLANE ssse3, 8, h264
577 H264_PRED16x16_PLANE ssse3, 8, rv40
578 H264_PRED16x16_PLANE ssse3, 8, svq3
579
580 ;-----------------------------------------------------------------------------
581 ; void pred8x8_plane(uint8_t *src, int stride)
582 ;-----------------------------------------------------------------------------
583
584 %macro H264_PRED8x8_PLANE 2
585 cglobal pred8x8_plane_%1, 2, 7, %2
586     mov          r2, r1           ; +stride
587     neg          r1               ; -stride
588
589     movd         m0, [r0+r1  -1]
590 %if mmsize == 8
591     pxor         m2, m2
592     movh         m1, [r0+r1  +4 ]
593     punpcklbw    m0, m2
594     punpcklbw    m1, m2
595     pmullw       m0, [pw_m4to4]
596     pmullw       m1, [pw_m4to4+8]
597 %else ; mmsize == 16
598 %ifidn %1, sse2
599     pxor         m2, m2
600     movd         m1, [r0+r1  +4]
601     punpckldq    m0, m1
602     punpcklbw    m0, m2
603     pmullw       m0, [pw_m4to4]
604 %else ; ssse3
605     movhps       m0, [r0+r1  +4]   ; this reads 4 bytes more than necessary
606     pmaddubsw    m0, [plane8_shuf] ; H coefficients
607 %endif
608     movhlps      m1, m0
609 %endif
610     paddw        m0, m1
611
612 %ifnidn %1, ssse3
613 %ifidn %1, mmx
614     mova         m1, m0
615     psrlq        m1, 32
616 %elifidn %1, mmx2
617     pshufw       m1, m0, 0xE
618 %else ; mmsize == 16
619     pshuflw      m1, m0, 0xE
620 %endif
621     paddw        m0, m1
622 %endif ; !ssse3
623
624 %ifidn %1, mmx
625     mova         m1, m0
626     psrlq        m1, 16
627 %elifidn %1, mmx2
628     pshufw       m1, m0, 0x1
629 %else
630     pshuflw      m1, m0, 0x1
631 %endif
632     paddw        m0, m1           ; sum of H coefficients
633
634     pmullw       m0, [pw_17]
635     paddw        m0, [pw_16]
636     psraw        m0, 5
637
638     lea          r4, [r0+r2*4-1]
639     lea          r3, [r0     -1]
640     add          r4, r2
641
642 %ifdef ARCH_X86_64
643 %define e_reg r11
644 %else
645 %define e_reg r0
646 %endif
647
648     movzx     e_reg, byte [r3+r2*2   ]
649     movzx        r5, byte [r4+r1     ]
650     sub          r5, e_reg
651
652     movzx     e_reg, byte [r3        ]
653 %ifdef ARCH_X86_64
654     movzx       r10, byte [r4+r2     ]
655     sub         r10, e_reg
656     sub          r5, r10
657 %else
658     movzx        r6, byte [r4+r2     ]
659     sub          r6, e_reg
660     lea          r5, [r5+r6*4]
661     sub          r5, r6
662 %endif
663
664     movzx     e_reg, byte [r3+r1     ]
665     movzx        r6, byte [r4+r2*2   ]
666     sub          r6, e_reg
667 %ifdef ARCH_X86_64
668     add          r6, r10
669 %endif
670     lea          r5, [r5+r6*4]
671
672     movzx     e_reg, byte [r3+r2     ]
673     movzx        r6, byte [r4        ]
674     sub          r6, e_reg
675     lea          r6, [r5+r6*2]
676
677     lea          r5, [r6*9+16]
678     lea          r5, [r5+r6*8]
679     sar          r5, 5
680
681 %ifndef ARCH_X86_64
682     mov          r0, r0m
683 %endif
684
685     movzx        r3, byte [r4+r2*2  ]
686     movzx        r4, byte [r0+r1  +7]
687     lea          r3, [r3+r4+1]
688     shl          r3, 4
689     movd        r1d, m0
690     movsx       r1d, r1w
691     add         r1d, r5d
692     sub         r3d, r1d
693     add         r1d, r1d
694     sub         r3d, r1d          ; a
695
696     movd         m1, r5d
697     movd         m3, r3d
698 %ifidn %1, mmx
699     punpcklwd    m0, m0
700     punpcklwd    m1, m1
701     punpcklwd    m3, m3
702     punpckldq    m0, m0
703     punpckldq    m1, m1
704     punpckldq    m3, m3
705 %elifidn %1, mmx2
706     pshufw       m0, m0, 0x0
707     pshufw       m1, m1, 0x0
708     pshufw       m3, m3, 0x0
709 %else
710     pshuflw      m0, m0, 0x0
711     pshuflw      m1, m1, 0x0
712     pshuflw      m3, m3, 0x0
713     punpcklqdq   m0, m0           ; splat H (words)
714     punpcklqdq   m1, m1           ; splat V (words)
715     punpcklqdq   m3, m3           ; splat a (words)
716 %endif
717 %if mmsize == 8
718     mova         m2, m0
719 %endif
720     pmullw       m0, [pw_0to7]    ; 0*H, 1*H, ..., 7*H  (words)
721     paddw        m0, m3           ; a + {0,1,2,3,4,5,6,7}*H
722 %if mmsize == 8
723     psllw        m2, 2
724     paddw        m2, m0           ; a + {4,5,6,7}*H
725 %endif
726
727     mov          r4, 4
728 ALIGN 16
729 .loop
730 %if mmsize == 16
731     mova         m3, m0           ; b[0..7]
732     paddw        m0, m1
733     psraw        m3, 5
734     mova         m4, m0           ; V+b[0..7]
735     paddw        m0, m1
736     psraw        m4, 5
737     packuswb     m3, m4
738     movh       [r0], m3
739     movhps  [r0+r2], m3
740 %else ; mmsize == 8
741     mova         m3, m0           ; b[0..3]
742     mova         m4, m2           ; b[4..7]
743     paddw        m0, m1
744     paddw        m2, m1
745     psraw        m3, 5
746     psraw        m4, 5
747     mova         m5, m0           ; V+b[0..3]
748     mova         m6, m2           ; V+b[4..7]
749     paddw        m0, m1
750     paddw        m2, m1
751     psraw        m5, 5
752     psraw        m6, 5
753     packuswb     m3, m4
754     packuswb     m5, m6
755     mova       [r0], m3
756     mova    [r0+r2], m5
757 %endif
758
759     lea          r0, [r0+r2*2]
760     dec          r4
761     jg .loop
762     REP_RET
763 %endmacro
764
765 INIT_MMX
766 H264_PRED8x8_PLANE mmx,   0
767 H264_PRED8x8_PLANE mmx2,  0
768 INIT_XMM
769 H264_PRED8x8_PLANE sse2,  8
770 H264_PRED8x8_PLANE ssse3, 8
771
772 ;-----------------------------------------------------------------------------
773 ; void pred8x8_vertical(uint8_t *src, int stride)
774 ;-----------------------------------------------------------------------------
775
776 cglobal pred8x8_vertical_mmx, 2,2
777     sub    r0, r1
778     movq  mm0, [r0]
779 %rep 3
780     movq [r0+r1*1], mm0
781     movq [r0+r1*2], mm0
782     lea    r0, [r0+r1*2]
783 %endrep
784     movq [r0+r1*1], mm0
785     movq [r0+r1*2], mm0
786     RET
787
788 ;-----------------------------------------------------------------------------
789 ; void pred8x8_horizontal(uint8_t *src, int stride)
790 ;-----------------------------------------------------------------------------
791
792 %macro PRED8x8_H 1
793 cglobal pred8x8_horizontal_%1, 2,3
794     mov       r2, 4
795 %ifidn %1, ssse3
796     mova      m2, [pb_3]
797 %endif
798 .loop:
799     movd      m0, [r0+r1*0-4]
800     movd      m1, [r0+r1*1-4]
801 %ifidn %1, ssse3
802     pshufb    m0, m2
803     pshufb    m1, m2
804 %else
805     punpcklbw m0, m0
806     punpcklbw m1, m1
807 %ifidn %1, mmxext
808     pshufw    m0, m0, 0xff
809     pshufw    m1, m1, 0xff
810 %else
811     punpckhwd m0, m0
812     punpckhwd m1, m1
813     punpckhdq m0, m0
814     punpckhdq m1, m1
815 %endif
816 %endif
817     mova [r0+r1*0], m0
818     mova [r0+r1*1], m1
819     lea       r0, [r0+r1*2]
820     dec       r2
821     jg .loop
822     REP_RET
823 %endmacro
824
825 INIT_MMX
826 PRED8x8_H mmx
827 PRED8x8_H mmxext
828 PRED8x8_H ssse3
829
830 ;-----------------------------------------------------------------------------
831 ; void pred8x8_dc_rv40(uint8_t *src, int stride)
832 ;-----------------------------------------------------------------------------
833
834 cglobal pred8x8_dc_rv40_mmxext, 2,7
835     mov       r4, r0
836     sub       r0, r1
837     pxor      mm0, mm0
838     psadbw    mm0, [r0]
839     dec        r0
840     movzx     r5d, byte [r0+r1*1]
841     movd      r6d, mm0
842     lea        r0, [r0+r1*2]
843 %rep 3
844     movzx     r2d, byte [r0+r1*0]
845     movzx     r3d, byte [r0+r1*1]
846     add       r5d, r2d
847     add       r6d, r3d
848     lea        r0, [r0+r1*2]
849 %endrep
850     movzx     r2d, byte [r0+r1*0]
851     add       r5d, r6d
852     lea       r2d, [r2+r5+8]
853     shr       r2d, 4
854     movd      mm0, r2d
855     punpcklbw mm0, mm0
856     pshufw    mm0, mm0, 0
857     mov       r3d, 4
858 .loop:
859     movq [r4+r1*0], mm0
860     movq [r4+r1*1], mm0
861     lea   r4, [r4+r1*2]
862     dec   r3d
863     jg .loop
864     REP_RET
865
866 ;-----------------------------------------------------------------------------
867 ; void pred8x8_tm_vp8(uint8_t *src, int stride)
868 ;-----------------------------------------------------------------------------
869
870 %macro PRED8x8_TM_MMX 1
871 cglobal pred8x8_tm_vp8_%1, 2,6
872     sub        r0, r1
873     pxor      mm7, mm7
874     movq      mm0, [r0]
875     movq      mm1, mm0
876     punpcklbw mm0, mm7
877     punpckhbw mm1, mm7
878     movzx     r4d, byte [r0-1]
879     mov       r5d, 4
880 .loop:
881     movzx     r2d, byte [r0+r1*1-1]
882     movzx     r3d, byte [r0+r1*2-1]
883     sub       r2d, r4d
884     sub       r3d, r4d
885     movd      mm2, r2d
886     movd      mm4, r3d
887 %ifidn %1, mmx
888     punpcklwd mm2, mm2
889     punpcklwd mm4, mm4
890     punpckldq mm2, mm2
891     punpckldq mm4, mm4
892 %else
893     pshufw    mm2, mm2, 0
894     pshufw    mm4, mm4, 0
895 %endif
896     movq      mm3, mm2
897     movq      mm5, mm4
898     paddw     mm2, mm0
899     paddw     mm3, mm1
900     paddw     mm4, mm0
901     paddw     mm5, mm1
902     packuswb  mm2, mm3
903     packuswb  mm4, mm5
904     movq [r0+r1*1], mm2
905     movq [r0+r1*2], mm4
906     lea        r0, [r0+r1*2]
907     dec       r5d
908     jg .loop
909     REP_RET
910 %endmacro
911
912 PRED8x8_TM_MMX mmx
913 PRED8x8_TM_MMX mmxext
914
915 cglobal pred8x8_tm_vp8_sse2, 2,6,4
916     sub          r0, r1
917     pxor       xmm1, xmm1
918     movq       xmm0, [r0]
919     punpcklbw  xmm0, xmm1
920     movzx       r4d, byte [r0-1]
921     mov         r5d, 4
922 .loop:
923     movzx       r2d, byte [r0+r1*1-1]
924     movzx       r3d, byte [r0+r1*2-1]
925     sub         r2d, r4d
926     sub         r3d, r4d
927     movd       xmm2, r2d
928     movd       xmm3, r3d
929     pshuflw    xmm2, xmm2, 0
930     pshuflw    xmm3, xmm3, 0
931     punpcklqdq xmm2, xmm2
932     punpcklqdq xmm3, xmm3
933     paddw      xmm2, xmm0
934     paddw      xmm3, xmm0
935     packuswb   xmm2, xmm3
936     movq   [r0+r1*1], xmm2
937     movhps [r0+r1*2], xmm2
938     lea          r0, [r0+r1*2]
939     dec         r5d
940     jg .loop
941     REP_RET
942
943 cglobal pred8x8_tm_vp8_ssse3, 2,3,6
944     sub          r0, r1
945     movdqa     xmm4, [tm_shuf]
946     pxor       xmm1, xmm1
947     movq       xmm0, [r0]
948     punpcklbw  xmm0, xmm1
949     movd       xmm5, [r0-4]
950     pshufb     xmm5, xmm4
951     mov         r2d, 4
952 .loop:
953     movd       xmm2, [r0+r1*1-4]
954     movd       xmm3, [r0+r1*2-4]
955     pshufb     xmm2, xmm4
956     pshufb     xmm3, xmm4
957     psubw      xmm2, xmm5
958     psubw      xmm3, xmm5
959     paddw      xmm2, xmm0
960     paddw      xmm3, xmm0
961     packuswb   xmm2, xmm3
962     movq   [r0+r1*1], xmm2
963     movhps [r0+r1*2], xmm2
964     lea          r0, [r0+r1*2]
965     dec         r2d
966     jg .loop
967     REP_RET
968
969 ;-----------------------------------------------------------------------------
970 ; void pred4x4_dc_mmxext(uint8_t *src, const uint8_t *topright, int stride)
971 ;-----------------------------------------------------------------------------
972
973 cglobal pred4x4_dc_mmxext, 3,5
974     pxor   mm7, mm7
975     mov     r4, r0
976     sub     r0, r2
977     movd   mm0, [r0]
978     psadbw mm0, mm7
979     movzx  r1d, byte [r0+r2*1-1]
980     movd   r3d, mm0
981     add    r3d, r1d
982     movzx  r1d, byte [r0+r2*2-1]
983     lea     r0, [r0+r2*2]
984     add    r3d, r1d
985     movzx  r1d, byte [r0+r2*1-1]
986     add    r3d, r1d
987     movzx  r1d, byte [r0+r2*2-1]
988     add    r3d, r1d
989     add    r3d, 4
990     shr    r3d, 3
991     imul   r3d, 0x01010101
992     mov   [r4+r2*0], r3d
993     mov   [r0+r2*0], r3d
994     mov   [r0+r2*1], r3d
995     mov   [r0+r2*2], r3d
996     RET
997
998 ;-----------------------------------------------------------------------------
999 ; void pred4x4_tm_vp8_mmxext(uint8_t *src, const uint8_t *topright, int stride)
1000 ;-----------------------------------------------------------------------------
1001
1002 %macro PRED4x4_TM_MMX 1
1003 cglobal pred4x4_tm_vp8_%1, 3,6
1004     sub        r0, r2
1005     pxor      mm7, mm7
1006     movd      mm0, [r0]
1007     punpcklbw mm0, mm7
1008     movzx     r4d, byte [r0-1]
1009     mov       r5d, 2
1010 .loop:
1011     movzx     r1d, byte [r0+r2*1-1]
1012     movzx     r3d, byte [r0+r2*2-1]
1013     sub       r1d, r4d
1014     sub       r3d, r4d
1015     movd      mm2, r1d
1016     movd      mm4, r3d
1017 %ifidn %1, mmx
1018     punpcklwd mm2, mm2
1019     punpcklwd mm4, mm4
1020     punpckldq mm2, mm2
1021     punpckldq mm4, mm4
1022 %else
1023     pshufw    mm2, mm2, 0
1024     pshufw    mm4, mm4, 0
1025 %endif
1026     paddw     mm2, mm0
1027     paddw     mm4, mm0
1028     packuswb  mm2, mm2
1029     packuswb  mm4, mm4
1030     movd [r0+r2*1], mm2
1031     movd [r0+r2*2], mm4
1032     lea        r0, [r0+r2*2]
1033     dec       r5d
1034     jg .loop
1035     REP_RET
1036 %endmacro
1037
1038 PRED4x4_TM_MMX mmx
1039 PRED4x4_TM_MMX mmxext
1040
1041 cglobal pred4x4_tm_vp8_ssse3, 3,3
1042     sub         r0, r2
1043     movq       mm6, [tm_shuf]
1044     pxor       mm1, mm1
1045     movd       mm0, [r0]
1046     punpcklbw  mm0, mm1
1047     movd       mm7, [r0-4]
1048     pshufb     mm7, mm6
1049     lea         r1, [r0+r2*2]
1050     movd       mm2, [r0+r2*1-4]
1051     movd       mm3, [r0+r2*2-4]
1052     movd       mm4, [r1+r2*1-4]
1053     movd       mm5, [r1+r2*2-4]
1054     pshufb     mm2, mm6
1055     pshufb     mm3, mm6
1056     pshufb     mm4, mm6
1057     pshufb     mm5, mm6
1058     psubw      mm2, mm7
1059     psubw      mm3, mm7
1060     psubw      mm4, mm7
1061     psubw      mm5, mm7
1062     paddw      mm2, mm0
1063     paddw      mm3, mm0
1064     paddw      mm4, mm0
1065     paddw      mm5, mm0
1066     packuswb   mm2, mm2
1067     packuswb   mm3, mm3
1068     packuswb   mm4, mm4
1069     packuswb   mm5, mm5
1070     movd [r0+r2*1], mm2
1071     movd [r0+r2*2], mm3
1072     movd [r1+r2*1], mm4
1073     movd [r1+r2*2], mm5
1074     RET
1075
1076 ; dest, left, right, src, tmp
1077 ; output: %1 = (t[n-1] + t[n]*2 + t[n+1] + 2) >> 2
1078 %macro PRED4x4_LOWPASS 5
1079     mova    %5, %2
1080     pavgb   %2, %3
1081     pxor    %3, %5
1082     mova    %1, %4
1083     pand    %3, [pb_1]
1084     psubusb %2, %3
1085     pavgb   %1, %2
1086 %endmacro
1087
1088 ;-----------------------------------------------------------------------------
1089 ; void pred4x4_vertical_vp8_mmxext(uint8_t *src, const uint8_t *topright, int stride)
1090 ;-----------------------------------------------------------------------------
1091
1092 INIT_MMX
1093 cglobal pred4x4_vertical_vp8_mmxext, 3,3
1094     sub       r0, r2
1095     movd      m1, [r0-1]
1096     movd      m0, [r0]
1097     mova      m2, m0   ;t0 t1 t2 t3
1098     punpckldq m0, [r1] ;t0 t1 t2 t3 t4 t5 t6 t7
1099     lea       r1, [r0+r2*2]
1100     psrlq     m0, 8    ;t1 t2 t3 t4
1101     PRED4x4_LOWPASS m3, m1, m0, m2, m4
1102     movd [r0+r2*1], m3
1103     movd [r0+r2*2], m3
1104     movd [r1+r2*1], m3
1105     movd [r1+r2*2], m3
1106     RET
1107
1108 ;-----------------------------------------------------------------------------
1109 ; void pred4x4_down_left_mmxext(uint8_t *src, const uint8_t *topright, int stride)
1110 ;-----------------------------------------------------------------------------
1111 %ifdef CONFIG_GPL
1112 INIT_MMX
1113 cglobal pred4x4_down_left_mmxext, 3,3
1114     sub       r0, r2
1115     movq      m1, [r0]
1116     punpckldq m1, [r1]
1117     movq      m2, m1
1118     movq      m3, m1
1119     movq      m4, m1
1120     psllq     m1, 8
1121     pxor      m2, m1
1122     psrlq     m2, 8
1123     pxor      m3, m2
1124     PRED4x4_LOWPASS m0, m1, m3, m4, m5
1125     lea       r1, [r0+r2*2]
1126     psrlq     m0, 8
1127     movd      [r0+r2*1], m0
1128     psrlq     m0, 8
1129     movd      [r0+r2*2], m0
1130     psrlq     m0, 8
1131     movd      [r1+r2*1], m0
1132     psrlq     m0, 8
1133     movd      [r1+r2*2], m0
1134     RET
1135 %endif