]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_intrapred.asm
Add missing comment header for predict_4x4_dc_mmxext
[ffmpeg] / libavcodec / x86 / h264_intrapred.asm
1 ;******************************************************************************
2 ;* H.264 intra prediction asm optimizations
3 ;* Copyright (c) 2010 Jason Garrett-Glaser
4 ;*
5 ;* This file is part of FFmpeg.
6 ;*
7 ;* FFmpeg is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* FFmpeg is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with FFmpeg; if not, write to the Free Software
19 ;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "x86inc.asm"
23
24 SECTION_RODATA
25
26 tm_shuf: times 8 db 0x03, 0x80
27
28 SECTION .text
29
30 cextern pb_3
31
32 ;-----------------------------------------------------------------------------
33 ; void pred16x16_vertical(uint8_t *src, int stride)
34 ;-----------------------------------------------------------------------------
35
36 cglobal pred16x16_vertical_mmx, 2,3
37     sub   r0, r1
38     mov   r2, 8
39     movq mm0, [r0+0]
40     movq mm1, [r0+8]
41 .loop:
42     movq [r0+r1*1+0], mm0
43     movq [r0+r1*1+8], mm1
44     movq [r0+r1*2+0], mm0
45     movq [r0+r1*2+8], mm1
46     lea   r0, [r0+r1*2]
47     dec   r2
48     jg .loop
49     REP_RET
50
51 cglobal pred16x16_vertical_sse, 2,3
52     sub   r0, r1
53     mov   r2, 4
54     movaps xmm0, [r0]
55 .loop:
56     movaps [r0+r1*1], xmm0
57     movaps [r0+r1*2], xmm0
58     lea   r0, [r0+r1*2]
59     movaps [r0+r1*1], xmm0
60     movaps [r0+r1*2], xmm0
61     lea   r0, [r0+r1*2]
62     dec   r2
63     jg .loop
64     REP_RET
65
66 ;-----------------------------------------------------------------------------
67 ; void pred16x16_horizontal(uint8_t *src, int stride)
68 ;-----------------------------------------------------------------------------
69
70 %macro PRED16x16_H 1
71 cglobal pred16x16_horizontal_%1, 2,3
72     mov       r2, 8
73 %ifidn %1, ssse3
74     mova      m2, [pb_3]
75 %endif
76 .loop:
77     movd      m0, [r0+r1*0-4]
78     movd      m1, [r0+r1*1-4]
79
80 %ifidn %1, ssse3
81     pshufb    m0, m2
82     pshufb    m1, m2
83 %else
84     punpcklbw m0, m0
85     punpcklbw m1, m1
86 %ifidn %1, mmxext
87     pshufw    m0, m0, 0xff
88     pshufw    m1, m1, 0xff
89 %else
90     punpckhwd m0, m0
91     punpckhwd m1, m1
92     punpckhdq m0, m0
93     punpckhdq m1, m1
94 %endif
95     mova [r0+r1*0+8], m0
96     mova [r0+r1*1+8], m1
97 %endif
98
99     mova [r0+r1*0], m0
100     mova [r0+r1*1], m1
101     lea       r0, [r0+r1*2]
102     dec       r2
103     jg .loop
104     REP_RET
105 %endmacro
106
107 INIT_MMX
108 PRED16x16_H mmx
109 PRED16x16_H mmxext
110 INIT_XMM
111 PRED16x16_H ssse3
112
113 ;-----------------------------------------------------------------------------
114 ; void pred16x16_dc(uint8_t *src, int stride)
115 ;-----------------------------------------------------------------------------
116
117 %macro PRED16x16_DC 2
118 cglobal pred16x16_dc_%1, 2,7
119     mov       r4, r0
120     sub       r0, r1
121     pxor      mm0, mm0
122     pxor      mm1, mm1
123     psadbw    mm0, [r0+0]
124     psadbw    mm1, [r0+8]
125     dec        r0
126     movzx     r5d, byte [r0+r1*1]
127     paddw     mm0, mm1
128     movd      r6d, mm0
129     lea        r0, [r0+r1*2]
130 %rep 7
131     movzx     r2d, byte [r0+r1*0]
132     movzx     r3d, byte [r0+r1*1]
133     add       r5d, r2d
134     add       r6d, r3d
135     lea        r0, [r0+r1*2]
136 %endrep
137     movzx     r2d, byte [r0+r1*0]
138     add       r5d, r6d
139     lea       r2d, [r2+r5+16]
140     shr       r2d, 5
141 %ifidn %1, mmxext
142     movd       m0, r2d
143     punpcklbw  m0, m0
144     pshufw     m0, m0, 0
145 %elifidn %1, sse
146     imul      r2d, 0x01010101
147     movd       m0, r2d
148     shufps     m0, m0, 0
149 %elifidn %1, sse2
150     movd       m0, r2d
151     punpcklbw  m0, m0
152     pshuflw    m0, m0, 0
153     punpcklqdq m0, m0
154 %elifidn %1, ssse3
155     pxor       m1, m1
156     movd       m0, r2d
157     pshufb     m0, m1
158 %endif
159
160 %if mmsize==8
161     mov       r3d, 8
162 .loop:
163     %2 [r4+r1*0+0], m0
164     %2 [r4+r1*0+8], m0
165     %2 [r4+r1*1+0], m0
166     %2 [r4+r1*1+8], m0
167 %else
168     mov       r3d, 4
169 .loop:
170     %2 [r4+r1*0], m0
171     %2 [r4+r1*1], m0
172     lea   r4, [r4+r1*2]
173     %2 [r4+r1*0], m0
174     %2 [r4+r1*1], m0
175 %endif
176     lea   r4, [r4+r1*2]
177     dec   r3d
178     jg .loop
179     REP_RET
180 %endmacro
181
182 INIT_MMX
183 PRED16x16_DC mmxext, movq
184 INIT_XMM
185 PRED16x16_DC    sse, movaps
186 PRED16x16_DC   sse2, movdqa
187 PRED16x16_DC  ssse3, movdqa
188
189 ;-----------------------------------------------------------------------------
190 ; void pred16x16_tm_vp8(uint8_t *src, int stride)
191 ;-----------------------------------------------------------------------------
192
193 %macro PRED16x16_TM_MMX 1
194 cglobal pred16x16_tm_vp8_%1, 2,5
195     sub        r0, r1
196     pxor      mm7, mm7
197     movq      mm0, [r0+0]
198     movq      mm2, [r0+8]
199     movq      mm1, mm0
200     movq      mm3, mm2
201     punpcklbw mm0, mm7
202     punpckhbw mm1, mm7
203     punpcklbw mm2, mm7
204     punpckhbw mm3, mm7
205     movzx     r3d, byte [r0-1]
206     mov       r4d, 16
207 .loop:
208     movzx     r2d, byte [r0+r1-1]
209     sub       r2d, r3d
210     movd      mm4, r2d
211 %ifidn %1, mmx
212     punpcklwd mm4, mm4
213     punpckldq mm4, mm4
214 %else
215     pshufw    mm4, mm4, 0
216 %endif
217     movq      mm5, mm4
218     movq      mm6, mm4
219     movq      mm7, mm4
220     paddw     mm4, mm0
221     paddw     mm5, mm1
222     paddw     mm6, mm2
223     paddw     mm7, mm3
224     packuswb  mm4, mm5
225     packuswb  mm6, mm7
226     movq [r0+r1+0], mm4
227     movq [r0+r1+8], mm6
228     add        r0, r1
229     dec       r4d
230     jg .loop
231     REP_RET
232 %endmacro
233
234 PRED16x16_TM_MMX mmx
235 PRED16x16_TM_MMX mmxext
236
237 cglobal pred16x16_tm_vp8_sse2, 2,6,6
238     sub          r0, r1
239     pxor       xmm2, xmm2
240     movdqa     xmm0, [r0]
241     movdqa     xmm1, xmm0
242     punpcklbw  xmm0, xmm2
243     punpckhbw  xmm1, xmm2
244     movzx       r4d, byte [r0-1]
245     mov         r5d, 8
246 .loop:
247     movzx       r2d, byte [r0+r1*1-1]
248     movzx       r3d, byte [r0+r1*2-1]
249     sub         r2d, r4d
250     sub         r3d, r4d
251     movd       xmm2, r2d
252     movd       xmm4, r3d
253     pshuflw    xmm2, xmm2, 0
254     pshuflw    xmm4, xmm4, 0
255     punpcklqdq xmm2, xmm2
256     punpcklqdq xmm4, xmm4
257     movdqa     xmm3, xmm2
258     movdqa     xmm5, xmm4
259     paddw      xmm2, xmm0
260     paddw      xmm3, xmm1
261     paddw      xmm4, xmm0
262     paddw      xmm5, xmm1
263     packuswb   xmm2, xmm3
264     packuswb   xmm4, xmm5
265     movdqa [r0+r1*1], xmm2
266     movdqa [r0+r1*2], xmm4
267     lea          r0, [r0+r1*2]
268     dec         r5d
269     jg .loop
270     REP_RET
271
272 ;-----------------------------------------------------------------------------
273 ; void pred8x8_vertical(uint8_t *src, int stride)
274 ;-----------------------------------------------------------------------------
275
276 cglobal pred8x8_vertical_mmx, 2,2
277     sub    r0, r1
278     movq  mm0, [r0]
279 %rep 3
280     movq [r0+r1*1], mm0
281     movq [r0+r1*2], mm0
282     lea    r0, [r0+r1*2]
283 %endrep
284     movq [r0+r1*1], mm0
285     movq [r0+r1*2], mm0
286     RET
287
288 ;-----------------------------------------------------------------------------
289 ; void pred8x8_horizontal(uint8_t *src, int stride)
290 ;-----------------------------------------------------------------------------
291
292 %macro PRED8x8_H 1
293 cglobal pred8x8_horizontal_%1, 2,3
294     mov       r2, 4
295 %ifidn %1, ssse3
296     mova      m2, [pb_3]
297 %endif
298 .loop:
299     movd      m0, [r0+r1*0-4]
300     movd      m1, [r0+r1*1-4]
301 %ifidn %1, ssse3
302     pshufb    m0, m2
303     pshufb    m1, m2
304 %else
305     punpcklbw m0, m0
306     punpcklbw m1, m1
307 %ifidn %1, mmxext
308     pshufw    m0, m0, 0xff
309     pshufw    m1, m1, 0xff
310 %else
311     punpckhwd m0, m0
312     punpckhwd m1, m1
313     punpckhdq m0, m0
314     punpckhdq m1, m1
315 %endif
316 %endif
317     mova [r0+r1*0], m0
318     mova [r0+r1*1], m1
319     lea       r0, [r0+r1*2]
320     dec       r2
321     jg .loop
322     REP_RET
323 %endmacro
324
325 INIT_MMX
326 PRED8x8_H mmx
327 PRED8x8_H mmxext
328 PRED8x8_H ssse3
329
330 ;-----------------------------------------------------------------------------
331 ; void pred8x8_dc_rv40(uint8_t *src, int stride)
332 ;-----------------------------------------------------------------------------
333
334 cglobal pred8x8_dc_rv40_mmxext, 2,7
335     mov       r4, r0
336     sub       r0, r1
337     pxor      mm0, mm0
338     psadbw    mm0, [r0]
339     dec        r0
340     movzx     r5d, byte [r0+r1*1]
341     movd      r6d, mm0
342     lea        r0, [r0+r1*2]
343 %rep 3
344     movzx     r2d, byte [r0+r1*0]
345     movzx     r3d, byte [r0+r1*1]
346     add       r5d, r2d
347     add       r6d, r3d
348     lea        r0, [r0+r1*2]
349 %endrep
350     movzx     r2d, byte [r0+r1*0]
351     add       r5d, r6d
352     lea       r2d, [r2+r5+8]
353     shr       r2d, 4
354     movd      mm0, r2d
355     punpcklbw mm0, mm0
356     pshufw    mm0, mm0, 0
357     mov       r3d, 4
358 .loop:
359     movq [r4+r1*0], mm0
360     movq [r4+r1*1], mm0
361     lea   r4, [r4+r1*2]
362     dec   r3d
363     jg .loop
364     REP_RET
365
366 ;-----------------------------------------------------------------------------
367 ; void pred8x8_tm_vp8(uint8_t *src, int stride)
368 ;-----------------------------------------------------------------------------
369
370 %macro PRED8x8_TM_MMX 1
371 cglobal pred8x8_tm_vp8_%1, 2,6
372     sub        r0, r1
373     pxor      mm7, mm7
374     movq      mm0, [r0]
375     movq      mm1, mm0
376     punpcklbw mm0, mm7
377     punpckhbw mm1, mm7
378     movzx     r4d, byte [r0-1]
379     mov       r5d, 4
380 .loop:
381     movzx     r2d, byte [r0+r1*1-1]
382     movzx     r3d, byte [r0+r1*2-1]
383     sub       r2d, r4d
384     sub       r3d, r4d
385     movd      mm2, r2d
386     movd      mm4, r3d
387 %ifidn %1, mmx
388     punpcklwd mm2, mm2
389     punpcklwd mm4, mm4
390     punpckldq mm2, mm2
391     punpckldq mm4, mm4
392 %else
393     pshufw    mm2, mm2, 0
394     pshufw    mm4, mm4, 0
395 %endif
396     movq      mm3, mm2
397     movq      mm5, mm4
398     paddw     mm2, mm0
399     paddw     mm3, mm1
400     paddw     mm4, mm0
401     paddw     mm5, mm1
402     packuswb  mm2, mm3
403     packuswb  mm4, mm5
404     movq [r0+r1*1], mm2
405     movq [r0+r1*2], mm4
406     lea        r0, [r0+r1*2]
407     dec       r5d
408     jg .loop
409     REP_RET
410 %endmacro
411
412 PRED8x8_TM_MMX mmx
413 PRED8x8_TM_MMX mmxext
414
415 cglobal pred8x8_tm_vp8_sse2, 2,6,4
416     sub          r0, r1
417     pxor       xmm1, xmm1
418     movq       xmm0, [r0]
419     punpcklbw  xmm0, xmm1
420     movzx       r4d, byte [r0-1]
421     mov         r5d, 4
422 .loop:
423     movzx       r2d, byte [r0+r1*1-1]
424     movzx       r3d, byte [r0+r1*2-1]
425     sub         r2d, r4d
426     sub         r3d, r4d
427     movd       xmm2, r2d
428     movd       xmm3, r3d
429     pshuflw    xmm2, xmm2, 0
430     pshuflw    xmm3, xmm3, 0
431     punpcklqdq xmm2, xmm2
432     punpcklqdq xmm3, xmm3
433     paddw      xmm2, xmm0
434     paddw      xmm3, xmm0
435     packuswb   xmm2, xmm3
436     movq   [r0+r1*1], xmm2
437     movhps [r0+r1*2], xmm2
438     lea          r0, [r0+r1*2]
439     dec         r5d
440     jg .loop
441     REP_RET
442
443 cglobal pred8x8_tm_vp8_ssse3, 2,3,6
444     sub          r0, r1
445     movdqa     xmm4, [tm_shuf]
446     pxor       xmm1, xmm1
447     movq       xmm0, [r0]
448     punpcklbw  xmm0, xmm1
449     movd       xmm5, [r0-4]
450     pshufb     xmm5, xmm4
451     mov         r2d, 4
452 .loop:
453     movd       xmm2, [r0+r1*1-4]
454     movd       xmm3, [r0+r1*2-4]
455     pshufb     xmm2, xmm4
456     pshufb     xmm3, xmm4
457     psubw      xmm2, xmm5
458     psubw      xmm3, xmm5
459     paddw      xmm2, xmm0
460     paddw      xmm3, xmm0
461     packuswb   xmm2, xmm3
462     movq   [r0+r1*1], xmm2
463     movhps [r0+r1*2], xmm2
464     lea          r0, [r0+r1*2]
465     dec         r2d
466     jg .loop
467     REP_RET
468
469 ;-----------------------------------------------------------------------------
470 ; void pred4x4_dc_mmxext(uint8_t *src, const uint8_t *topright, int stride)
471 ;-----------------------------------------------------------------------------
472
473 cglobal pred4x4_dc_mmxext, 3,5
474     pxor   mm7, mm7
475     mov     r4, r0
476     sub     r0, r2
477     movd   mm0, [r0]
478     psadbw mm0, mm7
479     movzx  r1d, byte [r0+r2*1-1]
480     movd   r3d, mm0
481     add    r3d, r1d
482     movzx  r1d, byte [r0+r2*2-1]
483     lea     r0, [r0+r2*2]
484     add    r3d, r1d
485     movzx  r1d, byte [r0+r2*1-1]
486     add    r3d, r1d
487     movzx  r1d, byte [r0+r2*2-1]
488     add    r3d, r1d
489     add    r3d, 4
490     shr    r3d, 3
491     imul   r3d, 0x01010101
492     mov   [r4+r2*0], r3d
493     mov   [r0+r2*0], r3d
494     mov   [r0+r2*1], r3d
495     mov   [r0+r2*2], r3d
496     RET