]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_deblock.asm
mpegvideo: initialize dummy reference frames.
[ffmpeg] / libavcodec / x86 / h264_deblock.asm
1 ;*****************************************************************************
2 ;* MMX/SSE2/AVX-optimized H.264 deblocking code
3 ;*****************************************************************************
4 ;* Copyright (C) 2005-2011 x264 project
5 ;*
6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
7 ;*          Jason Garrett-Glaser <darkshikari@gmail.com>
8 ;*          Oskar Arvidsson <oskar@irock.se>
9 ;*
10 ;* This file is part of Libav.
11 ;*
12 ;* Libav is free software; you can redistribute it and/or
13 ;* modify it under the terms of the GNU Lesser General Public
14 ;* License as published by the Free Software Foundation; either
15 ;* version 2.1 of the License, or (at your option) any later version.
16 ;*
17 ;* Libav is distributed in the hope that it will be useful,
18 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
19 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
20 ;* Lesser General Public License for more details.
21 ;*
22 ;* You should have received a copy of the GNU Lesser General Public
23 ;* License along with Libav; if not, write to the Free Software
24 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
25 ;******************************************************************************
26
27 %include "libavutil/x86/x86util.asm"
28
29 SECTION_RODATA
30
31 pb_3_1: times 4 db 3, 1
32
33 SECTION .text
34
35 cextern pb_0
36 cextern pb_1
37 cextern pb_3
38 cextern pb_A1
39
40 ; expands to [base],...,[base+7*stride]
41 %define PASS8ROWS(base, base3, stride, stride3) \
42     [base], [base+stride], [base+stride*2], [base3], \
43     [base3+stride], [base3+stride*2], [base3+stride3], [base3+stride*4]
44
45 %define PASS8ROWS(base, base3, stride, stride3, offset) \
46     PASS8ROWS(base+offset, base3+offset, stride, stride3)
47
48 ; in: 8 rows of 4 bytes in %4..%11
49 ; out: 4 rows of 8 bytes in m0..m3
50 %macro TRANSPOSE4x8_LOAD 11
51     movh       m0, %4
52     movh       m2, %5
53     movh       m1, %6
54     movh       m3, %7
55     punpckl%1  m0, m2
56     punpckl%1  m1, m3
57     mova       m2, m0
58     punpckl%2  m0, m1
59     punpckh%2  m2, m1
60
61     movh       m4, %8
62     movh       m6, %9
63     movh       m5, %10
64     movh       m7, %11
65     punpckl%1  m4, m6
66     punpckl%1  m5, m7
67     mova       m6, m4
68     punpckl%2  m4, m5
69     punpckh%2  m6, m5
70
71     punpckh%3  m1, m0, m4
72     punpckh%3  m3, m2, m6
73     punpckl%3  m0, m4
74     punpckl%3  m2, m6
75 %endmacro
76
77 ; in: 4 rows of 8 bytes in m0..m3
78 ; out: 8 rows of 4 bytes in %1..%8
79 %macro TRANSPOSE8x4B_STORE 8
80     punpckhdq  m4, m0, m0
81     punpckhdq  m5, m1, m1
82     punpckhdq  m6, m2, m2
83
84     punpcklbw  m0, m1
85     punpcklbw  m2, m3
86     punpcklwd  m1, m0, m2
87     punpckhwd  m0, m2
88     movh       %1, m1
89     punpckhdq  m1, m1
90     movh       %2, m1
91     movh       %3, m0
92     punpckhdq  m0, m0
93     movh       %4, m0
94
95     punpckhdq  m3, m3
96     punpcklbw  m4, m5
97     punpcklbw  m6, m3
98     punpcklwd  m5, m4, m6
99     punpckhwd  m4, m6
100     movh       %5, m5
101     punpckhdq  m5, m5
102     movh       %6, m5
103     movh       %7, m4
104     punpckhdq  m4, m4
105     movh       %8, m4
106 %endmacro
107
108 %macro TRANSPOSE4x8B_LOAD 8
109     TRANSPOSE4x8_LOAD bw, wd, dq, %1, %2, %3, %4, %5, %6, %7, %8
110 %endmacro
111
112 %macro SBUTTERFLY3 4
113     punpckh%1  %4, %2, %3
114     punpckl%1  %2, %3
115 %endmacro
116
117 ; in: 8 rows of 8 (only the middle 6 pels are used) in %1..%8
118 ; out: 6 rows of 8 in [%9+0*16] .. [%9+5*16]
119 %macro TRANSPOSE6x8_MEM 9
120     RESET_MM_PERMUTATION
121     movq  m0, %1
122     movq  m1, %2
123     movq  m2, %3
124     movq  m3, %4
125     movq  m4, %5
126     movq  m5, %6
127     movq  m6, %7
128     SBUTTERFLY bw, 0, 1, 7
129     SBUTTERFLY bw, 2, 3, 7
130     SBUTTERFLY bw, 4, 5, 7
131     movq  [%9+0x10], m3
132     SBUTTERFLY3 bw, m6, %8, m7
133     SBUTTERFLY wd, 0, 2, 3
134     SBUTTERFLY wd, 4, 6, 3
135     punpckhdq m0, m4
136     movq  [%9+0x00], m0
137     SBUTTERFLY3 wd, m1, [%9+0x10], m3
138     SBUTTERFLY wd, 5, 7, 0
139     SBUTTERFLY dq, 1, 5, 0
140     SBUTTERFLY dq, 2, 6, 0
141     punpckldq m3, m7
142     movq  [%9+0x10], m2
143     movq  [%9+0x20], m6
144     movq  [%9+0x30], m1
145     movq  [%9+0x40], m5
146     movq  [%9+0x50], m3
147     RESET_MM_PERMUTATION
148 %endmacro
149
150 ; in: 8 rows of 8 in %1..%8
151 ; out: 8 rows of 8 in %9..%16
152 %macro TRANSPOSE8x8_MEM 16
153     RESET_MM_PERMUTATION
154     movq  m0, %1
155     movq  m1, %2
156     movq  m2, %3
157     movq  m3, %4
158     movq  m4, %5
159     movq  m5, %6
160     movq  m6, %7
161     SBUTTERFLY bw, 0, 1, 7
162     SBUTTERFLY bw, 2, 3, 7
163     SBUTTERFLY bw, 4, 5, 7
164     SBUTTERFLY3 bw, m6, %8, m7
165     movq  %9,  m5
166     SBUTTERFLY wd, 0, 2, 5
167     SBUTTERFLY wd, 4, 6, 5
168     SBUTTERFLY wd, 1, 3, 5
169     movq  %11, m6
170     movq  m6,  %9
171     SBUTTERFLY wd, 6, 7, 5
172     SBUTTERFLY dq, 0, 4, 5
173     SBUTTERFLY dq, 1, 6, 5
174     movq  %9,  m0
175     movq  %10, m4
176     movq  %13, m1
177     movq  %14, m6
178     SBUTTERFLY3 dq, m2, %11, m0
179     SBUTTERFLY dq, 3, 7, 4
180     movq  %11, m2
181     movq  %12, m0
182     movq  %15, m3
183     movq  %16, m7
184     RESET_MM_PERMUTATION
185 %endmacro
186
187 ; out: %4 = |%1-%2|>%3
188 ; clobbers: %5
189 %macro DIFF_GT 5
190 %if avx_enabled == 0
191     mova    %5, %2
192     mova    %4, %1
193     psubusb %5, %1
194     psubusb %4, %2
195 %else
196     psubusb %5, %2, %1
197     psubusb %4, %1, %2
198 %endif
199     por     %4, %5
200     psubusb %4, %3
201 %endmacro
202
203 ; out: %4 = |%1-%2|>%3
204 ; clobbers: %5
205 %macro DIFF_GT2 5
206 %if ARCH_X86_64
207     psubusb %5, %2, %1
208     psubusb %4, %1, %2
209 %else
210     mova    %5, %2
211     mova    %4, %1
212     psubusb %5, %1
213     psubusb %4, %2
214 %endif
215     psubusb %5, %3
216     psubusb %4, %3
217     pcmpeqb %4, %5
218 %endmacro
219
220 ; in: m0=p1 m1=p0 m2=q0 m3=q1 %1=alpha-1 %2=beta-1
221 ; out: m5=beta-1, m7=mask, %3=alpha-1
222 ; clobbers: m4,m6
223 %macro LOAD_MASK 2-3
224     movd     m4, %1
225     movd     m5, %2
226     SPLATW   m4, m4
227     SPLATW   m5, m5
228     packuswb m4, m4  ; 16x alpha-1
229     packuswb m5, m5  ; 16x beta-1
230 %if %0>2
231     mova     %3, m4
232 %endif
233     DIFF_GT  m1, m2, m4, m7, m6 ; |p0-q0| > alpha-1
234     DIFF_GT  m0, m1, m5, m4, m6 ; |p1-p0| > beta-1
235     por      m7, m4
236     DIFF_GT  m3, m2, m5, m4, m6 ; |q1-q0| > beta-1
237     por      m7, m4
238     pxor     m6, m6
239     pcmpeqb  m7, m6
240 %endmacro
241
242 ; in: m0=p1 m1=p0 m2=q0 m3=q1 m7=(tc&mask)
243 ; out: m1=p0' m2=q0'
244 ; clobbers: m0,3-6
245 %macro DEBLOCK_P0_Q0 0
246     pcmpeqb m4, m4
247     pxor    m5, m1, m2   ; p0^q0
248     pxor    m3, m4
249     pand    m5, [pb_1]   ; (p0^q0)&1
250     pavgb   m3, m0       ; (p1 - q1 + 256)>>1
251     pxor    m4, m1
252     pavgb   m3, [pb_3]   ; (((p1 - q1 + 256)>>1)+4)>>1 = 64+2+(p1-q1)>>2
253     pavgb   m4, m2       ; (q0 - p0 + 256)>>1
254     pavgb   m3, m5
255     mova    m6, [pb_A1]
256     paddusb m3, m4       ; d+128+33
257     psubusb m6, m3
258     psubusb m3, [pb_A1]
259     pminub  m6, m7
260     pminub  m3, m7
261     psubusb m1, m6
262     psubusb m2, m3
263     paddusb m1, m3
264     paddusb m2, m6
265 %endmacro
266
267 ; in: m1=p0 m2=q0
268 ;     %1=p1 %2=q2 %3=[q2] %4=[q1] %5=tc0 %6=tmp
269 ; out: [q1] = clip( (q2+((p0+q0+1)>>1))>>1, q1-tc0, q1+tc0 )
270 ; clobbers: q2, tmp, tc0
271 %macro LUMA_Q1 6
272     pavgb   %6, m1, m2
273     pavgb   %2, %6       ; avg(p2,avg(p0,q0))
274     pxor    %6, %3
275     pand    %6, [pb_1]   ; (p2^avg(p0,q0))&1
276     psubusb %2, %6       ; (p2+((p0+q0+1)>>1))>>1
277     psubusb %6, %1, %5
278     paddusb %5, %1
279     pmaxub  %2, %6
280     pminub  %2, %5
281     mova    %4, %2
282 %endmacro
283
284 %if ARCH_X86_64
285 ;-----------------------------------------------------------------------------
286 ; void deblock_v_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
287 ;-----------------------------------------------------------------------------
288 %macro DEBLOCK_LUMA 0
289 cglobal deblock_v_luma_8, 5,5,10
290     movd    m8, [r4] ; tc0
291     lea     r4, [r1*3]
292     dec     r2d        ; alpha-1
293     neg     r4
294     dec     r3d        ; beta-1
295     add     r4, r0     ; pix-3*stride
296
297     mova    m0, [r4+r1]   ; p1
298     mova    m1, [r4+2*r1] ; p0
299     mova    m2, [r0]      ; q0
300     mova    m3, [r0+r1]   ; q1
301     LOAD_MASK r2d, r3d
302
303     punpcklbw m8, m8
304     punpcklbw m8, m8 ; tc = 4x tc0[3], 4x tc0[2], 4x tc0[1], 4x tc0[0]
305     pcmpeqb m9, m9
306     pcmpeqb m9, m8
307     pandn   m9, m7
308     pand    m8, m9
309
310     movdqa  m3, [r4] ; p2
311     DIFF_GT2 m1, m3, m5, m6, m7 ; |p2-p0| > beta-1
312     pand    m6, m9
313     psubb   m7, m8, m6
314     pand    m6, m8
315     LUMA_Q1 m0, m3, [r4], [r4+r1], m6, m4
316
317     movdqa  m4, [r0+2*r1] ; q2
318     DIFF_GT2 m2, m4, m5, m6, m3 ; |q2-q0| > beta-1
319     pand    m6, m9
320     pand    m8, m6
321     psubb   m7, m6
322     mova    m3, [r0+r1]
323     LUMA_Q1 m3, m4, [r0+2*r1], [r0+r1], m8, m6
324
325     DEBLOCK_P0_Q0
326     mova    [r4+2*r1], m1
327     mova    [r0], m2
328     RET
329
330 ;-----------------------------------------------------------------------------
331 ; void deblock_h_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
332 ;-----------------------------------------------------------------------------
333 INIT_MMX cpuname
334 cglobal deblock_h_luma_8, 5,9
335     movsxd r7,  r1d
336     lea    r8,  [r7+r7*2]
337     lea    r6,  [r0-4]
338     lea    r5,  [r0-4+r8]
339 %if WIN64
340     sub    rsp, 0x98
341     %define pix_tmp rsp+0x30
342 %else
343     sub    rsp, 0x68
344     %define pix_tmp rsp
345 %endif
346
347     ; transpose 6x16 -> tmp space
348     TRANSPOSE6x8_MEM  PASS8ROWS(r6, r5, r7, r8), pix_tmp
349     lea    r6, [r6+r7*8]
350     lea    r5, [r5+r7*8]
351     TRANSPOSE6x8_MEM  PASS8ROWS(r6, r5, r7, r8), pix_tmp+8
352
353     ; vertical filter
354     ; alpha, beta, tc0 are still in r2d, r3d, r4
355     ; don't backup r6, r5, r7, r8 because deblock_v_luma_sse2 doesn't use them
356     lea    r0, [pix_tmp+0x30]
357     mov    r1d, 0x10
358 %if WIN64
359     mov    [rsp+0x20], r4
360 %endif
361     call   deblock_v_luma_8
362
363     ; transpose 16x4 -> original space  (only the middle 4 rows were changed by the filter)
364     add    r6, 2
365     add    r5, 2
366     movq   m0, [pix_tmp+0x18]
367     movq   m1, [pix_tmp+0x28]
368     movq   m2, [pix_tmp+0x38]
369     movq   m3, [pix_tmp+0x48]
370     TRANSPOSE8x4B_STORE  PASS8ROWS(r6, r5, r7, r8)
371
372     shl    r7,  3
373     sub    r6,  r7
374     sub    r5,  r7
375     shr    r7,  3
376     movq   m0, [pix_tmp+0x10]
377     movq   m1, [pix_tmp+0x20]
378     movq   m2, [pix_tmp+0x30]
379     movq   m3, [pix_tmp+0x40]
380     TRANSPOSE8x4B_STORE  PASS8ROWS(r6, r5, r7, r8)
381
382 %if WIN64
383     add    rsp, 0x98
384 %else
385     add    rsp, 0x68
386 %endif
387     RET
388 %endmacro
389
390 INIT_XMM sse2
391 DEBLOCK_LUMA
392 INIT_XMM avx
393 DEBLOCK_LUMA
394
395 %else
396
397 %macro DEBLOCK_LUMA 2
398 ;-----------------------------------------------------------------------------
399 ; void deblock_v8_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
400 ;-----------------------------------------------------------------------------
401 cglobal deblock_%1_luma_8, 5,5,8,2*%2
402     lea     r4, [r1*3]
403     dec     r2     ; alpha-1
404     neg     r4
405     dec     r3     ; beta-1
406     add     r4, r0 ; pix-3*stride
407
408     mova    m0, [r4+r1]   ; p1
409     mova    m1, [r4+2*r1] ; p0
410     mova    m2, [r0]      ; q0
411     mova    m3, [r0+r1]   ; q1
412     LOAD_MASK r2, r3
413
414     mov     r3, r4mp
415     pcmpeqb m3, m3
416     movd    m4, [r3] ; tc0
417     punpcklbw m4, m4
418     punpcklbw m4, m4 ; tc = 4x tc0[3], 4x tc0[2], 4x tc0[1], 4x tc0[0]
419     mova   [esp+%2], m4 ; tc
420     pcmpgtb m4, m3
421     mova    m3, [r4] ; p2
422     pand    m4, m7
423     mova   [esp], m4 ; mask
424
425     DIFF_GT2 m1, m3, m5, m6, m7 ; |p2-p0| > beta-1
426     pand    m6, m4
427     pand    m4, [esp+%2] ; tc
428     psubb   m7, m4, m6
429     pand    m6, m4
430     LUMA_Q1 m0, m3, [r4], [r4+r1], m6, m4
431
432     mova    m4, [r0+2*r1] ; q2
433     DIFF_GT2 m2, m4, m5, m6, m3 ; |q2-q0| > beta-1
434     pand    m6, [esp] ; mask
435     mova    m5, [esp+%2] ; tc
436     psubb   m7, m6
437     pand    m5, m6
438     mova    m3, [r0+r1]
439     LUMA_Q1 m3, m4, [r0+2*r1], [r0+r1], m5, m6
440
441     DEBLOCK_P0_Q0
442     mova    [r4+2*r1], m1
443     mova    [r0], m2
444     RET
445
446 ;-----------------------------------------------------------------------------
447 ; void deblock_h_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
448 ;-----------------------------------------------------------------------------
449 INIT_MMX cpuname
450 cglobal deblock_h_luma_8, 0,5,8,0x60+HAVE_ALIGNED_STACK*12
451     mov    r0, r0mp
452     mov    r3, r1m
453     lea    r4, [r3*3]
454     sub    r0, 4
455     lea    r1, [r0+r4]
456 %define pix_tmp esp+12*HAVE_ALIGNED_STACK
457
458     ; transpose 6x16 -> tmp space
459     TRANSPOSE6x8_MEM  PASS8ROWS(r0, r1, r3, r4), pix_tmp
460     lea    r0, [r0+r3*8]
461     lea    r1, [r1+r3*8]
462     TRANSPOSE6x8_MEM  PASS8ROWS(r0, r1, r3, r4), pix_tmp+8
463
464     ; vertical filter
465     lea    r0, [pix_tmp+0x30]
466     PUSH   dword r4m
467     PUSH   dword r3m
468     PUSH   dword r2m
469     PUSH   dword 16
470     PUSH   dword r0
471     call   deblock_%1_luma_8
472 %ifidn %1, v8
473     add    dword [esp   ], 8 ; pix_tmp+0x38
474     add    dword [esp+16], 2 ; tc0+2
475     call   deblock_%1_luma_8
476 %endif
477     ADD    esp, 20
478
479     ; transpose 16x4 -> original space  (only the middle 4 rows were changed by the filter)
480     mov    r0, r0mp
481     sub    r0, 2
482
483     movq   m0, [pix_tmp+0x10]
484     movq   m1, [pix_tmp+0x20]
485     lea    r1, [r0+r4]
486     movq   m2, [pix_tmp+0x30]
487     movq   m3, [pix_tmp+0x40]
488     TRANSPOSE8x4B_STORE  PASS8ROWS(r0, r1, r3, r4)
489
490     lea    r0, [r0+r3*8]
491     lea    r1, [r1+r3*8]
492     movq   m0, [pix_tmp+0x18]
493     movq   m1, [pix_tmp+0x28]
494     movq   m2, [pix_tmp+0x38]
495     movq   m3, [pix_tmp+0x48]
496     TRANSPOSE8x4B_STORE  PASS8ROWS(r0, r1, r3, r4)
497
498     RET
499 %endmacro ; DEBLOCK_LUMA
500
501 INIT_MMX mmxext
502 DEBLOCK_LUMA v8, 8
503 INIT_XMM sse2
504 DEBLOCK_LUMA v, 16
505 INIT_XMM avx
506 DEBLOCK_LUMA v, 16
507
508 %endif ; ARCH
509
510
511
512 %macro LUMA_INTRA_P012 4 ; p0..p3 in memory
513 %if ARCH_X86_64
514     pavgb t0, p2, p1
515     pavgb t1, p0, q0
516 %else
517     mova  t0, p2
518     mova  t1, p0
519     pavgb t0, p1
520     pavgb t1, q0
521 %endif
522     pavgb t0, t1 ; ((p2+p1+1)/2 + (p0+q0+1)/2 + 1)/2
523     mova  t5, t1
524 %if ARCH_X86_64
525     paddb t2, p2, p1
526     paddb t3, p0, q0
527 %else
528     mova  t2, p2
529     mova  t3, p0
530     paddb t2, p1
531     paddb t3, q0
532 %endif
533     paddb t2, t3
534     mova  t3, t2
535     mova  t4, t2
536     psrlw t2, 1
537     pavgb t2, mpb_0
538     pxor  t2, t0
539     pand  t2, mpb_1
540     psubb t0, t2 ; p1' = (p2+p1+p0+q0+2)/4;
541
542 %if ARCH_X86_64
543     pavgb t1, p2, q1
544     psubb t2, p2, q1
545 %else
546     mova  t1, p2
547     mova  t2, p2
548     pavgb t1, q1
549     psubb t2, q1
550 %endif
551     paddb t3, t3
552     psubb t3, t2 ; p2+2*p1+2*p0+2*q0+q1
553     pand  t2, mpb_1
554     psubb t1, t2
555     pavgb t1, p1
556     pavgb t1, t5 ; (((p2+q1)/2 + p1+1)/2 + (p0+q0+1)/2 + 1)/2
557     psrlw t3, 2
558     pavgb t3, mpb_0
559     pxor  t3, t1
560     pand  t3, mpb_1
561     psubb t1, t3 ; p0'a = (p2+2*p1+2*p0+2*q0+q1+4)/8
562
563     pxor  t3, p0, q1
564     pavgb t2, p0, q1
565     pand  t3, mpb_1
566     psubb t2, t3
567     pavgb t2, p1 ; p0'b = (2*p1+p0+q0+2)/4
568
569     pxor  t1, t2
570     pxor  t2, p0
571     pand  t1, mask1p
572     pand  t2, mask0
573     pxor  t1, t2
574     pxor  t1, p0
575     mova  %1, t1 ; store p0
576
577     mova  t1, %4 ; p3
578     paddb t2, t1, p2
579     pavgb t1, p2
580     pavgb t1, t0 ; (p3+p2+1)/2 + (p2+p1+p0+q0+2)/4
581     paddb t2, t2
582     paddb t2, t4 ; 2*p3+3*p2+p1+p0+q0
583     psrlw t2, 2
584     pavgb t2, mpb_0
585     pxor  t2, t1
586     pand  t2, mpb_1
587     psubb t1, t2 ; p2' = (2*p3+3*p2+p1+p0+q0+4)/8
588
589     pxor  t0, p1
590     pxor  t1, p2
591     pand  t0, mask1p
592     pand  t1, mask1p
593     pxor  t0, p1
594     pxor  t1, p2
595     mova  %2, t0 ; store p1
596     mova  %3, t1 ; store p2
597 %endmacro
598
599 %macro LUMA_INTRA_SWAP_PQ 0
600     %define q1 m0
601     %define q0 m1
602     %define p0 m2
603     %define p1 m3
604     %define p2 q2
605     %define mask1p mask1q
606 %endmacro
607
608 %macro DEBLOCK_LUMA_INTRA 1
609     %define p1 m0
610     %define p0 m1
611     %define q0 m2
612     %define q1 m3
613     %define t0 m4
614     %define t1 m5
615     %define t2 m6
616     %define t3 m7
617 %if ARCH_X86_64
618     %define p2 m8
619     %define q2 m9
620     %define t4 m10
621     %define t5 m11
622     %define mask0 m12
623     %define mask1p m13
624     %define mask1q [rsp-24]
625     %define mpb_0 m14
626     %define mpb_1 m15
627 %else
628     %define spill(x) [esp+16*x]
629     %define p2 [r4+r1]
630     %define q2 [r0+2*r1]
631     %define t4 spill(0)
632     %define t5 spill(1)
633     %define mask0 spill(2)
634     %define mask1p spill(3)
635     %define mask1q spill(4)
636     %define mpb_0 [pb_0]
637     %define mpb_1 [pb_1]
638 %endif
639
640 ;-----------------------------------------------------------------------------
641 ; void deblock_v_luma_intra( uint8_t *pix, int stride, int alpha, int beta )
642 ;-----------------------------------------------------------------------------
643 cglobal deblock_%1_luma_intra_8, 4,6,16,ARCH_X86_64*0x50-0x50
644     lea     r4, [r1*4]
645     lea     r5, [r1*3] ; 3*stride
646     dec     r2d        ; alpha-1
647     jl .end
648     neg     r4
649     dec     r3d        ; beta-1
650     jl .end
651     add     r4, r0     ; pix-4*stride
652     mova    p1, [r4+2*r1]
653     mova    p0, [r4+r5]
654     mova    q0, [r0]
655     mova    q1, [r0+r1]
656 %if ARCH_X86_64
657     pxor    mpb_0, mpb_0
658     mova    mpb_1, [pb_1]
659     LOAD_MASK r2d, r3d, t5 ; m5=beta-1, t5=alpha-1, m7=mask0
660     SWAP    7, 12 ; m12=mask0
661     pavgb   t5, mpb_0
662     pavgb   t5, mpb_1 ; alpha/4+1
663     movdqa  p2, [r4+r1]
664     movdqa  q2, [r0+2*r1]
665     DIFF_GT2 p0, q0, t5, t0, t3 ; t0 = |p0-q0| > alpha/4+1
666     DIFF_GT2 p0, p2, m5, t2, t5 ; mask1 = |p2-p0| > beta-1
667     DIFF_GT2 q0, q2, m5, t4, t5 ; t4 = |q2-q0| > beta-1
668     pand    t0, mask0
669     pand    t4, t0
670     pand    t2, t0
671     mova    mask1q, t4
672     mova    mask1p, t2
673 %else
674     LOAD_MASK r2d, r3d, t5 ; m5=beta-1, t5=alpha-1, m7=mask0
675     mova    m4, t5
676     mova    mask0, m7
677     pavgb   m4, [pb_0]
678     pavgb   m4, [pb_1] ; alpha/4+1
679     DIFF_GT2 p0, q0, m4, m6, m7 ; m6 = |p0-q0| > alpha/4+1
680     pand    m6, mask0
681     DIFF_GT2 p0, p2, m5, m4, m7 ; m4 = |p2-p0| > beta-1
682     pand    m4, m6
683     mova    mask1p, m4
684     DIFF_GT2 q0, q2, m5, m4, m7 ; m4 = |q2-q0| > beta-1
685     pand    m4, m6
686     mova    mask1q, m4
687 %endif
688     LUMA_INTRA_P012 [r4+r5], [r4+2*r1], [r4+r1], [r4]
689     LUMA_INTRA_SWAP_PQ
690     LUMA_INTRA_P012 [r0], [r0+r1], [r0+2*r1], [r0+r5]
691 .end:
692     RET
693
694 INIT_MMX cpuname
695 %if ARCH_X86_64
696 ;-----------------------------------------------------------------------------
697 ; void deblock_h_luma_intra( uint8_t *pix, int stride, int alpha, int beta )
698 ;-----------------------------------------------------------------------------
699 cglobal deblock_h_luma_intra_8, 4,9
700     movsxd r7,  r1d
701     lea    r8,  [r7*3]
702     lea    r6,  [r0-4]
703     lea    r5,  [r0-4+r8]
704     sub    rsp, 0x88
705     %define pix_tmp rsp
706
707     ; transpose 8x16 -> tmp space
708     TRANSPOSE8x8_MEM  PASS8ROWS(r6, r5, r7, r8), PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30)
709     lea    r6, [r6+r7*8]
710     lea    r5, [r5+r7*8]
711     TRANSPOSE8x8_MEM  PASS8ROWS(r6, r5, r7, r8), PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30)
712
713     lea    r0,  [pix_tmp+0x40]
714     mov    r1,  0x10
715     call   deblock_v_luma_intra_8
716
717     ; transpose 16x6 -> original space (but we can't write only 6 pixels, so really 16x8)
718     lea    r5, [r6+r8]
719     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30), PASS8ROWS(r6, r5, r7, r8)
720     shl    r7,  3
721     sub    r6,  r7
722     sub    r5,  r7
723     shr    r7,  3
724     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30), PASS8ROWS(r6, r5, r7, r8)
725     add    rsp, 0x88
726     RET
727 %else
728 cglobal deblock_h_luma_intra_8, 2,4,8,0x80
729     lea    r3,  [r1*3]
730     sub    r0,  4
731     lea    r2,  [r0+r3]
732     %define pix_tmp rsp
733
734     ; transpose 8x16 -> tmp space
735     TRANSPOSE8x8_MEM  PASS8ROWS(r0, r2, r1, r3), PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30)
736     lea    r0,  [r0+r1*8]
737     lea    r2,  [r2+r1*8]
738     TRANSPOSE8x8_MEM  PASS8ROWS(r0, r2, r1, r3), PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30)
739
740     lea    r0,  [pix_tmp+0x40]
741     PUSH   dword r3m
742     PUSH   dword r2m
743     PUSH   dword 16
744     PUSH   r0
745     call   deblock_%1_luma_intra_8
746 %ifidn %1, v8
747     add    dword [rsp], 8 ; pix_tmp+8
748     call   deblock_%1_luma_intra_8
749 %endif
750     ADD    esp, 16
751
752     mov    r1,  r1m
753     mov    r0,  r0mp
754     lea    r3,  [r1*3]
755     sub    r0,  4
756     lea    r2,  [r0+r3]
757     ; transpose 16x6 -> original space (but we can't write only 6 pixels, so really 16x8)
758     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30), PASS8ROWS(r0, r2, r1, r3)
759     lea    r0,  [r0+r1*8]
760     lea    r2,  [r2+r1*8]
761     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30), PASS8ROWS(r0, r2, r1, r3)
762     RET
763 %endif ; ARCH_X86_64
764 %endmacro ; DEBLOCK_LUMA_INTRA
765
766 INIT_XMM sse2
767 DEBLOCK_LUMA_INTRA v
768 INIT_XMM avx
769 DEBLOCK_LUMA_INTRA v
770 %if ARCH_X86_64 == 0
771 INIT_MMX mmxext
772 DEBLOCK_LUMA_INTRA v8
773 %endif
774
775 INIT_MMX mmxext
776
777 %macro CHROMA_V_START 0
778     dec    r2d      ; alpha-1
779     dec    r3d      ; beta-1
780     mov    t5, r0
781     sub    t5, r1
782     sub    t5, r1
783 %endmacro
784
785 %macro CHROMA_H_START 0
786     dec    r2d
787     dec    r3d
788     sub    r0, 2
789     lea    t6, [r1*3]
790     mov    t5, r0
791     add    r0, t6
792 %endmacro
793
794 %define t5 r5
795 %define t6 r6
796
797 ;-----------------------------------------------------------------------------
798 ; void ff_deblock_v_chroma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
799 ;-----------------------------------------------------------------------------
800 cglobal deblock_v_chroma_8, 5,6
801     CHROMA_V_START
802     movq  m0, [t5]
803     movq  m1, [t5+r1]
804     movq  m2, [r0]
805     movq  m3, [r0+r1]
806     call ff_chroma_inter_body_mmxext
807     movq  [t5+r1], m1
808     movq  [r0], m2
809     RET
810
811 ;-----------------------------------------------------------------------------
812 ; void ff_deblock_h_chroma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
813 ;-----------------------------------------------------------------------------
814 cglobal deblock_h_chroma_8, 5,7
815 %if UNIX64
816     %define buf0 [rsp-24]
817     %define buf1 [rsp-16]
818 %elif WIN64
819     sub   rsp, 16
820     %define buf0 [rsp]
821     %define buf1 [rsp+8]
822 %else
823     %define buf0 r0m
824     %define buf1 r2m
825 %endif
826     CHROMA_H_START
827     TRANSPOSE4x8_LOAD  bw, wd, dq, PASS8ROWS(t5, r0, r1, t6)
828     movq  buf0, m0
829     movq  buf1, m3
830     call ff_chroma_inter_body_mmxext
831     movq  m0, buf0
832     movq  m3, buf1
833     TRANSPOSE8x4B_STORE PASS8ROWS(t5, r0, r1, t6)
834 %if WIN64
835     add   rsp, 16
836 %endif
837     RET
838
839 ALIGN 16
840 ff_chroma_inter_body_mmxext:
841     LOAD_MASK  r2d, r3d
842     movd       m6, [r4] ; tc0
843     punpcklbw  m6, m6
844     pand       m7, m6
845     DEBLOCK_P0_Q0
846     ret
847
848
849
850 ; in: %1=p0 %2=p1 %3=q1
851 ; out: p0 = (p0 + q1 + 2*p1 + 2) >> 2
852 %macro CHROMA_INTRA_P0 3
853     movq    m4, %1
854     pxor    m4, %3
855     pand    m4, [pb_1] ; m4 = (p0^q1)&1
856     pavgb   %1, %3
857     psubusb %1, m4
858     pavgb   %1, %2             ; dst = avg(p1, avg(p0,q1) - ((p0^q1)&1))
859 %endmacro
860
861 %define t5 r4
862 %define t6 r5
863
864 ;-----------------------------------------------------------------------------
865 ; void ff_deblock_v_chroma_intra( uint8_t *pix, int stride, int alpha, int beta )
866 ;-----------------------------------------------------------------------------
867 cglobal deblock_v_chroma_intra_8, 4,5
868     CHROMA_V_START
869     movq  m0, [t5]
870     movq  m1, [t5+r1]
871     movq  m2, [r0]
872     movq  m3, [r0+r1]
873     call ff_chroma_intra_body_mmxext
874     movq  [t5+r1], m1
875     movq  [r0], m2
876     RET
877
878 ;-----------------------------------------------------------------------------
879 ; void ff_deblock_h_chroma_intra( uint8_t *pix, int stride, int alpha, int beta )
880 ;-----------------------------------------------------------------------------
881 cglobal deblock_h_chroma_intra_8, 4,6
882     CHROMA_H_START
883     TRANSPOSE4x8_LOAD  bw, wd, dq, PASS8ROWS(t5, r0, r1, t6)
884     call ff_chroma_intra_body_mmxext
885     TRANSPOSE8x4B_STORE PASS8ROWS(t5, r0, r1, t6)
886     RET
887
888 ALIGN 16
889 ff_chroma_intra_body_mmxext:
890     LOAD_MASK r2d, r3d
891     movq   m5, m1
892     movq   m6, m2
893     CHROMA_INTRA_P0  m1, m0, m3
894     CHROMA_INTRA_P0  m2, m3, m0
895     psubb  m1, m5
896     psubb  m2, m6
897     pand   m1, m7
898     pand   m2, m7
899     paddb  m1, m5
900     paddb  m2, m6
901     ret
902
903 ;-----------------------------------------------------------------------------
904 ; void h264_loop_filter_strength(int16_t bs[2][4][4], uint8_t nnz[40],
905 ;                                int8_t ref[2][40], int16_t mv[2][40][2],
906 ;                                int bidir,    int edges,    int step,
907 ;                                int mask_mv0, int mask_mv1, int field);
908 ;
909 ; bidir    is 0 or 1
910 ; edges    is 1 or 4
911 ; step     is 1 or 2
912 ; mask_mv0 is 0 or 3
913 ; mask_mv1 is 0 or 1
914 ; field    is 0 or 1
915 ;-----------------------------------------------------------------------------
916 %macro loop_filter_strength_iteration 7 ; edges, step, mask_mv,
917                                         ; dir, d_idx, mask_dir, bidir
918 %define edgesd    %1
919 %define stepd     %2
920 %define mask_mvd  %3
921 %define dir       %4
922 %define d_idx     %5
923 %define mask_dir  %6
924 %define bidir     %7
925     xor          b_idxd, b_idxd ; for (b_idx = 0; b_idx < edges; b_idx += step)
926 %%.b_idx_loop:
927 %if mask_dir == 0
928     pxor             m0, m0
929 %endif
930     test         b_idxd, dword mask_mvd
931     jnz %%.skip_loop_iter                       ; if (!(b_idx & mask_mv))
932 %if bidir == 1
933     movd             m2, [refq+b_idxq+d_idx+12] ; { ref0[bn] }
934     punpckldq        m2, [refq+b_idxq+d_idx+52] ; { ref0[bn], ref1[bn] }
935     pshufw           m0, [refq+b_idxq+12], 0x44 ; { ref0[b],  ref0[b]  }
936     pshufw           m1, [refq+b_idxq+52], 0x44 ; { ref1[b],  ref1[b]  }
937     pshufw           m3, m2, 0x4E               ; { ref1[bn], ref0[bn] }
938     psubb            m0, m2                     ; { ref0[b] != ref0[bn],
939                                                 ;   ref0[b] != ref1[bn] }
940     psubb            m1, m3                     ; { ref1[b] != ref1[bn],
941                                                 ;   ref1[b] != ref0[bn] }
942
943     por              m0, m1
944     mova             m1, [mvq+b_idxq*4+(d_idx+12)*4]
945     mova             m2, [mvq+b_idxq*4+(d_idx+12)*4+mmsize]
946     mova             m3, m1
947     mova             m4, m2
948     psubw            m1, [mvq+b_idxq*4+12*4]
949     psubw            m2, [mvq+b_idxq*4+12*4+mmsize]
950     psubw            m3, [mvq+b_idxq*4+52*4]
951     psubw            m4, [mvq+b_idxq*4+52*4+mmsize]
952     packsswb         m1, m2
953     packsswb         m3, m4
954     paddb            m1, m6
955     paddb            m3, m6
956     psubusb          m1, m5 ; abs(mv[b] - mv[bn]) >= limit
957     psubusb          m3, m5
958     packsswb         m1, m3
959
960     por              m0, m1
961     mova             m1, [mvq+b_idxq*4+(d_idx+52)*4]
962     mova             m2, [mvq+b_idxq*4+(d_idx+52)*4+mmsize]
963     mova             m3, m1
964     mova             m4, m2
965     psubw            m1, [mvq+b_idxq*4+12*4]
966     psubw            m2, [mvq+b_idxq*4+12*4+mmsize]
967     psubw            m3, [mvq+b_idxq*4+52*4]
968     psubw            m4, [mvq+b_idxq*4+52*4+mmsize]
969     packsswb         m1, m2
970     packsswb         m3, m4
971     paddb            m1, m6
972     paddb            m3, m6
973     psubusb          m1, m5 ; abs(mv[b] - mv[bn]) >= limit
974     psubusb          m3, m5
975     packsswb         m1, m3
976
977     pshufw           m1, m1, 0x4E
978     por              m0, m1
979     pshufw           m1, m0, 0x4E
980     pminub           m0, m1
981 %else ; bidir == 0
982     movd             m0, [refq+b_idxq+12]
983     psubb            m0, [refq+b_idxq+d_idx+12] ; ref[b] != ref[bn]
984
985     mova             m1, [mvq+b_idxq*4+12*4]
986     mova             m2, [mvq+b_idxq*4+12*4+mmsize]
987     psubw            m1, [mvq+b_idxq*4+(d_idx+12)*4]
988     psubw            m2, [mvq+b_idxq*4+(d_idx+12)*4+mmsize]
989     packsswb         m1, m2
990     paddb            m1, m6
991     psubusb          m1, m5 ; abs(mv[b] - mv[bn]) >= limit
992     packsswb         m1, m1
993     por              m0, m1
994 %endif ; bidir == 1/0
995
996 %%.skip_loop_iter:
997     movd             m1, [nnzq+b_idxq+12]
998     por              m1, [nnzq+b_idxq+d_idx+12] ; nnz[b] || nnz[bn]
999
1000     pminub           m1, m7
1001     pminub           m0, m7
1002     psllw            m1, 1
1003     pxor             m2, m2
1004     pmaxub           m1, m0
1005     punpcklbw        m1, m2
1006     movq [bsq+b_idxq+32*dir], m1
1007
1008     add          b_idxd, dword stepd
1009     cmp          b_idxd, dword edgesd
1010     jl %%.b_idx_loop
1011 %endmacro
1012
1013 INIT_MMX mmxext
1014 cglobal h264_loop_filter_strength, 9, 9, 0, bs, nnz, ref, mv, bidir, edges, \
1015                                             step, mask_mv0, mask_mv1, field
1016 %define b_idxq bidirq
1017 %define b_idxd bidird
1018     cmp    dword fieldm, 0
1019     mova             m7, [pb_1]
1020     mova             m5, [pb_3]
1021     je .nofield
1022     mova             m5, [pb_3_1]
1023 .nofield:
1024     mova             m6, m5
1025     paddb            m5, m5
1026
1027     shl     dword stepd, 3
1028     shl    dword edgesd, 3
1029 %if ARCH_X86_32
1030 %define mask_mv0d mask_mv0m
1031 %define mask_mv1d mask_mv1m
1032 %endif
1033     shl dword mask_mv1d, 3
1034     shl dword mask_mv0d, 3
1035
1036     cmp    dword bidird, 0
1037     jne .bidir
1038     loop_filter_strength_iteration edgesd, stepd, mask_mv1d, 1, -8,  0, 0
1039     loop_filter_strength_iteration     32,     8, mask_mv0d, 0, -1, -1, 0
1040
1041     mova             m0, [bsq+mmsize*0]
1042     mova             m1, [bsq+mmsize*1]
1043     mova             m2, [bsq+mmsize*2]
1044     mova             m3, [bsq+mmsize*3]
1045     TRANSPOSE4x4W 0, 1, 2, 3, 4
1046     mova  [bsq+mmsize*0], m0
1047     mova  [bsq+mmsize*1], m1
1048     mova  [bsq+mmsize*2], m2
1049     mova  [bsq+mmsize*3], m3
1050     RET
1051
1052 .bidir:
1053     loop_filter_strength_iteration edgesd, stepd, mask_mv1d, 1, -8,  0, 1
1054     loop_filter_strength_iteration     32,     8, mask_mv0d, 0, -1, -1, 1
1055
1056     mova             m0, [bsq+mmsize*0]
1057     mova             m1, [bsq+mmsize*1]
1058     mova             m2, [bsq+mmsize*2]
1059     mova             m3, [bsq+mmsize*3]
1060     TRANSPOSE4x4W 0, 1, 2, 3, 4
1061     mova  [bsq+mmsize*0], m0
1062     mova  [bsq+mmsize*1], m1
1063     mova  [bsq+mmsize*2], m2
1064     mova  [bsq+mmsize*3], m3
1065     RET