]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_idct_10bit.asm
avfilter/vf_psnr: remove unnecessary check
[ffmpeg] / libavcodec / x86 / h264_idct_10bit.asm
1 ;*****************************************************************************
2 ;* MMX/SSE2/AVX-optimized 10-bit H.264 iDCT code
3 ;*****************************************************************************
4 ;* Copyright (C) 2005-2011 x264 project
5 ;*
6 ;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
7 ;*
8 ;* This file is part of FFmpeg.
9 ;*
10 ;* FFmpeg is free software; you can redistribute it and/or
11 ;* modify it under the terms of the GNU Lesser General Public
12 ;* License as published by the Free Software Foundation; either
13 ;* version 2.1 of the License, or (at your option) any later version.
14 ;*
15 ;* FFmpeg is distributed in the hope that it will be useful,
16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
18 ;* Lesser General Public License for more details.
19 ;*
20 ;* You should have received a copy of the GNU Lesser General Public
21 ;* License along with FFmpeg; if not, write to the Free Software
22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
23 ;******************************************************************************
24
25 %include "libavutil/x86/x86util.asm"
26
27 SECTION .text
28
29 cextern pw_1023
30 %define pw_pixel_max pw_1023
31 cextern pd_32
32
33 ;-----------------------------------------------------------------------------
34 ; void ff_h264_idct_add_10(pixel *dst, int16_t *block, int stride)
35 ;-----------------------------------------------------------------------------
36 %macro STORE_DIFFx2 6
37     psrad       %1, 6
38     psrad       %2, 6
39     packssdw    %1, %2
40     movq        %3, [%5]
41     movhps      %3, [%5+%6]
42     paddsw      %1, %3
43     CLIPW       %1, %4, [pw_pixel_max]
44     movq      [%5], %1
45     movhps [%5+%6], %1
46 %endmacro
47
48 %macro STORE_DIFF16 5
49     psrad       %1, 6
50     psrad       %2, 6
51     packssdw    %1, %2
52     paddsw      %1, [%5]
53     CLIPW       %1, %3, %4
54     mova      [%5], %1
55 %endmacro
56
57 ;dst, in, stride
58 %macro IDCT4_ADD_10 3
59     mova  m0, [%2+ 0]
60     mova  m1, [%2+16]
61     mova  m2, [%2+32]
62     mova  m3, [%2+48]
63     IDCT4_1D d,0,1,2,3,4,5
64     TRANSPOSE4x4D 0,1,2,3,4
65     paddd m0, [pd_32]
66     IDCT4_1D d,0,1,2,3,4,5
67     pxor  m5, m5
68     mova [%2+ 0], m5
69     mova [%2+16], m5
70     mova [%2+32], m5
71     mova [%2+48], m5
72     STORE_DIFFx2 m0, m1, m4, m5, %1, %3
73     lea   %1, [%1+%3*2]
74     STORE_DIFFx2 m2, m3, m4, m5, %1, %3
75 %endmacro
76
77 %macro IDCT_ADD_10 0
78 cglobal h264_idct_add_10, 3,3
79     movsxdifnidn r2, r2d
80     IDCT4_ADD_10 r0, r1, r2
81     RET
82 %endmacro
83
84 INIT_XMM sse2
85 IDCT_ADD_10
86 %if HAVE_AVX_EXTERNAL
87 INIT_XMM avx
88 IDCT_ADD_10
89 %endif
90
91 ;-----------------------------------------------------------------------------
92 ; void ff_h264_idct_add16_10(pixel *dst, const int *block_offset,
93 ;                            int16_t *block, int stride,
94 ;                            const uint8_t nnzc[6*8])
95 ;-----------------------------------------------------------------------------
96 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
97 %macro ADD4x4IDCT 0
98 add4x4_idct %+ SUFFIX:
99     add   r5, r0
100     mova  m0, [r2+ 0]
101     mova  m1, [r2+16]
102     mova  m2, [r2+32]
103     mova  m3, [r2+48]
104     IDCT4_1D d,0,1,2,3,4,5
105     TRANSPOSE4x4D 0,1,2,3,4
106     paddd m0, [pd_32]
107     IDCT4_1D d,0,1,2,3,4,5
108     pxor  m5, m5
109     mova  [r2+ 0], m5
110     mova  [r2+16], m5
111     mova  [r2+32], m5
112     mova  [r2+48], m5
113     STORE_DIFFx2 m0, m1, m4, m5, r5, r3
114     lea   r5, [r5+r3*2]
115     STORE_DIFFx2 m2, m3, m4, m5, r5, r3
116     ret
117 %endmacro
118
119 INIT_XMM sse2
120 ALIGN 16
121 ADD4x4IDCT
122 %if HAVE_AVX_EXTERNAL
123 INIT_XMM avx
124 ALIGN 16
125 ADD4x4IDCT
126 %endif
127
128 %macro ADD16_OP 2
129     cmp          byte [r4+%2], 0
130     jz .skipblock%1
131     mov         r5d, [r1+%1*4]
132     call add4x4_idct %+ SUFFIX
133 .skipblock%1:
134 %if %1<15
135     add          r2, 64
136 %endif
137 %endmacro
138
139 %macro IDCT_ADD16_10 0
140 cglobal h264_idct_add16_10, 5,6
141     movsxdifnidn r3, r3d
142     ADD16_OP 0, 4+1*8
143     ADD16_OP 1, 5+1*8
144     ADD16_OP 2, 4+2*8
145     ADD16_OP 3, 5+2*8
146     ADD16_OP 4, 6+1*8
147     ADD16_OP 5, 7+1*8
148     ADD16_OP 6, 6+2*8
149     ADD16_OP 7, 7+2*8
150     ADD16_OP 8, 4+3*8
151     ADD16_OP 9, 5+3*8
152     ADD16_OP 10, 4+4*8
153     ADD16_OP 11, 5+4*8
154     ADD16_OP 12, 6+3*8
155     ADD16_OP 13, 7+3*8
156     ADD16_OP 14, 6+4*8
157     ADD16_OP 15, 7+4*8
158     REP_RET
159 %endmacro
160
161 INIT_XMM sse2
162 IDCT_ADD16_10
163 %if HAVE_AVX_EXTERNAL
164 INIT_XMM avx
165 IDCT_ADD16_10
166 %endif
167
168 ;-----------------------------------------------------------------------------
169 ; void ff_h264_idct_dc_add_10(pixel *dst, int16_t *block, int stride)
170 ;-----------------------------------------------------------------------------
171 %macro IDCT_DC_ADD_OP_10 3
172     pxor      m5, m5
173 %if avx_enabled
174     paddw     m1, m0, [%1+0   ]
175     paddw     m2, m0, [%1+%2  ]
176     paddw     m3, m0, [%1+%2*2]
177     paddw     m4, m0, [%1+%3  ]
178 %else
179     mova      m1, [%1+0   ]
180     mova      m2, [%1+%2  ]
181     mova      m3, [%1+%2*2]
182     mova      m4, [%1+%3  ]
183     paddw     m1, m0
184     paddw     m2, m0
185     paddw     m3, m0
186     paddw     m4, m0
187 %endif
188     CLIPW     m1, m5, m6
189     CLIPW     m2, m5, m6
190     CLIPW     m3, m5, m6
191     CLIPW     m4, m5, m6
192     mova [%1+0   ], m1
193     mova [%1+%2  ], m2
194     mova [%1+%2*2], m3
195     mova [%1+%3  ], m4
196 %endmacro
197
198 INIT_MMX mmxext
199 cglobal h264_idct_dc_add_10,3,3
200     movsxdifnidn r2, r2d
201     movd      m0, [r1]
202     mov dword [r1], 0
203     paddd     m0, [pd_32]
204     psrad     m0, 6
205     lea       r1, [r2*3]
206     pshufw    m0, m0, 0
207     mova      m6, [pw_pixel_max]
208     IDCT_DC_ADD_OP_10 r0, r2, r1
209     RET
210
211 ;-----------------------------------------------------------------------------
212 ; void ff_h264_idct8_dc_add_10(pixel *dst, int16_t *block, int stride)
213 ;-----------------------------------------------------------------------------
214 %macro IDCT8_DC_ADD 0
215 cglobal h264_idct8_dc_add_10,3,4,7
216     movsxdifnidn r2, r2d
217     movd      m0, [r1]
218     mov dword[r1], 0
219     paddd     m0, [pd_32]
220     psrad     m0, 6
221     lea       r1, [r2*3]
222     SPLATW    m0, m0, 0
223     mova      m6, [pw_pixel_max]
224     IDCT_DC_ADD_OP_10 r0, r2, r1
225     lea       r0, [r0+r2*4]
226     IDCT_DC_ADD_OP_10 r0, r2, r1
227     RET
228 %endmacro
229
230 INIT_XMM sse2
231 IDCT8_DC_ADD
232 %if HAVE_AVX_EXTERNAL
233 INIT_XMM avx
234 IDCT8_DC_ADD
235 %endif
236
237 ;-----------------------------------------------------------------------------
238 ; void ff_h264_idct_add16intra_10(pixel *dst, const int *block_offset,
239 ;                                 int16_t *block, int stride,
240 ;                                 const uint8_t nnzc[6*8])
241 ;-----------------------------------------------------------------------------
242 %macro AC 1
243 .ac%1:
244     mov  r5d, [r1+(%1+0)*4]
245     call add4x4_idct %+ SUFFIX
246     mov  r5d, [r1+(%1+1)*4]
247     add  r2, 64
248     call add4x4_idct %+ SUFFIX
249     add  r2, 64
250     jmp .skipadd%1
251 %endmacro
252
253 %assign last_block 16
254 %macro ADD16_OP_INTRA 2
255     cmp      word [r4+%2], 0
256     jnz .ac%1
257     mov      r5d, [r2+ 0]
258     or       r5d, [r2+64]
259     jz .skipblock%1
260     mov      r5d, [r1+(%1+0)*4]
261     call idct_dc_add %+ SUFFIX
262 .skipblock%1:
263 %if %1<last_block-2
264     add       r2, 128
265 %endif
266 .skipadd%1:
267 %endmacro
268
269 %macro IDCT_ADD16INTRA_10 0
270 idct_dc_add %+ SUFFIX:
271     add       r5, r0
272     movq      m0, [r2+ 0]
273     movhps    m0, [r2+64]
274     mov dword [r2+ 0], 0
275     mov dword [r2+64], 0
276     paddd     m0, [pd_32]
277     psrad     m0, 6
278     pshufhw   m0, m0, 0
279     pshuflw   m0, m0, 0
280     lea       r6, [r3*3]
281     mova      m6, [pw_pixel_max]
282     IDCT_DC_ADD_OP_10 r5, r3, r6
283     ret
284
285 cglobal h264_idct_add16intra_10,5,7,8
286     movsxdifnidn r3, r3d
287     ADD16_OP_INTRA 0, 4+1*8
288     ADD16_OP_INTRA 2, 4+2*8
289     ADD16_OP_INTRA 4, 6+1*8
290     ADD16_OP_INTRA 6, 6+2*8
291     ADD16_OP_INTRA 8, 4+3*8
292     ADD16_OP_INTRA 10, 4+4*8
293     ADD16_OP_INTRA 12, 6+3*8
294     ADD16_OP_INTRA 14, 6+4*8
295     REP_RET
296     AC 8
297     AC 10
298     AC 12
299     AC 14
300     AC 0
301     AC 2
302     AC 4
303     AC 6
304 %endmacro
305
306 INIT_XMM sse2
307 IDCT_ADD16INTRA_10
308 %if HAVE_AVX_EXTERNAL
309 INIT_XMM avx
310 IDCT_ADD16INTRA_10
311 %endif
312
313 %assign last_block 36
314 ;-----------------------------------------------------------------------------
315 ; void ff_h264_idct_add8_10(pixel **dst, const int *block_offset,
316 ;                           int16_t *block, int stride,
317 ;                           const uint8_t nnzc[6*8])
318 ;-----------------------------------------------------------------------------
319 %macro IDCT_ADD8 0
320 cglobal h264_idct_add8_10,5,8,7
321     movsxdifnidn r3, r3d
322 %if ARCH_X86_64
323     mov      r7, r0
324 %endif
325     add      r2, 1024
326     mov      r0, [r0]
327     ADD16_OP_INTRA 16, 4+ 6*8
328     ADD16_OP_INTRA 18, 4+ 7*8
329     add      r2, 1024-128*2
330 %if ARCH_X86_64
331     mov      r0, [r7+gprsize]
332 %else
333     mov      r0, r0m
334     mov      r0, [r0+gprsize]
335 %endif
336     ADD16_OP_INTRA 32, 4+11*8
337     ADD16_OP_INTRA 34, 4+12*8
338     REP_RET
339     AC 16
340     AC 18
341     AC 32
342     AC 34
343
344 %endmacro ; IDCT_ADD8
345
346 INIT_XMM sse2
347 IDCT_ADD8
348 %if HAVE_AVX_EXTERNAL
349 INIT_XMM avx
350 IDCT_ADD8
351 %endif
352
353 ;-----------------------------------------------------------------------------
354 ; void ff_h264_idct_add8_422_10(pixel **dst, const int *block_offset,
355 ;                               int16_t *block, int stride,
356 ;                               const uint8_t nnzc[6*8])
357 ;-----------------------------------------------------------------------------
358 %assign last_block 44
359
360 %macro IDCT_ADD8_422 0
361
362 cglobal h264_idct_add8_422_10, 5, 8, 7
363     movsxdifnidn r3, r3d
364 %if ARCH_X86_64
365     mov      r7, r0
366 %endif
367
368     add      r2, 1024
369     mov      r0, [r0]
370     ADD16_OP_INTRA 16, 4+ 6*8
371     ADD16_OP_INTRA 18, 4+ 7*8
372     ADD16_OP_INTRA 24, 4+ 8*8 ; i+4
373     ADD16_OP_INTRA 26, 4+ 9*8 ; i+4
374     add      r2, 1024-128*4
375
376 %if ARCH_X86_64
377     mov      r0, [r7+gprsize]
378 %else
379     mov      r0, r0m
380     mov      r0, [r0+gprsize]
381 %endif
382
383     ADD16_OP_INTRA 32, 4+11*8
384     ADD16_OP_INTRA 34, 4+12*8
385     ADD16_OP_INTRA 40, 4+13*8 ; i+4
386     ADD16_OP_INTRA 42, 4+14*8 ; i+4
387 REP_RET
388     AC 16
389     AC 18
390     AC 24 ; i+4
391     AC 26 ; i+4
392     AC 32
393     AC 34
394     AC 40 ; i+4
395     AC 42 ; i+4
396
397 %endmacro
398
399 INIT_XMM sse2
400 IDCT_ADD8_422
401 %if HAVE_AVX_EXTERNAL
402 INIT_XMM avx
403 IDCT_ADD8_422
404 %endif
405
406 ;-----------------------------------------------------------------------------
407 ; void ff_h264_idct8_add_10(pixel *dst, int16_t *block, int stride)
408 ;-----------------------------------------------------------------------------
409 %macro IDCT8_1D 2
410     SWAP      0, 1
411     psrad     m4, m5, 1
412     psrad     m1, m0, 1
413     paddd     m4, m5
414     paddd     m1, m0
415     paddd     m4, m7
416     paddd     m1, m5
417     psubd     m4, m0
418     paddd     m1, m3
419
420     psubd     m0, m3
421     psubd     m5, m3
422     paddd     m0, m7
423     psubd     m5, m7
424     psrad     m3, 1
425     psrad     m7, 1
426     psubd     m0, m3
427     psubd     m5, m7
428
429     SWAP      1, 7
430     psrad     m1, m7, 2
431     psrad     m3, m4, 2
432     paddd     m3, m0
433     psrad     m0, 2
434     paddd     m1, m5
435     psrad     m5, 2
436     psubd     m0, m4
437     psubd     m7, m5
438
439     SWAP      5, 6
440     psrad     m4, m2, 1
441     psrad     m6, m5, 1
442     psubd     m4, m5
443     paddd     m6, m2
444
445     mova      m2, %1
446     mova      m5, %2
447     SUMSUB_BA d, 5, 2
448     SUMSUB_BA d, 6, 5
449     SUMSUB_BA d, 4, 2
450     SUMSUB_BA d, 7, 6
451     SUMSUB_BA d, 0, 4
452     SUMSUB_BA d, 3, 2
453     SUMSUB_BA d, 1, 5
454     SWAP      7, 6, 4, 5, 2, 3, 1, 0 ; 70315246 -> 01234567
455 %endmacro
456
457 %macro IDCT8_1D_FULL 1
458     mova         m7, [%1+112*2]
459     mova         m6, [%1+ 96*2]
460     mova         m5, [%1+ 80*2]
461     mova         m3, [%1+ 48*2]
462     mova         m2, [%1+ 32*2]
463     mova         m1, [%1+ 16*2]
464     IDCT8_1D   [%1], [%1+ 64*2]
465 %endmacro
466
467 ; %1=int16_t *block, %2=int16_t *dstblock
468 %macro IDCT8_ADD_SSE_START 2
469     IDCT8_1D_FULL %1
470 %if ARCH_X86_64
471     TRANSPOSE4x4D  0,1,2,3,8
472     mova    [%2    ], m0
473     TRANSPOSE4x4D  4,5,6,7,8
474     mova    [%2+8*2], m4
475 %else
476     mova         [%1], m7
477     TRANSPOSE4x4D   0,1,2,3,7
478     mova           m7, [%1]
479     mova    [%2     ], m0
480     mova    [%2+16*2], m1
481     mova    [%2+32*2], m2
482     mova    [%2+48*2], m3
483     TRANSPOSE4x4D   4,5,6,7,3
484     mova    [%2+ 8*2], m4
485     mova    [%2+24*2], m5
486     mova    [%2+40*2], m6
487     mova    [%2+56*2], m7
488 %endif
489 %endmacro
490
491 ; %1=uint8_t *dst, %2=int16_t *block, %3=int stride
492 %macro IDCT8_ADD_SSE_END 3
493     IDCT8_1D_FULL %2
494     mova  [%2     ], m6
495     mova  [%2+16*2], m7
496
497     pxor         m7, m7
498     STORE_DIFFx2 m0, m1, m6, m7, %1, %3
499     lea          %1, [%1+%3*2]
500     STORE_DIFFx2 m2, m3, m6, m7, %1, %3
501     mova         m0, [%2     ]
502     mova         m1, [%2+16*2]
503     lea          %1, [%1+%3*2]
504     STORE_DIFFx2 m4, m5, m6, m7, %1, %3
505     lea          %1, [%1+%3*2]
506     STORE_DIFFx2 m0, m1, m6, m7, %1, %3
507 %endmacro
508
509 %macro IDCT8_ADD 0
510 cglobal h264_idct8_add_10, 3,4,16
511     movsxdifnidn r2, r2d
512 %if UNIX64 == 0
513     %assign pad 16-gprsize-(stack_offset&15)
514     sub  rsp, pad
515     call h264_idct8_add1_10 %+ SUFFIX
516     add  rsp, pad
517     RET
518 %endif
519
520 ALIGN 16
521 ; TODO: does not need to use stack
522 h264_idct8_add1_10 %+ SUFFIX:
523 %assign pad 256+16-gprsize
524     sub          rsp, pad
525     add   dword [r1], 32
526
527 %if ARCH_X86_64
528     IDCT8_ADD_SSE_START r1, rsp
529     SWAP 1,  9
530     SWAP 2, 10
531     SWAP 3, 11
532     SWAP 5, 13
533     SWAP 6, 14
534     SWAP 7, 15
535     IDCT8_ADD_SSE_START r1+16, rsp+128
536     PERMUTE 1,9, 2,10, 3,11, 5,1, 6,2, 7,3, 9,13, 10,14, 11,15, 13,5, 14,6, 15,7
537     IDCT8_1D [rsp], [rsp+128]
538     SWAP 0,  8
539     SWAP 1,  9
540     SWAP 2, 10
541     SWAP 3, 11
542     SWAP 4, 12
543     SWAP 5, 13
544     SWAP 6, 14
545     SWAP 7, 15
546     IDCT8_1D [rsp+16], [rsp+144]
547     psrad         m8, 6
548     psrad         m0, 6
549     packssdw      m8, m0
550     paddsw        m8, [r0]
551     pxor          m0, m0
552     mova    [r1+  0], m0
553     mova    [r1+ 16], m0
554     mova    [r1+ 32], m0
555     mova    [r1+ 48], m0
556     mova    [r1+ 64], m0
557     mova    [r1+ 80], m0
558     mova    [r1+ 96], m0
559     mova    [r1+112], m0
560     mova    [r1+128], m0
561     mova    [r1+144], m0
562     mova    [r1+160], m0
563     mova    [r1+176], m0
564     mova    [r1+192], m0
565     mova    [r1+208], m0
566     mova    [r1+224], m0
567     mova    [r1+240], m0
568     CLIPW         m8, m0, [pw_pixel_max]
569     mova        [r0], m8
570     mova          m8, [pw_pixel_max]
571     STORE_DIFF16  m9, m1, m0, m8, r0+r2
572     lea           r0, [r0+r2*2]
573     STORE_DIFF16 m10, m2, m0, m8, r0
574     STORE_DIFF16 m11, m3, m0, m8, r0+r2
575     lea           r0, [r0+r2*2]
576     STORE_DIFF16 m12, m4, m0, m8, r0
577     STORE_DIFF16 m13, m5, m0, m8, r0+r2
578     lea           r0, [r0+r2*2]
579     STORE_DIFF16 m14, m6, m0, m8, r0
580     STORE_DIFF16 m15, m7, m0, m8, r0+r2
581 %else
582     IDCT8_ADD_SSE_START r1,    rsp
583     IDCT8_ADD_SSE_START r1+16, rsp+128
584     lea           r3, [r0+8]
585     IDCT8_ADD_SSE_END r0, rsp,    r2
586     IDCT8_ADD_SSE_END r3, rsp+16, r2
587     mova    [r1+  0], m7
588     mova    [r1+ 16], m7
589     mova    [r1+ 32], m7
590     mova    [r1+ 48], m7
591     mova    [r1+ 64], m7
592     mova    [r1+ 80], m7
593     mova    [r1+ 96], m7
594     mova    [r1+112], m7
595     mova    [r1+128], m7
596     mova    [r1+144], m7
597     mova    [r1+160], m7
598     mova    [r1+176], m7
599     mova    [r1+192], m7
600     mova    [r1+208], m7
601     mova    [r1+224], m7
602     mova    [r1+240], m7
603 %endif ; ARCH_X86_64
604
605     add          rsp, pad
606     ret
607 %endmacro
608
609 INIT_XMM sse2
610 IDCT8_ADD
611 %if HAVE_AVX_EXTERNAL
612 INIT_XMM avx
613 IDCT8_ADD
614 %endif
615
616 ;-----------------------------------------------------------------------------
617 ; void ff_h264_idct8_add4_10(pixel **dst, const int *block_offset,
618 ;                            int16_t *block, int stride,
619 ;                            const uint8_t nnzc[6*8])
620 ;-----------------------------------------------------------------------------
621 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
622 %macro IDCT8_ADD4_OP 2
623     cmp       byte [r4+%2], 0
624     jz .skipblock%1
625     mov      r0d, [r6+%1*4]
626     add       r0, r5
627     call h264_idct8_add1_10 %+ SUFFIX
628 .skipblock%1:
629 %if %1<12
630     add       r1, 256
631 %endif
632 %endmacro
633
634 %macro IDCT8_ADD4 0
635 cglobal h264_idct8_add4_10, 0,7,16
636     movsxdifnidn r3, r3d
637     %assign pad 16-gprsize-(stack_offset&15)
638     SUB      rsp, pad
639     mov       r5, r0mp
640     mov       r6, r1mp
641     mov       r1, r2mp
642     mov      r2d, r3m
643     movifnidn r4, r4mp
644     IDCT8_ADD4_OP  0, 4+1*8
645     IDCT8_ADD4_OP  4, 6+1*8
646     IDCT8_ADD4_OP  8, 4+3*8
647     IDCT8_ADD4_OP 12, 6+3*8
648     ADD       rsp, pad
649     RET
650 %endmacro ; IDCT8_ADD4
651
652 INIT_XMM sse2
653 IDCT8_ADD4
654 %if HAVE_AVX_EXTERNAL
655 INIT_XMM avx
656 IDCT8_ADD4
657 %endif