]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/simple_idct10.asm
avfilter/vf_psnr: remove unnecessary check
[ffmpeg] / libavcodec / x86 / simple_idct10.asm
1 ;******************************************************************************
2 ;* x86-SIMD-optimized IDCT for prores
3 ;* this is identical to "simple" IDCT written by Michael Niedermayer
4 ;* except for the clip range
5 ;*
6 ;* Copyright (c) 2011 Ronald S. Bultje <rsbultje@gmail.com>
7 ;* Copyright (c) 2015 Christophe Gisquet
8 ;*
9 ;* This file is part of FFmpeg.
10 ;*
11 ;* FFmpeg is free software; you can redistribute it and/or
12 ;* modify it under the terms of the GNU Lesser General Public
13 ;* License as published by the Free Software Foundation; either
14 ;* version 2.1 of the License, or (at your option) any later version.
15 ;*
16 ;* FFmpeg is distributed in the hope that it will be useful,
17 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
18 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
19 ;* Lesser General Public License for more details.
20 ;*
21 ;* You should have received a copy of the GNU Lesser General Public
22 ;* License along with FFmpeg; if not, write to the Free Software
23 ;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
24 ;******************************************************************************
25
26 %include "libavutil/x86/x86util.asm"
27
28 %if ARCH_X86_64
29
30 SECTION_RODATA
31
32 cextern pw_2
33 cextern pw_16
34 cextern pw_32
35 cextern pw_1023
36 cextern pw_4095
37 pd_round_11: times 4 dd 1<<(11-1)
38 pd_round_12: times 4 dd 1<<(12-1)
39 pd_round_15: times 4 dd 1<<(15-1)
40 pd_round_19: times 4 dd 1<<(19-1)
41 pd_round_20: times 4 dd 1<<(20-1)
42
43 %macro CONST_DEC  3
44 const %1
45 times 4 dw %2, %3
46 %endmacro
47
48 %define W1sh2 22725 ; W1 = 90901 = 22725<<2 + 1
49 %define W2sh2 21407 ; W2 = 85627 = 21407<<2 - 1
50 %define W3sh2 19265 ; W3 = 77062 = 19265<<2 + 2
51 %define W4sh2 16384 ; W4 = 65535 = 16384<<2 - 1
52 %define W3sh2_lo 19266
53 %define W4sh2_lo 16383
54 %define W5sh2 12873 ; W5 = 51491 = 12873<<2 - 1
55 %define W6sh2  8867 ; W6 = 35468 =  8867<<2
56 %define W7sh2  4520 ; W7 = 18081 =  4520<<2 + 1
57
58 CONST_DEC  w4_plus_w2_hi,   W4sh2, +W2sh2
59 CONST_DEC  w4_min_w2_hi,    W4sh2, -W2sh2
60 CONST_DEC  w4_plus_w6_hi,   W4sh2, +W6sh2
61 CONST_DEC  w4_min_w6_hi,    W4sh2, -W6sh2
62 CONST_DEC  w1_plus_w3_hi,   W1sh2, +W3sh2
63 CONST_DEC  w3_min_w1_hi,    W3sh2, -W1sh2
64 CONST_DEC  w7_plus_w3_hi,   W7sh2, +W3sh2
65 CONST_DEC  w3_min_w7_hi,    W3sh2, -W7sh2
66 CONST_DEC  w1_plus_w5,   W1sh2, +W5sh2
67 CONST_DEC  w5_min_w1,    W5sh2, -W1sh2
68 CONST_DEC  w5_plus_w7,   W5sh2, +W7sh2
69 CONST_DEC  w7_min_w5,    W7sh2, -W5sh2
70 CONST_DEC  w4_plus_w2_lo,   W4sh2_lo, +W2sh2
71 CONST_DEC  w4_min_w2_lo,    W4sh2_lo, -W2sh2
72 CONST_DEC  w4_plus_w6_lo,   W4sh2_lo, +W6sh2
73 CONST_DEC  w4_min_w6_lo,    W4sh2_lo, -W6sh2
74 CONST_DEC  w1_plus_w3_lo,   W1sh2,    +W3sh2_lo
75 CONST_DEC  w3_min_w1_lo,    W3sh2_lo, -W1sh2
76 CONST_DEC  w7_plus_w3_lo,   W7sh2,    +W3sh2_lo
77 CONST_DEC  w3_min_w7_lo,    W3sh2_lo, -W7sh2
78
79 %include "libavcodec/x86/simple_idct10_template.asm"
80
81 SECTION .text
82
83 %macro STORE_HI_LO 12
84     movq   %1, %9
85     movq   %3, %10
86     movq   %5, %11
87     movq   %7, %12
88     movhps %2, %9
89     movhps %4, %10
90     movhps %6, %11
91     movhps %8, %12
92 %endmacro
93
94 %macro LOAD_ZXBW_8 16
95     pmovzxbw %1, %9
96     pmovzxbw %2, %10
97     pmovzxbw %3, %11
98     pmovzxbw %4, %12
99     pmovzxbw %5, %13
100     pmovzxbw %6, %14
101     pmovzxbw %7, %15
102     pmovzxbw %8, %16
103 %endmacro
104
105 %macro LOAD_ZXBW_4 9
106     movh %1, %5
107     movh %2, %6
108     movh %3, %7
109     movh %4, %8
110     punpcklbw %1, %9
111     punpcklbw %2, %9
112     punpcklbw %3, %9
113     punpcklbw %4, %9
114 %endmacro
115
116 %define PASS4ROWS(base, stride, stride3) \
117     [base], [base + stride], [base + 2*stride], [base + stride3]
118
119 %macro idct_fn 0
120
121 define_constants _lo
122
123 cglobal simple_idct8, 1, 1, 16, 32, block
124     IDCT_FN    "", 11, pw_32, 20, "store"
125 RET
126
127 cglobal simple_idct8_put, 3, 4, 16, 32, pixels, lsize, block
128     IDCT_FN    "", 11, pw_32, 20
129     lea       r3, [3*lsizeq]
130     lea       r2, [pixelsq + r3]
131     packuswb  m8, m0
132     packuswb  m1, m2
133     packuswb  m4, m11
134     packuswb  m9, m10
135     STORE_HI_LO PASS8ROWS(pixelsq, r2, lsizeq, r3), m8, m1, m4, m9
136 RET
137
138 cglobal simple_idct8_add, 3, 4, 16, 32, pixels, lsize, block
139     IDCT_FN    "", 11, pw_32, 20
140     lea r2, [3*lsizeq]
141     %if cpuflag(sse4)
142         lea r3, [pixelsq + r2]
143         LOAD_ZXBW_8 m3, m5, m6, m7, m12, m13, m14, m15, PASS8ROWS(pixelsq, r3, lsizeq, r2)
144         paddsw m8, m3
145         paddsw m0, m5
146         paddsw m1, m6
147         paddsw m2, m7
148         paddsw m4, m12
149         paddsw m11, m13
150         paddsw m9, m14
151         paddsw m10, m15
152     %else
153         pxor m12, m12
154         LOAD_ZXBW_4 m3, m5, m6, m7, PASS4ROWS(pixelsq, lsizeq, r2), m12
155         paddsw m8, m3
156         paddsw m0, m5
157         paddsw m1, m6
158         paddsw m2, m7
159         lea r3, [pixelsq + 4*lsizeq]
160         LOAD_ZXBW_4 m3, m5, m6, m7, PASS4ROWS(r3, lsizeq, r2), m12
161         paddsw m4, m3
162         paddsw m11, m5
163         paddsw m9, m6
164         paddsw m10, m7
165         lea r3, [pixelsq + r2]
166     %endif
167     packuswb  m8, m0
168     packuswb  m1, m2
169     packuswb  m4, m11
170     packuswb  m9, m10
171     STORE_HI_LO PASS8ROWS(pixelsq, r3, lsizeq, r2), m8, m1, m4, m9
172 RET
173
174 define_constants _hi
175
176 cglobal simple_idct10, 1, 1, 16, block
177     IDCT_FN    "", 12, "", 19, "store"
178     RET
179
180 cglobal simple_idct10_put, 3, 3, 16, pixels, lsize, block
181     IDCT_FN    "", 12, "", 19, "put", 0, pw_1023
182     RET
183
184 cglobal simple_idct12, 1, 1, 16, block
185     ; coeffs are already 15bits, adding the offset would cause
186     ; overflow in the input
187     IDCT_FN    "", 15, pw_2, 16, "store"
188     RET
189
190 cglobal simple_idct12_put, 3, 3, 16, pixels, lsize, block
191     ; range isn't known, so the C simple_idct range is used
192     ; Also, using a bias on input overflows, so use the bias
193     ; on output of the first butterfly instead
194     IDCT_FN    "", 15, pw_2, 16, "put", 0, pw_4095
195     RET
196 %endmacro
197
198 INIT_XMM sse2
199 idct_fn
200 %if HAVE_AVX_EXTERNAL
201 INIT_XMM avx
202 idct_fn
203 %endif
204
205 %endif