]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/vc1dsp_mc.asm
avfilter/vf_psnr: remove unnecessary check
[ffmpeg] / libavcodec / x86 / vc1dsp_mc.asm
1 ;******************************************************************************
2 ;* VC1 motion compensation optimizations
3 ;* Copyright (c) 2007 Christophe GISQUET <christophe.gisquet@free.fr>
4 ;*
5 ;* This file is part of FFmpeg.
6 ;*
7 ;* FFmpeg is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* FFmpeg is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with FFmpeg; if not, write to the Free Software
19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "libavutil/x86/x86util.asm"
23
24 cextern pw_9
25 cextern pw_128
26
27 SECTION .text
28
29 %if HAVE_MMX_INLINE
30
31 ; XXX some of these macros are not used right now, but they will in the future
32 ;     when more functions are ported.
33
34 %macro OP_PUT 2 ; dst, src
35 %endmacro
36
37 %macro OP_AVG 2 ; dst, src
38     pavgb           %1, %2
39 %endmacro
40
41 %macro NORMALIZE_MMX 1 ; shift
42     paddw           m3, m7 ; +bias-r
43     paddw           m4, m7 ; +bias-r
44     psraw           m3, %1
45     psraw           m4, %1
46 %endmacro
47
48 %macro TRANSFER_DO_PACK 2 ; op, dst
49     packuswb        m3, m4
50     %1              m3, [%2]
51     mova          [%2], m3
52 %endmacro
53
54 %macro TRANSFER_DONT_PACK 2 ; op, dst
55     %1              m3, [%2]
56     %1              m3, [%2 + mmsize]
57     mova          [%2], m3
58     mova [mmsize + %2], m4
59 %endmacro
60
61 ; see MSPEL_FILTER13_CORE for use as UNPACK macro
62 %macro DO_UNPACK 1 ; reg
63     punpcklbw       %1, m0
64 %endmacro
65 %macro DONT_UNPACK 1 ; reg
66 %endmacro
67
68 ; Compute the rounder 32-r or 8-r and unpacks it to m7
69 %macro LOAD_ROUNDER_MMX 1 ; round
70     movd      m7, %1
71     punpcklwd m7, m7
72     punpckldq m7, m7
73 %endmacro
74
75 %macro SHIFT2_LINE 5 ; off, r0, r1, r2, r3
76     paddw          m%3, m%4
77     movh           m%2, [srcq + stride_neg2]
78     pmullw         m%3, m6
79     punpcklbw      m%2, m0
80     movh           m%5, [srcq + strideq]
81     psubw          m%3, m%2
82     punpcklbw      m%5, m0
83     paddw          m%3, m7
84     psubw          m%3, m%5
85     psraw          m%3, shift
86     movu   [dstq + %1], m%3
87     add           srcq, strideq
88 %endmacro
89
90 INIT_MMX mmx
91 ; void ff_vc1_put_ver_16b_shift2_mmx(int16_t *dst, const uint8_t *src,
92 ;                                    x86_reg stride, int rnd, int64_t shift)
93 ; Sacrificing m6 makes it possible to pipeline loads from src
94 %if ARCH_X86_32
95 cglobal vc1_put_ver_16b_shift2, 3,6,0, dst, src, stride
96     DECLARE_REG_TMP     3, 4, 5
97     %define rnd r3mp
98     %define shift qword r4m
99 %else ; X86_64
100 cglobal vc1_put_ver_16b_shift2, 4,7,0, dst, src, stride
101     DECLARE_REG_TMP     4, 5, 6
102     %define   rnd r3d
103     ; We need shift either in memory or in a mm reg as it's used in psraw
104     ; On WIN64, the arg is already on the stack
105     ; On UNIX64, m5 doesn't seem to be used
106 %if WIN64
107     %define shift r4mp
108 %else ; UNIX64
109     %define shift m5
110     mova shift, r4q
111 %endif ; WIN64
112 %endif ; X86_32
113 %define stride_neg2 t0q
114 %define stride_9minus4 t1q
115 %define i t2q
116     mov       stride_neg2, strideq
117     neg       stride_neg2
118     add       stride_neg2, stride_neg2
119     lea    stride_9minus4, [strideq * 9 - 4]
120     mov                 i, 3
121     LOAD_ROUNDER_MMX  rnd
122     mova               m6, [pw_9]
123     pxor               m0, m0
124 .loop:
125     movh               m2, [srcq]
126     add              srcq, strideq
127     movh               m3, [srcq]
128     punpcklbw          m2, m0
129     punpcklbw          m3, m0
130     SHIFT2_LINE         0, 1, 2, 3, 4
131     SHIFT2_LINE        24, 2, 3, 4, 1
132     SHIFT2_LINE        48, 3, 4, 1, 2
133     SHIFT2_LINE        72, 4, 1, 2, 3
134     SHIFT2_LINE        96, 1, 2, 3, 4
135     SHIFT2_LINE       120, 2, 3, 4, 1
136     SHIFT2_LINE       144, 3, 4, 1, 2
137     SHIFT2_LINE       168, 4, 1, 2, 3
138     sub              srcq, stride_9minus4
139     add              dstq, 8
140     dec                 i
141         jnz         .loop
142     REP_RET
143 %undef rnd
144 %undef shift
145 %undef stride_neg2
146 %undef stride_9minus4
147 %undef i
148
149 ; void ff_vc1_*_hor_16b_shift2_mmx(uint8_t *dst, x86_reg stride,
150 ;                                  const int16_t *src, int rnd);
151 ; Data is already unpacked, so some operations can directly be made from
152 ; memory.
153 %macro HOR_16B_SHIFT2 2 ; op, opname
154 cglobal vc1_%2_hor_16b_shift2, 4, 5, 0, dst, stride, src, rnd, h
155     mov                hq, 8
156     sub              srcq, 2
157     sub              rndd, (-1+9+9-1) * 1024 ; add -1024 bias
158     LOAD_ROUNDER_MMX rndd
159     mova               m5, [pw_9]
160     mova               m6, [pw_128]
161     pxor               m0, m0
162
163 .loop:
164     mova               m1, [srcq + 2 * 0]
165     mova               m2, [srcq + 2 * 0 + mmsize]
166     mova               m3, [srcq + 2 * 1]
167     mova               m4, [srcq + 2 * 1 + mmsize]
168     paddw              m3, [srcq + 2 * 2]
169     paddw              m4, [srcq + 2 * 2 + mmsize]
170     paddw              m1, [srcq + 2 * 3]
171     paddw              m2, [srcq + 2 * 3 + mmsize]
172     pmullw             m3, m5
173     pmullw             m4, m5
174     psubw              m3, m1
175     psubw              m4, m2
176     NORMALIZE_MMX      7
177     ; remove bias
178     paddw              m3, m6
179     paddw              m4, m6
180     TRANSFER_DO_PACK   %1, dstq
181     add              srcq, 24
182     add              dstq, strideq
183     dec                hq
184         jnz         .loop
185
186     RET
187 %endmacro
188
189 INIT_MMX mmx
190 HOR_16B_SHIFT2 OP_PUT, put
191
192 INIT_MMX mmxext
193 HOR_16B_SHIFT2 OP_AVG, avg
194 %endif ; HAVE_MMX_INLINE
195
196 %macro INV_TRANS_INIT 0
197     movsxdifnidn linesizeq, linesized
198     movd       m0, blockd
199     SPLATW     m0, m0
200     pxor       m1, m1
201     psubw      m1, m0
202     packuswb   m0, m0
203     packuswb   m1, m1
204
205     DEFINE_ARGS dest, linesize, linesize3
206     lea    linesize3q, [linesizeq*3]
207 %endmacro
208
209 %macro INV_TRANS_PROCESS 1
210     mov%1                  m2, [destq+linesizeq*0]
211     mov%1                  m3, [destq+linesizeq*1]
212     mov%1                  m4, [destq+linesizeq*2]
213     mov%1                  m5, [destq+linesize3q]
214     paddusb                m2, m0
215     paddusb                m3, m0
216     paddusb                m4, m0
217     paddusb                m5, m0
218     psubusb                m2, m1
219     psubusb                m3, m1
220     psubusb                m4, m1
221     psubusb                m5, m1
222     mov%1 [linesizeq*0+destq], m2
223     mov%1 [linesizeq*1+destq], m3
224     mov%1 [linesizeq*2+destq], m4
225     mov%1 [linesize3q +destq], m5
226 %endmacro
227
228 ; ff_vc1_inv_trans_?x?_dc_mmxext(uint8_t *dest, ptrdiff_t linesize, int16_t *block)
229 INIT_MMX mmxext
230 cglobal vc1_inv_trans_4x4_dc, 3,4,0, dest, linesize, block
231     movsx         r3d, WORD [blockq]
232     mov        blockd, r3d             ; dc
233     shl        blockd, 4               ; 16 * dc
234     lea        blockd, [blockq+r3+4]   ; 17 * dc + 4
235     sar        blockd, 3               ; >> 3
236     mov           r3d, blockd          ; dc
237     shl        blockd, 4               ; 16 * dc
238     lea        blockd, [blockq+r3+64]  ; 17 * dc + 64
239     sar        blockd, 7               ; >> 7
240
241     INV_TRANS_INIT
242
243     INV_TRANS_PROCESS h
244     RET
245
246 INIT_MMX mmxext
247 cglobal vc1_inv_trans_4x8_dc, 3,4,0, dest, linesize, block
248     movsx         r3d, WORD [blockq]
249     mov        blockd, r3d             ; dc
250     shl        blockd, 4               ; 16 * dc
251     lea        blockd, [blockq+r3+4]   ; 17 * dc + 4
252     sar        blockd, 3               ; >> 3
253     shl        blockd, 2               ;  4 * dc
254     lea        blockd, [blockq*3+64]   ; 12 * dc + 64
255     sar        blockd, 7               ; >> 7
256
257     INV_TRANS_INIT
258
259     INV_TRANS_PROCESS h
260     lea         destq, [destq+linesizeq*4]
261     INV_TRANS_PROCESS h
262     RET
263
264 INIT_MMX mmxext
265 cglobal vc1_inv_trans_8x4_dc, 3,4,0, dest, linesize, block
266     movsx      blockd, WORD [blockq]   ; dc
267     lea        blockd, [blockq*3+1]    ;  3 * dc + 1
268     sar        blockd, 1               ; >> 1
269     mov           r3d, blockd          ; dc
270     shl        blockd, 4               ; 16 * dc
271     lea        blockd, [blockq+r3+64]  ; 17 * dc + 64
272     sar        blockd, 7               ; >> 7
273
274     INV_TRANS_INIT
275
276     INV_TRANS_PROCESS a
277     RET
278
279 INIT_MMX mmxext
280 cglobal vc1_inv_trans_8x8_dc, 3,3,0, dest, linesize, block
281     movsx      blockd, WORD [blockq]   ; dc
282     lea        blockd, [blockq*3+1]    ;  3 * dc + 1
283     sar        blockd, 1               ; >> 1
284     lea        blockd, [blockq*3+16]   ;  3 * dc + 16
285     sar        blockd, 5               ; >> 5
286
287     INV_TRANS_INIT
288
289     INV_TRANS_PROCESS a
290     lea         destq, [destq+linesizeq*4]
291     INV_TRANS_PROCESS a
292     RET