]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/dsputilenc_yasm.asm
Merge remote-tracking branch 'qatar/master'
[ffmpeg] / libavcodec / x86 / dsputilenc_yasm.asm
1 ;*****************************************************************************
2 ;* MMX optimized DSP utils
3 ;*****************************************************************************
4 ;* Copyright (c) 2000, 2001 Fabrice Bellard
5 ;* Copyright (c) 2002-2004 Michael Niedermayer <michaelni@gmx.at>
6 ;*
7 ;* This file is part of FFmpeg.
8 ;*
9 ;* FFmpeg is free software; you can redistribute it and/or
10 ;* modify it under the terms of the GNU Lesser General Public
11 ;* License as published by the Free Software Foundation; either
12 ;* version 2.1 of the License, or (at your option) any later version.
13 ;*
14 ;* FFmpeg is distributed in the hope that it will be useful,
15 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
16 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
17 ;* Lesser General Public License for more details.
18 ;*
19 ;* You should have received a copy of the GNU Lesser General Public
20 ;* License along with FFmpeg; if not, write to the Free Software
21 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
22 ;*****************************************************************************
23
24 %include "libavutil/x86/x86inc.asm"
25 %include "libavutil/x86/x86util.asm"
26
27 SECTION .text
28
29 %macro DIFF_PIXELS_1 4
30     movh            %1, %3
31     movh            %2, %4
32     punpcklbw       %2, %1
33     punpcklbw       %1, %1
34     psubw           %1, %2
35 %endmacro
36
37 ; %1=uint8_t *pix1, %2=uint8_t *pix2, %3=static offset, %4=stride, %5=stride*3
38 ; %6=temporary storage location
39 ; this macro requires $mmsize stack space (aligned) on %6 (except on SSE+x86-64)
40 %macro DIFF_PIXELS_8 6
41     DIFF_PIXELS_1   m0, m7, [%1     +%3], [%2     +%3]
42     DIFF_PIXELS_1   m1, m7, [%1+%4  +%3], [%2+%4  +%3]
43     DIFF_PIXELS_1   m2, m7, [%1+%4*2+%3], [%2+%4*2+%3]
44     add             %1, %5
45     add             %2, %5
46     DIFF_PIXELS_1   m3, m7, [%1     +%3], [%2     +%3]
47     DIFF_PIXELS_1   m4, m7, [%1+%4  +%3], [%2+%4  +%3]
48     DIFF_PIXELS_1   m5, m7, [%1+%4*2+%3], [%2+%4*2+%3]
49     DIFF_PIXELS_1   m6, m7, [%1+%5  +%3], [%2+%5  +%3]
50 %ifdef m8
51     DIFF_PIXELS_1   m7, m8, [%1+%4*4+%3], [%2+%4*4+%3]
52 %else
53     mova          [%6], m0
54     DIFF_PIXELS_1   m7, m0, [%1+%4*4+%3], [%2+%4*4+%3]
55     mova            m0, [%6]
56 %endif
57     sub             %1, %5
58     sub             %2, %5
59 %endmacro
60
61 %macro HADAMARD8 0
62     SUMSUB_BADC       w, 0, 1, 2, 3
63     SUMSUB_BADC       w, 4, 5, 6, 7
64     SUMSUB_BADC       w, 0, 2, 1, 3
65     SUMSUB_BADC       w, 4, 6, 5, 7
66     SUMSUB_BADC       w, 0, 4, 1, 5
67     SUMSUB_BADC       w, 2, 6, 3, 7
68 %endmacro
69
70 %macro ABS1_SUM 3
71     ABS1            %1, %2
72     paddusw         %3, %1
73 %endmacro
74
75 %macro ABS2_SUM 6
76     ABS2            %1, %2, %3, %4
77     paddusw         %5, %1
78     paddusw         %6, %2
79 %endmacro
80
81 %macro ABS_SUM_8x8_64 1
82     ABS2            m0, m1, m8, m9
83     ABS2_SUM        m2, m3, m8, m9, m0, m1
84     ABS2_SUM        m4, m5, m8, m9, m0, m1
85     ABS2_SUM        m6, m7, m8, m9, m0, m1
86     paddusw         m0, m1
87 %endmacro
88
89 %macro ABS_SUM_8x8_32 1
90     mova          [%1], m7
91     ABS1            m0, m7
92     ABS1            m1, m7
93     ABS1_SUM        m2, m7, m0
94     ABS1_SUM        m3, m7, m1
95     ABS1_SUM        m4, m7, m0
96     ABS1_SUM        m5, m7, m1
97     ABS1_SUM        m6, m7, m0
98     mova            m2, [%1]
99     ABS1_SUM        m2, m7, m1
100     paddusw         m0, m1
101 %endmacro
102
103 ; FIXME: HSUM_* saturates at 64k, while an 8x8 hadamard or dct block can get up to
104 ; about 100k on extreme inputs. But that's very unlikely to occur in natural video,
105 ; and it's even more unlikely to not have any alternative mvs/modes with lower cost.
106 %macro HSUM_MMX 3
107     mova            %2, %1
108     psrlq           %1, 32
109     paddusw         %1, %2
110     mova            %2, %1
111     psrlq           %1, 16
112     paddusw         %1, %2
113     movd            %3, %1
114 %endmacro
115
116 %macro HSUM_MMX2 3
117     pshufw          %2, %1, 0xE
118     paddusw         %1, %2
119     pshufw          %2, %1, 0x1
120     paddusw         %1, %2
121     movd            %3, %1
122 %endmacro
123
124 %macro HSUM_SSE2 3
125     movhlps         %2, %1
126     paddusw         %1, %2
127     pshuflw         %2, %1, 0xE
128     paddusw         %1, %2
129     pshuflw         %2, %1, 0x1
130     paddusw         %1, %2
131     movd            %3, %1
132 %endmacro
133
134 %macro STORE4 5
135     mova [%1+mmsize*0], %2
136     mova [%1+mmsize*1], %3
137     mova [%1+mmsize*2], %4
138     mova [%1+mmsize*3], %5
139 %endmacro
140
141 %macro LOAD4 5
142     mova            %2, [%1+mmsize*0]
143     mova            %3, [%1+mmsize*1]
144     mova            %4, [%1+mmsize*2]
145     mova            %5, [%1+mmsize*3]
146 %endmacro
147
148 %macro hadamard8_16_wrapper 3
149 cglobal hadamard8_diff_%1, 4, 4, %2
150 %ifndef m8
151     %assign pad %3*mmsize-(4+stack_offset&(mmsize-1))
152     SUB            rsp, pad
153 %endif
154     call hadamard8x8_diff_%1
155 %ifndef m8
156     ADD            rsp, pad
157 %endif
158     RET
159
160 cglobal hadamard8_diff16_%1, 5, 6, %2
161 %ifndef m8
162     %assign pad %3*mmsize-(4+stack_offset&(mmsize-1))
163     SUB            rsp, pad
164 %endif
165
166     call hadamard8x8_diff_%1
167     mov            r5d, eax
168
169     add             r1, 8
170     add             r2, 8
171     call hadamard8x8_diff_%1
172     add            r5d, eax
173
174     cmp            r4d, 16
175     jne .done
176
177     lea             r1, [r1+r3*8-8]
178     lea             r2, [r2+r3*8-8]
179     call hadamard8x8_diff_%1
180     add            r5d, eax
181
182     add             r1, 8
183     add             r2, 8
184     call hadamard8x8_diff_%1
185     add            r5d, eax
186
187 .done
188     mov            eax, r5d
189 %ifndef m8
190     ADD            rsp, pad
191 %endif
192     RET
193 %endmacro
194
195 %macro HADAMARD8_DIFF_MMX 1
196 ALIGN 16
197 ; int hadamard8_diff_##cpu(void *s, uint8_t *src1, uint8_t *src2,
198 ;                          int stride, int h)
199 ; r0 = void *s = unused, int h = unused (always 8)
200 ; note how r1, r2 and r3 are not clobbered in this function, so 16x16
201 ; can simply call this 2x2x (and that's why we access rsp+gprsize
202 ; everywhere, which is rsp of calling func
203 hadamard8x8_diff_%1:
204     lea                          r0, [r3*3]
205
206     ; first 4x8 pixels
207     DIFF_PIXELS_8                r1, r2,  0, r3, r0, rsp+gprsize+0x60
208     HADAMARD8
209     mova         [rsp+gprsize+0x60], m7
210     TRANSPOSE4x4W                 0,  1,  2,  3,  7
211     STORE4              rsp+gprsize, m0, m1, m2, m3
212     mova                         m7, [rsp+gprsize+0x60]
213     TRANSPOSE4x4W                 4,  5,  6,  7,  0
214     STORE4         rsp+gprsize+0x40, m4, m5, m6, m7
215
216     ; second 4x8 pixels
217     DIFF_PIXELS_8                r1, r2,  4, r3, r0, rsp+gprsize+0x60
218     HADAMARD8
219     mova         [rsp+gprsize+0x60], m7
220     TRANSPOSE4x4W                 0,  1,  2,  3,  7
221     STORE4         rsp+gprsize+0x20, m0, m1, m2, m3
222     mova                         m7, [rsp+gprsize+0x60]
223     TRANSPOSE4x4W                 4,  5,  6,  7,  0
224
225     LOAD4          rsp+gprsize+0x40, m0, m1, m2, m3
226     HADAMARD8
227     ABS_SUM_8x8_32 rsp+gprsize+0x60
228     mova         [rsp+gprsize+0x60], m0
229
230     LOAD4          rsp+gprsize     , m0, m1, m2, m3
231     LOAD4          rsp+gprsize+0x20, m4, m5, m6, m7
232     HADAMARD8
233     ABS_SUM_8x8_32 rsp+gprsize
234     paddusw                      m0, [rsp+gprsize+0x60]
235
236     HSUM                         m0, m1, eax
237     and                         rax, 0xFFFF
238     ret
239
240 hadamard8_16_wrapper %1, 0, 14
241 %endmacro
242
243 %macro HADAMARD8_DIFF_SSE2 2
244 hadamard8x8_diff_%1:
245     lea                          r0, [r3*3]
246     DIFF_PIXELS_8                r1, r2,  0, r3, r0, rsp+gprsize
247     HADAMARD8
248 %if ARCH_X86_64
249     TRANSPOSE8x8W                 0,  1,  2,  3,  4,  5,  6,  7,  8
250 %else
251     TRANSPOSE8x8W                 0,  1,  2,  3,  4,  5,  6,  7, [rsp+gprsize], [rsp+mmsize+gprsize]
252 %endif
253     HADAMARD8
254     ABS_SUM_8x8         rsp+gprsize
255     HSUM_SSE2                    m0, m1, eax
256     and                         eax, 0xFFFF
257     ret
258
259 hadamard8_16_wrapper %1, %2, 3
260 %endmacro
261
262 INIT_MMX
263 %define ABS1 ABS1_MMX
264 %define HSUM HSUM_MMX
265 HADAMARD8_DIFF_MMX mmx
266
267 %define ABS1 ABS1_MMX2
268 %define HSUM HSUM_MMX2
269 HADAMARD8_DIFF_MMX mmx2
270
271 INIT_XMM
272 %define ABS2 ABS2_MMX2
273 %if ARCH_X86_64
274 %define ABS_SUM_8x8 ABS_SUM_8x8_64
275 %else
276 %define ABS_SUM_8x8 ABS_SUM_8x8_32
277 %endif
278 HADAMARD8_DIFF_SSE2 sse2, 10
279
280 %define ABS2        ABS2_SSSE3
281 %define ABS_SUM_8x8 ABS_SUM_8x8_64
282 HADAMARD8_DIFF_SSE2 ssse3, 9
283
284 INIT_XMM
285 ; sse16_sse2(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int h)
286 cglobal sse16_sse2, 5, 5, 8
287     shr      r4d, 1
288     pxor      m0, m0         ; mm0 = 0
289     pxor      m7, m7         ; mm7 holds the sum
290
291 .next2lines ; FIXME why are these unaligned movs? pix1[] is aligned
292     movu      m1, [r1   ]    ; mm1 = pix1[0][0-15]
293     movu      m2, [r2   ]    ; mm2 = pix2[0][0-15]
294     movu      m3, [r1+r3]    ; mm3 = pix1[1][0-15]
295     movu      m4, [r2+r3]    ; mm4 = pix2[1][0-15]
296
297     ; todo: mm1-mm2, mm3-mm4
298     ; algo: subtract mm1 from mm2 with saturation and vice versa
299     ;       OR the result to get the absolute difference
300     mova      m5, m1
301     mova      m6, m3
302     psubusb   m1, m2
303     psubusb   m3, m4
304     psubusb   m2, m5
305     psubusb   m4, m6
306
307     por       m2, m1
308     por       m4, m3
309
310     ; now convert to 16-bit vectors so we can square them
311     mova      m1, m2
312     mova      m3, m4
313
314     punpckhbw m2, m0
315     punpckhbw m4, m0
316     punpcklbw m1, m0         ; mm1 not spread over (mm1,mm2)
317     punpcklbw m3, m0         ; mm4 not spread over (mm3,mm4)
318
319     pmaddwd   m2, m2
320     pmaddwd   m4, m4
321     pmaddwd   m1, m1
322     pmaddwd   m3, m3
323
324     lea       r1, [r1+r3*2]  ; pix1 += 2*line_size
325     lea       r2, [r2+r3*2]  ; pix2 += 2*line_size
326
327     paddd     m1, m2
328     paddd     m3, m4
329     paddd     m7, m1
330     paddd     m7, m3
331
332     dec       r4
333     jnz .next2lines
334
335     mova      m1, m7
336     psrldq    m7, 8          ; shift hi qword to lo
337     paddd     m7, m1
338     mova      m1, m7
339     psrldq    m7, 4          ; shift hi dword to lo
340     paddd     m7, m1
341     movd     eax, m7         ; return value
342     RET