]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/hevc_add_res.asm
Merge commit 'fea4dc05b41f5465bedc786b67966f204ec6150c'
[ffmpeg] / libavcodec / x86 / hevc_add_res.asm
1 ; *****************************************************************************
2 ; * Provide SIMD optimizations for add_residual functions for HEVC decoding
3 ; * Copyright (c) 2014 Pierre-Edouard LEPERE
4 ; *
5 ; * This file is part of FFmpeg.
6 ; *
7 ; * FFmpeg is free software; you can redistribute it and/or
8 ; * modify it under the terms of the GNU Lesser General Public
9 ; * License as published by the Free Software Foundation; either
10 ; * version 2.1 of the License, or (at your option) any later version.
11 ; *
12 ; * FFmpeg is distributed in the hope that it will be useful,
13 ; * but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ; * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ; * Lesser General Public License for more details.
16 ; *
17 ; * You should have received a copy of the GNU Lesser General Public
18 ; * License along with FFmpeg; if not, write to the Free Software
19 ; * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ; ******************************************************************************
21
22 %include "libavutil/x86/x86util.asm"
23
24 SECTION .text
25
26 cextern pw_1023
27 %define max_pixels_10 pw_1023
28
29 ; the add_res macros and functions were largely inspired by h264_idct.asm from the x264 project
30 %macro ADD_RES_MMX_4_8 0
31     mova              m2, [r1]
32     mova              m4, [r1+8]
33     pxor              m3, m3
34     psubw             m3, m2
35     packuswb          m2, m2
36     packuswb          m3, m3
37     pxor              m5, m5
38     psubw             m5, m4
39     packuswb          m4, m4
40     packuswb          m5, m5
41
42     movh              m0, [r0]
43     movh              m1, [r0+r2]
44     paddusb           m0, m2
45     paddusb           m1, m4
46     psubusb           m0, m3
47     psubusb           m1, m5
48     movh            [r0], m0
49     movh         [r0+r2], m1
50 %endmacro
51
52
53 INIT_MMX mmxext
54 ; void ff_hevc_add_residual_4_8_mmxext(uint8_t *dst, int16_t *res, ptrdiff_t stride)
55 cglobal hevc_add_residual_4_8, 3, 3, 6
56     ADD_RES_MMX_4_8
57     add               r1, 16
58     lea               r0, [r0+r2*2]
59     ADD_RES_MMX_4_8
60     RET
61
62 %macro ADD_RES_SSE_8_8 0
63     pxor              m3, m3
64     mova              m4, [r1]
65     mova              m6, [r1+16]
66     mova              m0, [r1+32]
67     mova              m2, [r1+48]
68     psubw             m5, m3, m4
69     psubw             m7, m3, m6
70     psubw             m1, m3, m0
71     packuswb          m4, m0
72     packuswb          m5, m1
73     psubw             m3, m2
74     packuswb          m6, m2
75     packuswb          m7, m3
76
77     movq              m0, [r0]
78     movq              m1, [r0+r2]
79     movhps            m0, [r0+r2*2]
80     movhps            m1, [r0+r3]
81     paddusb           m0, m4
82     paddusb           m1, m6
83     psubusb           m0, m5
84     psubusb           m1, m7
85     movq            [r0], m0
86     movq         [r0+r2], m1
87     movhps     [r0+2*r2], m0
88     movhps       [r0+r3], m1
89 %endmacro
90
91 %macro ADD_RES_SSE_16_32_8 3
92     mova             xm2, [r1+%1]
93     mova             xm6, [r1+%1+16]
94 %if cpuflag(avx2)
95     vinserti128       m2, m2, [r1+%1+32], 1
96     vinserti128       m6, m6, [r1+%1+48], 1
97 %endif
98 %if cpuflag(avx)
99     psubw             m1, m0, m2
100     psubw             m5, m0, m6
101 %else
102     mova              m1, m0
103     mova              m5, m0
104     psubw             m1, m2
105     psubw             m5, m6
106 %endif
107     packuswb          m2, m6
108     packuswb          m1, m5
109
110     mova             xm4, [r1+%1+mmsize*2]
111     mova             xm6, [r1+%1+mmsize*2+16]
112 %if cpuflag(avx2)
113     vinserti128       m4, m4, [r1+%1+96 ], 1
114     vinserti128       m6, m6, [r1+%1+112], 1
115 %endif
116 %if cpuflag(avx)
117     psubw             m3, m0, m4
118     psubw             m5, m0, m6
119 %else
120     mova              m3, m0
121     mova              m5, m0
122     psubw             m3, m4
123     psubw             m5, m6
124 %endif
125     packuswb          m4, m6
126     packuswb          m3, m5
127
128     paddusb           m2, [%2]
129     paddusb           m4, [%3]
130     psubusb           m2, m1
131     psubusb           m4, m3
132     mova            [%2], m2
133     mova            [%3], m4
134 %endmacro
135
136
137 %macro TRANSFORM_ADD_8 0
138 ; void ff_hevc_add_residual_8_8_<opt>(uint8_t *dst, int16_t *res, ptrdiff_t stride)
139 cglobal hevc_add_residual_8_8, 3, 4, 8
140     lea               r3, [r2*3]
141     ADD_RES_SSE_8_8
142     add               r1, 64
143     lea               r0, [r0+r2*4]
144     ADD_RES_SSE_8_8
145     RET
146
147 ; void ff_hevc_add_residual_16_8_<opt>(uint8_t *dst, int16_t *res, ptrdiff_t stride)
148 cglobal hevc_add_residual_16_8, 3, 5, 7
149     pxor                m0, m0
150     lea                 r3, [r2*3]
151     mov                r4d, 4
152 .loop:
153     ADD_RES_SSE_16_32_8  0, r0,      r0+r2
154     ADD_RES_SSE_16_32_8 64, r0+r2*2, r0+r3
155     add                 r1, 128
156     lea                 r0, [r0+r2*4]
157     dec                r4d
158     jg .loop
159     RET
160
161 ; void ff_hevc_add_residual_32_8_<opt>(uint8_t *dst, int16_t *res, ptrdiff_t stride)
162 cglobal hevc_add_residual_32_8, 3, 5, 7
163     pxor                m0, m0
164     mov                r4d, 16
165 .loop:
166     ADD_RES_SSE_16_32_8  0, r0,    r0+16
167     ADD_RES_SSE_16_32_8 64, r0+r2, r0+r2+16
168     add                 r1, 128
169     lea                 r0, [r0+r2*2]
170     dec                r4d
171     jg .loop
172     RET
173 %endmacro
174
175 INIT_XMM sse2
176 TRANSFORM_ADD_8
177 INIT_XMM avx
178 TRANSFORM_ADD_8
179
180 %if HAVE_AVX2_EXTERNAL
181 INIT_YMM avx2
182 ; void ff_hevc_add_residual_32_8_avx2(uint8_t *dst, int16_t *res, ptrdiff_t stride)
183 cglobal hevc_add_residual_32_8, 3, 5, 7
184     pxor                 m0, m0
185     lea                  r3, [r2*3]
186     mov                 r4d, 8
187 .loop:
188     ADD_RES_SSE_16_32_8   0, r0,      r0+r2
189     ADD_RES_SSE_16_32_8 128, r0+r2*2, r0+r3
190     add                  r1, 256
191     lea                  r0, [r0+r2*4]
192     dec                 r4d
193     jg .loop
194     RET
195 %endif
196
197 %macro ADD_RES_SSE_8_10 4
198     mova              m0, [%4]
199     mova              m1, [%4+16]
200     mova              m2, [%4+32]
201     mova              m3, [%4+48]
202     paddw             m0, [%1+0]
203     paddw             m1, [%1+%2]
204     paddw             m2, [%1+%2*2]
205     paddw             m3, [%1+%3]
206     CLIPW             m0, m4, m5
207     CLIPW             m1, m4, m5
208     CLIPW             m2, m4, m5
209     CLIPW             m3, m4, m5
210     mova          [%1+0], m0
211     mova         [%1+%2], m1
212     mova       [%1+%2*2], m2
213     mova         [%1+%3], m3
214 %endmacro
215
216 %macro ADD_RES_MMX_4_10 3
217     mova              m0, [%1+0]
218     mova              m1, [%1+%2]
219     paddw             m0, [%3]
220     paddw             m1, [%3+8]
221     CLIPW             m0, m2, m3
222     CLIPW             m1, m2, m3
223     mova          [%1+0], m0
224     mova         [%1+%2], m1
225 %endmacro
226
227 %macro ADD_RES_SSE_16_10 3
228     mova              m0, [%3]
229     mova              m1, [%3+16]
230     mova              m2, [%3+32]
231     mova              m3, [%3+48]
232     paddw             m0, [%1]
233     paddw             m1, [%1+16]
234     paddw             m2, [%1+%2]
235     paddw             m3, [%1+%2+16]
236     CLIPW             m0, m4, m5
237     CLIPW             m1, m4, m5
238     CLIPW             m2, m4, m5
239     CLIPW             m3, m4, m5
240     mova            [%1], m0
241     mova         [%1+16], m1
242     mova         [%1+%2], m2
243     mova      [%1+%2+16], m3
244 %endmacro
245
246 %macro ADD_RES_SSE_32_10 2
247     mova              m0, [%2]
248     mova              m1, [%2+16]
249     mova              m2, [%2+32]
250     mova              m3, [%2+48]
251
252     paddw             m0, [%1]
253     paddw             m1, [%1+16]
254     paddw             m2, [%1+32]
255     paddw             m3, [%1+48]
256     CLIPW             m0, m4, m5
257     CLIPW             m1, m4, m5
258     CLIPW             m2, m4, m5
259     CLIPW             m3, m4, m5
260     mova            [%1], m0
261     mova         [%1+16], m1
262     mova         [%1+32], m2
263     mova         [%1+48], m3
264 %endmacro
265
266 %macro ADD_RES_AVX2_16_10 4
267     mova              m0, [%4]
268     mova              m1, [%4+32]
269     mova              m2, [%4+64]
270     mova              m3, [%4+96]
271
272     paddw             m0, [%1+0]
273     paddw             m1, [%1+%2]
274     paddw             m2, [%1+%2*2]
275     paddw             m3, [%1+%3]
276
277     CLIPW             m0, m4, m5
278     CLIPW             m1, m4, m5
279     CLIPW             m2, m4, m5
280     CLIPW             m3, m4, m5
281     mova          [%1+0], m0
282     mova         [%1+%2], m1
283     mova       [%1+%2*2], m2
284     mova         [%1+%3], m3
285 %endmacro
286
287 %macro ADD_RES_AVX2_32_10 3
288     mova              m0, [%3]
289     mova              m1, [%3+32]
290     mova              m2, [%3+64]
291     mova              m3, [%3+96]
292
293     paddw             m0, [%1]
294     paddw             m1, [%1+32]
295     paddw             m2, [%1+%2]
296     paddw             m3, [%1+%2+32]
297
298     CLIPW             m0, m4, m5
299     CLIPW             m1, m4, m5
300     CLIPW             m2, m4, m5
301     CLIPW             m3, m4, m5
302     mova            [%1], m0
303     mova         [%1+32], m1
304     mova         [%1+%2], m2
305     mova      [%1+%2+32], m3
306 %endmacro
307
308 ; void ff_hevc_add_residual_<4|8|16|32>_10(pixel *dst, int16_t *block, ptrdiff_t stride)
309 INIT_MMX mmxext
310 cglobal hevc_add_residual_4_10, 3, 3, 6
311     pxor              m2, m2
312     mova              m3, [max_pixels_10]
313     ADD_RES_MMX_4_10  r0, r2, r1
314     add               r1, 16
315     lea               r0, [r0+2*r2]
316     ADD_RES_MMX_4_10  r0, r2, r1
317     RET
318
319 INIT_XMM sse2
320 cglobal hevc_add_residual_8_10, 3, 4, 6
321     pxor              m4, m4
322     mova              m5, [max_pixels_10]
323     lea               r3, [r2*3]
324
325     ADD_RES_SSE_8_10  r0, r2, r3, r1
326     lea               r0, [r0+r2*4]
327     add               r1, 64
328     ADD_RES_SSE_8_10  r0, r2, r3, r1
329     RET
330
331 cglobal hevc_add_residual_16_10, 3, 5, 6
332     pxor              m4, m4
333     mova              m5, [max_pixels_10]
334
335     mov              r4d, 8
336 .loop:
337     ADD_RES_SSE_16_10 r0, r2, r1
338     lea               r0, [r0+r2*2]
339     add               r1, 64
340     dec              r4d
341     jg .loop
342     RET
343
344 cglobal hevc_add_residual_32_10, 3, 5, 6
345     pxor              m4, m4
346     mova              m5, [max_pixels_10]
347
348     mov              r4d, 32
349 .loop:
350     ADD_RES_SSE_32_10 r0, r1
351     lea               r0, [r0+r2]
352     add               r1, 64
353     dec              r4d
354     jg .loop
355     RET
356
357 %if HAVE_AVX2_EXTERNAL
358 INIT_YMM avx2
359 cglobal hevc_add_residual_16_10, 3, 5, 6
360     pxor               m4, m4
361     mova               m5, [max_pixels_10]
362     lea                r3, [r2*3]
363
364     mov               r4d, 4
365 .loop:
366     ADD_RES_AVX2_16_10 r0, r2, r3, r1
367     lea                r0, [r0+r2*4]
368     add                r1, 128
369     dec               r4d
370     jg .loop
371     RET
372
373 cglobal hevc_add_residual_32_10, 3, 5, 6
374     pxor               m4, m4
375     mova               m5, [max_pixels_10]
376
377     mov               r4d, 16
378 .loop:
379     ADD_RES_AVX2_32_10 r0, r2, r1
380     lea                r0, [r0+r2*2]
381     add                r1, 128
382     dec               r4d
383     jg .loop
384     RET
385 %endif ;HAVE_AVX2_EXTERNAL