]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/vp9mc.asm
Merge commit '87f98a2b9d4c7218ad82bb45347a53b65e5244f3'
[ffmpeg] / libavcodec / x86 / vp9mc.asm
1 ;******************************************************************************
2 ;* VP9 MC SIMD optimizations
3 ;*
4 ;* Copyright (c) 2013 Ronald S. Bultje <rsbultje gmail com>
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "libavutil/x86/x86util.asm"
24
25 SECTION_RODATA 32
26
27 cextern pw_256
28 cextern pw_64
29
30 %macro F8_SSSE3_TAPS 8
31 times 16 db %1, %2
32 times 16 db %3, %4
33 times 16 db %5, %6
34 times 16 db %7, %8
35 %endmacro
36
37 %macro F8_SSE2_TAPS 8
38 times 8 dw %1
39 times 8 dw %2
40 times 8 dw %3
41 times 8 dw %4
42 times 8 dw %5
43 times 8 dw %6
44 times 8 dw %7
45 times 8 dw %8
46 %endmacro
47
48 %macro FILTER 1
49 const filters_%1 ; smooth
50                     F8_TAPS -3, -1,  32,  64,  38,   1, -3,  0
51                     F8_TAPS -2, -2,  29,  63,  41,   2, -3,  0
52                     F8_TAPS -2, -2,  26,  63,  43,   4, -4,  0
53                     F8_TAPS -2, -3,  24,  62,  46,   5, -4,  0
54                     F8_TAPS -2, -3,  21,  60,  49,   7, -4,  0
55                     F8_TAPS -1, -4,  18,  59,  51,   9, -4,  0
56                     F8_TAPS -1, -4,  16,  57,  53,  12, -4, -1
57                     F8_TAPS -1, -4,  14,  55,  55,  14, -4, -1
58                     F8_TAPS -1, -4,  12,  53,  57,  16, -4, -1
59                     F8_TAPS  0, -4,   9,  51,  59,  18, -4, -1
60                     F8_TAPS  0, -4,   7,  49,  60,  21, -3, -2
61                     F8_TAPS  0, -4,   5,  46,  62,  24, -3, -2
62                     F8_TAPS  0, -4,   4,  43,  63,  26, -2, -2
63                     F8_TAPS  0, -3,   2,  41,  63,  29, -2, -2
64                     F8_TAPS  0, -3,   1,  38,  64,  32, -1, -3
65                     ; regular
66                     F8_TAPS  0,  1,  -5, 126,   8,  -3,  1,  0
67                     F8_TAPS -1,  3, -10, 122,  18,  -6,  2,  0
68                     F8_TAPS -1,  4, -13, 118,  27,  -9,  3, -1
69                     F8_TAPS -1,  4, -16, 112,  37, -11,  4, -1
70                     F8_TAPS -1,  5, -18, 105,  48, -14,  4, -1
71                     F8_TAPS -1,  5, -19,  97,  58, -16,  5, -1
72                     F8_TAPS -1,  6, -19,  88,  68, -18,  5, -1
73                     F8_TAPS -1,  6, -19,  78,  78, -19,  6, -1
74                     F8_TAPS -1,  5, -18,  68,  88, -19,  6, -1
75                     F8_TAPS -1,  5, -16,  58,  97, -19,  5, -1
76                     F8_TAPS -1,  4, -14,  48, 105, -18,  5, -1
77                     F8_TAPS -1,  4, -11,  37, 112, -16,  4, -1
78                     F8_TAPS -1,  3,  -9,  27, 118, -13,  4, -1
79                     F8_TAPS  0,  2,  -6,  18, 122, -10,  3, -1
80                     F8_TAPS  0,  1,  -3,   8, 126,  -5,  1,  0
81                     ; sharp
82                     F8_TAPS -1,  3,  -7, 127,   8,  -3,  1,  0
83                     F8_TAPS -2,  5, -13, 125,  17,  -6,  3, -1
84                     F8_TAPS -3,  7, -17, 121,  27, -10,  5, -2
85                     F8_TAPS -4,  9, -20, 115,  37, -13,  6, -2
86                     F8_TAPS -4, 10, -23, 108,  48, -16,  8, -3
87                     F8_TAPS -4, 10, -24, 100,  59, -19,  9, -3
88                     F8_TAPS -4, 11, -24,  90,  70, -21, 10, -4
89                     F8_TAPS -4, 11, -23,  80,  80, -23, 11, -4
90                     F8_TAPS -4, 10, -21,  70,  90, -24, 11, -4
91                     F8_TAPS -3,  9, -19,  59, 100, -24, 10, -4
92                     F8_TAPS -3,  8, -16,  48, 108, -23, 10, -4
93                     F8_TAPS -2,  6, -13,  37, 115, -20,  9, -4
94                     F8_TAPS -2,  5, -10,  27, 121, -17,  7, -3
95                     F8_TAPS -1,  3,  -6,  17, 125, -13,  5, -2
96                     F8_TAPS  0,  1,  -3,   8, 127,  -7,  3, -1
97 %endmacro
98
99 %define F8_TAPS F8_SSSE3_TAPS
100 ; int8_t ff_filters_ssse3[3][15][4][32]
101 FILTER ssse3
102 %define F8_TAPS F8_SSE2_TAPS
103 ; int16_t ff_filters_sse2[3][15][8][8]
104 FILTER sse2
105
106 SECTION .text
107
108 %macro filter_sse2_h_fn 1
109 %assign %%px mmsize/2
110 cglobal vp9_%1_8tap_1d_h_ %+ %%px, 6, 6, 15, dst, dstride, src, sstride, h, filtery
111     pxor        m5, m5
112     mova        m6, [pw_64]
113     mova        m7, [filteryq+  0]
114 %if ARCH_X86_64 && mmsize > 8
115     mova        m8, [filteryq+ 16]
116     mova        m9, [filteryq+ 32]
117     mova       m10, [filteryq+ 48]
118     mova       m11, [filteryq+ 64]
119     mova       m12, [filteryq+ 80]
120     mova       m13, [filteryq+ 96]
121     mova       m14, [filteryq+112]
122 %endif
123 .loop:
124     movh        m0, [srcq-3]
125     movh        m1, [srcq-2]
126     movh        m2, [srcq-1]
127     movh        m3, [srcq+0]
128     movh        m4, [srcq+1]
129     punpcklbw   m0, m5
130     punpcklbw   m1, m5
131     punpcklbw   m2, m5
132     punpcklbw   m3, m5
133     punpcklbw   m4, m5
134     pmullw      m0, m7
135 %if ARCH_X86_64 && mmsize > 8
136     pmullw      m1, m8
137     pmullw      m2, m9
138     pmullw      m3, m10
139     pmullw      m4, m11
140 %else
141     pmullw      m1, [filteryq+ 16]
142     pmullw      m2, [filteryq+ 32]
143     pmullw      m3, [filteryq+ 48]
144     pmullw      m4, [filteryq+ 64]
145 %endif
146     paddw       m0, m1
147     paddw       m2, m3
148     paddw       m0, m4
149     movh        m1, [srcq+2]
150     movh        m3, [srcq+3]
151     movh        m4, [srcq+4]
152     add       srcq, sstrideq
153     punpcklbw   m1, m5
154     punpcklbw   m3, m5
155     punpcklbw   m4, m5
156 %if ARCH_X86_64 && mmsize > 8
157     pmullw      m1, m12
158     pmullw      m3, m13
159     pmullw      m4, m14
160 %else
161     pmullw      m1, [filteryq+ 80]
162     pmullw      m3, [filteryq+ 96]
163     pmullw      m4, [filteryq+112]
164 %endif
165     paddw       m0, m1
166     paddw       m3, m4
167     paddw       m0, m6
168     paddw       m2, m3
169     paddsw      m0, m2
170     psraw       m0, 7
171 %ifidn %1, avg
172     movh        m1, [dstq]
173 %endif
174     packuswb    m0, m0
175 %ifidn %1, avg
176     pavgb       m0, m1
177 %endif
178     movh    [dstq], m0
179     add       dstq, dstrideq
180     dec         hd
181     jg .loop
182     RET
183 %endmacro
184
185 INIT_MMX mmxext
186 filter_sse2_h_fn put
187 filter_sse2_h_fn avg
188
189 INIT_XMM sse2
190 filter_sse2_h_fn put
191 filter_sse2_h_fn avg
192
193 %macro filter_h_fn 1
194 %assign %%px mmsize/2
195 cglobal vp9_%1_8tap_1d_h_ %+ %%px, 6, 6, 11, dst, dstride, src, sstride, h, filtery
196     mova        m6, [pw_256]
197     mova        m7, [filteryq+ 0]
198 %if ARCH_X86_64 && mmsize > 8
199     mova        m8, [filteryq+32]
200     mova        m9, [filteryq+64]
201     mova       m10, [filteryq+96]
202 %endif
203 .loop:
204     movh        m0, [srcq-3]
205     movh        m1, [srcq-2]
206     movh        m2, [srcq-1]
207     movh        m3, [srcq+0]
208     movh        m4, [srcq+1]
209     movh        m5, [srcq+2]
210     punpcklbw   m0, m1
211     punpcklbw   m2, m3
212     movh        m1, [srcq+3]
213     movh        m3, [srcq+4]
214     add       srcq, sstrideq
215     punpcklbw   m4, m5
216     punpcklbw   m1, m3
217     pmaddubsw   m0, m7
218 %if ARCH_X86_64 && mmsize > 8
219     pmaddubsw   m2, m8
220     pmaddubsw   m4, m9
221     pmaddubsw   m1, m10
222 %else
223     pmaddubsw   m2, [filteryq+32]
224     pmaddubsw   m4, [filteryq+64]
225     pmaddubsw   m1, [filteryq+96]
226 %endif
227     paddw       m0, m4
228     paddw       m2, m1
229     paddsw      m0, m2
230     pmulhrsw    m0, m6
231 %ifidn %1, avg
232     movh        m1, [dstq]
233 %endif
234     packuswb    m0, m0
235 %ifidn %1, avg
236     pavgb       m0, m1
237 %endif
238     movh    [dstq], m0
239     add       dstq, dstrideq
240     dec         hd
241     jg .loop
242     RET
243 %endmacro
244
245 INIT_MMX ssse3
246 filter_h_fn put
247 filter_h_fn avg
248
249 INIT_XMM ssse3
250 filter_h_fn put
251 filter_h_fn avg
252
253 %if ARCH_X86_64
254 %macro filter_hx2_fn 1
255 %assign %%px mmsize
256 cglobal vp9_%1_8tap_1d_h_ %+ %%px, 6, 6, 14, dst, dstride, src, sstride, h, filtery
257     mova       m13, [pw_256]
258     mova        m8, [filteryq+ 0]
259     mova        m9, [filteryq+32]
260     mova       m10, [filteryq+64]
261     mova       m11, [filteryq+96]
262 .loop:
263     movu        m0, [srcq-3]
264     movu        m1, [srcq-2]
265     movu        m2, [srcq-1]
266     movu        m3, [srcq+0]
267     movu        m4, [srcq+1]
268     movu        m5, [srcq+2]
269     movu        m6, [srcq+3]
270     movu        m7, [srcq+4]
271     add       srcq, sstrideq
272     SBUTTERFLY  bw, 0, 1, 12
273     SBUTTERFLY  bw, 2, 3, 12
274     SBUTTERFLY  bw, 4, 5, 12
275     SBUTTERFLY  bw, 6, 7, 12
276     pmaddubsw   m0, m8
277     pmaddubsw   m1, m8
278     pmaddubsw   m2, m9
279     pmaddubsw   m3, m9
280     pmaddubsw   m4, m10
281     pmaddubsw   m5, m10
282     pmaddubsw   m6, m11
283     pmaddubsw   m7, m11
284     paddw       m0, m4
285     paddw       m1, m5
286     paddw       m2, m6
287     paddw       m3, m7
288     paddsw      m0, m2
289     paddsw      m1, m3
290     pmulhrsw    m0, m13
291     pmulhrsw    m1, m13
292     packuswb    m0, m1
293 %ifidn %1, avg
294     pavgb       m0, [dstq]
295 %endif
296     mova    [dstq], m0
297     add       dstq, dstrideq
298     dec         hd
299     jg .loop
300     RET
301 %endmacro
302
303 INIT_XMM ssse3
304 filter_hx2_fn put
305 filter_hx2_fn avg
306
307 %if HAVE_AVX2_EXTERNAL
308 INIT_YMM avx2
309 filter_hx2_fn put
310 filter_hx2_fn avg
311 %endif
312
313 %endif ; ARCH_X86_64
314
315 %macro filter_sse2_v_fn 1
316 %assign %%px mmsize/2
317 %if ARCH_X86_64
318 cglobal vp9_%1_8tap_1d_v_ %+ %%px, 6, 8, 15, dst, dstride, src, sstride, h, filtery, src4, sstride3
319 %else
320 cglobal vp9_%1_8tap_1d_v_ %+ %%px, 4, 7, 15, dst, dstride, src, sstride, filtery, src4, sstride3
321     mov   filteryq, r5mp
322 %define hd r4mp
323 %endif
324     pxor        m5, m5
325     mova        m6, [pw_64]
326     lea  sstride3q, [sstrideq*3]
327     lea      src4q, [srcq+sstrideq]
328     sub       srcq, sstride3q
329     mova        m7, [filteryq+  0]
330 %if ARCH_X86_64 && mmsize > 8
331     mova        m8, [filteryq+ 16]
332     mova        m9, [filteryq+ 32]
333     mova       m10, [filteryq+ 48]
334     mova       m11, [filteryq+ 64]
335     mova       m12, [filteryq+ 80]
336     mova       m13, [filteryq+ 96]
337     mova       m14, [filteryq+112]
338 %endif
339 .loop:
340     ; FIXME maybe reuse loads from previous rows, or just
341     ; more generally unroll this to prevent multiple loads of
342     ; the same data?
343     movh        m0, [srcq]
344     movh        m1, [srcq+sstrideq]
345     movh        m2, [srcq+sstrideq*2]
346     movh        m3, [srcq+sstride3q]
347     add       srcq, sstrideq
348     movh        m4, [src4q]
349     punpcklbw   m0, m5
350     punpcklbw   m1, m5
351     punpcklbw   m2, m5
352     punpcklbw   m3, m5
353     punpcklbw   m4, m5
354     pmullw      m0, m7
355 %if ARCH_X86_64 && mmsize > 8
356     pmullw      m1, m8
357     pmullw      m2, m9
358     pmullw      m3, m10
359     pmullw      m4, m11
360 %else
361     pmullw      m1, [filteryq+ 16]
362     pmullw      m2, [filteryq+ 32]
363     pmullw      m3, [filteryq+ 48]
364     pmullw      m4, [filteryq+ 64]
365 %endif
366     paddw       m0, m1
367     paddw       m2, m3
368     paddw       m0, m4
369     movh        m1, [src4q+sstrideq]
370     movh        m3, [src4q+sstrideq*2]
371     movh        m4, [src4q+sstride3q]
372     add      src4q, sstrideq
373     punpcklbw   m1, m5
374     punpcklbw   m3, m5
375     punpcklbw   m4, m5
376 %if ARCH_X86_64 && mmsize > 8
377     pmullw      m1, m12
378     pmullw      m3, m13
379     pmullw      m4, m14
380 %else
381     pmullw      m1, [filteryq+ 80]
382     pmullw      m3, [filteryq+ 96]
383     pmullw      m4, [filteryq+112]
384 %endif
385     paddw       m0, m1
386     paddw       m3, m4
387     paddw       m0, m6
388     paddw       m2, m3
389     paddsw      m0, m2
390     psraw       m0, 7
391 %ifidn %1, avg
392     movh        m1, [dstq]
393 %endif
394     packuswb    m0, m0
395 %ifidn %1, avg
396     pavgb       m0, m1
397 %endif
398     movh    [dstq], m0
399     add       dstq, dstrideq
400     dec         hd
401     jg .loop
402     RET
403 %endmacro
404
405 INIT_MMX mmxext
406 filter_sse2_v_fn put
407 filter_sse2_v_fn avg
408
409 INIT_XMM sse2
410 filter_sse2_v_fn put
411 filter_sse2_v_fn avg
412
413 %macro filter_v_fn 1
414 %assign %%px mmsize/2
415 %if ARCH_X86_64
416 cglobal vp9_%1_8tap_1d_v_ %+ %%px, 6, 8, 11, dst, dstride, src, sstride, h, filtery, src4, sstride3
417 %else
418 cglobal vp9_%1_8tap_1d_v_ %+ %%px, 4, 7, 11, dst, dstride, src, sstride, filtery, src4, sstride3
419     mov   filteryq, r5mp
420 %define hd r4mp
421 %endif
422     mova        m6, [pw_256]
423     lea  sstride3q, [sstrideq*3]
424     lea      src4q, [srcq+sstrideq]
425     sub       srcq, sstride3q
426     mova        m7, [filteryq+ 0]
427 %if ARCH_X86_64 && mmsize > 8
428     mova        m8, [filteryq+32]
429     mova        m9, [filteryq+64]
430     mova       m10, [filteryq+96]
431 %endif
432 .loop:
433     ; FIXME maybe reuse loads from previous rows, or just
434     ; more generally unroll this to prevent multiple loads of
435     ; the same data?
436     movh        m0, [srcq]
437     movh        m1, [srcq+sstrideq]
438     movh        m2, [srcq+sstrideq*2]
439     movh        m3, [srcq+sstride3q]
440     movh        m4, [src4q]
441     movh        m5, [src4q+sstrideq]
442     punpcklbw   m0, m1
443     punpcklbw   m2, m3
444     movh        m1, [src4q+sstrideq*2]
445     movh        m3, [src4q+sstride3q]
446     add       srcq, sstrideq
447     add      src4q, sstrideq
448     punpcklbw   m4, m5
449     punpcklbw   m1, m3
450     pmaddubsw   m0, m7
451 %if ARCH_X86_64 && mmsize > 8
452     pmaddubsw   m2, m8
453     pmaddubsw   m4, m9
454     pmaddubsw   m1, m10
455 %else
456     pmaddubsw   m2, [filteryq+32]
457     pmaddubsw   m4, [filteryq+64]
458     pmaddubsw   m1, [filteryq+96]
459 %endif
460     paddw       m0, m4
461     paddw       m2, m1
462     paddsw      m0, m2
463     pmulhrsw    m0, m6
464 %ifidn %1, avg
465     movh        m1, [dstq]
466 %endif
467     packuswb    m0, m0
468 %ifidn %1, avg
469     pavgb       m0, m1
470 %endif
471     movh    [dstq], m0
472     add       dstq, dstrideq
473     dec         hd
474     jg .loop
475     RET
476 %endmacro
477
478 INIT_MMX ssse3
479 filter_v_fn put
480 filter_v_fn avg
481
482 INIT_XMM ssse3
483 filter_v_fn put
484 filter_v_fn avg
485
486 %if ARCH_X86_64
487
488 %macro filter_vx2_fn 1
489 %assign %%px mmsize
490 cglobal vp9_%1_8tap_1d_v_ %+ %%px, 6, 8, 14, dst, dstride, src, sstride, h, filtery, src4, sstride3
491     mova       m13, [pw_256]
492     lea  sstride3q, [sstrideq*3]
493     lea      src4q, [srcq+sstrideq]
494     sub       srcq, sstride3q
495     mova        m8, [filteryq+ 0]
496     mova        m9, [filteryq+32]
497     mova       m10, [filteryq+64]
498     mova       m11, [filteryq+96]
499 .loop:
500     ; FIXME maybe reuse loads from previous rows, or just
501     ; more generally unroll this to prevent multiple loads of
502     ; the same data?
503     movu        m0, [srcq]
504     movu        m1, [srcq+sstrideq]
505     movu        m2, [srcq+sstrideq*2]
506     movu        m3, [srcq+sstride3q]
507     movu        m4, [src4q]
508     movu        m5, [src4q+sstrideq]
509     movu        m6, [src4q+sstrideq*2]
510     movu        m7, [src4q+sstride3q]
511     add       srcq, sstrideq
512     add      src4q, sstrideq
513     SBUTTERFLY  bw, 0, 1, 12
514     SBUTTERFLY  bw, 2, 3, 12
515     SBUTTERFLY  bw, 4, 5, 12
516     SBUTTERFLY  bw, 6, 7, 12
517     pmaddubsw   m0, m8
518     pmaddubsw   m1, m8
519     pmaddubsw   m2, m9
520     pmaddubsw   m3, m9
521     pmaddubsw   m4, m10
522     pmaddubsw   m5, m10
523     pmaddubsw   m6, m11
524     pmaddubsw   m7, m11
525     paddw       m0, m4
526     paddw       m1, m5
527     paddw       m2, m6
528     paddw       m3, m7
529     paddsw      m0, m2
530     paddsw      m1, m3
531     pmulhrsw    m0, m13
532     pmulhrsw    m1, m13
533     packuswb    m0, m1
534 %ifidn %1, avg
535     pavgb       m0, [dstq]
536 %endif
537     mova    [dstq], m0
538     add       dstq, dstrideq
539     dec         hd
540     jg .loop
541     RET
542 %endmacro
543
544 INIT_XMM ssse3
545 filter_vx2_fn put
546 filter_vx2_fn avg
547
548 %if HAVE_AVX2_EXTERNAL
549 INIT_YMM avx2
550 filter_vx2_fn put
551 filter_vx2_fn avg
552 %endif
553
554 %endif ; ARCH_X86_64
555
556 %macro fpel_fn 6
557 %if %2 == 4
558 %define %%srcfn movh
559 %define %%dstfn movh
560 %else
561 %define %%srcfn movu
562 %define %%dstfn mova
563 %endif
564
565 %if %2 <= mmsize
566 cglobal vp9_%1%2, 5, 7, 4, dst, dstride, src, sstride, h, dstride3, sstride3
567     lea  sstride3q, [sstrideq*3]
568     lea  dstride3q, [dstrideq*3]
569 %else
570 cglobal vp9_%1%2, 5, 5, 4, dst, dstride, src, sstride, h
571 %endif
572 .loop:
573     %%srcfn     m0, [srcq]
574     %%srcfn     m1, [srcq+s%3]
575     %%srcfn     m2, [srcq+s%4]
576     %%srcfn     m3, [srcq+s%5]
577     lea       srcq, [srcq+sstrideq*%6]
578 %ifidn %1, avg
579     pavgb       m0, [dstq]
580     pavgb       m1, [dstq+d%3]
581     pavgb       m2, [dstq+d%4]
582     pavgb       m3, [dstq+d%5]
583 %endif
584     %%dstfn [dstq], m0
585     %%dstfn [dstq+d%3], m1
586     %%dstfn [dstq+d%4], m2
587     %%dstfn [dstq+d%5], m3
588     lea       dstq, [dstq+dstrideq*%6]
589     sub         hd, %6
590     jnz .loop
591     RET
592 %endmacro
593
594 %define d16 16
595 %define s16 16
596 %define d32 32
597 %define s32 32
598 INIT_MMX mmx
599 fpel_fn put, 4,  strideq, strideq*2, stride3q, 4
600 fpel_fn put, 8,  strideq, strideq*2, stride3q, 4
601 INIT_MMX mmxext
602 fpel_fn avg, 4,  strideq, strideq*2, stride3q, 4
603 fpel_fn avg, 8,  strideq, strideq*2, stride3q, 4
604 INIT_XMM sse
605 fpel_fn put, 16, strideq, strideq*2, stride3q, 4
606 fpel_fn put, 32, mmsize,  strideq,   strideq+mmsize, 2
607 fpel_fn put, 64, mmsize,  mmsize*2,  mmsize*3, 1
608 INIT_XMM sse2
609 fpel_fn avg, 16, strideq, strideq*2, stride3q, 4
610 fpel_fn avg, 32, mmsize,  strideq,   strideq+mmsize, 2
611 fpel_fn avg, 64, mmsize,  mmsize*2,  mmsize*3, 1
612 INIT_YMM avx
613 fpel_fn put, 32, strideq, strideq*2, stride3q, 4
614 fpel_fn put, 64, mmsize,  strideq,   strideq+mmsize, 2
615 %if HAVE_AVX2_EXTERNAL
616 INIT_YMM avx2
617 fpel_fn avg, 32, strideq, strideq*2, stride3q, 4
618 fpel_fn avg, 64, mmsize,  strideq,   strideq+mmsize, 2
619 %endif
620 %undef s16
621 %undef d16
622 %undef s32
623 %undef d32