]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/hevc_mc.asm
x86: hpeldsp: Drop unused function parameters
[ffmpeg] / libavcodec / x86 / hevc_mc.asm
1 ;*****************************************************************************
2 ;* x86-optimized HEVC MC
3 ;* Copyright 2015 Anton Khirnov
4 ;*
5 ;* This file is part of Libav.
6 ;*
7 ;* Libav is free software; you can redistribute it and/or
8 ;* modify it under the terms of the GNU Lesser General Public
9 ;* License as published by the Free Software Foundation; either
10 ;* version 2.1 of the License, or (at your option) any later version.
11 ;*
12 ;* Libav is distributed in the hope that it will be useful,
13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
15 ;* Lesser General Public License for more details.
16 ;*
17 ;* You should have received a copy of the GNU Lesser General Public
18 ;* License along with Libav; if not, write to the Free Software
19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
20 ;******************************************************************************
21
22 %include "libavutil/x86/x86util.asm"
23
24 SECTION_RODATA
25
26 pw_1023: times 8 dw 1023
27
28 cextern hevc_qpel_coeffs
29 cextern hevc_qpel_coeffs8
30
31 cextern hevc_epel_coeffs
32 cextern hevc_epel_coeffs8
33
34 cextern pw_8
35 cextern pw_16
36 cextern pw_32
37 cextern pw_64
38
39 SECTION .text
40
41 ; %1: width
42 ; %2: bit depth
43 %macro COMMON_DEFS 2
44     %assign blocksize            8
45     %assign nb_blocks            ((%1 + blocksize - 1) / blocksize)
46     %define last_block_truncated (blocksize * nb_blocks > %1)
47     %if %2 > 8
48         %define LOAD_BLOCK     movu
49         %define LOAD_HALFBLOCK movq
50         %assign pixelsize      2
51     %else
52         %define LOAD_BLOCK     movq
53         %define LOAD_HALFBLOCK movd
54         %assign pixelsize      1
55     %endif
56     %define STORE_BLOCK        mova
57     %define STORE_HALFBLOCK    movq
58 %endmacro
59
60 ; %1: block index
61 %macro BLOCK_DEFS 1
62     %if last_block_truncated && %1 == nb_blocks - 1
63         %define block_truncated 1
64         %define LOAD            LOAD_HALFBLOCK
65         %define STORE           STORE_HALFBLOCK
66     %else
67         %define block_truncated 0
68         %define LOAD            LOAD_BLOCK
69         %define STORE           STORE_BLOCK
70     %endif
71 %endmacro
72
73
74 ; hevc_get_pixels_<w>_<d>(int16_t *dst, ptrdiff_t dststride,
75 ;                         pixel   *src, ptrdiff_t srcstride,
76 ;                         int height, int mx, int my, int *mcbuffer)
77
78 ; %1: block width
79 ; %2: bit depth
80 ; %3: log2 of height unroll
81 %macro GET_PIXELS 3
82 cglobal hevc_get_pixels_ %+ %1 %+ _ %+ %2, 5, 5, 2, dst, dststride, src, srcstride, height ; rest of the args unused
83
84     %assign shift 14 - %2
85     COMMON_DEFS %1, %2
86
87 %if pixelsize == 1
88     pxor      m0, m0
89 %endif
90
91     shr       heightd, %3
92
93 .loop:
94
95 %assign i 0
96 %rep (1 << %3)
97
98 %assign j 0
99 %rep nb_blocks
100
101     BLOCK_DEFS j
102
103     LOAD       m1, [srcq + j * pixelsize * blocksize]
104 %if pixelsize == 1
105     punpcklbw  m1, m0
106 %endif
107     psllw      m1, shift
108     STORE      [dstq + j * 2 * blocksize], m1
109
110 %assign j (j + 1)
111 %endrep
112
113     add       dstq, dststrideq
114     add       srcq, srcstrideq
115
116 %assign i (i + 1)
117 %endrep
118
119     dec heightd
120     jg .loop
121     RET
122 %endmacro
123
124 INIT_XMM sse2
125 GET_PIXELS 4,  8, 1
126 GET_PIXELS 8,  8, 1
127 GET_PIXELS 12, 8, 3
128 GET_PIXELS 16, 8, 2
129 GET_PIXELS 24, 8, 3
130 GET_PIXELS 32, 8, 3
131 GET_PIXELS 48, 8, 3
132 GET_PIXELS 64, 8, 3
133
134 GET_PIXELS 4,  10, 1
135 GET_PIXELS 8,  10, 1
136 GET_PIXELS 12, 10, 3
137 GET_PIXELS 16, 10, 2
138 GET_PIXELS 24, 10, 3
139 GET_PIXELS 32, 10, 3
140 GET_PIXELS 48, 10, 3
141 GET_PIXELS 64, 10, 3
142
143 ; hevc_qpel_h/v_<w>_8(int16_t *dst, ptrdiff_t dststride,
144 ;                     uint8_t *src, ptrdiff_t srcstride,
145 ;                     int height, int mx, int my, int *mcbuffer)
146
147 ; 8-bit qpel interpolation
148 ; %1: block width
149 ; %2: 0 - horizontal; 1 - vertical
150 %macro QPEL_8 2
151 %if %2
152     %define postfix    v
153     %define mvfrac     myq
154     %define coeffsaddr r5q
155     %define pixstride  srcstrideq
156     %define pixstride3 r5q
157     %define src_m3     r6q
158 %else
159     %define postfix    h
160     %define mvfrac     mxq
161     %define coeffsaddr r6q
162     %define pixstride  1
163     %define pixstride3 3
164     %define src_m3     (srcq - 3)
165 %endif
166
167     COMMON_DEFS %1, 8
168
169 cglobal hevc_qpel_ %+ postfix %+ _ %+ %1 %+ _8, 7, 7, 7, dst, dststride, src, srcstride, height, mx, my
170     and       mvfrac, 0x3
171     dec       mvfrac
172     shl       mvfrac, 4
173     lea       coeffsaddr, [hevc_qpel_coeffs8]
174     mova      m0,         [coeffsaddr + mvfrac]
175
176     SPLATW    m1, m0, 1
177     SPLATW    m2, m0, 2
178     SPLATW    m3, m0, 3
179     SPLATW    m0, m0, 0
180
181 %if %2
182     lea       pixstride3, [srcstrideq + 2 * srcstrideq]
183     mov       src_m3, srcq
184     sub       src_m3, pixstride3
185 %endif
186
187 .loop
188
189 %assign i 0
190 %rep nb_blocks
191
192     BLOCK_DEFS i
193
194     LOAD m4, [src_m3 + i * blocksize]
195     LOAD m5, [src_m3 + i * blocksize + 1 * pixstride]
196     punpcklbw m4, m5
197     pmaddubsw m4, m0
198
199     LOAD m5, [src_m3 + i * blocksize + 2 * pixstride]
200     LOAD m6, [srcq   + i * blocksize]
201     punpcklbw m5, m6
202     pmaddubsw m5, m1
203     paddsw    m4, m5
204
205     LOAD m5, [srcq + i * blocksize + 1 * pixstride]
206     LOAD m6, [srcq + i * blocksize + 2 * pixstride]
207     punpcklbw m5, m6
208     pmaddubsw m5, m2
209     paddsw    m4, m5
210
211     LOAD m5, [srcq + i * blocksize +     pixstride3]
212     LOAD m6, [srcq + i * blocksize + 4 * pixstride]
213     punpcklbw m5, m6
214     pmaddubsw m5, m3
215     paddsw    m4, m5
216
217     STORE [dstq + i * 2 * blocksize], m4
218
219 %assign i (i + 1)
220 %endrep
221
222     add       dstq,   dststrideq
223     add       srcq,   srcstrideq
224 %if %2
225     add       src_m3, srcstrideq
226 %endif
227
228     dec heightd
229     jg .loop
230     RET
231 %endmacro
232
233 INIT_XMM ssse3
234 QPEL_8 4,  0
235 QPEL_8 8,  0
236 QPEL_8 12, 0
237 QPEL_8 16, 0
238 QPEL_8 24, 0
239 QPEL_8 32, 0
240 QPEL_8 48, 0
241 QPEL_8 64, 0
242
243 QPEL_8 4,  1
244 QPEL_8 8,  1
245 QPEL_8 12, 1
246 QPEL_8 16, 1
247 QPEL_8 24, 1
248 QPEL_8 32, 1
249 QPEL_8 48, 1
250 QPEL_8 64, 1
251
252 ; 16-bit qpel interpolation
253 ; %1: block width
254 ; %2: shift applied to the result
255 ; %3: 0 - horizontal; 1 - vertical
256 %macro QPEL_16 3
257 %if %3
258     %define mvfrac     myq
259     %define pixstride  srcstrideq
260     %define pixstride3 sstride3q
261     %define src_m3     srcm3q
262 %else
263     %define mvfrac     mxq
264     %define pixstride  2
265     %define pixstride3 6
266     %define src_m3     (srcq - 6)
267 %endif
268
269     COMMON_DEFS %1, 16
270
271     and       mvfrac, 0x3
272     dec       mvfrac
273     shl       mvfrac, 4
274     lea       coeffsregq, [hevc_qpel_coeffs]
275     mova      m0,         [coeffsregq + mvfrac]
276
277     pshufd    m1, m0, 0x55
278     pshufd    m2, m0, 0xaa
279     pshufd    m3, m0, 0xff
280     pshufd    m0, m0, 0x00
281
282 %if %3
283     lea       sstride3q, [srcstrideq + 2 * srcstrideq]
284     mov       srcm3q, srcq
285     sub       srcm3q, sstride3q
286 %endif
287
288 .loop
289
290 %assign i 0
291 %rep nb_blocks
292
293     BLOCK_DEFS i
294
295     LOAD m4,  [src_m3 + i * 2 * blocksize]
296     LOAD m5,  [src_m3 + i * 2 * blocksize + 1 * pixstride]
297     LOAD m6,  [src_m3 + i * 2 * blocksize + 2 * pixstride]
298     LOAD m7,  [srcq   + i * 2 * blocksize + 0 * pixstride]
299     LOAD m8,  [srcq   + i * 2 * blocksize + 1 * pixstride]
300     LOAD m9,  [srcq   + i * 2 * blocksize + 2 * pixstride]
301     LOAD m10, [srcq   + i * 2 * blocksize +     pixstride3]
302     LOAD m11, [srcq   + i * 2 * blocksize + 4 * pixstride]
303
304     punpcklwd m12, m4, m5
305     pmaddwd   m12, m0
306
307     punpcklwd m13, m6, m7
308     pmaddwd   m13, m1
309     paddd     m12, m13
310
311     punpcklwd m13, m8, m9
312     pmaddwd   m13, m2
313     paddd     m12, m13
314
315     punpcklwd m13, m10, m11
316     pmaddwd   m13, m3
317     paddd     m12, m13
318     psrad     m12, %2
319
320     %if block_truncated == 0
321         punpckhwd m4, m5
322         pmaddwd   m4, m0
323
324         punpckhwd m6, m7
325         pmaddwd   m6, m1
326         paddd     m4, m6
327
328         punpckhwd m8, m9
329         pmaddwd   m8, m2
330         paddd     m4, m8
331
332         punpckhwd m10, m11
333         pmaddwd   m10, m3
334         paddd     m4, m10
335
336         psrad     m4, %2
337     %endif
338     packssdw  m12, m4
339     STORE [dstq + i * 2 * blocksize], m12
340
341 %assign i (i + 1)
342 %endrep
343
344     add       dstq,   dststrideq
345     add       srcq,   srcstrideq
346 %if %3
347     add       srcm3q, srcstrideq
348 %endif
349
350     dec heightd
351     jg .loop
352     RET
353 %endmacro
354
355 %if ARCH_X86_64
356
357 %macro QPEL_H_10 1
358 cglobal hevc_qpel_h_ %+ %1 %+ _10, 7, 9, 14, dst, dststride, src, srcstride, height, mx, my, mcbuffer, coeffsreg
359 QPEL_16 %1, 2, 0
360 %endmacro
361
362 INIT_XMM avx
363 QPEL_H_10 4
364 QPEL_H_10 8
365 QPEL_H_10 12
366 QPEL_H_10 16
367 QPEL_H_10 24
368 QPEL_H_10 32
369 QPEL_H_10 48
370 QPEL_H_10 64
371
372 %macro QPEL_V_10 1
373 cglobal hevc_qpel_v_ %+ %1 %+ _10, 7, 10, 14, dst, dststride, src, srcstride, height, mx, my, sstride3, srcm3, coeffsreg
374 QPEL_16 %1, 2, 1
375 %endmacro
376
377 INIT_XMM avx
378 QPEL_V_10 4
379 QPEL_V_10 8
380 QPEL_V_10 12
381 QPEL_V_10 16
382 QPEL_V_10 24
383 QPEL_V_10 32
384 QPEL_V_10 48
385 QPEL_V_10 64
386
387 ; hevc_qpel_hv_<w>(int16_t *dst, ptrdiff_t dststride,
388 ;                  uint8_t *src, ptrdiff_t srcstride,
389 ;                  int height, int mx, int my, int *mcbuffer)
390
391 %macro QPEL_HV 1
392 cglobal hevc_qpel_hv_ %+ %1, 7, 10, 14, dst, dststride, src, srcstride, height, mx, my, sstride3, srcm3, coeffsreg
393 QPEL_16 %1, 6, 1
394 %endmacro
395
396 INIT_XMM avx
397 QPEL_HV 4
398 QPEL_HV 8
399 QPEL_HV 12
400 QPEL_HV 16
401 QPEL_HV 24
402 QPEL_HV 32
403 QPEL_HV 48
404 QPEL_HV 64
405
406 %endif ; ARCH_X86_64
407
408 ; hevc_epel_h/v_<w>_8(int16_t *dst, ptrdiff_t dststride,
409 ;                     uint8_t *src, ptrdiff_t srcstride,
410 ;                     int height, int mx, int my, int *mcbuffer)
411
412 ; 8-bit epel interpolation
413 ; %1: block width
414 ; %2: 0 - horizontal; 1 - vertical
415 %macro EPEL_8 2
416 %if %2
417     %define postfix    v
418     %define mvfrac     myq
419     %define coeffsaddr r5q
420     %define pixstride  srcstrideq
421     %define pixstride3 r5q
422 %else
423     %define postfix    h
424     %define mvfrac     mxq
425     %define coeffsaddr r6q
426     %define pixstride  1
427     %define pixstride3 3
428 %endif
429
430     COMMON_DEFS %1, 8
431
432 cglobal hevc_epel_ %+ postfix %+ _ %+ %1 %+ _8, 7, 7, 6, dst, dststride, src, srcstride, height, mx, my
433     and       mvfrac, 0x7
434     dec       mvfrac
435     shl       mvfrac, 4
436     lea       coeffsaddr, [hevc_epel_coeffs8]
437     movq      m0,         [coeffsaddr + mvfrac]
438
439     SPLATW    m1, m0, 1
440     SPLATW    m0, m0, 0
441
442 %if %2
443     lea       pixstride3, [srcstrideq + 2 * srcstrideq]
444 %endif
445     sub       srcq, pixstride
446
447 .loop
448
449 %assign i 0
450 %rep nb_blocks
451
452     BLOCK_DEFS i
453
454     LOAD m2, [srcq + i * blocksize + 0 * pixstride]
455     LOAD m3, [srcq + i * blocksize + 1 * pixstride]
456     LOAD m4, [srcq + i * blocksize + 2 * pixstride]
457     LOAD m5, [srcq + i * blocksize +     pixstride3]
458
459     punpcklbw m2, m3
460     punpcklbw m4, m5
461
462     pmaddubsw m2, m0
463     pmaddubsw m4, m1
464
465     paddsw    m2, m4
466
467     STORE [dstq + i * 2 * blocksize], m2
468
469 %assign i (i + 1)
470 %endrep
471
472     add       dstq, dststrideq
473     add       srcq, srcstrideq
474
475     dec heightd
476     jg .loop
477     RET
478 %endmacro
479
480 INIT_XMM ssse3
481 EPEL_8 4,  0
482 EPEL_8 8,  0
483 EPEL_8 12, 0
484 EPEL_8 16, 0
485 EPEL_8 24, 0
486 EPEL_8 32, 0
487
488 EPEL_8 4,  1
489 EPEL_8 8,  1
490 EPEL_8 12, 1
491 EPEL_8 16, 1
492 EPEL_8 24, 1
493 EPEL_8 32, 1
494
495 %macro EPEL_16 3
496 %if %3
497     %define mvfrac     myq
498     %define pixstride  srcstrideq
499     %define pixstride3 sstride3q
500 %else
501     %define mvfrac     mxq
502     %define pixstride  2
503     %define pixstride3 6
504 %endif
505
506     COMMON_DEFS %1, 16
507
508     and       mvfrac, 0x7
509     dec       mvfrac
510     shl       mvfrac, 5
511     lea       coeffsregq, [hevc_epel_coeffs]
512     mova      m0, [coeffsregq + mvfrac]
513
514     pshufd    m1, m0, 0x55
515     pshufd    m0, m0, 0x00
516
517 %if %3
518     lea       sstride3q, [srcstrideq + 2 * srcstrideq]
519 %endif
520     sub       srcq, pixstride
521
522 .loop
523
524 %assign i 0
525 %rep nb_blocks
526
527     BLOCK_DEFS i
528
529     LOAD m2, [srcq + i * 2 * blocksize + 0 * pixstride]
530     LOAD m3, [srcq + i * 2 * blocksize + 1 * pixstride]
531     LOAD m4, [srcq + i * 2 * blocksize + 2 * pixstride]
532     LOAD m5, [srcq + i * 2 * blocksize +     pixstride3]
533
534     punpcklwd m6, m2, m3
535     punpcklwd m7, m4, m5
536     pmaddwd   m6, m0
537     pmaddwd   m7, m1
538     paddd     m6, m7
539     psrad     m6, %2
540
541     %if block_truncated == 0
542         punpckhwd m2, m3
543         punpckhwd m4, m5
544         pmaddwd   m2, m0
545         pmaddwd   m4, m1
546         paddd     m2, m4
547         psrad     m2, %2
548     %endif
549     packssdw  m6, m2
550     STORE [dstq + i * 2 * blocksize], m6
551
552 %assign i (i + 1)
553 %endrep
554
555     add       dstq,   dststrideq
556     add       srcq,   srcstrideq
557
558     dec heightd
559     jg .loop
560     RET
561 %endmacro
562
563 %if ARCH_X86_64
564
565 %macro EPEL_H_10 1
566 cglobal hevc_epel_h_ %+ %1 %+ _10, 8, 9, 8, dst, dststride, src, srcstride, height, mx, my, sstride3, coeffsreg
567 EPEL_16 %1, 2, 0
568 %endmacro
569
570 INIT_XMM avx
571 EPEL_H_10 4
572 EPEL_H_10 8
573 EPEL_H_10 12
574 EPEL_H_10 16
575 EPEL_H_10 24
576 EPEL_H_10 32
577
578 %macro EPEL_V_10 1
579 cglobal hevc_epel_v_ %+ %1 %+ _10, 8, 9, 8, dst, dststride, src, srcstride, height, mx, my, sstride3, coeffsreg
580 EPEL_16 %1, 2, 1
581 %endmacro
582
583 INIT_XMM avx
584 EPEL_V_10 4
585 EPEL_V_10 8
586 EPEL_V_10 12
587 EPEL_V_10 16
588 EPEL_V_10 24
589 EPEL_V_10 32
590
591 ; hevc_epel_hv_<w>_8(int16_t *dst, ptrdiff_t dststride,
592 ;                    int16_t *src, ptrdiff_t srcstride,
593 ;                    int height, int mx, int my, int *mcbuffer)
594
595 %macro EPEL_HV 1
596 cglobal hevc_epel_hv_ %+ %1, 8, 9, 8, dst, dststride, src, srcstride, height, mx, my, sstride3, coeffsreg
597 EPEL_16 %1, 6, 1
598 %endmacro
599
600 INIT_XMM avx
601 EPEL_HV 4
602 EPEL_HV 8
603 EPEL_HV 12
604 EPEL_HV 16
605 EPEL_HV 24
606 EPEL_HV 32
607
608 %endif ; ARCH_X86_64
609
610 ; hevc_put_unweighted_pred_<w>_<d>(pixel   *dst, ptrdiff_t dststride,
611 ;                                  int16_t *src, ptrdiff_t srcstride,
612 ;                                  int height)
613
614 %macro AVG 5
615     %if %3
616         %if %4 == 4
617             movq %5, %2
618             paddsw %1, %5
619         %else
620             paddsw %1, %2
621         %endif
622     %endif
623 %endmacro
624
625 ; %1: 0 - one source; 1 - two sources
626 ; %2: width
627 ; %3: bit depth
628 %macro PUT_PRED 3
629 %if %1
630 cglobal hevc_put_unweighted_pred_avg_ %+ %2 %+ _ %+ %3, 6, 6, 4, dst, dststride, src, src2, srcstride, height
631 %else
632 cglobal hevc_put_unweighted_pred_ %+ %2 %+ _ %+ %3, 5, 5, 4, dst, dststride, src, srcstride, height
633 %endif
634
635 %assign shift       14 + %1 - %3
636 %assign offset      (1 << (shift - 1))
637 %define offset_data pw_ %+ offset
638
639     mova        m0, [offset_data]
640
641 %if %3 > 8
642     %define STORE_BLOCK movu
643     %define STORE_HALF  movq
644
645     %assign pixel_max ((1 << %3) - 1)
646     %define pw_pixel_max pw_ %+ pixel_max
647     pxor    m1, m1
648     mova    m2, [pw_pixel_max]
649 %else
650     %define STORE_BLOCK movq
651     %define STORE_HALF  movd
652 %endif
653
654 .loop
655 %assign i 0
656 %rep (%2 + 7) / 8
657
658     %if (i + 1) * 8 > %2
659         %define LOAD movq
660         %define STORE STORE_HALF
661     %else
662         %define LOAD mova
663         %define STORE STORE_BLOCK
664     %endif
665
666     LOAD m3, [srcq  + 16 * i]
667     AVG  m3, [src2q + 16 * i], %1, %3 - i * 8, m4
668
669     paddsw m3, m0
670     psraw  m3, shift
671
672     %if %3 == 8
673         packuswb m3, m3
674         STORE [dstq + 8 * i], m3
675     %else
676         CLIPW m3, m1, m2
677         STORE [dstq + 16 * i], m3
678     %endif
679 %assign i (i + 1)
680 %endrep
681
682     add dstq,  dststrideq
683     add srcq,  srcstrideq
684 %if %1
685     add src2q, srcstrideq
686 %endif
687
688     dec         heightd
689     jg          .loop
690     RET
691 %endmacro
692
693 INIT_XMM sse2
694 PUT_PRED 0, 4,  8
695 PUT_PRED 1, 4,  8
696 PUT_PRED 0, 8,  8
697 PUT_PRED 1, 8,  8
698 PUT_PRED 0, 12, 8
699 PUT_PRED 1, 12, 8
700 PUT_PRED 0, 16, 8
701 PUT_PRED 1, 16, 8
702 PUT_PRED 0, 24, 8
703 PUT_PRED 1, 24, 8
704 PUT_PRED 0, 32, 8
705 PUT_PRED 1, 32, 8
706 PUT_PRED 0, 48, 8
707 PUT_PRED 1, 48, 8
708 PUT_PRED 0, 64, 8
709 PUT_PRED 1, 64, 8
710
711 PUT_PRED 0, 4,  10
712 PUT_PRED 1, 4,  10
713 PUT_PRED 0, 8,  10
714 PUT_PRED 1, 8,  10
715 PUT_PRED 0, 12, 10
716 PUT_PRED 1, 12, 10
717 PUT_PRED 0, 16, 10
718 PUT_PRED 1, 16, 10
719 PUT_PRED 0, 24, 10
720 PUT_PRED 1, 24, 10
721 PUT_PRED 0, 32, 10
722 PUT_PRED 1, 32, 10
723 PUT_PRED 0, 48, 10
724 PUT_PRED 1, 48, 10
725 PUT_PRED 0, 64, 10
726 PUT_PRED 1, 64, 10
727
728 %macro PUT_WEIGHTED_PRED 3
729 %if %1
730 cglobal hevc_put_weighted_pred_avg_ %+ %2 %+ _ %+ %3, 11, 11, 8, denom, weight0, weight1, offset0, offset1, dst, dststride, src0, src1, srcstride, height
731 %else
732 cglobal hevc_put_weighted_pred_ %+ %2 %+ _ %+ %3, 8, 8, 8, denom, weight0, offset0, dst, dststride, src0, srcstride, height
733 %endif
734
735     and         denomd, 0xff
736     movsx       weight0d, weight0w
737     movsx       offset0d, offset0w
738 %if %1
739     movsx       weight1d, weight1w
740     movsx       offset1d, offset1w
741 %endif
742
743     add         denomd, 14 + %1 - %3
744     movd        m0, denomd
745
746 %if %3 > 8
747     %assign     pixel_max ((1 << %3) - 1)
748     %define     pw_pixel_max pw_ %+ pixel_max
749     pxor        m4, m4
750     mova        m5, [pw_pixel_max]
751
752     shl         offset0d, %3 - 8
753 %if %1
754     shl         offset1d, %3 - 8
755 %endif
756 %endif
757
758 %if %1
759     lea         offset0d, [offset0d + offset1d + 1]
760 %else
761     lea         offset0d, [2 * offset0d + 1]
762 %endif
763     movd        m1, offset0d
764     SPLATD      m1
765     pslld       m1, m0
766     psrad       m1, 1
767
768     movd        m2, weight0d
769     SPLATD      m2
770 %if %1
771     movd        m3, weight1d
772     SPLATD      m3
773 %endif
774
775 .loop
776 %assign i 0
777 %rep (%2 + 3) / 4
778
779     pmovsxwd   m6, [src0q + 8 * i]
780     pmulld     m6, m2
781
782 %if %1
783     pmovsxwd   m7, [src1q + 8 * i]
784     pmulld     m7, m3
785     paddd      m6, m7
786 %endif
787
788     paddd      m6, m1
789     psrad      m6, m0
790
791     packssdw   m6, m6
792
793 %if %3 > 8
794     CLIPW      m6, m4, m5
795     movq       [dstq + 8 * i], m6
796 %else
797     packuswb   m6, m6
798     movd [dstq + 4 * i], m6
799 %endif
800
801 %assign i (i + 1)
802 %endrep
803
804     add dstq,  dststrideq
805     add src0q, srcstrideq
806 %if %1
807     add src1q, srcstrideq
808 %endif
809
810     dec         heightd
811     jg          .loop
812     RET
813 %endmacro
814
815 %if ARCH_X86_64
816 INIT_XMM sse4
817 PUT_WEIGHTED_PRED 0, 4,  8
818 PUT_WEIGHTED_PRED 1, 4,  8
819 PUT_WEIGHTED_PRED 0, 8,  8
820 PUT_WEIGHTED_PRED 1, 8,  8
821 PUT_WEIGHTED_PRED 0, 12, 8
822 PUT_WEIGHTED_PRED 1, 12, 8
823 PUT_WEIGHTED_PRED 0, 16, 8
824 PUT_WEIGHTED_PRED 1, 16, 8
825 PUT_WEIGHTED_PRED 0, 24, 8
826 PUT_WEIGHTED_PRED 1, 24, 8
827 PUT_WEIGHTED_PRED 0, 32, 8
828 PUT_WEIGHTED_PRED 1, 32, 8
829 PUT_WEIGHTED_PRED 0, 48, 8
830 PUT_WEIGHTED_PRED 1, 48, 8
831 PUT_WEIGHTED_PRED 0, 64, 8
832 PUT_WEIGHTED_PRED 1, 64, 8
833
834 PUT_WEIGHTED_PRED 0, 4,  10
835 PUT_WEIGHTED_PRED 1, 4,  10
836 PUT_WEIGHTED_PRED 0, 8,  10
837 PUT_WEIGHTED_PRED 1, 8,  10
838 PUT_WEIGHTED_PRED 0, 12, 10
839 PUT_WEIGHTED_PRED 1, 12, 10
840 PUT_WEIGHTED_PRED 0, 16, 10
841 PUT_WEIGHTED_PRED 1, 16, 10
842 PUT_WEIGHTED_PRED 0, 24, 10
843 PUT_WEIGHTED_PRED 1, 24, 10
844 PUT_WEIGHTED_PRED 0, 32, 10
845 PUT_WEIGHTED_PRED 1, 32, 10
846 PUT_WEIGHTED_PRED 0, 48, 10
847 PUT_WEIGHTED_PRED 1, 48, 10
848 PUT_WEIGHTED_PRED 0, 64, 10
849 PUT_WEIGHTED_PRED 1, 64, 10
850
851 %endif ; ARCH_X86_64