2 * Copyright (C) 2003 David S. Miller <davem@redhat.com>
4 * This file is part of FFmpeg.
6 * FFmpeg is free software; you can redistribute it and/or
7 * modify it under the terms of the GNU Lesser General Public
8 * License as published by the Free Software Foundation; either
9 * version 2.1 of the License, or (at your option) any later version.
11 * FFmpeg is distributed in the hope that it will be useful,
12 * but WITHOUT ANY WARRANTY; without even the implied warranty of
13 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
14 * Lesser General Public License for more details.
16 * You should have received a copy of the GNU Lesser General Public
17 * License along with FFmpeg; if not, write to the Free Software
18 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 /* The *no_round* functions have been added by James A. Morrison, 2003,2004.
22 The vis code from libmpeg2 was adapted for libavcodec by James A. Morrison.
29 #include "libavcodec/dsputil.h"
30 #include "dsputil_vis.h"
34 /* The trick used in some of this file is the formula from the MMX
35 * motion comp code, which is:
37 * (x+y+1)>>1 == (x|y)-((x^y)>>1)
39 * This allows us to average 8 bytes at a time in a 64-bit FPU reg.
40 * We avoid overflows by masking before we do the shift, and we
41 * implement the shift by multiplying by 1/2 using mul8x16. So in
42 * VIS this is (assume 'x' is in f0, 'y' is in f2, a repeating mask
43 * of '0xfe' is in f4, a repeating mask of '0x7f' is in f6, and
44 * the value 0x80808080 is in f8):
48 * fmul8x16 f8, f10, f10
51 * fpsub16 f12, f10, f10
54 #define DUP4(x) {x, x, x, x}
55 #define DUP8(x) {x, x, x, x, x, x, x, x}
56 DECLARE_ALIGNED(8, static const int16_t, constants1)[] = DUP4 (1);
57 DECLARE_ALIGNED(8, static const int16_t, constants2)[] = DUP4 (2);
58 DECLARE_ALIGNED(8, static const int16_t, constants3)[] = DUP4 (3);
59 DECLARE_ALIGNED(8, static const int16_t, constants6)[] = DUP4 (6);
60 DECLARE_ALIGNED(8, static const int8_t, constants_fe)[] = DUP8 (0xfe);
61 DECLARE_ALIGNED(8, static const int8_t, constants_7f)[] = DUP8 (0x7f);
62 DECLARE_ALIGNED(8, static const int8_t, constants128)[] = DUP8 (128);
63 DECLARE_ALIGNED(8, static const int16_t, constants256_512)[] =
65 DECLARE_ALIGNED(8, static const int16_t, constants256_1024)[] =
66 {256, 1024, 256, 1024};
121 static void MC_put_o_16_vis (uint8_t * dest, const uint8_t * ref,
122 const int stride, int height)
124 ref = vis_alignaddr(ref);
126 vis_ld64(ref[0], TMP0);
128 vis_ld64_2(ref, 8, TMP2);
130 vis_ld64_2(ref, 16, TMP4);
133 vis_faligndata(TMP0, TMP2, REF_0);
134 vis_st64(REF_0, dest[0]);
136 vis_faligndata(TMP2, TMP4, REF_2);
137 vis_st64_2(REF_2, dest, 8);
142 static void MC_put_o_8_vis (uint8_t * dest, const uint8_t * ref,
143 const int stride, int height)
145 ref = vis_alignaddr(ref);
147 vis_ld64(ref[0], TMP0);
149 vis_ld64(ref[8], TMP2);
154 vis_faligndata(TMP0, TMP2, REF_0);
155 vis_st64(REF_0, dest[0]);
161 static void MC_avg_o_16_vis (uint8_t * dest, const uint8_t * ref,
162 const int stride, int height)
164 int stride_8 = stride + 8;
166 ref = vis_alignaddr(ref);
168 vis_ld64(ref[0], TMP0);
170 vis_ld64(ref[8], TMP2);
172 vis_ld64(ref[16], TMP4);
174 vis_ld64(dest[0], DST_0);
176 vis_ld64(dest[8], DST_2);
178 vis_ld64(constants_fe[0], MASK_fe);
179 vis_faligndata(TMP0, TMP2, REF_0);
181 vis_ld64(constants_7f[0], MASK_7f);
182 vis_faligndata(TMP2, TMP4, REF_2);
184 vis_ld64(constants128[0], CONST_128);
187 height = (height >> 1) - 1;
190 vis_ld64(ref[0], TMP0);
191 vis_xor(DST_0, REF_0, TMP6);
193 vis_ld64_2(ref, 8, TMP2);
194 vis_and(TMP6, MASK_fe, TMP6);
196 vis_ld64_2(ref, 16, TMP4);
198 vis_mul8x16(CONST_128, TMP6, TMP6);
199 vis_xor(DST_2, REF_2, TMP8);
201 vis_and(TMP8, MASK_fe, TMP8);
203 vis_or(DST_0, REF_0, TMP10);
204 vis_ld64_2(dest, stride, DST_0);
205 vis_mul8x16(CONST_128, TMP8, TMP8);
207 vis_or(DST_2, REF_2, TMP12);
208 vis_ld64_2(dest, stride_8, DST_2);
210 vis_ld64(ref[0], TMP14);
211 vis_and(TMP6, MASK_7f, TMP6);
213 vis_and(TMP8, MASK_7f, TMP8);
215 vis_psub16(TMP10, TMP6, TMP6);
216 vis_st64(TMP6, dest[0]);
218 vis_psub16(TMP12, TMP8, TMP8);
219 vis_st64_2(TMP8, dest, 8);
222 vis_ld64_2(ref, 8, TMP16);
223 vis_faligndata(TMP0, TMP2, REF_0);
225 vis_ld64_2(ref, 16, TMP18);
226 vis_faligndata(TMP2, TMP4, REF_2);
229 vis_xor(DST_0, REF_0, TMP20);
231 vis_and(TMP20, MASK_fe, TMP20);
233 vis_xor(DST_2, REF_2, TMP22);
234 vis_mul8x16(CONST_128, TMP20, TMP20);
236 vis_and(TMP22, MASK_fe, TMP22);
238 vis_or(DST_0, REF_0, TMP24);
239 vis_mul8x16(CONST_128, TMP22, TMP22);
241 vis_or(DST_2, REF_2, TMP26);
243 vis_ld64_2(dest, stride, DST_0);
244 vis_faligndata(TMP14, TMP16, REF_0);
246 vis_ld64_2(dest, stride_8, DST_2);
247 vis_faligndata(TMP16, TMP18, REF_2);
249 vis_and(TMP20, MASK_7f, TMP20);
251 vis_and(TMP22, MASK_7f, TMP22);
253 vis_psub16(TMP24, TMP20, TMP20);
254 vis_st64(TMP20, dest[0]);
256 vis_psub16(TMP26, TMP22, TMP22);
257 vis_st64_2(TMP22, dest, 8);
261 vis_ld64(ref[0], TMP0);
262 vis_xor(DST_0, REF_0, TMP6);
264 vis_ld64_2(ref, 8, TMP2);
265 vis_and(TMP6, MASK_fe, TMP6);
267 vis_ld64_2(ref, 16, TMP4);
268 vis_mul8x16(CONST_128, TMP6, TMP6);
269 vis_xor(DST_2, REF_2, TMP8);
271 vis_and(TMP8, MASK_fe, TMP8);
273 vis_or(DST_0, REF_0, TMP10);
274 vis_ld64_2(dest, stride, DST_0);
275 vis_mul8x16(CONST_128, TMP8, TMP8);
277 vis_or(DST_2, REF_2, TMP12);
278 vis_ld64_2(dest, stride_8, DST_2);
280 vis_ld64(ref[0], TMP14);
281 vis_and(TMP6, MASK_7f, TMP6);
283 vis_and(TMP8, MASK_7f, TMP8);
285 vis_psub16(TMP10, TMP6, TMP6);
286 vis_st64(TMP6, dest[0]);
288 vis_psub16(TMP12, TMP8, TMP8);
289 vis_st64_2(TMP8, dest, 8);
292 vis_faligndata(TMP0, TMP2, REF_0);
294 vis_faligndata(TMP2, TMP4, REF_2);
296 vis_xor(DST_0, REF_0, TMP20);
298 vis_and(TMP20, MASK_fe, TMP20);
300 vis_xor(DST_2, REF_2, TMP22);
301 vis_mul8x16(CONST_128, TMP20, TMP20);
303 vis_and(TMP22, MASK_fe, TMP22);
305 vis_or(DST_0, REF_0, TMP24);
306 vis_mul8x16(CONST_128, TMP22, TMP22);
308 vis_or(DST_2, REF_2, TMP26);
310 vis_and(TMP20, MASK_7f, TMP20);
312 vis_and(TMP22, MASK_7f, TMP22);
314 vis_psub16(TMP24, TMP20, TMP20);
315 vis_st64(TMP20, dest[0]);
317 vis_psub16(TMP26, TMP22, TMP22);
318 vis_st64_2(TMP22, dest, 8);
321 static void MC_avg_o_8_vis (uint8_t * dest, const uint8_t * ref,
322 const int stride, int height)
324 ref = vis_alignaddr(ref);
326 vis_ld64(ref[0], TMP0);
328 vis_ld64(ref[8], TMP2);
330 vis_ld64(dest[0], DST_0);
332 vis_ld64(constants_fe[0], MASK_fe);
334 vis_ld64(constants_7f[0], MASK_7f);
335 vis_faligndata(TMP0, TMP2, REF_0);
337 vis_ld64(constants128[0], CONST_128);
340 height = (height >> 1) - 1;
343 vis_ld64(ref[0], TMP0);
344 vis_xor(DST_0, REF_0, TMP4);
346 vis_ld64(ref[8], TMP2);
347 vis_and(TMP4, MASK_fe, TMP4);
349 vis_or(DST_0, REF_0, TMP6);
350 vis_ld64_2(dest, stride, DST_0);
352 vis_mul8x16(CONST_128, TMP4, TMP4);
354 vis_ld64(ref[0], TMP12);
355 vis_faligndata(TMP0, TMP2, REF_0);
357 vis_ld64(ref[8], TMP2);
358 vis_xor(DST_0, REF_0, TMP0);
361 vis_and(TMP0, MASK_fe, TMP0);
363 vis_and(TMP4, MASK_7f, TMP4);
365 vis_psub16(TMP6, TMP4, TMP4);
366 vis_st64(TMP4, dest[0]);
368 vis_mul8x16(CONST_128, TMP0, TMP0);
370 vis_or(DST_0, REF_0, TMP6);
371 vis_ld64_2(dest, stride, DST_0);
373 vis_faligndata(TMP12, TMP2, REF_0);
375 vis_and(TMP0, MASK_7f, TMP0);
377 vis_psub16(TMP6, TMP0, TMP4);
378 vis_st64(TMP4, dest[0]);
382 vis_ld64(ref[0], TMP0);
383 vis_xor(DST_0, REF_0, TMP4);
385 vis_ld64(ref[8], TMP2);
386 vis_and(TMP4, MASK_fe, TMP4);
388 vis_or(DST_0, REF_0, TMP6);
389 vis_ld64_2(dest, stride, DST_0);
390 vis_mul8x16(CONST_128, TMP4, TMP4);
392 vis_faligndata(TMP0, TMP2, REF_0);
394 vis_xor(DST_0, REF_0, TMP0);
396 vis_and(TMP0, MASK_fe, TMP0);
398 vis_and(TMP4, MASK_7f, TMP4);
400 vis_psub16(TMP6, TMP4, TMP4);
401 vis_st64(TMP4, dest[0]);
403 vis_mul8x16(CONST_128, TMP0, TMP0);
405 vis_or(DST_0, REF_0, TMP6);
407 vis_and(TMP0, MASK_7f, TMP0);
409 vis_psub16(TMP6, TMP0, TMP4);
410 vis_st64(TMP4, dest[0]);
413 static void MC_put_x_16_vis (uint8_t * dest, const uint8_t * ref,
414 const int stride, int height)
416 unsigned long off = (unsigned long) ref & 0x7;
417 unsigned long off_plus_1 = off + 1;
419 ref = vis_alignaddr(ref);
421 vis_ld64(ref[0], TMP0);
423 vis_ld64_2(ref, 8, TMP2);
425 vis_ld64_2(ref, 16, TMP4);
427 vis_ld64(constants_fe[0], MASK_fe);
429 vis_ld64(constants_7f[0], MASK_7f);
430 vis_faligndata(TMP0, TMP2, REF_0);
432 vis_ld64(constants128[0], CONST_128);
433 vis_faligndata(TMP2, TMP4, REF_4);
436 vis_alignaddr_g0((void *)off_plus_1);
437 vis_faligndata(TMP0, TMP2, REF_2);
438 vis_faligndata(TMP2, TMP4, REF_6);
440 vis_src1(TMP2, REF_2);
441 vis_src1(TMP4, REF_6);
445 height = (height >> 1) - 1;
448 vis_ld64(ref[0], TMP0);
449 vis_xor(REF_0, REF_2, TMP6);
451 vis_ld64_2(ref, 8, TMP2);
452 vis_xor(REF_4, REF_6, TMP8);
454 vis_ld64_2(ref, 16, TMP4);
455 vis_and(TMP6, MASK_fe, TMP6);
458 vis_ld64(ref[0], TMP14);
459 vis_mul8x16(CONST_128, TMP6, TMP6);
460 vis_and(TMP8, MASK_fe, TMP8);
462 vis_ld64_2(ref, 8, TMP16);
463 vis_mul8x16(CONST_128, TMP8, TMP8);
464 vis_or(REF_0, REF_2, TMP10);
466 vis_ld64_2(ref, 16, TMP18);
468 vis_or(REF_4, REF_6, TMP12);
470 vis_alignaddr_g0((void *)off);
472 vis_faligndata(TMP0, TMP2, REF_0);
474 vis_faligndata(TMP2, TMP4, REF_4);
477 vis_alignaddr_g0((void *)off_plus_1);
478 vis_faligndata(TMP0, TMP2, REF_2);
479 vis_faligndata(TMP2, TMP4, REF_6);
481 vis_src1(TMP2, REF_2);
482 vis_src1(TMP4, REF_6);
485 vis_and(TMP6, MASK_7f, TMP6);
487 vis_and(TMP8, MASK_7f, TMP8);
489 vis_psub16(TMP10, TMP6, TMP6);
490 vis_st64(TMP6, dest[0]);
492 vis_psub16(TMP12, TMP8, TMP8);
493 vis_st64_2(TMP8, dest, 8);
496 vis_xor(REF_0, REF_2, TMP6);
498 vis_xor(REF_4, REF_6, TMP8);
500 vis_and(TMP6, MASK_fe, TMP6);
502 vis_mul8x16(CONST_128, TMP6, TMP6);
503 vis_and(TMP8, MASK_fe, TMP8);
505 vis_mul8x16(CONST_128, TMP8, TMP8);
506 vis_or(REF_0, REF_2, TMP10);
508 vis_or(REF_4, REF_6, TMP12);
510 vis_alignaddr_g0((void *)off);
512 vis_faligndata(TMP14, TMP16, REF_0);
514 vis_faligndata(TMP16, TMP18, REF_4);
517 vis_alignaddr_g0((void *)off_plus_1);
518 vis_faligndata(TMP14, TMP16, REF_2);
519 vis_faligndata(TMP16, TMP18, REF_6);
521 vis_src1(TMP16, REF_2);
522 vis_src1(TMP18, REF_6);
525 vis_and(TMP6, MASK_7f, TMP6);
527 vis_and(TMP8, MASK_7f, TMP8);
529 vis_psub16(TMP10, TMP6, TMP6);
530 vis_st64(TMP6, dest[0]);
532 vis_psub16(TMP12, TMP8, TMP8);
533 vis_st64_2(TMP8, dest, 8);
537 vis_ld64(ref[0], TMP0);
538 vis_xor(REF_0, REF_2, TMP6);
540 vis_ld64_2(ref, 8, TMP2);
541 vis_xor(REF_4, REF_6, TMP8);
543 vis_ld64_2(ref, 16, TMP4);
544 vis_and(TMP6, MASK_fe, TMP6);
546 vis_mul8x16(CONST_128, TMP6, TMP6);
547 vis_and(TMP8, MASK_fe, TMP8);
549 vis_mul8x16(CONST_128, TMP8, TMP8);
550 vis_or(REF_0, REF_2, TMP10);
552 vis_or(REF_4, REF_6, TMP12);
554 vis_alignaddr_g0((void *)off);
556 vis_faligndata(TMP0, TMP2, REF_0);
558 vis_faligndata(TMP2, TMP4, REF_4);
561 vis_alignaddr_g0((void *)off_plus_1);
562 vis_faligndata(TMP0, TMP2, REF_2);
563 vis_faligndata(TMP2, TMP4, REF_6);
565 vis_src1(TMP2, REF_2);
566 vis_src1(TMP4, REF_6);
569 vis_and(TMP6, MASK_7f, TMP6);
571 vis_and(TMP8, MASK_7f, TMP8);
573 vis_psub16(TMP10, TMP6, TMP6);
574 vis_st64(TMP6, dest[0]);
576 vis_psub16(TMP12, TMP8, TMP8);
577 vis_st64_2(TMP8, dest, 8);
580 vis_xor(REF_0, REF_2, TMP6);
582 vis_xor(REF_4, REF_6, TMP8);
584 vis_and(TMP6, MASK_fe, TMP6);
586 vis_mul8x16(CONST_128, TMP6, TMP6);
587 vis_and(TMP8, MASK_fe, TMP8);
589 vis_mul8x16(CONST_128, TMP8, TMP8);
590 vis_or(REF_0, REF_2, TMP10);
592 vis_or(REF_4, REF_6, TMP12);
594 vis_and(TMP6, MASK_7f, TMP6);
596 vis_and(TMP8, MASK_7f, TMP8);
598 vis_psub16(TMP10, TMP6, TMP6);
599 vis_st64(TMP6, dest[0]);
601 vis_psub16(TMP12, TMP8, TMP8);
602 vis_st64_2(TMP8, dest, 8);
605 static void MC_put_x_8_vis (uint8_t * dest, const uint8_t * ref,
606 const int stride, int height)
608 unsigned long off = (unsigned long) ref & 0x7;
609 unsigned long off_plus_1 = off + 1;
611 ref = vis_alignaddr(ref);
613 vis_ld64(ref[0], TMP0);
615 vis_ld64(ref[8], TMP2);
617 vis_ld64(constants_fe[0], MASK_fe);
619 vis_ld64(constants_7f[0], MASK_7f);
621 vis_ld64(constants128[0], CONST_128);
622 vis_faligndata(TMP0, TMP2, REF_0);
625 vis_alignaddr_g0((void *)off_plus_1);
626 vis_faligndata(TMP0, TMP2, REF_2);
628 vis_src1(TMP2, REF_2);
632 height = (height >> 1) - 1;
635 vis_ld64(ref[0], TMP0);
636 vis_xor(REF_0, REF_2, TMP4);
638 vis_ld64_2(ref, 8, TMP2);
639 vis_and(TMP4, MASK_fe, TMP4);
642 vis_ld64(ref[0], TMP8);
643 vis_or(REF_0, REF_2, TMP6);
644 vis_mul8x16(CONST_128, TMP4, TMP4);
646 vis_alignaddr_g0((void *)off);
648 vis_ld64_2(ref, 8, TMP10);
650 vis_faligndata(TMP0, TMP2, REF_0);
653 vis_alignaddr_g0((void *)off_plus_1);
654 vis_faligndata(TMP0, TMP2, REF_2);
656 vis_src1(TMP2, REF_2);
659 vis_and(TMP4, MASK_7f, TMP4);
661 vis_psub16(TMP6, TMP4, DST_0);
662 vis_st64(DST_0, dest[0]);
665 vis_xor(REF_0, REF_2, TMP12);
667 vis_and(TMP12, MASK_fe, TMP12);
669 vis_or(REF_0, REF_2, TMP14);
670 vis_mul8x16(CONST_128, TMP12, TMP12);
672 vis_alignaddr_g0((void *)off);
673 vis_faligndata(TMP8, TMP10, REF_0);
675 vis_alignaddr_g0((void *)off_plus_1);
676 vis_faligndata(TMP8, TMP10, REF_2);
678 vis_src1(TMP10, REF_2);
681 vis_and(TMP12, MASK_7f, TMP12);
683 vis_psub16(TMP14, TMP12, DST_0);
684 vis_st64(DST_0, dest[0]);
688 vis_ld64(ref[0], TMP0);
689 vis_xor(REF_0, REF_2, TMP4);
691 vis_ld64_2(ref, 8, TMP2);
692 vis_and(TMP4, MASK_fe, TMP4);
694 vis_or(REF_0, REF_2, TMP6);
695 vis_mul8x16(CONST_128, TMP4, TMP4);
697 vis_alignaddr_g0((void *)off);
699 vis_faligndata(TMP0, TMP2, REF_0);
702 vis_alignaddr_g0((void *)off_plus_1);
703 vis_faligndata(TMP0, TMP2, REF_2);
705 vis_src1(TMP2, REF_2);
708 vis_and(TMP4, MASK_7f, TMP4);
710 vis_psub16(TMP6, TMP4, DST_0);
711 vis_st64(DST_0, dest[0]);
714 vis_xor(REF_0, REF_2, TMP12);
716 vis_and(TMP12, MASK_fe, TMP12);
718 vis_or(REF_0, REF_2, TMP14);
719 vis_mul8x16(CONST_128, TMP12, TMP12);
721 vis_and(TMP12, MASK_7f, TMP12);
723 vis_psub16(TMP14, TMP12, DST_0);
724 vis_st64(DST_0, dest[0]);
728 static void MC_avg_x_16_vis (uint8_t * dest, const uint8_t * ref,
729 const int stride, int height)
731 unsigned long off = (unsigned long) ref & 0x7;
732 unsigned long off_plus_1 = off + 1;
734 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
736 vis_ld64(constants3[0], CONST_3);
738 vis_ld64(constants256_512[0], CONST_256);
740 ref = vis_alignaddr(ref);
742 vis_ld64(ref[0], TMP0);
744 vis_ld64(ref[8], TMP2);
746 vis_alignaddr_g0((void *)off);
748 vis_ld64(ref[16], TMP4);
750 vis_ld64(dest[0], DST_0);
751 vis_faligndata(TMP0, TMP2, REF_0);
753 vis_ld64(dest[8], DST_2);
754 vis_faligndata(TMP2, TMP4, REF_4);
757 vis_alignaddr_g0((void *)off_plus_1);
758 vis_faligndata(TMP0, TMP2, REF_2);
759 vis_faligndata(TMP2, TMP4, REF_6);
761 vis_src1(TMP2, REF_2);
762 vis_src1(TMP4, REF_6);
765 vis_mul8x16au(REF_0, CONST_256, TMP0);
767 vis_pmerge(ZERO, REF_2, TMP4);
768 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
770 vis_pmerge(ZERO, REF_2_1, TMP6);
772 vis_padd16(TMP0, TMP4, TMP0);
774 vis_mul8x16al(DST_0, CONST_512, TMP4);
775 vis_padd16(TMP2, TMP6, TMP2);
777 vis_mul8x16al(DST_1, CONST_512, TMP6);
779 vis_mul8x16au(REF_6, CONST_256, TMP12);
781 vis_padd16(TMP0, TMP4, TMP0);
782 vis_mul8x16au(REF_6_1, CONST_256, TMP14);
784 vis_padd16(TMP2, TMP6, TMP2);
785 vis_mul8x16au(REF_4, CONST_256, TMP16);
787 vis_padd16(TMP0, CONST_3, TMP8);
788 vis_mul8x16au(REF_4_1, CONST_256, TMP18);
790 vis_padd16(TMP2, CONST_3, TMP10);
791 vis_pack16(TMP8, DST_0);
793 vis_pack16(TMP10, DST_1);
794 vis_padd16(TMP16, TMP12, TMP0);
796 vis_st64(DST_0, dest[0]);
797 vis_mul8x16al(DST_2, CONST_512, TMP4);
798 vis_padd16(TMP18, TMP14, TMP2);
800 vis_mul8x16al(DST_3, CONST_512, TMP6);
801 vis_padd16(TMP0, CONST_3, TMP0);
803 vis_padd16(TMP2, CONST_3, TMP2);
805 vis_padd16(TMP0, TMP4, TMP0);
807 vis_padd16(TMP2, TMP6, TMP2);
808 vis_pack16(TMP0, DST_2);
810 vis_pack16(TMP2, DST_3);
811 vis_st64(DST_2, dest[8]);
818 static void MC_avg_x_8_vis (uint8_t * dest, const uint8_t * ref,
819 const int stride, int height)
821 unsigned long off = (unsigned long) ref & 0x7;
822 unsigned long off_plus_1 = off + 1;
823 int stride_times_2 = stride << 1;
825 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
827 vis_ld64(constants3[0], CONST_3);
829 vis_ld64(constants256_512[0], CONST_256);
831 ref = vis_alignaddr(ref);
834 vis_ld64(ref[0], TMP0);
836 vis_ld64_2(ref, 8, TMP2);
839 vis_alignaddr_g0((void *)off);
841 vis_ld64(ref[0], TMP4);
842 vis_faligndata(TMP0, TMP2, REF_0);
844 vis_ld64_2(ref, 8, TMP6);
847 vis_ld64(ref[0], TMP8);
849 vis_ld64_2(ref, 8, TMP10);
851 vis_faligndata(TMP4, TMP6, REF_4);
853 vis_ld64(ref[0], TMP12);
855 vis_ld64_2(ref, 8, TMP14);
857 vis_faligndata(TMP8, TMP10, REF_S0);
859 vis_faligndata(TMP12, TMP14, REF_S4);
862 vis_alignaddr_g0((void *)off_plus_1);
864 vis_ld64(dest[0], DST_0);
865 vis_faligndata(TMP0, TMP2, REF_2);
867 vis_ld64_2(dest, stride, DST_2);
868 vis_faligndata(TMP4, TMP6, REF_6);
870 vis_faligndata(TMP8, TMP10, REF_S2);
872 vis_faligndata(TMP12, TMP14, REF_S6);
874 vis_ld64(dest[0], DST_0);
875 vis_src1(TMP2, REF_2);
877 vis_ld64_2(dest, stride, DST_2);
878 vis_src1(TMP6, REF_6);
880 vis_src1(TMP10, REF_S2);
882 vis_src1(TMP14, REF_S6);
885 vis_pmerge(ZERO, REF_0, TMP0);
886 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
888 vis_pmerge(ZERO, REF_2, TMP4);
889 vis_mul8x16au(REF_2_1, CONST_256, TMP6);
891 vis_padd16(TMP0, CONST_3, TMP0);
892 vis_mul8x16al(DST_0, CONST_512, TMP16);
894 vis_padd16(TMP2, CONST_3, TMP2);
895 vis_mul8x16al(DST_1, CONST_512, TMP18);
897 vis_padd16(TMP0, TMP4, TMP0);
898 vis_mul8x16au(REF_4, CONST_256, TMP8);
900 vis_padd16(TMP2, TMP6, TMP2);
901 vis_mul8x16au(REF_4_1, CONST_256, TMP10);
903 vis_padd16(TMP0, TMP16, TMP0);
904 vis_mul8x16au(REF_6, CONST_256, TMP12);
906 vis_padd16(TMP2, TMP18, TMP2);
907 vis_mul8x16au(REF_6_1, CONST_256, TMP14);
909 vis_padd16(TMP8, CONST_3, TMP8);
910 vis_mul8x16al(DST_2, CONST_512, TMP16);
912 vis_padd16(TMP8, TMP12, TMP8);
913 vis_mul8x16al(DST_3, CONST_512, TMP18);
915 vis_padd16(TMP10, TMP14, TMP10);
916 vis_pack16(TMP0, DST_0);
918 vis_pack16(TMP2, DST_1);
919 vis_st64(DST_0, dest[0]);
921 vis_padd16(TMP10, CONST_3, TMP10);
923 vis_ld64_2(dest, stride, DST_0);
924 vis_padd16(TMP8, TMP16, TMP8);
926 vis_ld64_2(dest, stride_times_2, TMP4/*DST_2*/);
927 vis_padd16(TMP10, TMP18, TMP10);
928 vis_pack16(TMP8, DST_2);
930 vis_pack16(TMP10, DST_3);
931 vis_st64(DST_2, dest[0]);
934 vis_mul8x16au(REF_S0_1, CONST_256, TMP2);
935 vis_pmerge(ZERO, REF_S0, TMP0);
937 vis_pmerge(ZERO, REF_S2, TMP24);
938 vis_mul8x16au(REF_S2_1, CONST_256, TMP6);
940 vis_padd16(TMP0, CONST_3, TMP0);
941 vis_mul8x16au(REF_S4, CONST_256, TMP8);
943 vis_padd16(TMP2, CONST_3, TMP2);
944 vis_mul8x16au(REF_S4_1, CONST_256, TMP10);
946 vis_padd16(TMP0, TMP24, TMP0);
947 vis_mul8x16au(REF_S6, CONST_256, TMP12);
949 vis_padd16(TMP2, TMP6, TMP2);
950 vis_mul8x16au(REF_S6_1, CONST_256, TMP14);
952 vis_padd16(TMP8, CONST_3, TMP8);
953 vis_mul8x16al(DST_0, CONST_512, TMP16);
955 vis_padd16(TMP10, CONST_3, TMP10);
956 vis_mul8x16al(DST_1, CONST_512, TMP18);
958 vis_padd16(TMP8, TMP12, TMP8);
959 vis_mul8x16al(TMP4/*DST_2*/, CONST_512, TMP20);
961 vis_mul8x16al(TMP5/*DST_3*/, CONST_512, TMP22);
962 vis_padd16(TMP0, TMP16, TMP0);
964 vis_padd16(TMP2, TMP18, TMP2);
965 vis_pack16(TMP0, DST_0);
967 vis_padd16(TMP10, TMP14, TMP10);
968 vis_pack16(TMP2, DST_1);
969 vis_st64(DST_0, dest[0]);
972 vis_padd16(TMP8, TMP20, TMP8);
974 vis_padd16(TMP10, TMP22, TMP10);
975 vis_pack16(TMP8, DST_2);
977 vis_pack16(TMP10, DST_3);
978 vis_st64(DST_2, dest[0]);
983 static void MC_put_y_16_vis (uint8_t * dest, const uint8_t * ref,
984 const int stride, int height)
986 ref = vis_alignaddr(ref);
987 vis_ld64(ref[0], TMP0);
989 vis_ld64_2(ref, 8, TMP2);
991 vis_ld64_2(ref, 16, TMP4);
994 vis_ld64(ref[0], TMP6);
995 vis_faligndata(TMP0, TMP2, REF_0);
997 vis_ld64_2(ref, 8, TMP8);
998 vis_faligndata(TMP2, TMP4, REF_4);
1000 vis_ld64_2(ref, 16, TMP10);
1003 vis_ld64(constants_fe[0], MASK_fe);
1004 vis_faligndata(TMP6, TMP8, REF_2);
1006 vis_ld64(constants_7f[0], MASK_7f);
1007 vis_faligndata(TMP8, TMP10, REF_6);
1009 vis_ld64(constants128[0], CONST_128);
1010 height = (height >> 1) - 1;
1011 do { /* 24 cycles */
1012 vis_ld64(ref[0], TMP0);
1013 vis_xor(REF_0, REF_2, TMP12);
1015 vis_ld64_2(ref, 8, TMP2);
1016 vis_xor(REF_4, REF_6, TMP16);
1018 vis_ld64_2(ref, 16, TMP4);
1020 vis_or(REF_0, REF_2, TMP14);
1022 vis_ld64(ref[0], TMP6);
1023 vis_or(REF_4, REF_6, TMP18);
1025 vis_ld64_2(ref, 8, TMP8);
1026 vis_faligndata(TMP0, TMP2, REF_0);
1028 vis_ld64_2(ref, 16, TMP10);
1030 vis_faligndata(TMP2, TMP4, REF_4);
1032 vis_and(TMP12, MASK_fe, TMP12);
1034 vis_and(TMP16, MASK_fe, TMP16);
1035 vis_mul8x16(CONST_128, TMP12, TMP12);
1037 vis_mul8x16(CONST_128, TMP16, TMP16);
1038 vis_xor(REF_0, REF_2, TMP0);
1040 vis_xor(REF_4, REF_6, TMP2);
1042 vis_or(REF_0, REF_2, TMP20);
1044 vis_and(TMP12, MASK_7f, TMP12);
1046 vis_and(TMP16, MASK_7f, TMP16);
1048 vis_psub16(TMP14, TMP12, TMP12);
1049 vis_st64(TMP12, dest[0]);
1051 vis_psub16(TMP18, TMP16, TMP16);
1052 vis_st64_2(TMP16, dest, 8);
1055 vis_or(REF_4, REF_6, TMP18);
1057 vis_and(TMP0, MASK_fe, TMP0);
1059 vis_and(TMP2, MASK_fe, TMP2);
1060 vis_mul8x16(CONST_128, TMP0, TMP0);
1062 vis_faligndata(TMP6, TMP8, REF_2);
1063 vis_mul8x16(CONST_128, TMP2, TMP2);
1065 vis_faligndata(TMP8, TMP10, REF_6);
1067 vis_and(TMP0, MASK_7f, TMP0);
1069 vis_and(TMP2, MASK_7f, TMP2);
1071 vis_psub16(TMP20, TMP0, TMP0);
1072 vis_st64(TMP0, dest[0]);
1074 vis_psub16(TMP18, TMP2, TMP2);
1075 vis_st64_2(TMP2, dest, 8);
1079 vis_ld64(ref[0], TMP0);
1080 vis_xor(REF_0, REF_2, TMP12);
1082 vis_ld64_2(ref, 8, TMP2);
1083 vis_xor(REF_4, REF_6, TMP16);
1085 vis_ld64_2(ref, 16, TMP4);
1086 vis_or(REF_0, REF_2, TMP14);
1088 vis_or(REF_4, REF_6, TMP18);
1090 vis_faligndata(TMP0, TMP2, REF_0);
1092 vis_faligndata(TMP2, TMP4, REF_4);
1094 vis_and(TMP12, MASK_fe, TMP12);
1096 vis_and(TMP16, MASK_fe, TMP16);
1097 vis_mul8x16(CONST_128, TMP12, TMP12);
1099 vis_mul8x16(CONST_128, TMP16, TMP16);
1100 vis_xor(REF_0, REF_2, TMP0);
1102 vis_xor(REF_4, REF_6, TMP2);
1104 vis_or(REF_0, REF_2, TMP20);
1106 vis_and(TMP12, MASK_7f, TMP12);
1108 vis_and(TMP16, MASK_7f, TMP16);
1110 vis_psub16(TMP14, TMP12, TMP12);
1111 vis_st64(TMP12, dest[0]);
1113 vis_psub16(TMP18, TMP16, TMP16);
1114 vis_st64_2(TMP16, dest, 8);
1117 vis_or(REF_4, REF_6, TMP18);
1119 vis_and(TMP0, MASK_fe, TMP0);
1121 vis_and(TMP2, MASK_fe, TMP2);
1122 vis_mul8x16(CONST_128, TMP0, TMP0);
1124 vis_mul8x16(CONST_128, TMP2, TMP2);
1126 vis_and(TMP0, MASK_7f, TMP0);
1128 vis_and(TMP2, MASK_7f, TMP2);
1130 vis_psub16(TMP20, TMP0, TMP0);
1131 vis_st64(TMP0, dest[0]);
1133 vis_psub16(TMP18, TMP2, TMP2);
1134 vis_st64_2(TMP2, dest, 8);
1137 static void MC_put_y_8_vis (uint8_t * dest, const uint8_t * ref,
1138 const int stride, int height)
1140 ref = vis_alignaddr(ref);
1141 vis_ld64(ref[0], TMP0);
1143 vis_ld64_2(ref, 8, TMP2);
1146 vis_ld64(ref[0], TMP4);
1148 vis_ld64_2(ref, 8, TMP6);
1151 vis_ld64(constants_fe[0], MASK_fe);
1152 vis_faligndata(TMP0, TMP2, REF_0);
1154 vis_ld64(constants_7f[0], MASK_7f);
1155 vis_faligndata(TMP4, TMP6, REF_2);
1157 vis_ld64(constants128[0], CONST_128);
1158 height = (height >> 1) - 1;
1159 do { /* 12 cycles */
1160 vis_ld64(ref[0], TMP0);
1161 vis_xor(REF_0, REF_2, TMP4);
1163 vis_ld64_2(ref, 8, TMP2);
1165 vis_and(TMP4, MASK_fe, TMP4);
1167 vis_or(REF_0, REF_2, TMP6);
1168 vis_mul8x16(CONST_128, TMP4, TMP4);
1170 vis_faligndata(TMP0, TMP2, REF_0);
1171 vis_ld64(ref[0], TMP0);
1173 vis_ld64_2(ref, 8, TMP2);
1175 vis_xor(REF_0, REF_2, TMP12);
1177 vis_and(TMP4, MASK_7f, TMP4);
1179 vis_and(TMP12, MASK_fe, TMP12);
1181 vis_mul8x16(CONST_128, TMP12, TMP12);
1182 vis_or(REF_0, REF_2, TMP14);
1184 vis_psub16(TMP6, TMP4, DST_0);
1185 vis_st64(DST_0, dest[0]);
1188 vis_faligndata(TMP0, TMP2, REF_2);
1190 vis_and(TMP12, MASK_7f, TMP12);
1192 vis_psub16(TMP14, TMP12, DST_0);
1193 vis_st64(DST_0, dest[0]);
1197 vis_ld64(ref[0], TMP0);
1198 vis_xor(REF_0, REF_2, TMP4);
1200 vis_ld64_2(ref, 8, TMP2);
1201 vis_and(TMP4, MASK_fe, TMP4);
1203 vis_or(REF_0, REF_2, TMP6);
1204 vis_mul8x16(CONST_128, TMP4, TMP4);
1206 vis_faligndata(TMP0, TMP2, REF_0);
1208 vis_xor(REF_0, REF_2, TMP12);
1210 vis_and(TMP4, MASK_7f, TMP4);
1212 vis_and(TMP12, MASK_fe, TMP12);
1214 vis_mul8x16(CONST_128, TMP12, TMP12);
1215 vis_or(REF_0, REF_2, TMP14);
1217 vis_psub16(TMP6, TMP4, DST_0);
1218 vis_st64(DST_0, dest[0]);
1221 vis_and(TMP12, MASK_7f, TMP12);
1223 vis_psub16(TMP14, TMP12, DST_0);
1224 vis_st64(DST_0, dest[0]);
1227 static void MC_avg_y_16_vis (uint8_t * dest, const uint8_t * ref,
1228 const int stride, int height)
1230 int stride_8 = stride + 8;
1231 int stride_16 = stride + 16;
1233 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
1235 ref = vis_alignaddr(ref);
1237 vis_ld64(ref[ 0], TMP0);
1240 vis_ld64(ref[ 8], TMP2);
1242 vis_ld64(ref[16], TMP4);
1244 vis_ld64(constants3[0], CONST_3);
1245 vis_faligndata(TMP0, TMP2, REF_2);
1247 vis_ld64(constants256_512[0], CONST_256);
1248 vis_faligndata(TMP2, TMP4, REF_6);
1251 do { /* 31 cycles */
1252 vis_ld64_2(ref, stride, TMP0);
1253 vis_pmerge(ZERO, REF_2, TMP12);
1254 vis_mul8x16au(REF_2_1, CONST_256, TMP14);
1256 vis_ld64_2(ref, stride_8, TMP2);
1257 vis_pmerge(ZERO, REF_6, TMP16);
1258 vis_mul8x16au(REF_6_1, CONST_256, TMP18);
1260 vis_ld64_2(ref, stride_16, TMP4);
1263 vis_ld64(dest[0], DST_0);
1264 vis_faligndata(TMP0, TMP2, REF_0);
1266 vis_ld64_2(dest, 8, DST_2);
1267 vis_faligndata(TMP2, TMP4, REF_4);
1269 vis_ld64_2(ref, stride, TMP6);
1270 vis_pmerge(ZERO, REF_0, TMP0);
1271 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
1273 vis_ld64_2(ref, stride_8, TMP8);
1274 vis_pmerge(ZERO, REF_4, TMP4);
1276 vis_ld64_2(ref, stride_16, TMP10);
1279 vis_ld64_2(dest, stride, REF_S0/*DST_4*/);
1280 vis_faligndata(TMP6, TMP8, REF_2);
1281 vis_mul8x16au(REF_4_1, CONST_256, TMP6);
1283 vis_ld64_2(dest, stride_8, REF_S2/*DST_6*/);
1284 vis_faligndata(TMP8, TMP10, REF_6);
1285 vis_mul8x16al(DST_0, CONST_512, TMP20);
1287 vis_padd16(TMP0, CONST_3, TMP0);
1288 vis_mul8x16al(DST_1, CONST_512, TMP22);
1290 vis_padd16(TMP2, CONST_3, TMP2);
1291 vis_mul8x16al(DST_2, CONST_512, TMP24);
1293 vis_padd16(TMP4, CONST_3, TMP4);
1294 vis_mul8x16al(DST_3, CONST_512, TMP26);
1296 vis_padd16(TMP6, CONST_3, TMP6);
1298 vis_padd16(TMP12, TMP20, TMP12);
1299 vis_mul8x16al(REF_S0, CONST_512, TMP20);
1301 vis_padd16(TMP14, TMP22, TMP14);
1302 vis_mul8x16al(REF_S0_1, CONST_512, TMP22);
1304 vis_padd16(TMP16, TMP24, TMP16);
1305 vis_mul8x16al(REF_S2, CONST_512, TMP24);
1307 vis_padd16(TMP18, TMP26, TMP18);
1308 vis_mul8x16al(REF_S2_1, CONST_512, TMP26);
1310 vis_padd16(TMP12, TMP0, TMP12);
1311 vis_mul8x16au(REF_2, CONST_256, TMP28);
1313 vis_padd16(TMP14, TMP2, TMP14);
1314 vis_mul8x16au(REF_2_1, CONST_256, TMP30);
1316 vis_padd16(TMP16, TMP4, TMP16);
1317 vis_mul8x16au(REF_6, CONST_256, REF_S4);
1319 vis_padd16(TMP18, TMP6, TMP18);
1320 vis_mul8x16au(REF_6_1, CONST_256, REF_S6);
1322 vis_pack16(TMP12, DST_0);
1323 vis_padd16(TMP28, TMP0, TMP12);
1325 vis_pack16(TMP14, DST_1);
1326 vis_st64(DST_0, dest[0]);
1327 vis_padd16(TMP30, TMP2, TMP14);
1329 vis_pack16(TMP16, DST_2);
1330 vis_padd16(REF_S4, TMP4, TMP16);
1332 vis_pack16(TMP18, DST_3);
1333 vis_st64_2(DST_2, dest, 8);
1335 vis_padd16(REF_S6, TMP6, TMP18);
1337 vis_padd16(TMP12, TMP20, TMP12);
1339 vis_padd16(TMP14, TMP22, TMP14);
1340 vis_pack16(TMP12, DST_0);
1342 vis_padd16(TMP16, TMP24, TMP16);
1343 vis_pack16(TMP14, DST_1);
1344 vis_st64(DST_0, dest[0]);
1346 vis_padd16(TMP18, TMP26, TMP18);
1347 vis_pack16(TMP16, DST_2);
1349 vis_pack16(TMP18, DST_3);
1350 vis_st64_2(DST_2, dest, 8);
1355 static void MC_avg_y_8_vis (uint8_t * dest, const uint8_t * ref,
1356 const int stride, int height)
1358 int stride_8 = stride + 8;
1360 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
1362 ref = vis_alignaddr(ref);
1364 vis_ld64(ref[ 0], TMP0);
1367 vis_ld64(ref[ 8], TMP2);
1369 vis_ld64(constants3[0], CONST_3);
1370 vis_faligndata(TMP0, TMP2, REF_2);
1372 vis_ld64(constants256_512[0], CONST_256);
1375 do { /* 20 cycles */
1376 vis_ld64_2(ref, stride, TMP0);
1377 vis_pmerge(ZERO, REF_2, TMP8);
1378 vis_mul8x16au(REF_2_1, CONST_256, TMP10);
1380 vis_ld64_2(ref, stride_8, TMP2);
1383 vis_ld64(dest[0], DST_0);
1385 vis_ld64_2(dest, stride, DST_2);
1386 vis_faligndata(TMP0, TMP2, REF_0);
1388 vis_ld64_2(ref, stride, TMP4);
1389 vis_mul8x16al(DST_0, CONST_512, TMP16);
1390 vis_pmerge(ZERO, REF_0, TMP12);
1392 vis_ld64_2(ref, stride_8, TMP6);
1394 vis_mul8x16al(DST_1, CONST_512, TMP18);
1395 vis_pmerge(ZERO, REF_0_1, TMP14);
1397 vis_padd16(TMP12, CONST_3, TMP12);
1398 vis_mul8x16al(DST_2, CONST_512, TMP24);
1400 vis_padd16(TMP14, CONST_3, TMP14);
1401 vis_mul8x16al(DST_3, CONST_512, TMP26);
1403 vis_faligndata(TMP4, TMP6, REF_2);
1405 vis_padd16(TMP8, TMP12, TMP8);
1407 vis_padd16(TMP10, TMP14, TMP10);
1408 vis_mul8x16au(REF_2, CONST_256, TMP20);
1410 vis_padd16(TMP8, TMP16, TMP0);
1411 vis_mul8x16au(REF_2_1, CONST_256, TMP22);
1413 vis_padd16(TMP10, TMP18, TMP2);
1414 vis_pack16(TMP0, DST_0);
1416 vis_pack16(TMP2, DST_1);
1417 vis_st64(DST_0, dest[0]);
1419 vis_padd16(TMP12, TMP20, TMP12);
1421 vis_padd16(TMP14, TMP22, TMP14);
1423 vis_padd16(TMP12, TMP24, TMP0);
1425 vis_padd16(TMP14, TMP26, TMP2);
1426 vis_pack16(TMP0, DST_2);
1428 vis_pack16(TMP2, DST_3);
1429 vis_st64(DST_2, dest[0]);
1434 static void MC_put_xy_16_vis (uint8_t * dest, const uint8_t * ref,
1435 const int stride, int height)
1437 unsigned long off = (unsigned long) ref & 0x7;
1438 unsigned long off_plus_1 = off + 1;
1439 int stride_8 = stride + 8;
1440 int stride_16 = stride + 16;
1442 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
1444 ref = vis_alignaddr(ref);
1446 vis_ld64(ref[ 0], TMP0);
1449 vis_ld64(ref[ 8], TMP2);
1451 vis_ld64(ref[16], TMP4);
1453 vis_ld64(constants2[0], CONST_2);
1454 vis_faligndata(TMP0, TMP2, REF_S0);
1456 vis_ld64(constants256_512[0], CONST_256);
1457 vis_faligndata(TMP2, TMP4, REF_S4);
1460 vis_alignaddr_g0((void *)off_plus_1);
1461 vis_faligndata(TMP0, TMP2, REF_S2);
1462 vis_faligndata(TMP2, TMP4, REF_S6);
1464 vis_src1(TMP2, REF_S2);
1465 vis_src1(TMP4, REF_S6);
1470 vis_ld64_2(ref, stride, TMP0);
1471 vis_mul8x16au(REF_S0, CONST_256, TMP12);
1472 vis_pmerge(ZERO, REF_S0_1, TMP14);
1474 vis_alignaddr_g0((void *)off);
1476 vis_ld64_2(ref, stride_8, TMP2);
1477 vis_mul8x16au(REF_S2, CONST_256, TMP16);
1478 vis_pmerge(ZERO, REF_S2_1, TMP18);
1480 vis_ld64_2(ref, stride_16, TMP4);
1482 vis_mul8x16au(REF_S4, CONST_256, TMP20);
1483 vis_pmerge(ZERO, REF_S4_1, TMP22);
1485 vis_ld64_2(ref, stride, TMP6);
1486 vis_mul8x16au(REF_S6, CONST_256, TMP24);
1487 vis_pmerge(ZERO, REF_S6_1, TMP26);
1489 vis_ld64_2(ref, stride_8, TMP8);
1490 vis_faligndata(TMP0, TMP2, REF_0);
1492 vis_ld64_2(ref, stride_16, TMP10);
1494 vis_faligndata(TMP2, TMP4, REF_4);
1496 vis_faligndata(TMP6, TMP8, REF_S0);
1498 vis_faligndata(TMP8, TMP10, REF_S4);
1501 vis_alignaddr_g0((void *)off_plus_1);
1502 vis_faligndata(TMP0, TMP2, REF_2);
1503 vis_faligndata(TMP2, TMP4, REF_6);
1504 vis_faligndata(TMP6, TMP8, REF_S2);
1505 vis_faligndata(TMP8, TMP10, REF_S6);
1507 vis_src1(TMP2, REF_2);
1508 vis_src1(TMP4, REF_6);
1509 vis_src1(TMP8, REF_S2);
1510 vis_src1(TMP10, REF_S6);
1513 vis_mul8x16au(REF_0, CONST_256, TMP0);
1514 vis_pmerge(ZERO, REF_0_1, TMP2);
1516 vis_mul8x16au(REF_2, CONST_256, TMP4);
1517 vis_pmerge(ZERO, REF_2_1, TMP6);
1519 vis_padd16(TMP0, CONST_2, TMP8);
1520 vis_mul8x16au(REF_4, CONST_256, TMP0);
1522 vis_padd16(TMP2, CONST_2, TMP10);
1523 vis_mul8x16au(REF_4_1, CONST_256, TMP2);
1525 vis_padd16(TMP8, TMP4, TMP8);
1526 vis_mul8x16au(REF_6, CONST_256, TMP4);
1528 vis_padd16(TMP10, TMP6, TMP10);
1529 vis_mul8x16au(REF_6_1, CONST_256, TMP6);
1531 vis_padd16(TMP12, TMP8, TMP12);
1533 vis_padd16(TMP14, TMP10, TMP14);
1535 vis_padd16(TMP12, TMP16, TMP12);
1537 vis_padd16(TMP14, TMP18, TMP14);
1538 vis_pack16(TMP12, DST_0);
1540 vis_pack16(TMP14, DST_1);
1541 vis_st64(DST_0, dest[0]);
1542 vis_padd16(TMP0, CONST_2, TMP12);
1544 vis_mul8x16au(REF_S0, CONST_256, TMP0);
1545 vis_padd16(TMP2, CONST_2, TMP14);
1547 vis_mul8x16au(REF_S0_1, CONST_256, TMP2);
1548 vis_padd16(TMP12, TMP4, TMP12);
1550 vis_mul8x16au(REF_S2, CONST_256, TMP4);
1551 vis_padd16(TMP14, TMP6, TMP14);
1553 vis_mul8x16au(REF_S2_1, CONST_256, TMP6);
1554 vis_padd16(TMP20, TMP12, TMP20);
1556 vis_padd16(TMP22, TMP14, TMP22);
1558 vis_padd16(TMP20, TMP24, TMP20);
1560 vis_padd16(TMP22, TMP26, TMP22);
1561 vis_pack16(TMP20, DST_2);
1563 vis_pack16(TMP22, DST_3);
1564 vis_st64_2(DST_2, dest, 8);
1566 vis_padd16(TMP0, TMP4, TMP24);
1568 vis_mul8x16au(REF_S4, CONST_256, TMP0);
1569 vis_padd16(TMP2, TMP6, TMP26);
1571 vis_mul8x16au(REF_S4_1, CONST_256, TMP2);
1572 vis_padd16(TMP24, TMP8, TMP24);
1574 vis_padd16(TMP26, TMP10, TMP26);
1575 vis_pack16(TMP24, DST_0);
1577 vis_pack16(TMP26, DST_1);
1578 vis_st64(DST_0, dest[0]);
1579 vis_pmerge(ZERO, REF_S6, TMP4);
1581 vis_pmerge(ZERO, REF_S6_1, TMP6);
1583 vis_padd16(TMP0, TMP4, TMP0);
1585 vis_padd16(TMP2, TMP6, TMP2);
1587 vis_padd16(TMP0, TMP12, TMP0);
1589 vis_padd16(TMP2, TMP14, TMP2);
1590 vis_pack16(TMP0, DST_2);
1592 vis_pack16(TMP2, DST_3);
1593 vis_st64_2(DST_2, dest, 8);
1598 static void MC_put_xy_8_vis (uint8_t * dest, const uint8_t * ref,
1599 const int stride, int height)
1601 unsigned long off = (unsigned long) ref & 0x7;
1602 unsigned long off_plus_1 = off + 1;
1603 int stride_8 = stride + 8;
1605 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
1607 ref = vis_alignaddr(ref);
1609 vis_ld64(ref[ 0], TMP0);
1612 vis_ld64(ref[ 8], TMP2);
1614 vis_ld64(constants2[0], CONST_2);
1616 vis_ld64(constants256_512[0], CONST_256);
1617 vis_faligndata(TMP0, TMP2, REF_S0);
1620 vis_alignaddr_g0((void *)off_plus_1);
1621 vis_faligndata(TMP0, TMP2, REF_S2);
1623 vis_src1(TMP2, REF_S2);
1627 do { /* 26 cycles */
1628 vis_ld64_2(ref, stride, TMP0);
1629 vis_mul8x16au(REF_S0, CONST_256, TMP8);
1630 vis_pmerge(ZERO, REF_S2, TMP12);
1632 vis_alignaddr_g0((void *)off);
1634 vis_ld64_2(ref, stride_8, TMP2);
1636 vis_mul8x16au(REF_S0_1, CONST_256, TMP10);
1637 vis_pmerge(ZERO, REF_S2_1, TMP14);
1639 vis_ld64_2(ref, stride, TMP4);
1641 vis_ld64_2(ref, stride_8, TMP6);
1643 vis_faligndata(TMP0, TMP2, REF_S4);
1645 vis_pmerge(ZERO, REF_S4, TMP18);
1647 vis_pmerge(ZERO, REF_S4_1, TMP20);
1649 vis_faligndata(TMP4, TMP6, REF_S0);
1652 vis_alignaddr_g0((void *)off_plus_1);
1653 vis_faligndata(TMP0, TMP2, REF_S6);
1654 vis_faligndata(TMP4, TMP6, REF_S2);
1656 vis_src1(TMP2, REF_S6);
1657 vis_src1(TMP6, REF_S2);
1660 vis_padd16(TMP18, CONST_2, TMP18);
1661 vis_mul8x16au(REF_S6, CONST_256, TMP22);
1663 vis_padd16(TMP20, CONST_2, TMP20);
1664 vis_mul8x16au(REF_S6_1, CONST_256, TMP24);
1666 vis_mul8x16au(REF_S0, CONST_256, TMP26);
1667 vis_pmerge(ZERO, REF_S0_1, TMP28);
1669 vis_mul8x16au(REF_S2, CONST_256, TMP30);
1670 vis_padd16(TMP18, TMP22, TMP18);
1672 vis_mul8x16au(REF_S2_1, CONST_256, TMP32);
1673 vis_padd16(TMP20, TMP24, TMP20);
1675 vis_padd16(TMP8, TMP18, TMP8);
1677 vis_padd16(TMP10, TMP20, TMP10);
1679 vis_padd16(TMP8, TMP12, TMP8);
1681 vis_padd16(TMP10, TMP14, TMP10);
1682 vis_pack16(TMP8, DST_0);
1684 vis_pack16(TMP10, DST_1);
1685 vis_st64(DST_0, dest[0]);
1687 vis_padd16(TMP18, TMP26, TMP18);
1689 vis_padd16(TMP20, TMP28, TMP20);
1691 vis_padd16(TMP18, TMP30, TMP18);
1693 vis_padd16(TMP20, TMP32, TMP20);
1694 vis_pack16(TMP18, DST_2);
1696 vis_pack16(TMP20, DST_3);
1697 vis_st64(DST_2, dest[0]);
1702 static void MC_avg_xy_16_vis (uint8_t * dest, const uint8_t * ref,
1703 const int stride, int height)
1705 unsigned long off = (unsigned long) ref & 0x7;
1706 unsigned long off_plus_1 = off + 1;
1707 int stride_8 = stride + 8;
1708 int stride_16 = stride + 16;
1710 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT);
1712 ref = vis_alignaddr(ref);
1714 vis_ld64(ref[ 0], TMP0);
1717 vis_ld64(ref[ 8], TMP2);
1719 vis_ld64(ref[16], TMP4);
1721 vis_ld64(constants6[0], CONST_6);
1722 vis_faligndata(TMP0, TMP2, REF_S0);
1724 vis_ld64(constants256_1024[0], CONST_256);
1725 vis_faligndata(TMP2, TMP4, REF_S4);
1728 vis_alignaddr_g0((void *)off_plus_1);
1729 vis_faligndata(TMP0, TMP2, REF_S2);
1730 vis_faligndata(TMP2, TMP4, REF_S6);
1732 vis_src1(TMP2, REF_S2);
1733 vis_src1(TMP4, REF_S6);
1737 do { /* 55 cycles */
1738 vis_ld64_2(ref, stride, TMP0);
1739 vis_mul8x16au(REF_S0, CONST_256, TMP12);
1740 vis_pmerge(ZERO, REF_S0_1, TMP14);
1742 vis_alignaddr_g0((void *)off);
1744 vis_ld64_2(ref, stride_8, TMP2);
1745 vis_mul8x16au(REF_S2, CONST_256, TMP16);
1746 vis_pmerge(ZERO, REF_S2_1, TMP18);
1748 vis_ld64_2(ref, stride_16, TMP4);
1750 vis_mul8x16au(REF_S4, CONST_256, TMP20);
1751 vis_pmerge(ZERO, REF_S4_1, TMP22);
1753 vis_ld64_2(ref, stride, TMP6);
1754 vis_mul8x16au(REF_S6, CONST_256, TMP24);
1755 vis_pmerge(ZERO, REF_S6_1, TMP26);
1757 vis_ld64_2(ref, stride_8, TMP8);
1758 vis_faligndata(TMP0, TMP2, REF_0);
1760 vis_ld64_2(ref, stride_16, TMP10);
1762 vis_faligndata(TMP2, TMP4, REF_4);
1764 vis_ld64(dest[0], DST_0);
1765 vis_faligndata(TMP6, TMP8, REF_S0);
1767 vis_ld64_2(dest, 8, DST_2);
1768 vis_faligndata(TMP8, TMP10, REF_S4);
1771 vis_alignaddr_g0((void *)off_plus_1);
1772 vis_faligndata(TMP0, TMP2, REF_2);
1773 vis_faligndata(TMP2, TMP4, REF_6);
1774 vis_faligndata(TMP6, TMP8, REF_S2);
1775 vis_faligndata(TMP8, TMP10, REF_S6);
1777 vis_src1(TMP2, REF_2);
1778 vis_src1(TMP4, REF_6);
1779 vis_src1(TMP8, REF_S2);
1780 vis_src1(TMP10, REF_S6);
1783 vis_mul8x16al(DST_0, CONST_1024, TMP30);
1784 vis_pmerge(ZERO, REF_0, TMP0);
1786 vis_mul8x16al(DST_1, CONST_1024, TMP32);
1787 vis_pmerge(ZERO, REF_0_1, TMP2);
1789 vis_mul8x16au(REF_2, CONST_256, TMP4);
1790 vis_pmerge(ZERO, REF_2_1, TMP6);
1792 vis_mul8x16al(DST_2, CONST_1024, REF_0);
1793 vis_padd16(TMP0, CONST_6, TMP0);
1795 vis_mul8x16al(DST_3, CONST_1024, REF_2);
1796 vis_padd16(TMP2, CONST_6, TMP2);
1798 vis_padd16(TMP0, TMP4, TMP0);
1799 vis_mul8x16au(REF_4, CONST_256, TMP4);
1801 vis_padd16(TMP2, TMP6, TMP2);
1802 vis_mul8x16au(REF_4_1, CONST_256, TMP6);
1804 vis_padd16(TMP12, TMP0, TMP12);
1805 vis_mul8x16au(REF_6, CONST_256, TMP8);
1807 vis_padd16(TMP14, TMP2, TMP14);
1808 vis_mul8x16au(REF_6_1, CONST_256, TMP10);
1810 vis_padd16(TMP12, TMP16, TMP12);
1811 vis_mul8x16au(REF_S0, CONST_256, REF_4);
1813 vis_padd16(TMP14, TMP18, TMP14);
1814 vis_mul8x16au(REF_S0_1, CONST_256, REF_6);
1816 vis_padd16(TMP12, TMP30, TMP12);
1818 vis_padd16(TMP14, TMP32, TMP14);
1819 vis_pack16(TMP12, DST_0);
1821 vis_pack16(TMP14, DST_1);
1822 vis_st64(DST_0, dest[0]);
1823 vis_padd16(TMP4, CONST_6, TMP4);
1825 vis_ld64_2(dest, stride, DST_0);
1826 vis_padd16(TMP6, CONST_6, TMP6);
1827 vis_mul8x16au(REF_S2, CONST_256, TMP12);
1829 vis_padd16(TMP4, TMP8, TMP4);
1830 vis_mul8x16au(REF_S2_1, CONST_256, TMP14);
1832 vis_padd16(TMP6, TMP10, TMP6);
1834 vis_padd16(TMP20, TMP4, TMP20);
1836 vis_padd16(TMP22, TMP6, TMP22);
1838 vis_padd16(TMP20, TMP24, TMP20);
1840 vis_padd16(TMP22, TMP26, TMP22);
1842 vis_padd16(TMP20, REF_0, TMP20);
1843 vis_mul8x16au(REF_S4, CONST_256, REF_0);
1845 vis_padd16(TMP22, REF_2, TMP22);
1846 vis_pack16(TMP20, DST_2);
1848 vis_pack16(TMP22, DST_3);
1849 vis_st64_2(DST_2, dest, 8);
1852 vis_ld64_2(dest, 8, DST_2);
1853 vis_mul8x16al(DST_0, CONST_1024, TMP30);
1854 vis_pmerge(ZERO, REF_S4_1, REF_2);
1856 vis_mul8x16al(DST_1, CONST_1024, TMP32);
1857 vis_padd16(REF_4, TMP0, TMP8);
1859 vis_mul8x16au(REF_S6, CONST_256, REF_4);
1860 vis_padd16(REF_6, TMP2, TMP10);
1862 vis_mul8x16au(REF_S6_1, CONST_256, REF_6);
1863 vis_padd16(TMP8, TMP12, TMP8);
1865 vis_padd16(TMP10, TMP14, TMP10);
1867 vis_padd16(TMP8, TMP30, TMP8);
1869 vis_padd16(TMP10, TMP32, TMP10);
1870 vis_pack16(TMP8, DST_0);
1872 vis_pack16(TMP10, DST_1);
1873 vis_st64(DST_0, dest[0]);
1875 vis_padd16(REF_0, TMP4, REF_0);
1877 vis_mul8x16al(DST_2, CONST_1024, TMP30);
1878 vis_padd16(REF_2, TMP6, REF_2);
1880 vis_mul8x16al(DST_3, CONST_1024, TMP32);
1881 vis_padd16(REF_0, REF_4, REF_0);
1883 vis_padd16(REF_2, REF_6, REF_2);
1885 vis_padd16(REF_0, TMP30, REF_0);
1889 vis_padd16(REF_2, TMP32, REF_2);
1890 vis_pack16(REF_0, DST_2);
1892 vis_pack16(REF_2, DST_3);
1893 vis_st64_2(DST_2, dest, 8);
1898 static void MC_avg_xy_8_vis (uint8_t * dest, const uint8_t * ref,
1899 const int stride, int height)
1901 unsigned long off = (unsigned long) ref & 0x7;
1902 unsigned long off_plus_1 = off + 1;
1903 int stride_8 = stride + 8;
1905 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT);
1907 ref = vis_alignaddr(ref);
1909 vis_ld64(ref[0], TMP0);
1912 vis_ld64_2(ref, 8, TMP2);
1914 vis_ld64(constants6[0], CONST_6);
1916 vis_ld64(constants256_1024[0], CONST_256);
1917 vis_faligndata(TMP0, TMP2, REF_S0);
1920 vis_alignaddr_g0((void *)off_plus_1);
1921 vis_faligndata(TMP0, TMP2, REF_S2);
1923 vis_src1(TMP2, REF_S2);
1927 do { /* 31 cycles */
1928 vis_ld64_2(ref, stride, TMP0);
1929 vis_mul8x16au(REF_S0, CONST_256, TMP8);
1930 vis_pmerge(ZERO, REF_S0_1, TMP10);
1932 vis_ld64_2(ref, stride_8, TMP2);
1934 vis_mul8x16au(REF_S2, CONST_256, TMP12);
1935 vis_pmerge(ZERO, REF_S2_1, TMP14);
1937 vis_alignaddr_g0((void *)off);
1939 vis_ld64_2(ref, stride, TMP4);
1940 vis_faligndata(TMP0, TMP2, REF_S4);
1942 vis_ld64_2(ref, stride_8, TMP6);
1945 vis_ld64(dest[0], DST_0);
1946 vis_faligndata(TMP4, TMP6, REF_S0);
1948 vis_ld64_2(dest, stride, DST_2);
1951 vis_alignaddr_g0((void *)off_plus_1);
1952 vis_faligndata(TMP0, TMP2, REF_S6);
1953 vis_faligndata(TMP4, TMP6, REF_S2);
1955 vis_src1(TMP2, REF_S6);
1956 vis_src1(TMP6, REF_S2);
1959 vis_mul8x16al(DST_0, CONST_1024, TMP30);
1960 vis_pmerge(ZERO, REF_S4, TMP22);
1962 vis_mul8x16al(DST_1, CONST_1024, TMP32);
1963 vis_pmerge(ZERO, REF_S4_1, TMP24);
1965 vis_mul8x16au(REF_S6, CONST_256, TMP26);
1966 vis_pmerge(ZERO, REF_S6_1, TMP28);
1968 vis_mul8x16au(REF_S0, CONST_256, REF_S4);
1969 vis_padd16(TMP22, CONST_6, TMP22);
1971 vis_mul8x16au(REF_S0_1, CONST_256, REF_S6);
1972 vis_padd16(TMP24, CONST_6, TMP24);
1974 vis_mul8x16al(DST_2, CONST_1024, REF_0);
1975 vis_padd16(TMP22, TMP26, TMP22);
1977 vis_mul8x16al(DST_3, CONST_1024, REF_2);
1978 vis_padd16(TMP24, TMP28, TMP24);
1980 vis_mul8x16au(REF_S2, CONST_256, TMP26);
1981 vis_padd16(TMP8, TMP22, TMP8);
1983 vis_mul8x16au(REF_S2_1, CONST_256, TMP28);
1984 vis_padd16(TMP10, TMP24, TMP10);
1986 vis_padd16(TMP8, TMP12, TMP8);
1988 vis_padd16(TMP10, TMP14, TMP10);
1990 vis_padd16(TMP8, TMP30, TMP8);
1992 vis_padd16(TMP10, TMP32, TMP10);
1993 vis_pack16(TMP8, DST_0);
1995 vis_pack16(TMP10, DST_1);
1996 vis_st64(DST_0, dest[0]);
1999 vis_padd16(REF_S4, TMP22, TMP12);
2001 vis_padd16(REF_S6, TMP24, TMP14);
2003 vis_padd16(TMP12, TMP26, TMP12);
2005 vis_padd16(TMP14, TMP28, TMP14);
2007 vis_padd16(TMP12, REF_0, TMP12);
2009 vis_padd16(TMP14, REF_2, TMP14);
2010 vis_pack16(TMP12, DST_2);
2012 vis_pack16(TMP14, DST_3);
2013 vis_st64(DST_2, dest[0]);
2018 /* End of rounding code */
2020 /* Start of no rounding code */
2021 /* The trick used in some of this file is the formula from the MMX
2022 * motion comp code, which is:
2024 * (x+y)>>1 == (x&y)+((x^y)>>1)
2026 * This allows us to average 8 bytes at a time in a 64-bit FPU reg.
2027 * We avoid overflows by masking before we do the shift, and we
2028 * implement the shift by multiplying by 1/2 using mul8x16. So in
2029 * VIS this is (assume 'x' is in f0, 'y' is in f2, a repeating mask
2030 * of '0xfe' is in f4, a repeating mask of '0x7f' is in f6, and
2031 * the value 0x80808080 is in f8):
2035 * fmul8x16 f8, f10, f10
2038 * fpadd16 f12, f10, f10
2041 static void MC_put_no_round_o_16_vis (uint8_t * dest, const uint8_t * ref,
2042 const int stride, int height)
2044 ref = vis_alignaddr(ref);
2046 vis_ld64(ref[0], TMP0);
2048 vis_ld64_2(ref, 8, TMP2);
2050 vis_ld64_2(ref, 16, TMP4);
2053 vis_faligndata(TMP0, TMP2, REF_0);
2054 vis_st64(REF_0, dest[0]);
2056 vis_faligndata(TMP2, TMP4, REF_2);
2057 vis_st64_2(REF_2, dest, 8);
2062 static void MC_put_no_round_o_8_vis (uint8_t * dest, const uint8_t * ref,
2063 const int stride, int height)
2065 ref = vis_alignaddr(ref);
2067 vis_ld64(ref[0], TMP0);
2069 vis_ld64(ref[8], TMP2);
2074 vis_faligndata(TMP0, TMP2, REF_0);
2075 vis_st64(REF_0, dest[0]);
2081 static void MC_avg_no_round_o_16_vis (uint8_t * dest, const uint8_t * ref,
2082 const int stride, int height)
2084 int stride_8 = stride + 8;
2086 ref = vis_alignaddr(ref);
2088 vis_ld64(ref[0], TMP0);
2090 vis_ld64(ref[8], TMP2);
2092 vis_ld64(ref[16], TMP4);
2094 vis_ld64(dest[0], DST_0);
2096 vis_ld64(dest[8], DST_2);
2098 vis_ld64(constants_fe[0], MASK_fe);
2099 vis_faligndata(TMP0, TMP2, REF_0);
2101 vis_ld64(constants_7f[0], MASK_7f);
2102 vis_faligndata(TMP2, TMP4, REF_2);
2104 vis_ld64(constants128[0], CONST_128);
2107 height = (height >> 1) - 1;
2109 do { /* 24 cycles */
2110 vis_ld64(ref[0], TMP0);
2111 vis_xor(DST_0, REF_0, TMP6);
2113 vis_ld64_2(ref, 8, TMP2);
2114 vis_and(TMP6, MASK_fe, TMP6);
2116 vis_ld64_2(ref, 16, TMP4);
2118 vis_mul8x16(CONST_128, TMP6, TMP6);
2119 vis_xor(DST_2, REF_2, TMP8);
2121 vis_and(TMP8, MASK_fe, TMP8);
2123 vis_and(DST_0, REF_0, TMP10);
2124 vis_ld64_2(dest, stride, DST_0);
2125 vis_mul8x16(CONST_128, TMP8, TMP8);
2127 vis_and(DST_2, REF_2, TMP12);
2128 vis_ld64_2(dest, stride_8, DST_2);
2130 vis_ld64(ref[0], TMP14);
2131 vis_and(TMP6, MASK_7f, TMP6);
2133 vis_and(TMP8, MASK_7f, TMP8);
2135 vis_padd16(TMP10, TMP6, TMP6);
2136 vis_st64(TMP6, dest[0]);
2138 vis_padd16(TMP12, TMP8, TMP8);
2139 vis_st64_2(TMP8, dest, 8);
2142 vis_ld64_2(ref, 8, TMP16);
2143 vis_faligndata(TMP0, TMP2, REF_0);
2145 vis_ld64_2(ref, 16, TMP18);
2146 vis_faligndata(TMP2, TMP4, REF_2);
2149 vis_xor(DST_0, REF_0, TMP20);
2151 vis_and(TMP20, MASK_fe, TMP20);
2153 vis_xor(DST_2, REF_2, TMP22);
2154 vis_mul8x16(CONST_128, TMP20, TMP20);
2156 vis_and(TMP22, MASK_fe, TMP22);
2158 vis_and(DST_0, REF_0, TMP24);
2159 vis_mul8x16(CONST_128, TMP22, TMP22);
2161 vis_and(DST_2, REF_2, TMP26);
2163 vis_ld64_2(dest, stride, DST_0);
2164 vis_faligndata(TMP14, TMP16, REF_0);
2166 vis_ld64_2(dest, stride_8, DST_2);
2167 vis_faligndata(TMP16, TMP18, REF_2);
2169 vis_and(TMP20, MASK_7f, TMP20);
2171 vis_and(TMP22, MASK_7f, TMP22);
2173 vis_padd16(TMP24, TMP20, TMP20);
2174 vis_st64(TMP20, dest[0]);
2176 vis_padd16(TMP26, TMP22, TMP22);
2177 vis_st64_2(TMP22, dest, 8);
2181 vis_ld64(ref[0], TMP0);
2182 vis_xor(DST_0, REF_0, TMP6);
2184 vis_ld64_2(ref, 8, TMP2);
2185 vis_and(TMP6, MASK_fe, TMP6);
2187 vis_ld64_2(ref, 16, TMP4);
2188 vis_mul8x16(CONST_128, TMP6, TMP6);
2189 vis_xor(DST_2, REF_2, TMP8);
2191 vis_and(TMP8, MASK_fe, TMP8);
2193 vis_and(DST_0, REF_0, TMP10);
2194 vis_ld64_2(dest, stride, DST_0);
2195 vis_mul8x16(CONST_128, TMP8, TMP8);
2197 vis_and(DST_2, REF_2, TMP12);
2198 vis_ld64_2(dest, stride_8, DST_2);
2200 vis_ld64(ref[0], TMP14);
2201 vis_and(TMP6, MASK_7f, TMP6);
2203 vis_and(TMP8, MASK_7f, TMP8);
2205 vis_padd16(TMP10, TMP6, TMP6);
2206 vis_st64(TMP6, dest[0]);
2208 vis_padd16(TMP12, TMP8, TMP8);
2209 vis_st64_2(TMP8, dest, 8);
2212 vis_faligndata(TMP0, TMP2, REF_0);
2214 vis_faligndata(TMP2, TMP4, REF_2);
2216 vis_xor(DST_0, REF_0, TMP20);
2218 vis_and(TMP20, MASK_fe, TMP20);
2220 vis_xor(DST_2, REF_2, TMP22);
2221 vis_mul8x16(CONST_128, TMP20, TMP20);
2223 vis_and(TMP22, MASK_fe, TMP22);
2225 vis_and(DST_0, REF_0, TMP24);
2226 vis_mul8x16(CONST_128, TMP22, TMP22);
2228 vis_and(DST_2, REF_2, TMP26);
2230 vis_and(TMP20, MASK_7f, TMP20);
2232 vis_and(TMP22, MASK_7f, TMP22);
2234 vis_padd16(TMP24, TMP20, TMP20);
2235 vis_st64(TMP20, dest[0]);
2237 vis_padd16(TMP26, TMP22, TMP22);
2238 vis_st64_2(TMP22, dest, 8);
2241 static void MC_avg_no_round_o_8_vis (uint8_t * dest, const uint8_t * ref,
2242 const int stride, int height)
2244 ref = vis_alignaddr(ref);
2246 vis_ld64(ref[0], TMP0);
2248 vis_ld64(ref[8], TMP2);
2250 vis_ld64(dest[0], DST_0);
2252 vis_ld64(constants_fe[0], MASK_fe);
2254 vis_ld64(constants_7f[0], MASK_7f);
2255 vis_faligndata(TMP0, TMP2, REF_0);
2257 vis_ld64(constants128[0], CONST_128);
2260 height = (height >> 1) - 1;
2262 do { /* 12 cycles */
2263 vis_ld64(ref[0], TMP0);
2264 vis_xor(DST_0, REF_0, TMP4);
2266 vis_ld64(ref[8], TMP2);
2267 vis_and(TMP4, MASK_fe, TMP4);
2269 vis_and(DST_0, REF_0, TMP6);
2270 vis_ld64_2(dest, stride, DST_0);
2272 vis_mul8x16(CONST_128, TMP4, TMP4);
2274 vis_ld64(ref[0], TMP12);
2275 vis_faligndata(TMP0, TMP2, REF_0);
2277 vis_ld64(ref[8], TMP2);
2278 vis_xor(DST_0, REF_0, TMP0);
2281 vis_and(TMP0, MASK_fe, TMP0);
2283 vis_and(TMP4, MASK_7f, TMP4);
2285 vis_padd16(TMP6, TMP4, TMP4);
2286 vis_st64(TMP4, dest[0]);
2288 vis_mul8x16(CONST_128, TMP0, TMP0);
2290 vis_and(DST_0, REF_0, TMP6);
2291 vis_ld64_2(dest, stride, DST_0);
2293 vis_faligndata(TMP12, TMP2, REF_0);
2295 vis_and(TMP0, MASK_7f, TMP0);
2297 vis_padd16(TMP6, TMP0, TMP4);
2298 vis_st64(TMP4, dest[0]);
2302 vis_ld64(ref[0], TMP0);
2303 vis_xor(DST_0, REF_0, TMP4);
2305 vis_ld64(ref[8], TMP2);
2306 vis_and(TMP4, MASK_fe, TMP4);
2308 vis_and(DST_0, REF_0, TMP6);
2309 vis_ld64_2(dest, stride, DST_0);
2310 vis_mul8x16(CONST_128, TMP4, TMP4);
2312 vis_faligndata(TMP0, TMP2, REF_0);
2314 vis_xor(DST_0, REF_0, TMP0);
2316 vis_and(TMP0, MASK_fe, TMP0);
2318 vis_and(TMP4, MASK_7f, TMP4);
2320 vis_padd16(TMP6, TMP4, TMP4);
2321 vis_st64(TMP4, dest[0]);
2323 vis_mul8x16(CONST_128, TMP0, TMP0);
2325 vis_and(DST_0, REF_0, TMP6);
2327 vis_and(TMP0, MASK_7f, TMP0);
2329 vis_padd16(TMP6, TMP0, TMP4);
2330 vis_st64(TMP4, dest[0]);
2333 static void MC_put_no_round_x_16_vis (uint8_t * dest, const uint8_t * ref,
2334 const int stride, int height)
2336 unsigned long off = (unsigned long) ref & 0x7;
2337 unsigned long off_plus_1 = off + 1;
2339 ref = vis_alignaddr(ref);
2341 vis_ld64(ref[0], TMP0);
2343 vis_ld64_2(ref, 8, TMP2);
2345 vis_ld64_2(ref, 16, TMP4);
2347 vis_ld64(constants_fe[0], MASK_fe);
2349 vis_ld64(constants_7f[0], MASK_7f);
2350 vis_faligndata(TMP0, TMP2, REF_0);
2352 vis_ld64(constants128[0], CONST_128);
2353 vis_faligndata(TMP2, TMP4, REF_4);
2356 vis_alignaddr_g0((void *)off_plus_1);
2357 vis_faligndata(TMP0, TMP2, REF_2);
2358 vis_faligndata(TMP2, TMP4, REF_6);
2360 vis_src1(TMP2, REF_2);
2361 vis_src1(TMP4, REF_6);
2365 height = (height >> 1) - 1;
2367 do { /* 34 cycles */
2368 vis_ld64(ref[0], TMP0);
2369 vis_xor(REF_0, REF_2, TMP6);
2371 vis_ld64_2(ref, 8, TMP2);
2372 vis_xor(REF_4, REF_6, TMP8);
2374 vis_ld64_2(ref, 16, TMP4);
2375 vis_and(TMP6, MASK_fe, TMP6);
2378 vis_ld64(ref[0], TMP14);
2379 vis_mul8x16(CONST_128, TMP6, TMP6);
2380 vis_and(TMP8, MASK_fe, TMP8);
2382 vis_ld64_2(ref, 8, TMP16);
2383 vis_mul8x16(CONST_128, TMP8, TMP8);
2384 vis_and(REF_0, REF_2, TMP10);
2386 vis_ld64_2(ref, 16, TMP18);
2388 vis_and(REF_4, REF_6, TMP12);
2390 vis_alignaddr_g0((void *)off);
2392 vis_faligndata(TMP0, TMP2, REF_0);
2394 vis_faligndata(TMP2, TMP4, REF_4);
2397 vis_alignaddr_g0((void *)off_plus_1);
2398 vis_faligndata(TMP0, TMP2, REF_2);
2399 vis_faligndata(TMP2, TMP4, REF_6);
2401 vis_src1(TMP2, REF_2);
2402 vis_src1(TMP4, REF_6);
2405 vis_and(TMP6, MASK_7f, TMP6);
2407 vis_and(TMP8, MASK_7f, TMP8);
2409 vis_padd16(TMP10, TMP6, TMP6);
2410 vis_st64(TMP6, dest[0]);
2412 vis_padd16(TMP12, TMP8, TMP8);
2413 vis_st64_2(TMP8, dest, 8);
2416 vis_xor(REF_0, REF_2, TMP6);
2418 vis_xor(REF_4, REF_6, TMP8);
2420 vis_and(TMP6, MASK_fe, TMP6);
2422 vis_mul8x16(CONST_128, TMP6, TMP6);
2423 vis_and(TMP8, MASK_fe, TMP8);
2425 vis_mul8x16(CONST_128, TMP8, TMP8);
2426 vis_and(REF_0, REF_2, TMP10);
2428 vis_and(REF_4, REF_6, TMP12);
2430 vis_alignaddr_g0((void *)off);
2432 vis_faligndata(TMP14, TMP16, REF_0);
2434 vis_faligndata(TMP16, TMP18, REF_4);
2437 vis_alignaddr_g0((void *)off_plus_1);
2438 vis_faligndata(TMP14, TMP16, REF_2);
2439 vis_faligndata(TMP16, TMP18, REF_6);
2441 vis_src1(TMP16, REF_2);
2442 vis_src1(TMP18, REF_6);
2445 vis_and(TMP6, MASK_7f, TMP6);
2447 vis_and(TMP8, MASK_7f, TMP8);
2449 vis_padd16(TMP10, TMP6, TMP6);
2450 vis_st64(TMP6, dest[0]);
2452 vis_padd16(TMP12, TMP8, TMP8);
2453 vis_st64_2(TMP8, dest, 8);
2457 vis_ld64(ref[0], TMP0);
2458 vis_xor(REF_0, REF_2, TMP6);
2460 vis_ld64_2(ref, 8, TMP2);
2461 vis_xor(REF_4, REF_6, TMP8);
2463 vis_ld64_2(ref, 16, TMP4);
2464 vis_and(TMP6, MASK_fe, TMP6);
2466 vis_mul8x16(CONST_128, TMP6, TMP6);
2467 vis_and(TMP8, MASK_fe, TMP8);
2469 vis_mul8x16(CONST_128, TMP8, TMP8);
2470 vis_and(REF_0, REF_2, TMP10);
2472 vis_and(REF_4, REF_6, TMP12);
2474 vis_alignaddr_g0((void *)off);
2476 vis_faligndata(TMP0, TMP2, REF_0);
2478 vis_faligndata(TMP2, TMP4, REF_4);
2481 vis_alignaddr_g0((void *)off_plus_1);
2482 vis_faligndata(TMP0, TMP2, REF_2);
2483 vis_faligndata(TMP2, TMP4, REF_6);
2485 vis_src1(TMP2, REF_2);
2486 vis_src1(TMP4, REF_6);
2489 vis_and(TMP6, MASK_7f, TMP6);
2491 vis_and(TMP8, MASK_7f, TMP8);
2493 vis_padd16(TMP10, TMP6, TMP6);
2494 vis_st64(TMP6, dest[0]);
2496 vis_padd16(TMP12, TMP8, TMP8);
2497 vis_st64_2(TMP8, dest, 8);
2500 vis_xor(REF_0, REF_2, TMP6);
2502 vis_xor(REF_4, REF_6, TMP8);
2504 vis_and(TMP6, MASK_fe, TMP6);
2506 vis_mul8x16(CONST_128, TMP6, TMP6);
2507 vis_and(TMP8, MASK_fe, TMP8);
2509 vis_mul8x16(CONST_128, TMP8, TMP8);
2510 vis_and(REF_0, REF_2, TMP10);
2512 vis_and(REF_4, REF_6, TMP12);
2514 vis_and(TMP6, MASK_7f, TMP6);
2516 vis_and(TMP8, MASK_7f, TMP8);
2518 vis_padd16(TMP10, TMP6, TMP6);
2519 vis_st64(TMP6, dest[0]);
2521 vis_padd16(TMP12, TMP8, TMP8);
2522 vis_st64_2(TMP8, dest, 8);
2525 static void MC_put_no_round_x_8_vis (uint8_t * dest, const uint8_t * ref,
2526 const int stride, int height)
2528 unsigned long off = (unsigned long) ref & 0x7;
2529 unsigned long off_plus_1 = off + 1;
2531 ref = vis_alignaddr(ref);
2533 vis_ld64(ref[0], TMP0);
2535 vis_ld64(ref[8], TMP2);
2537 vis_ld64(constants_fe[0], MASK_fe);
2539 vis_ld64(constants_7f[0], MASK_7f);
2541 vis_ld64(constants128[0], CONST_128);
2542 vis_faligndata(TMP0, TMP2, REF_0);
2545 vis_alignaddr_g0((void *)off_plus_1);
2546 vis_faligndata(TMP0, TMP2, REF_2);
2548 vis_src1(TMP2, REF_2);
2552 height = (height >> 1) - 1;
2554 do { /* 20 cycles */
2555 vis_ld64(ref[0], TMP0);
2556 vis_xor(REF_0, REF_2, TMP4);
2558 vis_ld64_2(ref, 8, TMP2);
2559 vis_and(TMP4, MASK_fe, TMP4);
2562 vis_ld64(ref[0], TMP8);
2563 vis_and(REF_0, REF_2, TMP6);
2564 vis_mul8x16(CONST_128, TMP4, TMP4);
2566 vis_alignaddr_g0((void *)off);
2568 vis_ld64_2(ref, 8, TMP10);
2570 vis_faligndata(TMP0, TMP2, REF_0);
2573 vis_alignaddr_g0((void *)off_plus_1);
2574 vis_faligndata(TMP0, TMP2, REF_2);
2576 vis_src1(TMP2, REF_2);
2579 vis_and(TMP4, MASK_7f, TMP4);
2581 vis_padd16(TMP6, TMP4, DST_0);
2582 vis_st64(DST_0, dest[0]);
2585 vis_xor(REF_0, REF_2, TMP12);
2587 vis_and(TMP12, MASK_fe, TMP12);
2589 vis_and(REF_0, REF_2, TMP14);
2590 vis_mul8x16(CONST_128, TMP12, TMP12);
2592 vis_alignaddr_g0((void *)off);
2593 vis_faligndata(TMP8, TMP10, REF_0);
2595 vis_alignaddr_g0((void *)off_plus_1);
2596 vis_faligndata(TMP8, TMP10, REF_2);
2598 vis_src1(TMP10, REF_2);
2601 vis_and(TMP12, MASK_7f, TMP12);
2603 vis_padd16(TMP14, TMP12, DST_0);
2604 vis_st64(DST_0, dest[0]);
2608 vis_ld64(ref[0], TMP0);
2609 vis_xor(REF_0, REF_2, TMP4);
2611 vis_ld64_2(ref, 8, TMP2);
2612 vis_and(TMP4, MASK_fe, TMP4);
2614 vis_and(REF_0, REF_2, TMP6);
2615 vis_mul8x16(CONST_128, TMP4, TMP4);
2617 vis_alignaddr_g0((void *)off);
2619 vis_faligndata(TMP0, TMP2, REF_0);
2622 vis_alignaddr_g0((void *)off_plus_1);
2623 vis_faligndata(TMP0, TMP2, REF_2);
2625 vis_src1(TMP2, REF_2);
2628 vis_and(TMP4, MASK_7f, TMP4);
2630 vis_padd16(TMP6, TMP4, DST_0);
2631 vis_st64(DST_0, dest[0]);
2634 vis_xor(REF_0, REF_2, TMP12);
2636 vis_and(TMP12, MASK_fe, TMP12);
2638 vis_and(REF_0, REF_2, TMP14);
2639 vis_mul8x16(CONST_128, TMP12, TMP12);
2641 vis_and(TMP12, MASK_7f, TMP12);
2643 vis_padd16(TMP14, TMP12, DST_0);
2644 vis_st64(DST_0, dest[0]);
2648 static void MC_avg_no_round_x_16_vis (uint8_t * dest, const uint8_t * ref,
2649 const int stride, int height)
2651 unsigned long off = (unsigned long) ref & 0x7;
2652 unsigned long off_plus_1 = off + 1;
2654 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
2656 vis_ld64(constants3[0], CONST_3);
2658 vis_ld64(constants256_512[0], CONST_256);
2660 ref = vis_alignaddr(ref);
2661 do { /* 26 cycles */
2662 vis_ld64(ref[0], TMP0);
2664 vis_ld64(ref[8], TMP2);
2666 vis_alignaddr_g0((void *)off);
2668 vis_ld64(ref[16], TMP4);
2670 vis_ld64(dest[0], DST_0);
2671 vis_faligndata(TMP0, TMP2, REF_0);
2673 vis_ld64(dest[8], DST_2);
2674 vis_faligndata(TMP2, TMP4, REF_4);
2677 vis_alignaddr_g0((void *)off_plus_1);
2678 vis_faligndata(TMP0, TMP2, REF_2);
2679 vis_faligndata(TMP2, TMP4, REF_6);
2681 vis_src1(TMP2, REF_2);
2682 vis_src1(TMP4, REF_6);
2685 vis_mul8x16au(REF_0, CONST_256, TMP0);
2687 vis_pmerge(ZERO, REF_2, TMP4);
2688 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
2690 vis_pmerge(ZERO, REF_2_1, TMP6);
2692 vis_padd16(TMP0, TMP4, TMP0);
2694 vis_mul8x16al(DST_0, CONST_512, TMP4);
2695 vis_padd16(TMP2, TMP6, TMP2);
2697 vis_mul8x16al(DST_1, CONST_512, TMP6);
2699 vis_mul8x16au(REF_6, CONST_256, TMP12);
2701 vis_padd16(TMP0, TMP4, TMP0);
2702 vis_mul8x16au(REF_6_1, CONST_256, TMP14);
2704 vis_padd16(TMP2, TMP6, TMP2);
2705 vis_mul8x16au(REF_4, CONST_256, TMP16);
2707 vis_padd16(TMP0, CONST_3, TMP8);
2708 vis_mul8x16au(REF_4_1, CONST_256, TMP18);
2710 vis_padd16(TMP2, CONST_3, TMP10);
2711 vis_pack16(TMP8, DST_0);
2713 vis_pack16(TMP10, DST_1);
2714 vis_padd16(TMP16, TMP12, TMP0);
2716 vis_st64(DST_0, dest[0]);
2717 vis_mul8x16al(DST_2, CONST_512, TMP4);
2718 vis_padd16(TMP18, TMP14, TMP2);
2720 vis_mul8x16al(DST_3, CONST_512, TMP6);
2721 vis_padd16(TMP0, CONST_3, TMP0);
2723 vis_padd16(TMP2, CONST_3, TMP2);
2725 vis_padd16(TMP0, TMP4, TMP0);
2727 vis_padd16(TMP2, TMP6, TMP2);
2728 vis_pack16(TMP0, DST_2);
2730 vis_pack16(TMP2, DST_3);
2731 vis_st64(DST_2, dest[8]);
2738 static void MC_avg_no_round_x_8_vis (uint8_t * dest, const uint8_t * ref,
2739 const int stride, int height)
2741 unsigned long off = (unsigned long) ref & 0x7;
2742 unsigned long off_plus_1 = off + 1;
2743 int stride_times_2 = stride << 1;
2745 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
2747 vis_ld64(constants3[0], CONST_3);
2749 vis_ld64(constants256_512[0], CONST_256);
2751 ref = vis_alignaddr(ref);
2753 do { /* 47 cycles */
2754 vis_ld64(ref[0], TMP0);
2756 vis_ld64_2(ref, 8, TMP2);
2759 vis_alignaddr_g0((void *)off);
2761 vis_ld64(ref[0], TMP4);
2762 vis_faligndata(TMP0, TMP2, REF_0);
2764 vis_ld64_2(ref, 8, TMP6);
2767 vis_ld64(ref[0], TMP8);
2769 vis_ld64_2(ref, 8, TMP10);
2771 vis_faligndata(TMP4, TMP6, REF_4);
2773 vis_ld64(ref[0], TMP12);
2775 vis_ld64_2(ref, 8, TMP14);
2777 vis_faligndata(TMP8, TMP10, REF_S0);
2779 vis_faligndata(TMP12, TMP14, REF_S4);
2782 vis_alignaddr_g0((void *)off_plus_1);
2784 vis_ld64(dest[0], DST_0);
2785 vis_faligndata(TMP0, TMP2, REF_2);
2787 vis_ld64_2(dest, stride, DST_2);
2788 vis_faligndata(TMP4, TMP6, REF_6);
2790 vis_faligndata(TMP8, TMP10, REF_S2);
2792 vis_faligndata(TMP12, TMP14, REF_S6);
2794 vis_ld64(dest[0], DST_0);
2795 vis_src1(TMP2, REF_2);
2797 vis_ld64_2(dest, stride, DST_2);
2798 vis_src1(TMP6, REF_6);
2800 vis_src1(TMP10, REF_S2);
2802 vis_src1(TMP14, REF_S6);
2805 vis_pmerge(ZERO, REF_0, TMP0);
2806 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
2808 vis_pmerge(ZERO, REF_2, TMP4);
2809 vis_mul8x16au(REF_2_1, CONST_256, TMP6);
2811 vis_padd16(TMP0, CONST_3, TMP0);
2812 vis_mul8x16al(DST_0, CONST_512, TMP16);
2814 vis_padd16(TMP2, CONST_3, TMP2);
2815 vis_mul8x16al(DST_1, CONST_512, TMP18);
2817 vis_padd16(TMP0, TMP4, TMP0);
2818 vis_mul8x16au(REF_4, CONST_256, TMP8);
2820 vis_padd16(TMP2, TMP6, TMP2);
2821 vis_mul8x16au(REF_4_1, CONST_256, TMP10);
2823 vis_padd16(TMP0, TMP16, TMP0);
2824 vis_mul8x16au(REF_6, CONST_256, TMP12);
2826 vis_padd16(TMP2, TMP18, TMP2);
2827 vis_mul8x16au(REF_6_1, CONST_256, TMP14);
2829 vis_padd16(TMP8, CONST_3, TMP8);
2830 vis_mul8x16al(DST_2, CONST_512, TMP16);
2832 vis_padd16(TMP8, TMP12, TMP8);
2833 vis_mul8x16al(DST_3, CONST_512, TMP18);
2835 vis_padd16(TMP10, TMP14, TMP10);
2836 vis_pack16(TMP0, DST_0);
2838 vis_pack16(TMP2, DST_1);
2839 vis_st64(DST_0, dest[0]);
2841 vis_padd16(TMP10, CONST_3, TMP10);
2843 vis_ld64_2(dest, stride, DST_0);
2844 vis_padd16(TMP8, TMP16, TMP8);
2846 vis_ld64_2(dest, stride_times_2, TMP4/*DST_2*/);
2847 vis_padd16(TMP10, TMP18, TMP10);
2848 vis_pack16(TMP8, DST_2);
2850 vis_pack16(TMP10, DST_3);
2851 vis_st64(DST_2, dest[0]);
2854 vis_mul8x16au(REF_S0_1, CONST_256, TMP2);
2855 vis_pmerge(ZERO, REF_S0, TMP0);
2857 vis_pmerge(ZERO, REF_S2, TMP24);
2858 vis_mul8x16au(REF_S2_1, CONST_256, TMP6);
2860 vis_padd16(TMP0, CONST_3, TMP0);
2861 vis_mul8x16au(REF_S4, CONST_256, TMP8);
2863 vis_padd16(TMP2, CONST_3, TMP2);
2864 vis_mul8x16au(REF_S4_1, CONST_256, TMP10);
2866 vis_padd16(TMP0, TMP24, TMP0);
2867 vis_mul8x16au(REF_S6, CONST_256, TMP12);
2869 vis_padd16(TMP2, TMP6, TMP2);
2870 vis_mul8x16au(REF_S6_1, CONST_256, TMP14);
2872 vis_padd16(TMP8, CONST_3, TMP8);
2873 vis_mul8x16al(DST_0, CONST_512, TMP16);
2875 vis_padd16(TMP10, CONST_3, TMP10);
2876 vis_mul8x16al(DST_1, CONST_512, TMP18);
2878 vis_padd16(TMP8, TMP12, TMP8);
2879 vis_mul8x16al(TMP4/*DST_2*/, CONST_512, TMP20);
2881 vis_mul8x16al(TMP5/*DST_3*/, CONST_512, TMP22);
2882 vis_padd16(TMP0, TMP16, TMP0);
2884 vis_padd16(TMP2, TMP18, TMP2);
2885 vis_pack16(TMP0, DST_0);
2887 vis_padd16(TMP10, TMP14, TMP10);
2888 vis_pack16(TMP2, DST_1);
2889 vis_st64(DST_0, dest[0]);
2892 vis_padd16(TMP8, TMP20, TMP8);
2894 vis_padd16(TMP10, TMP22, TMP10);
2895 vis_pack16(TMP8, DST_2);
2897 vis_pack16(TMP10, DST_3);
2898 vis_st64(DST_2, dest[0]);
2903 static void MC_put_no_round_y_16_vis (uint8_t * dest, const uint8_t * ref,
2904 const int stride, int height)
2906 ref = vis_alignaddr(ref);
2907 vis_ld64(ref[0], TMP0);
2909 vis_ld64_2(ref, 8, TMP2);
2911 vis_ld64_2(ref, 16, TMP4);
2914 vis_ld64(ref[0], TMP6);
2915 vis_faligndata(TMP0, TMP2, REF_0);
2917 vis_ld64_2(ref, 8, TMP8);
2918 vis_faligndata(TMP2, TMP4, REF_4);
2920 vis_ld64_2(ref, 16, TMP10);
2923 vis_ld64(constants_fe[0], MASK_fe);
2924 vis_faligndata(TMP6, TMP8, REF_2);
2926 vis_ld64(constants_7f[0], MASK_7f);
2927 vis_faligndata(TMP8, TMP10, REF_6);
2929 vis_ld64(constants128[0], CONST_128);
2930 height = (height >> 1) - 1;
2931 do { /* 24 cycles */
2932 vis_ld64(ref[0], TMP0);
2933 vis_xor(REF_0, REF_2, TMP12);
2935 vis_ld64_2(ref, 8, TMP2);
2936 vis_xor(REF_4, REF_6, TMP16);
2938 vis_ld64_2(ref, 16, TMP4);
2940 vis_and(REF_0, REF_2, TMP14);
2942 vis_ld64(ref[0], TMP6);
2943 vis_and(REF_4, REF_6, TMP18);
2945 vis_ld64_2(ref, 8, TMP8);
2946 vis_faligndata(TMP0, TMP2, REF_0);
2948 vis_ld64_2(ref, 16, TMP10);
2950 vis_faligndata(TMP2, TMP4, REF_4);
2952 vis_and(TMP12, MASK_fe, TMP12);
2954 vis_and(TMP16, MASK_fe, TMP16);
2955 vis_mul8x16(CONST_128, TMP12, TMP12);
2957 vis_mul8x16(CONST_128, TMP16, TMP16);
2958 vis_xor(REF_0, REF_2, TMP0);
2960 vis_xor(REF_4, REF_6, TMP2);
2962 vis_and(REF_0, REF_2, TMP20);
2964 vis_and(TMP12, MASK_7f, TMP12);
2966 vis_and(TMP16, MASK_7f, TMP16);
2968 vis_padd16(TMP14, TMP12, TMP12);
2969 vis_st64(TMP12, dest[0]);
2971 vis_padd16(TMP18, TMP16, TMP16);
2972 vis_st64_2(TMP16, dest, 8);
2975 vis_and(REF_4, REF_6, TMP18);
2977 vis_and(TMP0, MASK_fe, TMP0);
2979 vis_and(TMP2, MASK_fe, TMP2);
2980 vis_mul8x16(CONST_128, TMP0, TMP0);
2982 vis_faligndata(TMP6, TMP8, REF_2);
2983 vis_mul8x16(CONST_128, TMP2, TMP2);
2985 vis_faligndata(TMP8, TMP10, REF_6);
2987 vis_and(TMP0, MASK_7f, TMP0);
2989 vis_and(TMP2, MASK_7f, TMP2);
2991 vis_padd16(TMP20, TMP0, TMP0);
2992 vis_st64(TMP0, dest[0]);
2994 vis_padd16(TMP18, TMP2, TMP2);
2995 vis_st64_2(TMP2, dest, 8);
2999 vis_ld64(ref[0], TMP0);
3000 vis_xor(REF_0, REF_2, TMP12);
3002 vis_ld64_2(ref, 8, TMP2);
3003 vis_xor(REF_4, REF_6, TMP16);
3005 vis_ld64_2(ref, 16, TMP4);
3006 vis_and(REF_0, REF_2, TMP14);
3008 vis_and(REF_4, REF_6, TMP18);
3010 vis_faligndata(TMP0, TMP2, REF_0);
3012 vis_faligndata(TMP2, TMP4, REF_4);
3014 vis_and(TMP12, MASK_fe, TMP12);
3016 vis_and(TMP16, MASK_fe, TMP16);
3017 vis_mul8x16(CONST_128, TMP12, TMP12);
3019 vis_mul8x16(CONST_128, TMP16, TMP16);
3020 vis_xor(REF_0, REF_2, TMP0);
3022 vis_xor(REF_4, REF_6, TMP2);
3024 vis_and(REF_0, REF_2, TMP20);
3026 vis_and(TMP12, MASK_7f, TMP12);
3028 vis_and(TMP16, MASK_7f, TMP16);
3030 vis_padd16(TMP14, TMP12, TMP12);
3031 vis_st64(TMP12, dest[0]);
3033 vis_padd16(TMP18, TMP16, TMP16);
3034 vis_st64_2(TMP16, dest, 8);
3037 vis_and(REF_4, REF_6, TMP18);
3039 vis_and(TMP0, MASK_fe, TMP0);
3041 vis_and(TMP2, MASK_fe, TMP2);
3042 vis_mul8x16(CONST_128, TMP0, TMP0);
3044 vis_mul8x16(CONST_128, TMP2, TMP2);
3046 vis_and(TMP0, MASK_7f, TMP0);
3048 vis_and(TMP2, MASK_7f, TMP2);
3050 vis_padd16(TMP20, TMP0, TMP0);
3051 vis_st64(TMP0, dest[0]);
3053 vis_padd16(TMP18, TMP2, TMP2);
3054 vis_st64_2(TMP2, dest, 8);
3057 static void MC_put_no_round_y_8_vis (uint8_t * dest, const uint8_t * ref,
3058 const int stride, int height)
3060 ref = vis_alignaddr(ref);
3061 vis_ld64(ref[0], TMP0);
3063 vis_ld64_2(ref, 8, TMP2);
3066 vis_ld64(ref[0], TMP4);
3068 vis_ld64_2(ref, 8, TMP6);
3071 vis_ld64(constants_fe[0], MASK_fe);
3072 vis_faligndata(TMP0, TMP2, REF_0);
3074 vis_ld64(constants_7f[0], MASK_7f);
3075 vis_faligndata(TMP4, TMP6, REF_2);
3077 vis_ld64(constants128[0], CONST_128);
3078 height = (height >> 1) - 1;
3079 do { /* 12 cycles */
3080 vis_ld64(ref[0], TMP0);
3081 vis_xor(REF_0, REF_2, TMP4);
3083 vis_ld64_2(ref, 8, TMP2);
3085 vis_and(TMP4, MASK_fe, TMP4);
3087 vis_and(REF_0, REF_2, TMP6);
3088 vis_mul8x16(CONST_128, TMP4, TMP4);
3090 vis_faligndata(TMP0, TMP2, REF_0);
3091 vis_ld64(ref[0], TMP0);
3093 vis_ld64_2(ref, 8, TMP2);
3095 vis_xor(REF_0, REF_2, TMP12);
3097 vis_and(TMP4, MASK_7f, TMP4);
3099 vis_and(TMP12, MASK_fe, TMP12);
3101 vis_mul8x16(CONST_128, TMP12, TMP12);
3102 vis_and(REF_0, REF_2, TMP14);
3104 vis_padd16(TMP6, TMP4, DST_0);
3105 vis_st64(DST_0, dest[0]);
3108 vis_faligndata(TMP0, TMP2, REF_2);
3110 vis_and(TMP12, MASK_7f, TMP12);
3112 vis_padd16(TMP14, TMP12, DST_0);
3113 vis_st64(DST_0, dest[0]);
3117 vis_ld64(ref[0], TMP0);
3118 vis_xor(REF_0, REF_2, TMP4);
3120 vis_ld64_2(ref, 8, TMP2);
3121 vis_and(TMP4, MASK_fe, TMP4);
3123 vis_and(REF_0, REF_2, TMP6);
3124 vis_mul8x16(CONST_128, TMP4, TMP4);
3126 vis_faligndata(TMP0, TMP2, REF_0);
3128 vis_xor(REF_0, REF_2, TMP12);
3130 vis_and(TMP4, MASK_7f, TMP4);
3132 vis_and(TMP12, MASK_fe, TMP12);
3134 vis_mul8x16(CONST_128, TMP12, TMP12);
3135 vis_and(REF_0, REF_2, TMP14);
3137 vis_padd16(TMP6, TMP4, DST_0);
3138 vis_st64(DST_0, dest[0]);
3141 vis_and(TMP12, MASK_7f, TMP12);
3143 vis_padd16(TMP14, TMP12, DST_0);
3144 vis_st64(DST_0, dest[0]);
3147 static void MC_avg_no_round_y_16_vis (uint8_t * dest, const uint8_t * ref,
3148 const int stride, int height)
3150 int stride_8 = stride + 8;
3151 int stride_16 = stride + 16;
3153 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
3155 ref = vis_alignaddr(ref);
3157 vis_ld64(ref[ 0], TMP0);
3160 vis_ld64(ref[ 8], TMP2);
3162 vis_ld64(ref[16], TMP4);
3164 vis_ld64(constants3[0], CONST_3);
3165 vis_faligndata(TMP0, TMP2, REF_2);
3167 vis_ld64(constants256_512[0], CONST_256);
3168 vis_faligndata(TMP2, TMP4, REF_6);
3171 do { /* 31 cycles */
3172 vis_ld64_2(ref, stride, TMP0);
3173 vis_pmerge(ZERO, REF_2, TMP12);
3174 vis_mul8x16au(REF_2_1, CONST_256, TMP14);
3176 vis_ld64_2(ref, stride_8, TMP2);
3177 vis_pmerge(ZERO, REF_6, TMP16);
3178 vis_mul8x16au(REF_6_1, CONST_256, TMP18);
3180 vis_ld64_2(ref, stride_16, TMP4);
3183 vis_ld64(dest[0], DST_0);
3184 vis_faligndata(TMP0, TMP2, REF_0);
3186 vis_ld64_2(dest, 8, DST_2);
3187 vis_faligndata(TMP2, TMP4, REF_4);
3189 vis_ld64_2(ref, stride, TMP6);
3190 vis_pmerge(ZERO, REF_0, TMP0);
3191 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
3193 vis_ld64_2(ref, stride_8, TMP8);
3194 vis_pmerge(ZERO, REF_4, TMP4);
3196 vis_ld64_2(ref, stride_16, TMP10);
3199 vis_ld64_2(dest, stride, REF_S0/*DST_4*/);
3200 vis_faligndata(TMP6, TMP8, REF_2);
3201 vis_mul8x16au(REF_4_1, CONST_256, TMP6);
3203 vis_ld64_2(dest, stride_8, REF_S2/*DST_6*/);
3204 vis_faligndata(TMP8, TMP10, REF_6);
3205 vis_mul8x16al(DST_0, CONST_512, TMP20);
3207 vis_padd16(TMP0, CONST_3, TMP0);
3208 vis_mul8x16al(DST_1, CONST_512, TMP22);
3210 vis_padd16(TMP2, CONST_3, TMP2);
3211 vis_mul8x16al(DST_2, CONST_512, TMP24);
3213 vis_padd16(TMP4, CONST_3, TMP4);
3214 vis_mul8x16al(DST_3, CONST_512, TMP26);
3216 vis_padd16(TMP6, CONST_3, TMP6);
3218 vis_padd16(TMP12, TMP20, TMP12);
3219 vis_mul8x16al(REF_S0, CONST_512, TMP20);
3221 vis_padd16(TMP14, TMP22, TMP14);
3222 vis_mul8x16al(REF_S0_1, CONST_512, TMP22);
3224 vis_padd16(TMP16, TMP24, TMP16);
3225 vis_mul8x16al(REF_S2, CONST_512, TMP24);
3227 vis_padd16(TMP18, TMP26, TMP18);
3228 vis_mul8x16al(REF_S2_1, CONST_512, TMP26);
3230 vis_padd16(TMP12, TMP0, TMP12);
3231 vis_mul8x16au(REF_2, CONST_256, TMP28);
3233 vis_padd16(TMP14, TMP2, TMP14);
3234 vis_mul8x16au(REF_2_1, CONST_256, TMP30);
3236 vis_padd16(TMP16, TMP4, TMP16);
3237 vis_mul8x16au(REF_6, CONST_256, REF_S4);
3239 vis_padd16(TMP18, TMP6, TMP18);
3240 vis_mul8x16au(REF_6_1, CONST_256, REF_S6);
3242 vis_pack16(TMP12, DST_0);
3243 vis_padd16(TMP28, TMP0, TMP12);
3245 vis_pack16(TMP14, DST_1);
3246 vis_st64(DST_0, dest[0]);
3247 vis_padd16(TMP30, TMP2, TMP14);
3249 vis_pack16(TMP16, DST_2);
3250 vis_padd16(REF_S4, TMP4, TMP16);
3252 vis_pack16(TMP18, DST_3);
3253 vis_st64_2(DST_2, dest, 8);
3255 vis_padd16(REF_S6, TMP6, TMP18);
3257 vis_padd16(TMP12, TMP20, TMP12);
3259 vis_padd16(TMP14, TMP22, TMP14);
3260 vis_pack16(TMP12, DST_0);
3262 vis_padd16(TMP16, TMP24, TMP16);
3263 vis_pack16(TMP14, DST_1);
3264 vis_st64(DST_0, dest[0]);
3266 vis_padd16(TMP18, TMP26, TMP18);
3267 vis_pack16(TMP16, DST_2);
3269 vis_pack16(TMP18, DST_3);
3270 vis_st64_2(DST_2, dest, 8);
3275 static void MC_avg_no_round_y_8_vis (uint8_t * dest, const uint8_t * ref,
3276 const int stride, int height)
3278 int stride_8 = stride + 8;
3280 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
3282 ref = vis_alignaddr(ref);
3284 vis_ld64(ref[ 0], TMP0);
3287 vis_ld64(ref[ 8], TMP2);
3289 vis_ld64(constants3[0], CONST_3);
3290 vis_faligndata(TMP0, TMP2, REF_2);
3292 vis_ld64(constants256_512[0], CONST_256);
3295 do { /* 20 cycles */
3296 vis_ld64_2(ref, stride, TMP0);
3297 vis_pmerge(ZERO, REF_2, TMP8);
3298 vis_mul8x16au(REF_2_1, CONST_256, TMP10);
3300 vis_ld64_2(ref, stride_8, TMP2);
3303 vis_ld64(dest[0], DST_0);
3305 vis_ld64_2(dest, stride, DST_2);
3306 vis_faligndata(TMP0, TMP2, REF_0);
3308 vis_ld64_2(ref, stride, TMP4);
3309 vis_mul8x16al(DST_0, CONST_512, TMP16);
3310 vis_pmerge(ZERO, REF_0, TMP12);
3312 vis_ld64_2(ref, stride_8, TMP6);
3314 vis_mul8x16al(DST_1, CONST_512, TMP18);
3315 vis_pmerge(ZERO, REF_0_1, TMP14);
3317 vis_padd16(TMP12, CONST_3, TMP12);
3318 vis_mul8x16al(DST_2, CONST_512, TMP24);
3320 vis_padd16(TMP14, CONST_3, TMP14);
3321 vis_mul8x16al(DST_3, CONST_512, TMP26);
3323 vis_faligndata(TMP4, TMP6, REF_2);
3325 vis_padd16(TMP8, TMP12, TMP8);
3327 vis_padd16(TMP10, TMP14, TMP10);
3328 vis_mul8x16au(REF_2, CONST_256, TMP20);
3330 vis_padd16(TMP8, TMP16, TMP0);
3331 vis_mul8x16au(REF_2_1, CONST_256, TMP22);
3333 vis_padd16(TMP10, TMP18, TMP2);
3334 vis_pack16(TMP0, DST_0);
3336 vis_pack16(TMP2, DST_1);
3337 vis_st64(DST_0, dest[0]);
3339 vis_padd16(TMP12, TMP20, TMP12);
3341 vis_padd16(TMP14, TMP22, TMP14);
3343 vis_padd16(TMP12, TMP24, TMP0);
3345 vis_padd16(TMP14, TMP26, TMP2);
3346 vis_pack16(TMP0, DST_2);
3348 vis_pack16(TMP2, DST_3);
3349 vis_st64(DST_2, dest[0]);
3354 static void MC_put_no_round_xy_16_vis (uint8_t * dest, const uint8_t * ref,
3355 const int stride, int height)
3357 unsigned long off = (unsigned long) ref & 0x7;
3358 unsigned long off_plus_1 = off + 1;
3359 int stride_8 = stride + 8;
3360 int stride_16 = stride + 16;
3362 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
3364 ref = vis_alignaddr(ref);
3366 vis_ld64(ref[ 0], TMP0);
3369 vis_ld64(ref[ 8], TMP2);
3371 vis_ld64(ref[16], TMP4);
3373 vis_ld64(constants1[0], CONST_1);
3374 vis_faligndata(TMP0, TMP2, REF_S0);
3376 vis_ld64(constants256_512[0], CONST_256);
3377 vis_faligndata(TMP2, TMP4, REF_S4);
3380 vis_alignaddr_g0((void *)off_plus_1);
3381 vis_faligndata(TMP0, TMP2, REF_S2);
3382 vis_faligndata(TMP2, TMP4, REF_S6);
3384 vis_src1(TMP2, REF_S2);
3385 vis_src1(TMP4, REF_S6);
3390 vis_ld64_2(ref, stride, TMP0);
3391 vis_mul8x16au(REF_S0, CONST_256, TMP12);
3392 vis_pmerge(ZERO, REF_S0_1, TMP14);
3394 vis_alignaddr_g0((void *)off);
3396 vis_ld64_2(ref, stride_8, TMP2);
3397 vis_mul8x16au(REF_S2, CONST_256, TMP16);
3398 vis_pmerge(ZERO, REF_S2_1, TMP18);
3400 vis_ld64_2(ref, stride_16, TMP4);
3402 vis_mul8x16au(REF_S4, CONST_256, TMP20);
3403 vis_pmerge(ZERO, REF_S4_1, TMP22);
3405 vis_ld64_2(ref, stride, TMP6);
3406 vis_mul8x16au(REF_S6, CONST_256, TMP24);
3407 vis_pmerge(ZERO, REF_S6_1, TMP26);
3409 vis_ld64_2(ref, stride_8, TMP8);
3410 vis_faligndata(TMP0, TMP2, REF_0);
3412 vis_ld64_2(ref, stride_16, TMP10);
3414 vis_faligndata(TMP2, TMP4, REF_4);
3416 vis_faligndata(TMP6, TMP8, REF_S0);
3418 vis_faligndata(TMP8, TMP10, REF_S4);
3421 vis_alignaddr_g0((void *)off_plus_1);
3422 vis_faligndata(TMP0, TMP2, REF_2);
3423 vis_faligndata(TMP2, TMP4, REF_6);
3424 vis_faligndata(TMP6, TMP8, REF_S2);
3425 vis_faligndata(TMP8, TMP10, REF_S6);
3427 vis_src1(TMP2, REF_2);
3428 vis_src1(TMP4, REF_6);
3429 vis_src1(TMP8, REF_S2);
3430 vis_src1(TMP10, REF_S6);
3433 vis_mul8x16au(REF_0, CONST_256, TMP0);
3434 vis_pmerge(ZERO, REF_0_1, TMP2);
3436 vis_mul8x16au(REF_2, CONST_256, TMP4);
3437 vis_pmerge(ZERO, REF_2_1, TMP6);
3439 vis_padd16(TMP0, CONST_2, TMP8);
3440 vis_mul8x16au(REF_4, CONST_256, TMP0);
3442 vis_padd16(TMP2, CONST_1, TMP10);
3443 vis_mul8x16au(REF_4_1, CONST_256, TMP2);
3445 vis_padd16(TMP8, TMP4, TMP8);
3446 vis_mul8x16au(REF_6, CONST_256, TMP4);
3448 vis_padd16(TMP10, TMP6, TMP10);
3449 vis_mul8x16au(REF_6_1, CONST_256, TMP6);
3451 vis_padd16(TMP12, TMP8, TMP12);
3453 vis_padd16(TMP14, TMP10, TMP14);
3455 vis_padd16(TMP12, TMP16, TMP12);
3457 vis_padd16(TMP14, TMP18, TMP14);
3458 vis_pack16(TMP12, DST_0);
3460 vis_pack16(TMP14, DST_1);
3461 vis_st64(DST_0, dest[0]);
3462 vis_padd16(TMP0, CONST_1, TMP12);
3464 vis_mul8x16au(REF_S0, CONST_256, TMP0);
3465 vis_padd16(TMP2, CONST_1, TMP14);
3467 vis_mul8x16au(REF_S0_1, CONST_256, TMP2);
3468 vis_padd16(TMP12, TMP4, TMP12);
3470 vis_mul8x16au(REF_S2, CONST_256, TMP4);
3471 vis_padd16(TMP14, TMP6, TMP14);
3473 vis_mul8x16au(REF_S2_1, CONST_256, TMP6);
3474 vis_padd16(TMP20, TMP12, TMP20);
3476 vis_padd16(TMP22, TMP14, TMP22);
3478 vis_padd16(TMP20, TMP24, TMP20);
3480 vis_padd16(TMP22, TMP26, TMP22);
3481 vis_pack16(TMP20, DST_2);
3483 vis_pack16(TMP22, DST_3);
3484 vis_st64_2(DST_2, dest, 8);
3486 vis_padd16(TMP0, TMP4, TMP24);
3488 vis_mul8x16au(REF_S4, CONST_256, TMP0);
3489 vis_padd16(TMP2, TMP6, TMP26);
3491 vis_mul8x16au(REF_S4_1, CONST_256, TMP2);
3492 vis_padd16(TMP24, TMP8, TMP24);
3494 vis_padd16(TMP26, TMP10, TMP26);
3495 vis_pack16(TMP24, DST_0);
3497 vis_pack16(TMP26, DST_1);
3498 vis_st64(DST_0, dest[0]);
3499 vis_pmerge(ZERO, REF_S6, TMP4);
3501 vis_pmerge(ZERO, REF_S6_1, TMP6);
3503 vis_padd16(TMP0, TMP4, TMP0);
3505 vis_padd16(TMP2, TMP6, TMP2);
3507 vis_padd16(TMP0, TMP12, TMP0);
3509 vis_padd16(TMP2, TMP14, TMP2);
3510 vis_pack16(TMP0, DST_2);
3512 vis_pack16(TMP2, DST_3);
3513 vis_st64_2(DST_2, dest, 8);
3518 static void MC_put_no_round_xy_8_vis (uint8_t * dest, const uint8_t * ref,
3519 const int stride, int height)
3521 unsigned long off = (unsigned long) ref & 0x7;
3522 unsigned long off_plus_1 = off + 1;
3523 int stride_8 = stride + 8;
3525 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
3527 ref = vis_alignaddr(ref);
3529 vis_ld64(ref[ 0], TMP0);
3532 vis_ld64(ref[ 8], TMP2);
3534 vis_ld64(constants1[0], CONST_1);
3536 vis_ld64(constants256_512[0], CONST_256);
3537 vis_faligndata(TMP0, TMP2, REF_S0);
3540 vis_alignaddr_g0((void *)off_plus_1);
3541 vis_faligndata(TMP0, TMP2, REF_S2);
3543 vis_src1(TMP2, REF_S2);
3547 do { /* 26 cycles */
3548 vis_ld64_2(ref, stride, TMP0);
3549 vis_mul8x16au(REF_S0, CONST_256, TMP8);
3550 vis_pmerge(ZERO, REF_S2, TMP12);
3552 vis_alignaddr_g0((void *)off);
3554 vis_ld64_2(ref, stride_8, TMP2);
3556 vis_mul8x16au(REF_S0_1, CONST_256, TMP10);
3557 vis_pmerge(ZERO, REF_S2_1, TMP14);
3559 vis_ld64_2(ref, stride, TMP4);
3561 vis_ld64_2(ref, stride_8, TMP6);
3563 vis_faligndata(TMP0, TMP2, REF_S4);
3565 vis_pmerge(ZERO, REF_S4, TMP18);
3567 vis_pmerge(ZERO, REF_S4_1, TMP20);
3569 vis_faligndata(TMP4, TMP6, REF_S0);
3572 vis_alignaddr_g0((void *)off_plus_1);
3573 vis_faligndata(TMP0, TMP2, REF_S6);
3574 vis_faligndata(TMP4, TMP6, REF_S2);
3576 vis_src1(TMP2, REF_S6);
3577 vis_src1(TMP6, REF_S2);
3580 vis_padd16(TMP18, CONST_1, TMP18);
3581 vis_mul8x16au(REF_S6, CONST_256, TMP22);
3583 vis_padd16(TMP20, CONST_1, TMP20);
3584 vis_mul8x16au(REF_S6_1, CONST_256, TMP24);
3586 vis_mul8x16au(REF_S0, CONST_256, TMP26);
3587 vis_pmerge(ZERO, REF_S0_1, TMP28);
3589 vis_mul8x16au(REF_S2, CONST_256, TMP30);
3590 vis_padd16(TMP18, TMP22, TMP18);
3592 vis_mul8x16au(REF_S2_1, CONST_256, TMP32);
3593 vis_padd16(TMP20, TMP24, TMP20);
3595 vis_padd16(TMP8, TMP18, TMP8);
3597 vis_padd16(TMP10, TMP20, TMP10);
3599 vis_padd16(TMP8, TMP12, TMP8);
3601 vis_padd16(TMP10, TMP14, TMP10);
3602 vis_pack16(TMP8, DST_0);
3604 vis_pack16(TMP10, DST_1);
3605 vis_st64(DST_0, dest[0]);
3607 vis_padd16(TMP18, TMP26, TMP18);
3609 vis_padd16(TMP20, TMP28, TMP20);
3611 vis_padd16(TMP18, TMP30, TMP18);
3613 vis_padd16(TMP20, TMP32, TMP20);
3614 vis_pack16(TMP18, DST_2);
3616 vis_pack16(TMP20, DST_3);
3617 vis_st64(DST_2, dest[0]);
3622 static void MC_avg_no_round_xy_16_vis (uint8_t * dest, const uint8_t * ref,
3623 const int stride, int height)
3625 unsigned long off = (unsigned long) ref & 0x7;
3626 unsigned long off_plus_1 = off + 1;
3627 int stride_8 = stride + 8;
3628 int stride_16 = stride + 16;
3630 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT);
3632 ref = vis_alignaddr(ref);
3634 vis_ld64(ref[ 0], TMP0);
3637 vis_ld64(ref[ 8], TMP2);
3639 vis_ld64(ref[16], TMP4);
3641 vis_ld64(constants6[0], CONST_6);
3642 vis_faligndata(TMP0, TMP2, REF_S0);
3644 vis_ld64(constants256_1024[0], CONST_256);
3645 vis_faligndata(TMP2, TMP4, REF_S4);
3648 vis_alignaddr_g0((void *)off_plus_1);
3649 vis_faligndata(TMP0, TMP2, REF_S2);
3650 vis_faligndata(TMP2, TMP4, REF_S6);
3652 vis_src1(TMP2, REF_S2);
3653 vis_src1(TMP4, REF_S6);
3657 do { /* 55 cycles */
3658 vis_ld64_2(ref, stride, TMP0);
3659 vis_mul8x16au(REF_S0, CONST_256, TMP12);
3660 vis_pmerge(ZERO, REF_S0_1, TMP14);
3662 vis_alignaddr_g0((void *)off);
3664 vis_ld64_2(ref, stride_8, TMP2);
3665 vis_mul8x16au(REF_S2, CONST_256, TMP16);
3666 vis_pmerge(ZERO, REF_S2_1, TMP18);
3668 vis_ld64_2(ref, stride_16, TMP4);
3670 vis_mul8x16au(REF_S4, CONST_256, TMP20);
3671 vis_pmerge(ZERO, REF_S4_1, TMP22);
3673 vis_ld64_2(ref, stride, TMP6);
3674 vis_mul8x16au(REF_S6, CONST_256, TMP24);
3675 vis_pmerge(ZERO, REF_S6_1, TMP26);
3677 vis_ld64_2(ref, stride_8, TMP8);
3678 vis_faligndata(TMP0, TMP2, REF_0);
3680 vis_ld64_2(ref, stride_16, TMP10);
3682 vis_faligndata(TMP2, TMP4, REF_4);
3684 vis_ld64(dest[0], DST_0);
3685 vis_faligndata(TMP6, TMP8, REF_S0);
3687 vis_ld64_2(dest, 8, DST_2);
3688 vis_faligndata(TMP8, TMP10, REF_S4);
3691 vis_alignaddr_g0((void *)off_plus_1);
3692 vis_faligndata(TMP0, TMP2, REF_2);
3693 vis_faligndata(TMP2, TMP4, REF_6);
3694 vis_faligndata(TMP6, TMP8, REF_S2);
3695 vis_faligndata(TMP8, TMP10, REF_S6);
3697 vis_src1(TMP2, REF_2);
3698 vis_src1(TMP4, REF_6);
3699 vis_src1(TMP8, REF_S2);
3700 vis_src1(TMP10, REF_S6);
3703 vis_mul8x16al(DST_0, CONST_1024, TMP30);
3704 vis_pmerge(ZERO, REF_0, TMP0);
3706 vis_mul8x16al(DST_1, CONST_1024, TMP32);
3707 vis_pmerge(ZERO, REF_0_1, TMP2);
3709 vis_mul8x16au(REF_2, CONST_256, TMP4);
3710 vis_pmerge(ZERO, REF_2_1, TMP6);
3712 vis_mul8x16al(DST_2, CONST_1024, REF_0);
3713 vis_padd16(TMP0, CONST_6, TMP0);
3715 vis_mul8x16al(DST_3, CONST_1024, REF_2);
3716 vis_padd16(TMP2, CONST_6, TMP2);
3718 vis_padd16(TMP0, TMP4, TMP0);
3719 vis_mul8x16au(REF_4, CONST_256, TMP4);
3721 vis_padd16(TMP2, TMP6, TMP2);
3722 vis_mul8x16au(REF_4_1, CONST_256, TMP6);
3724 vis_padd16(TMP12, TMP0, TMP12);
3725 vis_mul8x16au(REF_6, CONST_256, TMP8);
3727 vis_padd16(TMP14, TMP2, TMP14);
3728 vis_mul8x16au(REF_6_1, CONST_256, TMP10);
3730 vis_padd16(TMP12, TMP16, TMP12);
3731 vis_mul8x16au(REF_S0, CONST_256, REF_4);
3733 vis_padd16(TMP14, TMP18, TMP14);
3734 vis_mul8x16au(REF_S0_1, CONST_256, REF_6);
3736 vis_padd16(TMP12, TMP30, TMP12);
3738 vis_padd16(TMP14, TMP32, TMP14);
3739 vis_pack16(TMP12, DST_0);
3741 vis_pack16(TMP14, DST_1);
3742 vis_st64(DST_0, dest[0]);
3743 vis_padd16(TMP4, CONST_6, TMP4);
3745 vis_ld64_2(dest, stride, DST_0);
3746 vis_padd16(TMP6, CONST_6, TMP6);
3747 vis_mul8x16au(REF_S2, CONST_256, TMP12);
3749 vis_padd16(TMP4, TMP8, TMP4);
3750 vis_mul8x16au(REF_S2_1, CONST_256, TMP14);
3752 vis_padd16(TMP6, TMP10, TMP6);
3754 vis_padd16(TMP20, TMP4, TMP20);
3756 vis_padd16(TMP22, TMP6, TMP22);
3758 vis_padd16(TMP20, TMP24, TMP20);
3760 vis_padd16(TMP22, TMP26, TMP22);
3762 vis_padd16(TMP20, REF_0, TMP20);
3763 vis_mul8x16au(REF_S4, CONST_256, REF_0);
3765 vis_padd16(TMP22, REF_2, TMP22);
3766 vis_pack16(TMP20, DST_2);
3768 vis_pack16(TMP22, DST_3);
3769 vis_st64_2(DST_2, dest, 8);
3772 vis_ld64_2(dest, 8, DST_2);
3773 vis_mul8x16al(DST_0, CONST_1024, TMP30);
3774 vis_pmerge(ZERO, REF_S4_1, REF_2);
3776 vis_mul8x16al(DST_1, CONST_1024, TMP32);
3777 vis_padd16(REF_4, TMP0, TMP8);
3779 vis_mul8x16au(REF_S6, CONST_256, REF_4);
3780 vis_padd16(REF_6, TMP2, TMP10);
3782 vis_mul8x16au(REF_S6_1, CONST_256, REF_6);
3783 vis_padd16(TMP8, TMP12, TMP8);
3785 vis_padd16(TMP10, TMP14, TMP10);
3787 vis_padd16(TMP8, TMP30, TMP8);
3789 vis_padd16(TMP10, TMP32, TMP10);
3790 vis_pack16(TMP8, DST_0);
3792 vis_pack16(TMP10, DST_1);
3793 vis_st64(DST_0, dest[0]);
3795 vis_padd16(REF_0, TMP4, REF_0);
3797 vis_mul8x16al(DST_2, CONST_1024, TMP30);
3798 vis_padd16(REF_2, TMP6, REF_2);
3800 vis_mul8x16al(DST_3, CONST_1024, TMP32);
3801 vis_padd16(REF_0, REF_4, REF_0);
3803 vis_padd16(REF_2, REF_6, REF_2);
3805 vis_padd16(REF_0, TMP30, REF_0);
3809 vis_padd16(REF_2, TMP32, REF_2);
3810 vis_pack16(REF_0, DST_2);
3812 vis_pack16(REF_2, DST_3);
3813 vis_st64_2(DST_2, dest, 8);
3818 static void MC_avg_no_round_xy_8_vis (uint8_t * dest, const uint8_t * ref,
3819 const int stride, int height)
3821 unsigned long off = (unsigned long) ref & 0x7;
3822 unsigned long off_plus_1 = off + 1;
3823 int stride_8 = stride + 8;
3825 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT);
3827 ref = vis_alignaddr(ref);
3829 vis_ld64(ref[0], TMP0);
3832 vis_ld64_2(ref, 8, TMP2);
3834 vis_ld64(constants6[0], CONST_6);
3836 vis_ld64(constants256_1024[0], CONST_256);
3837 vis_faligndata(TMP0, TMP2, REF_S0);
3840 vis_alignaddr_g0((void *)off_plus_1);
3841 vis_faligndata(TMP0, TMP2, REF_S2);
3843 vis_src1(TMP2, REF_S2);
3847 do { /* 31 cycles */
3848 vis_ld64_2(ref, stride, TMP0);
3849 vis_mul8x16au(REF_S0, CONST_256, TMP8);
3850 vis_pmerge(ZERO, REF_S0_1, TMP10);
3852 vis_ld64_2(ref, stride_8, TMP2);
3854 vis_mul8x16au(REF_S2, CONST_256, TMP12);
3855 vis_pmerge(ZERO, REF_S2_1, TMP14);
3857 vis_alignaddr_g0((void *)off);
3859 vis_ld64_2(ref, stride, TMP4);
3860 vis_faligndata(TMP0, TMP2, REF_S4);
3862 vis_ld64_2(ref, stride_8, TMP6);
3865 vis_ld64(dest[0], DST_0);
3866 vis_faligndata(TMP4, TMP6, REF_S0);
3868 vis_ld64_2(dest, stride, DST_2);
3871 vis_alignaddr_g0((void *)off_plus_1);
3872 vis_faligndata(TMP0, TMP2, REF_S6);
3873 vis_faligndata(TMP4, TMP6, REF_S2);
3875 vis_src1(TMP2, REF_S6);
3876 vis_src1(TMP6, REF_S2);
3879 vis_mul8x16al(DST_0, CONST_1024, TMP30);
3880 vis_pmerge(ZERO, REF_S4, TMP22);
3882 vis_mul8x16al(DST_1, CONST_1024, TMP32);
3883 vis_pmerge(ZERO, REF_S4_1, TMP24);
3885 vis_mul8x16au(REF_S6, CONST_256, TMP26);
3886 vis_pmerge(ZERO, REF_S6_1, TMP28);
3888 vis_mul8x16au(REF_S0, CONST_256, REF_S4);
3889 vis_padd16(TMP22, CONST_6, TMP22);
3891 vis_mul8x16au(REF_S0_1, CONST_256, REF_S6);
3892 vis_padd16(TMP24, CONST_6, TMP24);
3894 vis_mul8x16al(DST_2, CONST_1024, REF_0);
3895 vis_padd16(TMP22, TMP26, TMP22);
3897 vis_mul8x16al(DST_3, CONST_1024, REF_2);
3898 vis_padd16(TMP24, TMP28, TMP24);
3900 vis_mul8x16au(REF_S2, CONST_256, TMP26);
3901 vis_padd16(TMP8, TMP22, TMP8);
3903 vis_mul8x16au(REF_S2_1, CONST_256, TMP28);
3904 vis_padd16(TMP10, TMP24, TMP10);
3906 vis_padd16(TMP8, TMP12, TMP8);
3908 vis_padd16(TMP10, TMP14, TMP10);
3910 vis_padd16(TMP8, TMP30, TMP8);
3912 vis_padd16(TMP10, TMP32, TMP10);
3913 vis_pack16(TMP8, DST_0);
3915 vis_pack16(TMP10, DST_1);
3916 vis_st64(DST_0, dest[0]);
3919 vis_padd16(REF_S4, TMP22, TMP12);
3921 vis_padd16(REF_S6, TMP24, TMP14);
3923 vis_padd16(TMP12, TMP26, TMP12);
3925 vis_padd16(TMP14, TMP28, TMP14);
3927 vis_padd16(TMP12, REF_0, TMP12);
3929 vis_padd16(TMP14, REF_2, TMP14);
3930 vis_pack16(TMP12, DST_2);
3932 vis_pack16(TMP14, DST_3);
3933 vis_st64(DST_2, dest[0]);
3938 /* End of no rounding code */
3940 #define ACCEL_SPARC_VIS 1
3941 #define ACCEL_SPARC_VIS2 2
3943 static int vis_level(void)
3946 accel |= ACCEL_SPARC_VIS;
3947 accel |= ACCEL_SPARC_VIS2;
3951 /* libavcodec initialization code */
3952 void ff_dsputil_init_vis(DSPContext* c, AVCodecContext *avctx)
3954 /* VIS-specific optimizations */
3955 int accel = vis_level ();
3956 const int high_bit_depth = avctx->bits_per_raw_sample > 8;
3958 if (accel & ACCEL_SPARC_VIS) {
3959 if (avctx->bits_per_raw_sample <= 8 &&
3960 avctx->idct_algo == FF_IDCT_SIMPLEVIS) {
3961 c->idct_put = ff_simple_idct_put_vis;
3962 c->idct_add = ff_simple_idct_add_vis;
3963 c->idct = ff_simple_idct_vis;
3964 c->idct_permutation_type = FF_TRANSPOSE_IDCT_PERM;
3967 if (!high_bit_depth) {
3968 c->put_pixels_tab[0][0] = MC_put_o_16_vis;
3969 c->put_pixels_tab[0][1] = MC_put_x_16_vis;
3970 c->put_pixels_tab[0][2] = MC_put_y_16_vis;
3971 c->put_pixels_tab[0][3] = MC_put_xy_16_vis;
3973 c->put_pixels_tab[1][0] = MC_put_o_8_vis;
3974 c->put_pixels_tab[1][1] = MC_put_x_8_vis;
3975 c->put_pixels_tab[1][2] = MC_put_y_8_vis;
3976 c->put_pixels_tab[1][3] = MC_put_xy_8_vis;
3978 c->avg_pixels_tab[0][0] = MC_avg_o_16_vis;
3979 c->avg_pixels_tab[0][1] = MC_avg_x_16_vis;
3980 c->avg_pixels_tab[0][2] = MC_avg_y_16_vis;
3981 c->avg_pixels_tab[0][3] = MC_avg_xy_16_vis;
3983 c->avg_pixels_tab[1][0] = MC_avg_o_8_vis;
3984 c->avg_pixels_tab[1][1] = MC_avg_x_8_vis;
3985 c->avg_pixels_tab[1][2] = MC_avg_y_8_vis;
3986 c->avg_pixels_tab[1][3] = MC_avg_xy_8_vis;
3988 c->put_no_rnd_pixels_tab[0][0] = MC_put_no_round_o_16_vis;
3989 c->put_no_rnd_pixels_tab[0][1] = MC_put_no_round_x_16_vis;
3990 c->put_no_rnd_pixels_tab[0][2] = MC_put_no_round_y_16_vis;
3991 c->put_no_rnd_pixels_tab[0][3] = MC_put_no_round_xy_16_vis;
3993 c->put_no_rnd_pixels_tab[1][0] = MC_put_no_round_o_8_vis;
3994 c->put_no_rnd_pixels_tab[1][1] = MC_put_no_round_x_8_vis;
3995 c->put_no_rnd_pixels_tab[1][2] = MC_put_no_round_y_8_vis;
3996 c->put_no_rnd_pixels_tab[1][3] = MC_put_no_round_xy_8_vis;
3998 c->avg_no_rnd_pixels_tab[0][0] = MC_avg_no_round_o_16_vis;
3999 c->avg_no_rnd_pixels_tab[0][1] = MC_avg_no_round_x_16_vis;
4000 c->avg_no_rnd_pixels_tab[0][2] = MC_avg_no_round_y_16_vis;
4001 c->avg_no_rnd_pixels_tab[0][3] = MC_avg_no_round_xy_16_vis;
4003 c->avg_no_rnd_pixels_tab[1][0] = MC_avg_no_round_o_8_vis;
4004 c->avg_no_rnd_pixels_tab[1][1] = MC_avg_no_round_x_8_vis;
4005 c->avg_no_rnd_pixels_tab[1][2] = MC_avg_no_round_y_8_vis;
4006 c->avg_no_rnd_pixels_tab[1][3] = MC_avg_no_round_xy_8_vis;