3 * Copyright (C) 2003 David S. Miller <davem@redhat.com>
5 * This file is part of FFmpeg.
7 * FFmpeg is free software; you can redistribute it and/or
8 * modify it under the terms of the GNU Lesser General Public
9 * License as published by the Free Software Foundation; either
10 * version 2.1 of the License, or (at your option) any later version.
12 * FFmpeg is distributed in the hope that it will be useful,
13 * but WITHOUT ANY WARRANTY; without even the implied warranty of
14 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
15 * Lesser General Public License for more details.
17 * You should have received a copy of the GNU Lesser General Public
18 * License along with FFmpeg; if not, write to the Free Software
19 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
22 /* The *no_round* functions have been added by James A. Morrison, 2003,2004.
23 The vis code from libmpeg2 was adapted for ffmpeg by James A. Morrison.
34 #include "../dsputil.h"
38 /* The trick used in some of this file is the formula from the MMX
39 * motion comp code, which is:
41 * (x+y+1)>>1 == (x|y)-((x^y)>>1)
43 * This allows us to average 8 bytes at a time in a 64-bit FPU reg.
44 * We avoid overflows by masking before we do the shift, and we
45 * implement the shift by multiplying by 1/2 using mul8x16. So in
46 * VIS this is (assume 'x' is in f0, 'y' is in f2, a repeating mask
47 * of '0xfe' is in f4, a repeating mask of '0x7f' is in f6, and
48 * the value 0x80808080 is in f8):
52 * fmul8x16 f8, f10, f10
55 * fpsub16 f12, f10, f10
58 #define ATTR_ALIGN(alignd) __attribute__ ((aligned(alignd)))
60 #define DUP4(x) {x, x, x, x}
61 #define DUP8(x) {x, x, x, x, x, x, x, x}
62 static const int16_t constants1[] ATTR_ALIGN(8) = DUP4 (1);
63 static const int16_t constants2[] ATTR_ALIGN(8) = DUP4 (2);
64 static const int16_t constants3[] ATTR_ALIGN(8) = DUP4 (3);
65 static const int16_t constants6[] ATTR_ALIGN(8) = DUP4 (6);
66 static const int8_t constants_fe[] ATTR_ALIGN(8) = DUP8 (0xfe);
67 static const int8_t constants_7f[] ATTR_ALIGN(8) = DUP8 (0x7f);
68 static const int8_t constants128[] ATTR_ALIGN(8) = DUP8 (128);
69 static const int16_t constants256_512[] ATTR_ALIGN(8) =
71 static const int16_t constants256_1024[] ATTR_ALIGN(8) =
72 {256, 1024, 256, 1024};
102 #define CONST_1024 22
127 static void MC_put_o_16_vis (uint8_t * dest, const uint8_t * _ref,
128 const int stride, int height)
130 uint8_t *ref = (uint8_t *) _ref;
132 ref = vis_alignaddr(ref);
134 vis_ld64(ref[0], TMP0);
136 vis_ld64_2(ref, 8, TMP2);
138 vis_ld64_2(ref, 16, TMP4);
141 vis_faligndata(TMP0, TMP2, REF_0);
142 vis_st64(REF_0, dest[0]);
144 vis_faligndata(TMP2, TMP4, REF_2);
145 vis_st64_2(REF_2, dest, 8);
150 static void MC_put_o_8_vis (uint8_t * dest, const uint8_t * _ref,
151 const int stride, int height)
153 uint8_t *ref = (uint8_t *) _ref;
155 ref = vis_alignaddr(ref);
157 vis_ld64(ref[0], TMP0);
159 vis_ld64(ref[8], TMP2);
164 vis_faligndata(TMP0, TMP2, REF_0);
165 vis_st64(REF_0, dest[0]);
171 static void MC_avg_o_16_vis (uint8_t * dest, const uint8_t * _ref,
172 const int stride, int height)
174 uint8_t *ref = (uint8_t *) _ref;
175 int stride_8 = stride + 8;
177 ref = vis_alignaddr(ref);
179 vis_ld64(ref[0], TMP0);
181 vis_ld64(ref[8], TMP2);
183 vis_ld64(ref[16], TMP4);
185 vis_ld64(dest[0], DST_0);
187 vis_ld64(dest[8], DST_2);
189 vis_ld64(constants_fe[0], MASK_fe);
190 vis_faligndata(TMP0, TMP2, REF_0);
192 vis_ld64(constants_7f[0], MASK_7f);
193 vis_faligndata(TMP2, TMP4, REF_2);
195 vis_ld64(constants128[0], CONST_128);
198 height = (height >> 1) - 1;
201 vis_ld64(ref[0], TMP0);
202 vis_xor(DST_0, REF_0, TMP6);
204 vis_ld64_2(ref, 8, TMP2);
205 vis_and(TMP6, MASK_fe, TMP6);
207 vis_ld64_2(ref, 16, TMP4);
209 vis_mul8x16(CONST_128, TMP6, TMP6);
210 vis_xor(DST_2, REF_2, TMP8);
212 vis_and(TMP8, MASK_fe, TMP8);
214 vis_or(DST_0, REF_0, TMP10);
215 vis_ld64_2(dest, stride, DST_0);
216 vis_mul8x16(CONST_128, TMP8, TMP8);
218 vis_or(DST_2, REF_2, TMP12);
219 vis_ld64_2(dest, stride_8, DST_2);
221 vis_ld64(ref[0], TMP14);
222 vis_and(TMP6, MASK_7f, TMP6);
224 vis_and(TMP8, MASK_7f, TMP8);
226 vis_psub16(TMP10, TMP6, TMP6);
227 vis_st64(TMP6, dest[0]);
229 vis_psub16(TMP12, TMP8, TMP8);
230 vis_st64_2(TMP8, dest, 8);
233 vis_ld64_2(ref, 8, TMP16);
234 vis_faligndata(TMP0, TMP2, REF_0);
236 vis_ld64_2(ref, 16, TMP18);
237 vis_faligndata(TMP2, TMP4, REF_2);
240 vis_xor(DST_0, REF_0, TMP20);
242 vis_and(TMP20, MASK_fe, TMP20);
244 vis_xor(DST_2, REF_2, TMP22);
245 vis_mul8x16(CONST_128, TMP20, TMP20);
247 vis_and(TMP22, MASK_fe, TMP22);
249 vis_or(DST_0, REF_0, TMP24);
250 vis_mul8x16(CONST_128, TMP22, TMP22);
252 vis_or(DST_2, REF_2, TMP26);
254 vis_ld64_2(dest, stride, DST_0);
255 vis_faligndata(TMP14, TMP16, REF_0);
257 vis_ld64_2(dest, stride_8, DST_2);
258 vis_faligndata(TMP16, TMP18, REF_2);
260 vis_and(TMP20, MASK_7f, TMP20);
262 vis_and(TMP22, MASK_7f, TMP22);
264 vis_psub16(TMP24, TMP20, TMP20);
265 vis_st64(TMP20, dest[0]);
267 vis_psub16(TMP26, TMP22, TMP22);
268 vis_st64_2(TMP22, dest, 8);
272 vis_ld64(ref[0], TMP0);
273 vis_xor(DST_0, REF_0, TMP6);
275 vis_ld64_2(ref, 8, TMP2);
276 vis_and(TMP6, MASK_fe, TMP6);
278 vis_ld64_2(ref, 16, TMP4);
279 vis_mul8x16(CONST_128, TMP6, TMP6);
280 vis_xor(DST_2, REF_2, TMP8);
282 vis_and(TMP8, MASK_fe, TMP8);
284 vis_or(DST_0, REF_0, TMP10);
285 vis_ld64_2(dest, stride, DST_0);
286 vis_mul8x16(CONST_128, TMP8, TMP8);
288 vis_or(DST_2, REF_2, TMP12);
289 vis_ld64_2(dest, stride_8, DST_2);
291 vis_ld64(ref[0], TMP14);
292 vis_and(TMP6, MASK_7f, TMP6);
294 vis_and(TMP8, MASK_7f, TMP8);
296 vis_psub16(TMP10, TMP6, TMP6);
297 vis_st64(TMP6, dest[0]);
299 vis_psub16(TMP12, TMP8, TMP8);
300 vis_st64_2(TMP8, dest, 8);
303 vis_faligndata(TMP0, TMP2, REF_0);
305 vis_faligndata(TMP2, TMP4, REF_2);
307 vis_xor(DST_0, REF_0, TMP20);
309 vis_and(TMP20, MASK_fe, TMP20);
311 vis_xor(DST_2, REF_2, TMP22);
312 vis_mul8x16(CONST_128, TMP20, TMP20);
314 vis_and(TMP22, MASK_fe, TMP22);
316 vis_or(DST_0, REF_0, TMP24);
317 vis_mul8x16(CONST_128, TMP22, TMP22);
319 vis_or(DST_2, REF_2, TMP26);
321 vis_and(TMP20, MASK_7f, TMP20);
323 vis_and(TMP22, MASK_7f, TMP22);
325 vis_psub16(TMP24, TMP20, TMP20);
326 vis_st64(TMP20, dest[0]);
328 vis_psub16(TMP26, TMP22, TMP22);
329 vis_st64_2(TMP22, dest, 8);
332 static void MC_avg_o_8_vis (uint8_t * dest, const uint8_t * _ref,
333 const int stride, int height)
335 uint8_t *ref = (uint8_t *) _ref;
337 ref = vis_alignaddr(ref);
339 vis_ld64(ref[0], TMP0);
341 vis_ld64(ref[8], TMP2);
343 vis_ld64(dest[0], DST_0);
345 vis_ld64(constants_fe[0], MASK_fe);
347 vis_ld64(constants_7f[0], MASK_7f);
348 vis_faligndata(TMP0, TMP2, REF_0);
350 vis_ld64(constants128[0], CONST_128);
353 height = (height >> 1) - 1;
356 vis_ld64(ref[0], TMP0);
357 vis_xor(DST_0, REF_0, TMP4);
359 vis_ld64(ref[8], TMP2);
360 vis_and(TMP4, MASK_fe, TMP4);
362 vis_or(DST_0, REF_0, TMP6);
363 vis_ld64_2(dest, stride, DST_0);
365 vis_mul8x16(CONST_128, TMP4, TMP4);
367 vis_ld64(ref[0], TMP12);
368 vis_faligndata(TMP0, TMP2, REF_0);
370 vis_ld64(ref[8], TMP2);
371 vis_xor(DST_0, REF_0, TMP0);
374 vis_and(TMP0, MASK_fe, TMP0);
376 vis_and(TMP4, MASK_7f, TMP4);
378 vis_psub16(TMP6, TMP4, TMP4);
379 vis_st64(TMP4, dest[0]);
381 vis_mul8x16(CONST_128, TMP0, TMP0);
383 vis_or(DST_0, REF_0, TMP6);
384 vis_ld64_2(dest, stride, DST_0);
386 vis_faligndata(TMP12, TMP2, REF_0);
388 vis_and(TMP0, MASK_7f, TMP0);
390 vis_psub16(TMP6, TMP0, TMP4);
391 vis_st64(TMP4, dest[0]);
395 vis_ld64(ref[0], TMP0);
396 vis_xor(DST_0, REF_0, TMP4);
398 vis_ld64(ref[8], TMP2);
399 vis_and(TMP4, MASK_fe, TMP4);
401 vis_or(DST_0, REF_0, TMP6);
402 vis_ld64_2(dest, stride, DST_0);
403 vis_mul8x16(CONST_128, TMP4, TMP4);
405 vis_faligndata(TMP0, TMP2, REF_0);
407 vis_xor(DST_0, REF_0, TMP0);
409 vis_and(TMP0, MASK_fe, TMP0);
411 vis_and(TMP4, MASK_7f, TMP4);
413 vis_psub16(TMP6, TMP4, TMP4);
414 vis_st64(TMP4, dest[0]);
416 vis_mul8x16(CONST_128, TMP0, TMP0);
418 vis_or(DST_0, REF_0, TMP6);
420 vis_and(TMP0, MASK_7f, TMP0);
422 vis_psub16(TMP6, TMP0, TMP4);
423 vis_st64(TMP4, dest[0]);
426 static void MC_put_x_16_vis (uint8_t * dest, const uint8_t * _ref,
427 const int stride, int height)
429 uint8_t *ref = (uint8_t *) _ref;
430 unsigned long off = (unsigned long) ref & 0x7;
431 unsigned long off_plus_1 = off + 1;
433 ref = vis_alignaddr(ref);
435 vis_ld64(ref[0], TMP0);
437 vis_ld64_2(ref, 8, TMP2);
439 vis_ld64_2(ref, 16, TMP4);
441 vis_ld64(constants_fe[0], MASK_fe);
443 vis_ld64(constants_7f[0], MASK_7f);
444 vis_faligndata(TMP0, TMP2, REF_0);
446 vis_ld64(constants128[0], CONST_128);
447 vis_faligndata(TMP2, TMP4, REF_4);
450 vis_alignaddr_g0((void *)off_plus_1);
451 vis_faligndata(TMP0, TMP2, REF_2);
452 vis_faligndata(TMP2, TMP4, REF_6);
454 vis_src1(TMP2, REF_2);
455 vis_src1(TMP4, REF_6);
459 height = (height >> 1) - 1;
462 vis_ld64(ref[0], TMP0);
463 vis_xor(REF_0, REF_2, TMP6);
465 vis_ld64_2(ref, 8, TMP2);
466 vis_xor(REF_4, REF_6, TMP8);
468 vis_ld64_2(ref, 16, TMP4);
469 vis_and(TMP6, MASK_fe, TMP6);
472 vis_ld64(ref[0], TMP14);
473 vis_mul8x16(CONST_128, TMP6, TMP6);
474 vis_and(TMP8, MASK_fe, TMP8);
476 vis_ld64_2(ref, 8, TMP16);
477 vis_mul8x16(CONST_128, TMP8, TMP8);
478 vis_or(REF_0, REF_2, TMP10);
480 vis_ld64_2(ref, 16, TMP18);
482 vis_or(REF_4, REF_6, TMP12);
484 vis_alignaddr_g0((void *)off);
486 vis_faligndata(TMP0, TMP2, REF_0);
488 vis_faligndata(TMP2, TMP4, REF_4);
491 vis_alignaddr_g0((void *)off_plus_1);
492 vis_faligndata(TMP0, TMP2, REF_2);
493 vis_faligndata(TMP2, TMP4, REF_6);
495 vis_src1(TMP2, REF_2);
496 vis_src1(TMP4, REF_6);
499 vis_and(TMP6, MASK_7f, TMP6);
501 vis_and(TMP8, MASK_7f, TMP8);
503 vis_psub16(TMP10, TMP6, TMP6);
504 vis_st64(TMP6, dest[0]);
506 vis_psub16(TMP12, TMP8, TMP8);
507 vis_st64_2(TMP8, dest, 8);
510 vis_xor(REF_0, REF_2, TMP6);
512 vis_xor(REF_4, REF_6, TMP8);
514 vis_and(TMP6, MASK_fe, TMP6);
516 vis_mul8x16(CONST_128, TMP6, TMP6);
517 vis_and(TMP8, MASK_fe, TMP8);
519 vis_mul8x16(CONST_128, TMP8, TMP8);
520 vis_or(REF_0, REF_2, TMP10);
522 vis_or(REF_4, REF_6, TMP12);
524 vis_alignaddr_g0((void *)off);
526 vis_faligndata(TMP14, TMP16, REF_0);
528 vis_faligndata(TMP16, TMP18, REF_4);
531 vis_alignaddr_g0((void *)off_plus_1);
532 vis_faligndata(TMP14, TMP16, REF_2);
533 vis_faligndata(TMP16, TMP18, REF_6);
535 vis_src1(TMP16, REF_2);
536 vis_src1(TMP18, REF_6);
539 vis_and(TMP6, MASK_7f, TMP6);
541 vis_and(TMP8, MASK_7f, TMP8);
543 vis_psub16(TMP10, TMP6, TMP6);
544 vis_st64(TMP6, dest[0]);
546 vis_psub16(TMP12, TMP8, TMP8);
547 vis_st64_2(TMP8, dest, 8);
551 vis_ld64(ref[0], TMP0);
552 vis_xor(REF_0, REF_2, TMP6);
554 vis_ld64_2(ref, 8, TMP2);
555 vis_xor(REF_4, REF_6, TMP8);
557 vis_ld64_2(ref, 16, TMP4);
558 vis_and(TMP6, MASK_fe, TMP6);
560 vis_mul8x16(CONST_128, TMP6, TMP6);
561 vis_and(TMP8, MASK_fe, TMP8);
563 vis_mul8x16(CONST_128, TMP8, TMP8);
564 vis_or(REF_0, REF_2, TMP10);
566 vis_or(REF_4, REF_6, TMP12);
568 vis_alignaddr_g0((void *)off);
570 vis_faligndata(TMP0, TMP2, REF_0);
572 vis_faligndata(TMP2, TMP4, REF_4);
575 vis_alignaddr_g0((void *)off_plus_1);
576 vis_faligndata(TMP0, TMP2, REF_2);
577 vis_faligndata(TMP2, TMP4, REF_6);
579 vis_src1(TMP2, REF_2);
580 vis_src1(TMP4, REF_6);
583 vis_and(TMP6, MASK_7f, TMP6);
585 vis_and(TMP8, MASK_7f, TMP8);
587 vis_psub16(TMP10, TMP6, TMP6);
588 vis_st64(TMP6, dest[0]);
590 vis_psub16(TMP12, TMP8, TMP8);
591 vis_st64_2(TMP8, dest, 8);
594 vis_xor(REF_0, REF_2, TMP6);
596 vis_xor(REF_4, REF_6, TMP8);
598 vis_and(TMP6, MASK_fe, TMP6);
600 vis_mul8x16(CONST_128, TMP6, TMP6);
601 vis_and(TMP8, MASK_fe, TMP8);
603 vis_mul8x16(CONST_128, TMP8, TMP8);
604 vis_or(REF_0, REF_2, TMP10);
606 vis_or(REF_4, REF_6, TMP12);
608 vis_and(TMP6, MASK_7f, TMP6);
610 vis_and(TMP8, MASK_7f, TMP8);
612 vis_psub16(TMP10, TMP6, TMP6);
613 vis_st64(TMP6, dest[0]);
615 vis_psub16(TMP12, TMP8, TMP8);
616 vis_st64_2(TMP8, dest, 8);
619 static void MC_put_x_8_vis (uint8_t * dest, const uint8_t * _ref,
620 const int stride, int height)
622 uint8_t *ref = (uint8_t *) _ref;
623 unsigned long off = (unsigned long) ref & 0x7;
624 unsigned long off_plus_1 = off + 1;
626 ref = vis_alignaddr(ref);
628 vis_ld64(ref[0], TMP0);
630 vis_ld64(ref[8], TMP2);
632 vis_ld64(constants_fe[0], MASK_fe);
634 vis_ld64(constants_7f[0], MASK_7f);
636 vis_ld64(constants128[0], CONST_128);
637 vis_faligndata(TMP0, TMP2, REF_0);
640 vis_alignaddr_g0((void *)off_plus_1);
641 vis_faligndata(TMP0, TMP2, REF_2);
643 vis_src1(TMP2, REF_2);
647 height = (height >> 1) - 1;
650 vis_ld64(ref[0], TMP0);
651 vis_xor(REF_0, REF_2, TMP4);
653 vis_ld64_2(ref, 8, TMP2);
654 vis_and(TMP4, MASK_fe, TMP4);
657 vis_ld64(ref[0], TMP8);
658 vis_or(REF_0, REF_2, TMP6);
659 vis_mul8x16(CONST_128, TMP4, TMP4);
661 vis_alignaddr_g0((void *)off);
663 vis_ld64_2(ref, 8, TMP10);
665 vis_faligndata(TMP0, TMP2, REF_0);
668 vis_alignaddr_g0((void *)off_plus_1);
669 vis_faligndata(TMP0, TMP2, REF_2);
671 vis_src1(TMP2, REF_2);
674 vis_and(TMP4, MASK_7f, TMP4);
676 vis_psub16(TMP6, TMP4, DST_0);
677 vis_st64(DST_0, dest[0]);
680 vis_xor(REF_0, REF_2, TMP12);
682 vis_and(TMP12, MASK_fe, TMP12);
684 vis_or(REF_0, REF_2, TMP14);
685 vis_mul8x16(CONST_128, TMP12, TMP12);
687 vis_alignaddr_g0((void *)off);
688 vis_faligndata(TMP8, TMP10, REF_0);
690 vis_alignaddr_g0((void *)off_plus_1);
691 vis_faligndata(TMP8, TMP10, REF_2);
693 vis_src1(TMP10, REF_2);
696 vis_and(TMP12, MASK_7f, TMP12);
698 vis_psub16(TMP14, TMP12, DST_0);
699 vis_st64(DST_0, dest[0]);
703 vis_ld64(ref[0], TMP0);
704 vis_xor(REF_0, REF_2, TMP4);
706 vis_ld64_2(ref, 8, TMP2);
707 vis_and(TMP4, MASK_fe, TMP4);
709 vis_or(REF_0, REF_2, TMP6);
710 vis_mul8x16(CONST_128, TMP4, TMP4);
712 vis_alignaddr_g0((void *)off);
714 vis_faligndata(TMP0, TMP2, REF_0);
717 vis_alignaddr_g0((void *)off_plus_1);
718 vis_faligndata(TMP0, TMP2, REF_2);
720 vis_src1(TMP2, REF_2);
723 vis_and(TMP4, MASK_7f, TMP4);
725 vis_psub16(TMP6, TMP4, DST_0);
726 vis_st64(DST_0, dest[0]);
729 vis_xor(REF_0, REF_2, TMP12);
731 vis_and(TMP12, MASK_fe, TMP12);
733 vis_or(REF_0, REF_2, TMP14);
734 vis_mul8x16(CONST_128, TMP12, TMP12);
736 vis_and(TMP12, MASK_7f, TMP12);
738 vis_psub16(TMP14, TMP12, DST_0);
739 vis_st64(DST_0, dest[0]);
743 static void MC_avg_x_16_vis (uint8_t * dest, const uint8_t * _ref,
744 const int stride, int height)
746 uint8_t *ref = (uint8_t *) _ref;
747 unsigned long off = (unsigned long) ref & 0x7;
748 unsigned long off_plus_1 = off + 1;
750 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
752 vis_ld64(constants3[0], CONST_3);
754 vis_ld64(constants256_512[0], CONST_256);
756 ref = vis_alignaddr(ref);
758 vis_ld64(ref[0], TMP0);
760 vis_ld64(ref[8], TMP2);
762 vis_alignaddr_g0((void *)off);
764 vis_ld64(ref[16], TMP4);
766 vis_ld64(dest[0], DST_0);
767 vis_faligndata(TMP0, TMP2, REF_0);
769 vis_ld64(dest[8], DST_2);
770 vis_faligndata(TMP2, TMP4, REF_4);
773 vis_alignaddr_g0((void *)off_plus_1);
774 vis_faligndata(TMP0, TMP2, REF_2);
775 vis_faligndata(TMP2, TMP4, REF_6);
777 vis_src1(TMP2, REF_2);
778 vis_src1(TMP4, REF_6);
781 vis_mul8x16au(REF_0, CONST_256, TMP0);
783 vis_pmerge(ZERO, REF_2, TMP4);
784 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
786 vis_pmerge(ZERO, REF_2_1, TMP6);
788 vis_padd16(TMP0, TMP4, TMP0);
790 vis_mul8x16al(DST_0, CONST_512, TMP4);
791 vis_padd16(TMP2, TMP6, TMP2);
793 vis_mul8x16al(DST_1, CONST_512, TMP6);
795 vis_mul8x16au(REF_6, CONST_256, TMP12);
797 vis_padd16(TMP0, TMP4, TMP0);
798 vis_mul8x16au(REF_6_1, CONST_256, TMP14);
800 vis_padd16(TMP2, TMP6, TMP2);
801 vis_mul8x16au(REF_4, CONST_256, TMP16);
803 vis_padd16(TMP0, CONST_3, TMP8);
804 vis_mul8x16au(REF_4_1, CONST_256, TMP18);
806 vis_padd16(TMP2, CONST_3, TMP10);
807 vis_pack16(TMP8, DST_0);
809 vis_pack16(TMP10, DST_1);
810 vis_padd16(TMP16, TMP12, TMP0);
812 vis_st64(DST_0, dest[0]);
813 vis_mul8x16al(DST_2, CONST_512, TMP4);
814 vis_padd16(TMP18, TMP14, TMP2);
816 vis_mul8x16al(DST_3, CONST_512, TMP6);
817 vis_padd16(TMP0, CONST_3, TMP0);
819 vis_padd16(TMP2, CONST_3, TMP2);
821 vis_padd16(TMP0, TMP4, TMP0);
823 vis_padd16(TMP2, TMP6, TMP2);
824 vis_pack16(TMP0, DST_2);
826 vis_pack16(TMP2, DST_3);
827 vis_st64(DST_2, dest[8]);
834 static void MC_avg_x_8_vis (uint8_t * dest, const uint8_t * _ref,
835 const int stride, int height)
837 uint8_t *ref = (uint8_t *) _ref;
838 unsigned long off = (unsigned long) ref & 0x7;
839 unsigned long off_plus_1 = off + 1;
840 int stride_times_2 = stride << 1;
842 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
844 vis_ld64(constants3[0], CONST_3);
846 vis_ld64(constants256_512[0], CONST_256);
848 ref = vis_alignaddr(ref);
851 vis_ld64(ref[0], TMP0);
853 vis_ld64_2(ref, 8, TMP2);
856 vis_alignaddr_g0((void *)off);
858 vis_ld64(ref[0], TMP4);
859 vis_faligndata(TMP0, TMP2, REF_0);
861 vis_ld64_2(ref, 8, TMP6);
864 vis_ld64(ref[0], TMP8);
866 vis_ld64_2(ref, 8, TMP10);
868 vis_faligndata(TMP4, TMP6, REF_4);
870 vis_ld64(ref[0], TMP12);
872 vis_ld64_2(ref, 8, TMP14);
874 vis_faligndata(TMP8, TMP10, REF_S0);
876 vis_faligndata(TMP12, TMP14, REF_S4);
879 vis_alignaddr_g0((void *)off_plus_1);
881 vis_ld64(dest[0], DST_0);
882 vis_faligndata(TMP0, TMP2, REF_2);
884 vis_ld64_2(dest, stride, DST_2);
885 vis_faligndata(TMP4, TMP6, REF_6);
887 vis_faligndata(TMP8, TMP10, REF_S2);
889 vis_faligndata(TMP12, TMP14, REF_S6);
891 vis_ld64(dest[0], DST_0);
892 vis_src1(TMP2, REF_2);
894 vis_ld64_2(dest, stride, DST_2);
895 vis_src1(TMP6, REF_6);
897 vis_src1(TMP10, REF_S2);
899 vis_src1(TMP14, REF_S6);
902 vis_pmerge(ZERO, REF_0, TMP0);
903 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
905 vis_pmerge(ZERO, REF_2, TMP4);
906 vis_mul8x16au(REF_2_1, CONST_256, TMP6);
908 vis_padd16(TMP0, CONST_3, TMP0);
909 vis_mul8x16al(DST_0, CONST_512, TMP16);
911 vis_padd16(TMP2, CONST_3, TMP2);
912 vis_mul8x16al(DST_1, CONST_512, TMP18);
914 vis_padd16(TMP0, TMP4, TMP0);
915 vis_mul8x16au(REF_4, CONST_256, TMP8);
917 vis_padd16(TMP2, TMP6, TMP2);
918 vis_mul8x16au(REF_4_1, CONST_256, TMP10);
920 vis_padd16(TMP0, TMP16, TMP0);
921 vis_mul8x16au(REF_6, CONST_256, TMP12);
923 vis_padd16(TMP2, TMP18, TMP2);
924 vis_mul8x16au(REF_6_1, CONST_256, TMP14);
926 vis_padd16(TMP8, CONST_3, TMP8);
927 vis_mul8x16al(DST_2, CONST_512, TMP16);
929 vis_padd16(TMP8, TMP12, TMP8);
930 vis_mul8x16al(DST_3, CONST_512, TMP18);
932 vis_padd16(TMP10, TMP14, TMP10);
933 vis_pack16(TMP0, DST_0);
935 vis_pack16(TMP2, DST_1);
936 vis_st64(DST_0, dest[0]);
938 vis_padd16(TMP10, CONST_3, TMP10);
940 vis_ld64_2(dest, stride, DST_0);
941 vis_padd16(TMP8, TMP16, TMP8);
943 vis_ld64_2(dest, stride_times_2, TMP4/*DST_2*/);
944 vis_padd16(TMP10, TMP18, TMP10);
945 vis_pack16(TMP8, DST_2);
947 vis_pack16(TMP10, DST_3);
948 vis_st64(DST_2, dest[0]);
951 vis_mul8x16au(REF_S0_1, CONST_256, TMP2);
952 vis_pmerge(ZERO, REF_S0, TMP0);
954 vis_pmerge(ZERO, REF_S2, TMP24);
955 vis_mul8x16au(REF_S2_1, CONST_256, TMP6);
957 vis_padd16(TMP0, CONST_3, TMP0);
958 vis_mul8x16au(REF_S4, CONST_256, TMP8);
960 vis_padd16(TMP2, CONST_3, TMP2);
961 vis_mul8x16au(REF_S4_1, CONST_256, TMP10);
963 vis_padd16(TMP0, TMP24, TMP0);
964 vis_mul8x16au(REF_S6, CONST_256, TMP12);
966 vis_padd16(TMP2, TMP6, TMP2);
967 vis_mul8x16au(REF_S6_1, CONST_256, TMP14);
969 vis_padd16(TMP8, CONST_3, TMP8);
970 vis_mul8x16al(DST_0, CONST_512, TMP16);
972 vis_padd16(TMP10, CONST_3, TMP10);
973 vis_mul8x16al(DST_1, CONST_512, TMP18);
975 vis_padd16(TMP8, TMP12, TMP8);
976 vis_mul8x16al(TMP4/*DST_2*/, CONST_512, TMP20);
978 vis_mul8x16al(TMP5/*DST_3*/, CONST_512, TMP22);
979 vis_padd16(TMP0, TMP16, TMP0);
981 vis_padd16(TMP2, TMP18, TMP2);
982 vis_pack16(TMP0, DST_0);
984 vis_padd16(TMP10, TMP14, TMP10);
985 vis_pack16(TMP2, DST_1);
986 vis_st64(DST_0, dest[0]);
989 vis_padd16(TMP8, TMP20, TMP8);
991 vis_padd16(TMP10, TMP22, TMP10);
992 vis_pack16(TMP8, DST_2);
994 vis_pack16(TMP10, DST_3);
995 vis_st64(DST_2, dest[0]);
1000 static void MC_put_y_16_vis (uint8_t * dest, const uint8_t * _ref,
1001 const int stride, int height)
1003 uint8_t *ref = (uint8_t *) _ref;
1005 ref = vis_alignaddr(ref);
1006 vis_ld64(ref[0], TMP0);
1008 vis_ld64_2(ref, 8, TMP2);
1010 vis_ld64_2(ref, 16, TMP4);
1013 vis_ld64(ref[0], TMP6);
1014 vis_faligndata(TMP0, TMP2, REF_0);
1016 vis_ld64_2(ref, 8, TMP8);
1017 vis_faligndata(TMP2, TMP4, REF_4);
1019 vis_ld64_2(ref, 16, TMP10);
1022 vis_ld64(constants_fe[0], MASK_fe);
1023 vis_faligndata(TMP6, TMP8, REF_2);
1025 vis_ld64(constants_7f[0], MASK_7f);
1026 vis_faligndata(TMP8, TMP10, REF_6);
1028 vis_ld64(constants128[0], CONST_128);
1029 height = (height >> 1) - 1;
1030 do { /* 24 cycles */
1031 vis_ld64(ref[0], TMP0);
1032 vis_xor(REF_0, REF_2, TMP12);
1034 vis_ld64_2(ref, 8, TMP2);
1035 vis_xor(REF_4, REF_6, TMP16);
1037 vis_ld64_2(ref, 16, TMP4);
1039 vis_or(REF_0, REF_2, TMP14);
1041 vis_ld64(ref[0], TMP6);
1042 vis_or(REF_4, REF_6, TMP18);
1044 vis_ld64_2(ref, 8, TMP8);
1045 vis_faligndata(TMP0, TMP2, REF_0);
1047 vis_ld64_2(ref, 16, TMP10);
1049 vis_faligndata(TMP2, TMP4, REF_4);
1051 vis_and(TMP12, MASK_fe, TMP12);
1053 vis_and(TMP16, MASK_fe, TMP16);
1054 vis_mul8x16(CONST_128, TMP12, TMP12);
1056 vis_mul8x16(CONST_128, TMP16, TMP16);
1057 vis_xor(REF_0, REF_2, TMP0);
1059 vis_xor(REF_4, REF_6, TMP2);
1061 vis_or(REF_0, REF_2, TMP20);
1063 vis_and(TMP12, MASK_7f, TMP12);
1065 vis_and(TMP16, MASK_7f, TMP16);
1067 vis_psub16(TMP14, TMP12, TMP12);
1068 vis_st64(TMP12, dest[0]);
1070 vis_psub16(TMP18, TMP16, TMP16);
1071 vis_st64_2(TMP16, dest, 8);
1074 vis_or(REF_4, REF_6, TMP18);
1076 vis_and(TMP0, MASK_fe, TMP0);
1078 vis_and(TMP2, MASK_fe, TMP2);
1079 vis_mul8x16(CONST_128, TMP0, TMP0);
1081 vis_faligndata(TMP6, TMP8, REF_2);
1082 vis_mul8x16(CONST_128, TMP2, TMP2);
1084 vis_faligndata(TMP8, TMP10, REF_6);
1086 vis_and(TMP0, MASK_7f, TMP0);
1088 vis_and(TMP2, MASK_7f, TMP2);
1090 vis_psub16(TMP20, TMP0, TMP0);
1091 vis_st64(TMP0, dest[0]);
1093 vis_psub16(TMP18, TMP2, TMP2);
1094 vis_st64_2(TMP2, dest, 8);
1098 vis_ld64(ref[0], TMP0);
1099 vis_xor(REF_0, REF_2, TMP12);
1101 vis_ld64_2(ref, 8, TMP2);
1102 vis_xor(REF_4, REF_6, TMP16);
1104 vis_ld64_2(ref, 16, TMP4);
1105 vis_or(REF_0, REF_2, TMP14);
1107 vis_or(REF_4, REF_6, TMP18);
1109 vis_faligndata(TMP0, TMP2, REF_0);
1111 vis_faligndata(TMP2, TMP4, REF_4);
1113 vis_and(TMP12, MASK_fe, TMP12);
1115 vis_and(TMP16, MASK_fe, TMP16);
1116 vis_mul8x16(CONST_128, TMP12, TMP12);
1118 vis_mul8x16(CONST_128, TMP16, TMP16);
1119 vis_xor(REF_0, REF_2, TMP0);
1121 vis_xor(REF_4, REF_6, TMP2);
1123 vis_or(REF_0, REF_2, TMP20);
1125 vis_and(TMP12, MASK_7f, TMP12);
1127 vis_and(TMP16, MASK_7f, TMP16);
1129 vis_psub16(TMP14, TMP12, TMP12);
1130 vis_st64(TMP12, dest[0]);
1132 vis_psub16(TMP18, TMP16, TMP16);
1133 vis_st64_2(TMP16, dest, 8);
1136 vis_or(REF_4, REF_6, TMP18);
1138 vis_and(TMP0, MASK_fe, TMP0);
1140 vis_and(TMP2, MASK_fe, TMP2);
1141 vis_mul8x16(CONST_128, TMP0, TMP0);
1143 vis_mul8x16(CONST_128, TMP2, TMP2);
1145 vis_and(TMP0, MASK_7f, TMP0);
1147 vis_and(TMP2, MASK_7f, TMP2);
1149 vis_psub16(TMP20, TMP0, TMP0);
1150 vis_st64(TMP0, dest[0]);
1152 vis_psub16(TMP18, TMP2, TMP2);
1153 vis_st64_2(TMP2, dest, 8);
1156 static void MC_put_y_8_vis (uint8_t * dest, const uint8_t * _ref,
1157 const int stride, int height)
1159 uint8_t *ref = (uint8_t *) _ref;
1161 ref = vis_alignaddr(ref);
1162 vis_ld64(ref[0], TMP0);
1164 vis_ld64_2(ref, 8, TMP2);
1167 vis_ld64(ref[0], TMP4);
1169 vis_ld64_2(ref, 8, TMP6);
1172 vis_ld64(constants_fe[0], MASK_fe);
1173 vis_faligndata(TMP0, TMP2, REF_0);
1175 vis_ld64(constants_7f[0], MASK_7f);
1176 vis_faligndata(TMP4, TMP6, REF_2);
1178 vis_ld64(constants128[0], CONST_128);
1179 height = (height >> 1) - 1;
1180 do { /* 12 cycles */
1181 vis_ld64(ref[0], TMP0);
1182 vis_xor(REF_0, REF_2, TMP4);
1184 vis_ld64_2(ref, 8, TMP2);
1186 vis_and(TMP4, MASK_fe, TMP4);
1188 vis_or(REF_0, REF_2, TMP6);
1189 vis_mul8x16(CONST_128, TMP4, TMP4);
1191 vis_faligndata(TMP0, TMP2, REF_0);
1192 vis_ld64(ref[0], TMP0);
1194 vis_ld64_2(ref, 8, TMP2);
1196 vis_xor(REF_0, REF_2, TMP12);
1198 vis_and(TMP4, MASK_7f, TMP4);
1200 vis_and(TMP12, MASK_fe, TMP12);
1202 vis_mul8x16(CONST_128, TMP12, TMP12);
1203 vis_or(REF_0, REF_2, TMP14);
1205 vis_psub16(TMP6, TMP4, DST_0);
1206 vis_st64(DST_0, dest[0]);
1209 vis_faligndata(TMP0, TMP2, REF_2);
1211 vis_and(TMP12, MASK_7f, TMP12);
1213 vis_psub16(TMP14, TMP12, DST_0);
1214 vis_st64(DST_0, dest[0]);
1218 vis_ld64(ref[0], TMP0);
1219 vis_xor(REF_0, REF_2, TMP4);
1221 vis_ld64_2(ref, 8, TMP2);
1222 vis_and(TMP4, MASK_fe, TMP4);
1224 vis_or(REF_0, REF_2, TMP6);
1225 vis_mul8x16(CONST_128, TMP4, TMP4);
1227 vis_faligndata(TMP0, TMP2, REF_0);
1229 vis_xor(REF_0, REF_2, TMP12);
1231 vis_and(TMP4, MASK_7f, TMP4);
1233 vis_and(TMP12, MASK_fe, TMP12);
1235 vis_mul8x16(CONST_128, TMP12, TMP12);
1236 vis_or(REF_0, REF_2, TMP14);
1238 vis_psub16(TMP6, TMP4, DST_0);
1239 vis_st64(DST_0, dest[0]);
1242 vis_and(TMP12, MASK_7f, TMP12);
1244 vis_psub16(TMP14, TMP12, DST_0);
1245 vis_st64(DST_0, dest[0]);
1248 static void MC_avg_y_16_vis (uint8_t * dest, const uint8_t * _ref,
1249 const int stride, int height)
1251 uint8_t *ref = (uint8_t *) _ref;
1252 int stride_8 = stride + 8;
1253 int stride_16 = stride + 16;
1255 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
1257 ref = vis_alignaddr(ref);
1259 vis_ld64(ref[ 0], TMP0);
1262 vis_ld64(ref[ 8], TMP2);
1264 vis_ld64(ref[16], TMP4);
1266 vis_ld64(constants3[0], CONST_3);
1267 vis_faligndata(TMP0, TMP2, REF_2);
1269 vis_ld64(constants256_512[0], CONST_256);
1270 vis_faligndata(TMP2, TMP4, REF_6);
1273 do { /* 31 cycles */
1274 vis_ld64_2(ref, stride, TMP0);
1275 vis_pmerge(ZERO, REF_2, TMP12);
1276 vis_mul8x16au(REF_2_1, CONST_256, TMP14);
1278 vis_ld64_2(ref, stride_8, TMP2);
1279 vis_pmerge(ZERO, REF_6, TMP16);
1280 vis_mul8x16au(REF_6_1, CONST_256, TMP18);
1282 vis_ld64_2(ref, stride_16, TMP4);
1285 vis_ld64(dest[0], DST_0);
1286 vis_faligndata(TMP0, TMP2, REF_0);
1288 vis_ld64_2(dest, 8, DST_2);
1289 vis_faligndata(TMP2, TMP4, REF_4);
1291 vis_ld64_2(ref, stride, TMP6);
1292 vis_pmerge(ZERO, REF_0, TMP0);
1293 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
1295 vis_ld64_2(ref, stride_8, TMP8);
1296 vis_pmerge(ZERO, REF_4, TMP4);
1298 vis_ld64_2(ref, stride_16, TMP10);
1301 vis_ld64_2(dest, stride, REF_S0/*DST_4*/);
1302 vis_faligndata(TMP6, TMP8, REF_2);
1303 vis_mul8x16au(REF_4_1, CONST_256, TMP6);
1305 vis_ld64_2(dest, stride_8, REF_S2/*DST_6*/);
1306 vis_faligndata(TMP8, TMP10, REF_6);
1307 vis_mul8x16al(DST_0, CONST_512, TMP20);
1309 vis_padd16(TMP0, CONST_3, TMP0);
1310 vis_mul8x16al(DST_1, CONST_512, TMP22);
1312 vis_padd16(TMP2, CONST_3, TMP2);
1313 vis_mul8x16al(DST_2, CONST_512, TMP24);
1315 vis_padd16(TMP4, CONST_3, TMP4);
1316 vis_mul8x16al(DST_3, CONST_512, TMP26);
1318 vis_padd16(TMP6, CONST_3, TMP6);
1320 vis_padd16(TMP12, TMP20, TMP12);
1321 vis_mul8x16al(REF_S0, CONST_512, TMP20);
1323 vis_padd16(TMP14, TMP22, TMP14);
1324 vis_mul8x16al(REF_S0_1, CONST_512, TMP22);
1326 vis_padd16(TMP16, TMP24, TMP16);
1327 vis_mul8x16al(REF_S2, CONST_512, TMP24);
1329 vis_padd16(TMP18, TMP26, TMP18);
1330 vis_mul8x16al(REF_S2_1, CONST_512, TMP26);
1332 vis_padd16(TMP12, TMP0, TMP12);
1333 vis_mul8x16au(REF_2, CONST_256, TMP28);
1335 vis_padd16(TMP14, TMP2, TMP14);
1336 vis_mul8x16au(REF_2_1, CONST_256, TMP30);
1338 vis_padd16(TMP16, TMP4, TMP16);
1339 vis_mul8x16au(REF_6, CONST_256, REF_S4);
1341 vis_padd16(TMP18, TMP6, TMP18);
1342 vis_mul8x16au(REF_6_1, CONST_256, REF_S6);
1344 vis_pack16(TMP12, DST_0);
1345 vis_padd16(TMP28, TMP0, TMP12);
1347 vis_pack16(TMP14, DST_1);
1348 vis_st64(DST_0, dest[0]);
1349 vis_padd16(TMP30, TMP2, TMP14);
1351 vis_pack16(TMP16, DST_2);
1352 vis_padd16(REF_S4, TMP4, TMP16);
1354 vis_pack16(TMP18, DST_3);
1355 vis_st64_2(DST_2, dest, 8);
1357 vis_padd16(REF_S6, TMP6, TMP18);
1359 vis_padd16(TMP12, TMP20, TMP12);
1361 vis_padd16(TMP14, TMP22, TMP14);
1362 vis_pack16(TMP12, DST_0);
1364 vis_padd16(TMP16, TMP24, TMP16);
1365 vis_pack16(TMP14, DST_1);
1366 vis_st64(DST_0, dest[0]);
1368 vis_padd16(TMP18, TMP26, TMP18);
1369 vis_pack16(TMP16, DST_2);
1371 vis_pack16(TMP18, DST_3);
1372 vis_st64_2(DST_2, dest, 8);
1377 static void MC_avg_y_8_vis (uint8_t * dest, const uint8_t * _ref,
1378 const int stride, int height)
1380 uint8_t *ref = (uint8_t *) _ref;
1381 int stride_8 = stride + 8;
1383 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
1385 ref = vis_alignaddr(ref);
1387 vis_ld64(ref[ 0], TMP0);
1390 vis_ld64(ref[ 8], TMP2);
1392 vis_ld64(constants3[0], CONST_3);
1393 vis_faligndata(TMP0, TMP2, REF_2);
1395 vis_ld64(constants256_512[0], CONST_256);
1398 do { /* 20 cycles */
1399 vis_ld64_2(ref, stride, TMP0);
1400 vis_pmerge(ZERO, REF_2, TMP8);
1401 vis_mul8x16au(REF_2_1, CONST_256, TMP10);
1403 vis_ld64_2(ref, stride_8, TMP2);
1406 vis_ld64(dest[0], DST_0);
1408 vis_ld64_2(dest, stride, DST_2);
1409 vis_faligndata(TMP0, TMP2, REF_0);
1411 vis_ld64_2(ref, stride, TMP4);
1412 vis_mul8x16al(DST_0, CONST_512, TMP16);
1413 vis_pmerge(ZERO, REF_0, TMP12);
1415 vis_ld64_2(ref, stride_8, TMP6);
1417 vis_mul8x16al(DST_1, CONST_512, TMP18);
1418 vis_pmerge(ZERO, REF_0_1, TMP14);
1420 vis_padd16(TMP12, CONST_3, TMP12);
1421 vis_mul8x16al(DST_2, CONST_512, TMP24);
1423 vis_padd16(TMP14, CONST_3, TMP14);
1424 vis_mul8x16al(DST_3, CONST_512, TMP26);
1426 vis_faligndata(TMP4, TMP6, REF_2);
1428 vis_padd16(TMP8, TMP12, TMP8);
1430 vis_padd16(TMP10, TMP14, TMP10);
1431 vis_mul8x16au(REF_2, CONST_256, TMP20);
1433 vis_padd16(TMP8, TMP16, TMP0);
1434 vis_mul8x16au(REF_2_1, CONST_256, TMP22);
1436 vis_padd16(TMP10, TMP18, TMP2);
1437 vis_pack16(TMP0, DST_0);
1439 vis_pack16(TMP2, DST_1);
1440 vis_st64(DST_0, dest[0]);
1442 vis_padd16(TMP12, TMP20, TMP12);
1444 vis_padd16(TMP14, TMP22, TMP14);
1446 vis_padd16(TMP12, TMP24, TMP0);
1448 vis_padd16(TMP14, TMP26, TMP2);
1449 vis_pack16(TMP0, DST_2);
1451 vis_pack16(TMP2, DST_3);
1452 vis_st64(DST_2, dest[0]);
1457 static void MC_put_xy_16_vis (uint8_t * dest, const uint8_t * _ref,
1458 const int stride, int height)
1460 uint8_t *ref = (uint8_t *) _ref;
1461 unsigned long off = (unsigned long) ref & 0x7;
1462 unsigned long off_plus_1 = off + 1;
1463 int stride_8 = stride + 8;
1464 int stride_16 = stride + 16;
1466 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
1468 ref = vis_alignaddr(ref);
1470 vis_ld64(ref[ 0], TMP0);
1473 vis_ld64(ref[ 8], TMP2);
1475 vis_ld64(ref[16], TMP4);
1477 vis_ld64(constants2[0], CONST_2);
1478 vis_faligndata(TMP0, TMP2, REF_S0);
1480 vis_ld64(constants256_512[0], CONST_256);
1481 vis_faligndata(TMP2, TMP4, REF_S4);
1484 vis_alignaddr_g0((void *)off_plus_1);
1485 vis_faligndata(TMP0, TMP2, REF_S2);
1486 vis_faligndata(TMP2, TMP4, REF_S6);
1488 vis_src1(TMP2, REF_S2);
1489 vis_src1(TMP4, REF_S6);
1494 vis_ld64_2(ref, stride, TMP0);
1495 vis_mul8x16au(REF_S0, CONST_256, TMP12);
1496 vis_pmerge(ZERO, REF_S0_1, TMP14);
1498 vis_alignaddr_g0((void *)off);
1500 vis_ld64_2(ref, stride_8, TMP2);
1501 vis_mul8x16au(REF_S2, CONST_256, TMP16);
1502 vis_pmerge(ZERO, REF_S2_1, TMP18);
1504 vis_ld64_2(ref, stride_16, TMP4);
1506 vis_mul8x16au(REF_S4, CONST_256, TMP20);
1507 vis_pmerge(ZERO, REF_S4_1, TMP22);
1509 vis_ld64_2(ref, stride, TMP6);
1510 vis_mul8x16au(REF_S6, CONST_256, TMP24);
1511 vis_pmerge(ZERO, REF_S6_1, TMP26);
1513 vis_ld64_2(ref, stride_8, TMP8);
1514 vis_faligndata(TMP0, TMP2, REF_0);
1516 vis_ld64_2(ref, stride_16, TMP10);
1518 vis_faligndata(TMP2, TMP4, REF_4);
1520 vis_faligndata(TMP6, TMP8, REF_S0);
1522 vis_faligndata(TMP8, TMP10, REF_S4);
1525 vis_alignaddr_g0((void *)off_plus_1);
1526 vis_faligndata(TMP0, TMP2, REF_2);
1527 vis_faligndata(TMP2, TMP4, REF_6);
1528 vis_faligndata(TMP6, TMP8, REF_S2);
1529 vis_faligndata(TMP8, TMP10, REF_S6);
1531 vis_src1(TMP2, REF_2);
1532 vis_src1(TMP4, REF_6);
1533 vis_src1(TMP8, REF_S2);
1534 vis_src1(TMP10, REF_S6);
1537 vis_mul8x16au(REF_0, CONST_256, TMP0);
1538 vis_pmerge(ZERO, REF_0_1, TMP2);
1540 vis_mul8x16au(REF_2, CONST_256, TMP4);
1541 vis_pmerge(ZERO, REF_2_1, TMP6);
1543 vis_padd16(TMP0, CONST_2, TMP8);
1544 vis_mul8x16au(REF_4, CONST_256, TMP0);
1546 vis_padd16(TMP2, CONST_2, TMP10);
1547 vis_mul8x16au(REF_4_1, CONST_256, TMP2);
1549 vis_padd16(TMP8, TMP4, TMP8);
1550 vis_mul8x16au(REF_6, CONST_256, TMP4);
1552 vis_padd16(TMP10, TMP6, TMP10);
1553 vis_mul8x16au(REF_6_1, CONST_256, TMP6);
1555 vis_padd16(TMP12, TMP8, TMP12);
1557 vis_padd16(TMP14, TMP10, TMP14);
1559 vis_padd16(TMP12, TMP16, TMP12);
1561 vis_padd16(TMP14, TMP18, TMP14);
1562 vis_pack16(TMP12, DST_0);
1564 vis_pack16(TMP14, DST_1);
1565 vis_st64(DST_0, dest[0]);
1566 vis_padd16(TMP0, CONST_2, TMP12);
1568 vis_mul8x16au(REF_S0, CONST_256, TMP0);
1569 vis_padd16(TMP2, CONST_2, TMP14);
1571 vis_mul8x16au(REF_S0_1, CONST_256, TMP2);
1572 vis_padd16(TMP12, TMP4, TMP12);
1574 vis_mul8x16au(REF_S2, CONST_256, TMP4);
1575 vis_padd16(TMP14, TMP6, TMP14);
1577 vis_mul8x16au(REF_S2_1, CONST_256, TMP6);
1578 vis_padd16(TMP20, TMP12, TMP20);
1580 vis_padd16(TMP22, TMP14, TMP22);
1582 vis_padd16(TMP20, TMP24, TMP20);
1584 vis_padd16(TMP22, TMP26, TMP22);
1585 vis_pack16(TMP20, DST_2);
1587 vis_pack16(TMP22, DST_3);
1588 vis_st64_2(DST_2, dest, 8);
1590 vis_padd16(TMP0, TMP4, TMP24);
1592 vis_mul8x16au(REF_S4, CONST_256, TMP0);
1593 vis_padd16(TMP2, TMP6, TMP26);
1595 vis_mul8x16au(REF_S4_1, CONST_256, TMP2);
1596 vis_padd16(TMP24, TMP8, TMP24);
1598 vis_padd16(TMP26, TMP10, TMP26);
1599 vis_pack16(TMP24, DST_0);
1601 vis_pack16(TMP26, DST_1);
1602 vis_st64(DST_0, dest[0]);
1603 vis_pmerge(ZERO, REF_S6, TMP4);
1605 vis_pmerge(ZERO, REF_S6_1, TMP6);
1607 vis_padd16(TMP0, TMP4, TMP0);
1609 vis_padd16(TMP2, TMP6, TMP2);
1611 vis_padd16(TMP0, TMP12, TMP0);
1613 vis_padd16(TMP2, TMP14, TMP2);
1614 vis_pack16(TMP0, DST_2);
1616 vis_pack16(TMP2, DST_3);
1617 vis_st64_2(DST_2, dest, 8);
1622 static void MC_put_xy_8_vis (uint8_t * dest, const uint8_t * _ref,
1623 const int stride, int height)
1625 uint8_t *ref = (uint8_t *) _ref;
1626 unsigned long off = (unsigned long) ref & 0x7;
1627 unsigned long off_plus_1 = off + 1;
1628 int stride_8 = stride + 8;
1630 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
1632 ref = vis_alignaddr(ref);
1634 vis_ld64(ref[ 0], TMP0);
1637 vis_ld64(ref[ 8], TMP2);
1639 vis_ld64(constants2[0], CONST_2);
1641 vis_ld64(constants256_512[0], CONST_256);
1642 vis_faligndata(TMP0, TMP2, REF_S0);
1645 vis_alignaddr_g0((void *)off_plus_1);
1646 vis_faligndata(TMP0, TMP2, REF_S2);
1648 vis_src1(TMP2, REF_S2);
1652 do { /* 26 cycles */
1653 vis_ld64_2(ref, stride, TMP0);
1654 vis_mul8x16au(REF_S0, CONST_256, TMP8);
1655 vis_pmerge(ZERO, REF_S2, TMP12);
1657 vis_alignaddr_g0((void *)off);
1659 vis_ld64_2(ref, stride_8, TMP2);
1661 vis_mul8x16au(REF_S0_1, CONST_256, TMP10);
1662 vis_pmerge(ZERO, REF_S2_1, TMP14);
1664 vis_ld64_2(ref, stride, TMP4);
1666 vis_ld64_2(ref, stride_8, TMP6);
1668 vis_faligndata(TMP0, TMP2, REF_S4);
1670 vis_pmerge(ZERO, REF_S4, TMP18);
1672 vis_pmerge(ZERO, REF_S4_1, TMP20);
1674 vis_faligndata(TMP4, TMP6, REF_S0);
1677 vis_alignaddr_g0((void *)off_plus_1);
1678 vis_faligndata(TMP0, TMP2, REF_S6);
1679 vis_faligndata(TMP4, TMP6, REF_S2);
1681 vis_src1(TMP2, REF_S6);
1682 vis_src1(TMP6, REF_S2);
1685 vis_padd16(TMP18, CONST_2, TMP18);
1686 vis_mul8x16au(REF_S6, CONST_256, TMP22);
1688 vis_padd16(TMP20, CONST_2, TMP20);
1689 vis_mul8x16au(REF_S6_1, CONST_256, TMP24);
1691 vis_mul8x16au(REF_S0, CONST_256, TMP26);
1692 vis_pmerge(ZERO, REF_S0_1, TMP28);
1694 vis_mul8x16au(REF_S2, CONST_256, TMP30);
1695 vis_padd16(TMP18, TMP22, TMP18);
1697 vis_mul8x16au(REF_S2_1, CONST_256, TMP32);
1698 vis_padd16(TMP20, TMP24, TMP20);
1700 vis_padd16(TMP8, TMP18, TMP8);
1702 vis_padd16(TMP10, TMP20, TMP10);
1704 vis_padd16(TMP8, TMP12, TMP8);
1706 vis_padd16(TMP10, TMP14, TMP10);
1707 vis_pack16(TMP8, DST_0);
1709 vis_pack16(TMP10, DST_1);
1710 vis_st64(DST_0, dest[0]);
1712 vis_padd16(TMP18, TMP26, TMP18);
1714 vis_padd16(TMP20, TMP28, TMP20);
1716 vis_padd16(TMP18, TMP30, TMP18);
1718 vis_padd16(TMP20, TMP32, TMP20);
1719 vis_pack16(TMP18, DST_2);
1721 vis_pack16(TMP20, DST_3);
1722 vis_st64(DST_2, dest[0]);
1727 static void MC_avg_xy_16_vis (uint8_t * dest, const uint8_t * _ref,
1728 const int stride, int height)
1730 uint8_t *ref = (uint8_t *) _ref;
1731 unsigned long off = (unsigned long) ref & 0x7;
1732 unsigned long off_plus_1 = off + 1;
1733 int stride_8 = stride + 8;
1734 int stride_16 = stride + 16;
1736 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT);
1738 ref = vis_alignaddr(ref);
1740 vis_ld64(ref[ 0], TMP0);
1743 vis_ld64(ref[ 8], TMP2);
1745 vis_ld64(ref[16], TMP4);
1747 vis_ld64(constants6[0], CONST_6);
1748 vis_faligndata(TMP0, TMP2, REF_S0);
1750 vis_ld64(constants256_1024[0], CONST_256);
1751 vis_faligndata(TMP2, TMP4, REF_S4);
1754 vis_alignaddr_g0((void *)off_plus_1);
1755 vis_faligndata(TMP0, TMP2, REF_S2);
1756 vis_faligndata(TMP2, TMP4, REF_S6);
1758 vis_src1(TMP2, REF_S2);
1759 vis_src1(TMP4, REF_S6);
1763 do { /* 55 cycles */
1764 vis_ld64_2(ref, stride, TMP0);
1765 vis_mul8x16au(REF_S0, CONST_256, TMP12);
1766 vis_pmerge(ZERO, REF_S0_1, TMP14);
1768 vis_alignaddr_g0((void *)off);
1770 vis_ld64_2(ref, stride_8, TMP2);
1771 vis_mul8x16au(REF_S2, CONST_256, TMP16);
1772 vis_pmerge(ZERO, REF_S2_1, TMP18);
1774 vis_ld64_2(ref, stride_16, TMP4);
1776 vis_mul8x16au(REF_S4, CONST_256, TMP20);
1777 vis_pmerge(ZERO, REF_S4_1, TMP22);
1779 vis_ld64_2(ref, stride, TMP6);
1780 vis_mul8x16au(REF_S6, CONST_256, TMP24);
1781 vis_pmerge(ZERO, REF_S6_1, TMP26);
1783 vis_ld64_2(ref, stride_8, TMP8);
1784 vis_faligndata(TMP0, TMP2, REF_0);
1786 vis_ld64_2(ref, stride_16, TMP10);
1788 vis_faligndata(TMP2, TMP4, REF_4);
1790 vis_ld64(dest[0], DST_0);
1791 vis_faligndata(TMP6, TMP8, REF_S0);
1793 vis_ld64_2(dest, 8, DST_2);
1794 vis_faligndata(TMP8, TMP10, REF_S4);
1797 vis_alignaddr_g0((void *)off_plus_1);
1798 vis_faligndata(TMP0, TMP2, REF_2);
1799 vis_faligndata(TMP2, TMP4, REF_6);
1800 vis_faligndata(TMP6, TMP8, REF_S2);
1801 vis_faligndata(TMP8, TMP10, REF_S6);
1803 vis_src1(TMP2, REF_2);
1804 vis_src1(TMP4, REF_6);
1805 vis_src1(TMP8, REF_S2);
1806 vis_src1(TMP10, REF_S6);
1809 vis_mul8x16al(DST_0, CONST_1024, TMP30);
1810 vis_pmerge(ZERO, REF_0, TMP0);
1812 vis_mul8x16al(DST_1, CONST_1024, TMP32);
1813 vis_pmerge(ZERO, REF_0_1, TMP2);
1815 vis_mul8x16au(REF_2, CONST_256, TMP4);
1816 vis_pmerge(ZERO, REF_2_1, TMP6);
1818 vis_mul8x16al(DST_2, CONST_1024, REF_0);
1819 vis_padd16(TMP0, CONST_6, TMP0);
1821 vis_mul8x16al(DST_3, CONST_1024, REF_2);
1822 vis_padd16(TMP2, CONST_6, TMP2);
1824 vis_padd16(TMP0, TMP4, TMP0);
1825 vis_mul8x16au(REF_4, CONST_256, TMP4);
1827 vis_padd16(TMP2, TMP6, TMP2);
1828 vis_mul8x16au(REF_4_1, CONST_256, TMP6);
1830 vis_padd16(TMP12, TMP0, TMP12);
1831 vis_mul8x16au(REF_6, CONST_256, TMP8);
1833 vis_padd16(TMP14, TMP2, TMP14);
1834 vis_mul8x16au(REF_6_1, CONST_256, TMP10);
1836 vis_padd16(TMP12, TMP16, TMP12);
1837 vis_mul8x16au(REF_S0, CONST_256, REF_4);
1839 vis_padd16(TMP14, TMP18, TMP14);
1840 vis_mul8x16au(REF_S0_1, CONST_256, REF_6);
1842 vis_padd16(TMP12, TMP30, TMP12);
1844 vis_padd16(TMP14, TMP32, TMP14);
1845 vis_pack16(TMP12, DST_0);
1847 vis_pack16(TMP14, DST_1);
1848 vis_st64(DST_0, dest[0]);
1849 vis_padd16(TMP4, CONST_6, TMP4);
1851 vis_ld64_2(dest, stride, DST_0);
1852 vis_padd16(TMP6, CONST_6, TMP6);
1853 vis_mul8x16au(REF_S2, CONST_256, TMP12);
1855 vis_padd16(TMP4, TMP8, TMP4);
1856 vis_mul8x16au(REF_S2_1, CONST_256, TMP14);
1858 vis_padd16(TMP6, TMP10, TMP6);
1860 vis_padd16(TMP20, TMP4, TMP20);
1862 vis_padd16(TMP22, TMP6, TMP22);
1864 vis_padd16(TMP20, TMP24, TMP20);
1866 vis_padd16(TMP22, TMP26, TMP22);
1868 vis_padd16(TMP20, REF_0, TMP20);
1869 vis_mul8x16au(REF_S4, CONST_256, REF_0);
1871 vis_padd16(TMP22, REF_2, TMP22);
1872 vis_pack16(TMP20, DST_2);
1874 vis_pack16(TMP22, DST_3);
1875 vis_st64_2(DST_2, dest, 8);
1878 vis_ld64_2(dest, 8, DST_2);
1879 vis_mul8x16al(DST_0, CONST_1024, TMP30);
1880 vis_pmerge(ZERO, REF_S4_1, REF_2);
1882 vis_mul8x16al(DST_1, CONST_1024, TMP32);
1883 vis_padd16(REF_4, TMP0, TMP8);
1885 vis_mul8x16au(REF_S6, CONST_256, REF_4);
1886 vis_padd16(REF_6, TMP2, TMP10);
1888 vis_mul8x16au(REF_S6_1, CONST_256, REF_6);
1889 vis_padd16(TMP8, TMP12, TMP8);
1891 vis_padd16(TMP10, TMP14, TMP10);
1893 vis_padd16(TMP8, TMP30, TMP8);
1895 vis_padd16(TMP10, TMP32, TMP10);
1896 vis_pack16(TMP8, DST_0);
1898 vis_pack16(TMP10, DST_1);
1899 vis_st64(DST_0, dest[0]);
1901 vis_padd16(REF_0, TMP4, REF_0);
1903 vis_mul8x16al(DST_2, CONST_1024, TMP30);
1904 vis_padd16(REF_2, TMP6, REF_2);
1906 vis_mul8x16al(DST_3, CONST_1024, TMP32);
1907 vis_padd16(REF_0, REF_4, REF_0);
1909 vis_padd16(REF_2, REF_6, REF_2);
1911 vis_padd16(REF_0, TMP30, REF_0);
1915 vis_padd16(REF_2, TMP32, REF_2);
1916 vis_pack16(REF_0, DST_2);
1918 vis_pack16(REF_2, DST_3);
1919 vis_st64_2(DST_2, dest, 8);
1924 static void MC_avg_xy_8_vis (uint8_t * dest, const uint8_t * _ref,
1925 const int stride, int height)
1927 uint8_t *ref = (uint8_t *) _ref;
1928 unsigned long off = (unsigned long) ref & 0x7;
1929 unsigned long off_plus_1 = off + 1;
1930 int stride_8 = stride + 8;
1932 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT);
1934 ref = vis_alignaddr(ref);
1936 vis_ld64(ref[0], TMP0);
1939 vis_ld64_2(ref, 8, TMP2);
1941 vis_ld64(constants6[0], CONST_6);
1943 vis_ld64(constants256_1024[0], CONST_256);
1944 vis_faligndata(TMP0, TMP2, REF_S0);
1947 vis_alignaddr_g0((void *)off_plus_1);
1948 vis_faligndata(TMP0, TMP2, REF_S2);
1950 vis_src1(TMP2, REF_S2);
1954 do { /* 31 cycles */
1955 vis_ld64_2(ref, stride, TMP0);
1956 vis_mul8x16au(REF_S0, CONST_256, TMP8);
1957 vis_pmerge(ZERO, REF_S0_1, TMP10);
1959 vis_ld64_2(ref, stride_8, TMP2);
1961 vis_mul8x16au(REF_S2, CONST_256, TMP12);
1962 vis_pmerge(ZERO, REF_S2_1, TMP14);
1964 vis_alignaddr_g0((void *)off);
1966 vis_ld64_2(ref, stride, TMP4);
1967 vis_faligndata(TMP0, TMP2, REF_S4);
1969 vis_ld64_2(ref, stride_8, TMP6);
1972 vis_ld64(dest[0], DST_0);
1973 vis_faligndata(TMP4, TMP6, REF_S0);
1975 vis_ld64_2(dest, stride, DST_2);
1978 vis_alignaddr_g0((void *)off_plus_1);
1979 vis_faligndata(TMP0, TMP2, REF_S6);
1980 vis_faligndata(TMP4, TMP6, REF_S2);
1982 vis_src1(TMP2, REF_S6);
1983 vis_src1(TMP6, REF_S2);
1986 vis_mul8x16al(DST_0, CONST_1024, TMP30);
1987 vis_pmerge(ZERO, REF_S4, TMP22);
1989 vis_mul8x16al(DST_1, CONST_1024, TMP32);
1990 vis_pmerge(ZERO, REF_S4_1, TMP24);
1992 vis_mul8x16au(REF_S6, CONST_256, TMP26);
1993 vis_pmerge(ZERO, REF_S6_1, TMP28);
1995 vis_mul8x16au(REF_S0, CONST_256, REF_S4);
1996 vis_padd16(TMP22, CONST_6, TMP22);
1998 vis_mul8x16au(REF_S0_1, CONST_256, REF_S6);
1999 vis_padd16(TMP24, CONST_6, TMP24);
2001 vis_mul8x16al(DST_2, CONST_1024, REF_0);
2002 vis_padd16(TMP22, TMP26, TMP22);
2004 vis_mul8x16al(DST_3, CONST_1024, REF_2);
2005 vis_padd16(TMP24, TMP28, TMP24);
2007 vis_mul8x16au(REF_S2, CONST_256, TMP26);
2008 vis_padd16(TMP8, TMP22, TMP8);
2010 vis_mul8x16au(REF_S2_1, CONST_256, TMP28);
2011 vis_padd16(TMP10, TMP24, TMP10);
2013 vis_padd16(TMP8, TMP12, TMP8);
2015 vis_padd16(TMP10, TMP14, TMP10);
2017 vis_padd16(TMP8, TMP30, TMP8);
2019 vis_padd16(TMP10, TMP32, TMP10);
2020 vis_pack16(TMP8, DST_0);
2022 vis_pack16(TMP10, DST_1);
2023 vis_st64(DST_0, dest[0]);
2026 vis_padd16(REF_S4, TMP22, TMP12);
2028 vis_padd16(REF_S6, TMP24, TMP14);
2030 vis_padd16(TMP12, TMP26, TMP12);
2032 vis_padd16(TMP14, TMP28, TMP14);
2034 vis_padd16(TMP12, REF_0, TMP12);
2036 vis_padd16(TMP14, REF_2, TMP14);
2037 vis_pack16(TMP12, DST_2);
2039 vis_pack16(TMP14, DST_3);
2040 vis_st64(DST_2, dest[0]);
2045 /* End of rounding code */
2047 /* Start of no rounding code */
2048 /* The trick used in some of this file is the formula from the MMX
2049 * motion comp code, which is:
2051 * (x+y)>>1 == (x&y)+((x^y)>>1)
2053 * This allows us to average 8 bytes at a time in a 64-bit FPU reg.
2054 * We avoid overflows by masking before we do the shift, and we
2055 * implement the shift by multiplying by 1/2 using mul8x16. So in
2056 * VIS this is (assume 'x' is in f0, 'y' is in f2, a repeating mask
2057 * of '0xfe' is in f4, a repeating mask of '0x7f' is in f6, and
2058 * the value 0x80808080 is in f8):
2062 * fmul8x16 f8, f10, f10
2065 * fpadd16 f12, f10, f10
2068 static void MC_put_no_round_o_16_vis (uint8_t * dest, const uint8_t * _ref,
2069 const int stride, int height)
2071 uint8_t *ref = (uint8_t *) _ref;
2073 ref = vis_alignaddr(ref);
2075 vis_ld64(ref[0], TMP0);
2077 vis_ld64_2(ref, 8, TMP2);
2079 vis_ld64_2(ref, 16, TMP4);
2082 vis_faligndata(TMP0, TMP2, REF_0);
2083 vis_st64(REF_0, dest[0]);
2085 vis_faligndata(TMP2, TMP4, REF_2);
2086 vis_st64_2(REF_2, dest, 8);
2091 static void MC_put_no_round_o_8_vis (uint8_t * dest, const uint8_t * _ref,
2092 const int stride, int height)
2094 uint8_t *ref = (uint8_t *) _ref;
2096 ref = vis_alignaddr(ref);
2098 vis_ld64(ref[0], TMP0);
2100 vis_ld64(ref[8], TMP2);
2105 vis_faligndata(TMP0, TMP2, REF_0);
2106 vis_st64(REF_0, dest[0]);
2112 static void MC_avg_no_round_o_16_vis (uint8_t * dest, const uint8_t * _ref,
2113 const int stride, int height)
2115 uint8_t *ref = (uint8_t *) _ref;
2116 int stride_8 = stride + 8;
2118 ref = vis_alignaddr(ref);
2120 vis_ld64(ref[0], TMP0);
2122 vis_ld64(ref[8], TMP2);
2124 vis_ld64(ref[16], TMP4);
2126 vis_ld64(dest[0], DST_0);
2128 vis_ld64(dest[8], DST_2);
2130 vis_ld64(constants_fe[0], MASK_fe);
2131 vis_faligndata(TMP0, TMP2, REF_0);
2133 vis_ld64(constants_7f[0], MASK_7f);
2134 vis_faligndata(TMP2, TMP4, REF_2);
2136 vis_ld64(constants128[0], CONST_128);
2139 height = (height >> 1) - 1;
2141 do { /* 24 cycles */
2142 vis_ld64(ref[0], TMP0);
2143 vis_xor(DST_0, REF_0, TMP6);
2145 vis_ld64_2(ref, 8, TMP2);
2146 vis_and(TMP6, MASK_fe, TMP6);
2148 vis_ld64_2(ref, 16, TMP4);
2150 vis_mul8x16(CONST_128, TMP6, TMP6);
2151 vis_xor(DST_2, REF_2, TMP8);
2153 vis_and(TMP8, MASK_fe, TMP8);
2155 vis_and(DST_0, REF_0, TMP10);
2156 vis_ld64_2(dest, stride, DST_0);
2157 vis_mul8x16(CONST_128, TMP8, TMP8);
2159 vis_and(DST_2, REF_2, TMP12);
2160 vis_ld64_2(dest, stride_8, DST_2);
2162 vis_ld64(ref[0], TMP14);
2163 vis_and(TMP6, MASK_7f, TMP6);
2165 vis_and(TMP8, MASK_7f, TMP8);
2167 vis_padd16(TMP10, TMP6, TMP6);
2168 vis_st64(TMP6, dest[0]);
2170 vis_padd16(TMP12, TMP8, TMP8);
2171 vis_st64_2(TMP8, dest, 8);
2174 vis_ld64_2(ref, 8, TMP16);
2175 vis_faligndata(TMP0, TMP2, REF_0);
2177 vis_ld64_2(ref, 16, TMP18);
2178 vis_faligndata(TMP2, TMP4, REF_2);
2181 vis_xor(DST_0, REF_0, TMP20);
2183 vis_and(TMP20, MASK_fe, TMP20);
2185 vis_xor(DST_2, REF_2, TMP22);
2186 vis_mul8x16(CONST_128, TMP20, TMP20);
2188 vis_and(TMP22, MASK_fe, TMP22);
2190 vis_and(DST_0, REF_0, TMP24);
2191 vis_mul8x16(CONST_128, TMP22, TMP22);
2193 vis_and(DST_2, REF_2, TMP26);
2195 vis_ld64_2(dest, stride, DST_0);
2196 vis_faligndata(TMP14, TMP16, REF_0);
2198 vis_ld64_2(dest, stride_8, DST_2);
2199 vis_faligndata(TMP16, TMP18, REF_2);
2201 vis_and(TMP20, MASK_7f, TMP20);
2203 vis_and(TMP22, MASK_7f, TMP22);
2205 vis_padd16(TMP24, TMP20, TMP20);
2206 vis_st64(TMP20, dest[0]);
2208 vis_padd16(TMP26, TMP22, TMP22);
2209 vis_st64_2(TMP22, dest, 8);
2213 vis_ld64(ref[0], TMP0);
2214 vis_xor(DST_0, REF_0, TMP6);
2216 vis_ld64_2(ref, 8, TMP2);
2217 vis_and(TMP6, MASK_fe, TMP6);
2219 vis_ld64_2(ref, 16, TMP4);
2220 vis_mul8x16(CONST_128, TMP6, TMP6);
2221 vis_xor(DST_2, REF_2, TMP8);
2223 vis_and(TMP8, MASK_fe, TMP8);
2225 vis_and(DST_0, REF_0, TMP10);
2226 vis_ld64_2(dest, stride, DST_0);
2227 vis_mul8x16(CONST_128, TMP8, TMP8);
2229 vis_and(DST_2, REF_2, TMP12);
2230 vis_ld64_2(dest, stride_8, DST_2);
2232 vis_ld64(ref[0], TMP14);
2233 vis_and(TMP6, MASK_7f, TMP6);
2235 vis_and(TMP8, MASK_7f, TMP8);
2237 vis_padd16(TMP10, TMP6, TMP6);
2238 vis_st64(TMP6, dest[0]);
2240 vis_padd16(TMP12, TMP8, TMP8);
2241 vis_st64_2(TMP8, dest, 8);
2244 vis_faligndata(TMP0, TMP2, REF_0);
2246 vis_faligndata(TMP2, TMP4, REF_2);
2248 vis_xor(DST_0, REF_0, TMP20);
2250 vis_and(TMP20, MASK_fe, TMP20);
2252 vis_xor(DST_2, REF_2, TMP22);
2253 vis_mul8x16(CONST_128, TMP20, TMP20);
2255 vis_and(TMP22, MASK_fe, TMP22);
2257 vis_and(DST_0, REF_0, TMP24);
2258 vis_mul8x16(CONST_128, TMP22, TMP22);
2260 vis_and(DST_2, REF_2, TMP26);
2262 vis_and(TMP20, MASK_7f, TMP20);
2264 vis_and(TMP22, MASK_7f, TMP22);
2266 vis_padd16(TMP24, TMP20, TMP20);
2267 vis_st64(TMP20, dest[0]);
2269 vis_padd16(TMP26, TMP22, TMP22);
2270 vis_st64_2(TMP22, dest, 8);
2273 static void MC_avg_no_round_o_8_vis (uint8_t * dest, const uint8_t * _ref,
2274 const int stride, int height)
2276 uint8_t *ref = (uint8_t *) _ref;
2278 ref = vis_alignaddr(ref);
2280 vis_ld64(ref[0], TMP0);
2282 vis_ld64(ref[8], TMP2);
2284 vis_ld64(dest[0], DST_0);
2286 vis_ld64(constants_fe[0], MASK_fe);
2288 vis_ld64(constants_7f[0], MASK_7f);
2289 vis_faligndata(TMP0, TMP2, REF_0);
2291 vis_ld64(constants128[0], CONST_128);
2294 height = (height >> 1) - 1;
2296 do { /* 12 cycles */
2297 vis_ld64(ref[0], TMP0);
2298 vis_xor(DST_0, REF_0, TMP4);
2300 vis_ld64(ref[8], TMP2);
2301 vis_and(TMP4, MASK_fe, TMP4);
2303 vis_and(DST_0, REF_0, TMP6);
2304 vis_ld64_2(dest, stride, DST_0);
2306 vis_mul8x16(CONST_128, TMP4, TMP4);
2308 vis_ld64(ref[0], TMP12);
2309 vis_faligndata(TMP0, TMP2, REF_0);
2311 vis_ld64(ref[8], TMP2);
2312 vis_xor(DST_0, REF_0, TMP0);
2315 vis_and(TMP0, MASK_fe, TMP0);
2317 vis_and(TMP4, MASK_7f, TMP4);
2319 vis_padd16(TMP6, TMP4, TMP4);
2320 vis_st64(TMP4, dest[0]);
2322 vis_mul8x16(CONST_128, TMP0, TMP0);
2324 vis_and(DST_0, REF_0, TMP6);
2325 vis_ld64_2(dest, stride, DST_0);
2327 vis_faligndata(TMP12, TMP2, REF_0);
2329 vis_and(TMP0, MASK_7f, TMP0);
2331 vis_padd16(TMP6, TMP0, TMP4);
2332 vis_st64(TMP4, dest[0]);
2336 vis_ld64(ref[0], TMP0);
2337 vis_xor(DST_0, REF_0, TMP4);
2339 vis_ld64(ref[8], TMP2);
2340 vis_and(TMP4, MASK_fe, TMP4);
2342 vis_and(DST_0, REF_0, TMP6);
2343 vis_ld64_2(dest, stride, DST_0);
2344 vis_mul8x16(CONST_128, TMP4, TMP4);
2346 vis_faligndata(TMP0, TMP2, REF_0);
2348 vis_xor(DST_0, REF_0, TMP0);
2350 vis_and(TMP0, MASK_fe, TMP0);
2352 vis_and(TMP4, MASK_7f, TMP4);
2354 vis_padd16(TMP6, TMP4, TMP4);
2355 vis_st64(TMP4, dest[0]);
2357 vis_mul8x16(CONST_128, TMP0, TMP0);
2359 vis_and(DST_0, REF_0, TMP6);
2361 vis_and(TMP0, MASK_7f, TMP0);
2363 vis_padd16(TMP6, TMP0, TMP4);
2364 vis_st64(TMP4, dest[0]);
2367 static void MC_put_no_round_x_16_vis (uint8_t * dest, const uint8_t * _ref,
2368 const int stride, int height)
2370 uint8_t *ref = (uint8_t *) _ref;
2371 unsigned long off = (unsigned long) ref & 0x7;
2372 unsigned long off_plus_1 = off + 1;
2374 ref = vis_alignaddr(ref);
2376 vis_ld64(ref[0], TMP0);
2378 vis_ld64_2(ref, 8, TMP2);
2380 vis_ld64_2(ref, 16, TMP4);
2382 vis_ld64(constants_fe[0], MASK_fe);
2384 vis_ld64(constants_7f[0], MASK_7f);
2385 vis_faligndata(TMP0, TMP2, REF_0);
2387 vis_ld64(constants128[0], CONST_128);
2388 vis_faligndata(TMP2, TMP4, REF_4);
2391 vis_alignaddr_g0((void *)off_plus_1);
2392 vis_faligndata(TMP0, TMP2, REF_2);
2393 vis_faligndata(TMP2, TMP4, REF_6);
2395 vis_src1(TMP2, REF_2);
2396 vis_src1(TMP4, REF_6);
2400 height = (height >> 1) - 1;
2402 do { /* 34 cycles */
2403 vis_ld64(ref[0], TMP0);
2404 vis_xor(REF_0, REF_2, TMP6);
2406 vis_ld64_2(ref, 8, TMP2);
2407 vis_xor(REF_4, REF_6, TMP8);
2409 vis_ld64_2(ref, 16, TMP4);
2410 vis_and(TMP6, MASK_fe, TMP6);
2413 vis_ld64(ref[0], TMP14);
2414 vis_mul8x16(CONST_128, TMP6, TMP6);
2415 vis_and(TMP8, MASK_fe, TMP8);
2417 vis_ld64_2(ref, 8, TMP16);
2418 vis_mul8x16(CONST_128, TMP8, TMP8);
2419 vis_and(REF_0, REF_2, TMP10);
2421 vis_ld64_2(ref, 16, TMP18);
2423 vis_and(REF_4, REF_6, TMP12);
2425 vis_alignaddr_g0((void *)off);
2427 vis_faligndata(TMP0, TMP2, REF_0);
2429 vis_faligndata(TMP2, TMP4, REF_4);
2432 vis_alignaddr_g0((void *)off_plus_1);
2433 vis_faligndata(TMP0, TMP2, REF_2);
2434 vis_faligndata(TMP2, TMP4, REF_6);
2436 vis_src1(TMP2, REF_2);
2437 vis_src1(TMP4, REF_6);
2440 vis_and(TMP6, MASK_7f, TMP6);
2442 vis_and(TMP8, MASK_7f, TMP8);
2444 vis_padd16(TMP10, TMP6, TMP6);
2445 vis_st64(TMP6, dest[0]);
2447 vis_padd16(TMP12, TMP8, TMP8);
2448 vis_st64_2(TMP8, dest, 8);
2451 vis_xor(REF_0, REF_2, TMP6);
2453 vis_xor(REF_4, REF_6, TMP8);
2455 vis_and(TMP6, MASK_fe, TMP6);
2457 vis_mul8x16(CONST_128, TMP6, TMP6);
2458 vis_and(TMP8, MASK_fe, TMP8);
2460 vis_mul8x16(CONST_128, TMP8, TMP8);
2461 vis_and(REF_0, REF_2, TMP10);
2463 vis_and(REF_4, REF_6, TMP12);
2465 vis_alignaddr_g0((void *)off);
2467 vis_faligndata(TMP14, TMP16, REF_0);
2469 vis_faligndata(TMP16, TMP18, REF_4);
2472 vis_alignaddr_g0((void *)off_plus_1);
2473 vis_faligndata(TMP14, TMP16, REF_2);
2474 vis_faligndata(TMP16, TMP18, REF_6);
2476 vis_src1(TMP16, REF_2);
2477 vis_src1(TMP18, REF_6);
2480 vis_and(TMP6, MASK_7f, TMP6);
2482 vis_and(TMP8, MASK_7f, TMP8);
2484 vis_padd16(TMP10, TMP6, TMP6);
2485 vis_st64(TMP6, dest[0]);
2487 vis_padd16(TMP12, TMP8, TMP8);
2488 vis_st64_2(TMP8, dest, 8);
2492 vis_ld64(ref[0], TMP0);
2493 vis_xor(REF_0, REF_2, TMP6);
2495 vis_ld64_2(ref, 8, TMP2);
2496 vis_xor(REF_4, REF_6, TMP8);
2498 vis_ld64_2(ref, 16, TMP4);
2499 vis_and(TMP6, MASK_fe, TMP6);
2501 vis_mul8x16(CONST_128, TMP6, TMP6);
2502 vis_and(TMP8, MASK_fe, TMP8);
2504 vis_mul8x16(CONST_128, TMP8, TMP8);
2505 vis_and(REF_0, REF_2, TMP10);
2507 vis_and(REF_4, REF_6, TMP12);
2509 vis_alignaddr_g0((void *)off);
2511 vis_faligndata(TMP0, TMP2, REF_0);
2513 vis_faligndata(TMP2, TMP4, REF_4);
2516 vis_alignaddr_g0((void *)off_plus_1);
2517 vis_faligndata(TMP0, TMP2, REF_2);
2518 vis_faligndata(TMP2, TMP4, REF_6);
2520 vis_src1(TMP2, REF_2);
2521 vis_src1(TMP4, REF_6);
2524 vis_and(TMP6, MASK_7f, TMP6);
2526 vis_and(TMP8, MASK_7f, TMP8);
2528 vis_padd16(TMP10, TMP6, TMP6);
2529 vis_st64(TMP6, dest[0]);
2531 vis_padd16(TMP12, TMP8, TMP8);
2532 vis_st64_2(TMP8, dest, 8);
2535 vis_xor(REF_0, REF_2, TMP6);
2537 vis_xor(REF_4, REF_6, TMP8);
2539 vis_and(TMP6, MASK_fe, TMP6);
2541 vis_mul8x16(CONST_128, TMP6, TMP6);
2542 vis_and(TMP8, MASK_fe, TMP8);
2544 vis_mul8x16(CONST_128, TMP8, TMP8);
2545 vis_and(REF_0, REF_2, TMP10);
2547 vis_and(REF_4, REF_6, TMP12);
2549 vis_and(TMP6, MASK_7f, TMP6);
2551 vis_and(TMP8, MASK_7f, TMP8);
2553 vis_padd16(TMP10, TMP6, TMP6);
2554 vis_st64(TMP6, dest[0]);
2556 vis_padd16(TMP12, TMP8, TMP8);
2557 vis_st64_2(TMP8, dest, 8);
2560 static void MC_put_no_round_x_8_vis (uint8_t * dest, const uint8_t * _ref,
2561 const int stride, int height)
2563 uint8_t *ref = (uint8_t *) _ref;
2564 unsigned long off = (unsigned long) ref & 0x7;
2565 unsigned long off_plus_1 = off + 1;
2567 ref = vis_alignaddr(ref);
2569 vis_ld64(ref[0], TMP0);
2571 vis_ld64(ref[8], TMP2);
2573 vis_ld64(constants_fe[0], MASK_fe);
2575 vis_ld64(constants_7f[0], MASK_7f);
2577 vis_ld64(constants128[0], CONST_128);
2578 vis_faligndata(TMP0, TMP2, REF_0);
2581 vis_alignaddr_g0((void *)off_plus_1);
2582 vis_faligndata(TMP0, TMP2, REF_2);
2584 vis_src1(TMP2, REF_2);
2588 height = (height >> 1) - 1;
2590 do { /* 20 cycles */
2591 vis_ld64(ref[0], TMP0);
2592 vis_xor(REF_0, REF_2, TMP4);
2594 vis_ld64_2(ref, 8, TMP2);
2595 vis_and(TMP4, MASK_fe, TMP4);
2598 vis_ld64(ref[0], TMP8);
2599 vis_and(REF_0, REF_2, TMP6);
2600 vis_mul8x16(CONST_128, TMP4, TMP4);
2602 vis_alignaddr_g0((void *)off);
2604 vis_ld64_2(ref, 8, TMP10);
2606 vis_faligndata(TMP0, TMP2, REF_0);
2609 vis_alignaddr_g0((void *)off_plus_1);
2610 vis_faligndata(TMP0, TMP2, REF_2);
2612 vis_src1(TMP2, REF_2);
2615 vis_and(TMP4, MASK_7f, TMP4);
2617 vis_padd16(TMP6, TMP4, DST_0);
2618 vis_st64(DST_0, dest[0]);
2621 vis_xor(REF_0, REF_2, TMP12);
2623 vis_and(TMP12, MASK_fe, TMP12);
2625 vis_and(REF_0, REF_2, TMP14);
2626 vis_mul8x16(CONST_128, TMP12, TMP12);
2628 vis_alignaddr_g0((void *)off);
2629 vis_faligndata(TMP8, TMP10, REF_0);
2631 vis_alignaddr_g0((void *)off_plus_1);
2632 vis_faligndata(TMP8, TMP10, REF_2);
2634 vis_src1(TMP10, REF_2);
2637 vis_and(TMP12, MASK_7f, TMP12);
2639 vis_padd16(TMP14, TMP12, DST_0);
2640 vis_st64(DST_0, dest[0]);
2644 vis_ld64(ref[0], TMP0);
2645 vis_xor(REF_0, REF_2, TMP4);
2647 vis_ld64_2(ref, 8, TMP2);
2648 vis_and(TMP4, MASK_fe, TMP4);
2650 vis_and(REF_0, REF_2, TMP6);
2651 vis_mul8x16(CONST_128, TMP4, TMP4);
2653 vis_alignaddr_g0((void *)off);
2655 vis_faligndata(TMP0, TMP2, REF_0);
2658 vis_alignaddr_g0((void *)off_plus_1);
2659 vis_faligndata(TMP0, TMP2, REF_2);
2661 vis_src1(TMP2, REF_2);
2664 vis_and(TMP4, MASK_7f, TMP4);
2666 vis_padd16(TMP6, TMP4, DST_0);
2667 vis_st64(DST_0, dest[0]);
2670 vis_xor(REF_0, REF_2, TMP12);
2672 vis_and(TMP12, MASK_fe, TMP12);
2674 vis_and(REF_0, REF_2, TMP14);
2675 vis_mul8x16(CONST_128, TMP12, TMP12);
2677 vis_and(TMP12, MASK_7f, TMP12);
2679 vis_padd16(TMP14, TMP12, DST_0);
2680 vis_st64(DST_0, dest[0]);
2684 static void MC_avg_no_round_x_16_vis (uint8_t * dest, const uint8_t * _ref,
2685 const int stride, int height)
2687 uint8_t *ref = (uint8_t *) _ref;
2688 unsigned long off = (unsigned long) ref & 0x7;
2689 unsigned long off_plus_1 = off + 1;
2691 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
2693 vis_ld64(constants3[0], CONST_3);
2695 vis_ld64(constants256_512[0], CONST_256);
2697 ref = vis_alignaddr(ref);
2698 do { /* 26 cycles */
2699 vis_ld64(ref[0], TMP0);
2701 vis_ld64(ref[8], TMP2);
2703 vis_alignaddr_g0((void *)off);
2705 vis_ld64(ref[16], TMP4);
2707 vis_ld64(dest[0], DST_0);
2708 vis_faligndata(TMP0, TMP2, REF_0);
2710 vis_ld64(dest[8], DST_2);
2711 vis_faligndata(TMP2, TMP4, REF_4);
2714 vis_alignaddr_g0((void *)off_plus_1);
2715 vis_faligndata(TMP0, TMP2, REF_2);
2716 vis_faligndata(TMP2, TMP4, REF_6);
2718 vis_src1(TMP2, REF_2);
2719 vis_src1(TMP4, REF_6);
2722 vis_mul8x16au(REF_0, CONST_256, TMP0);
2724 vis_pmerge(ZERO, REF_2, TMP4);
2725 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
2727 vis_pmerge(ZERO, REF_2_1, TMP6);
2729 vis_padd16(TMP0, TMP4, TMP0);
2731 vis_mul8x16al(DST_0, CONST_512, TMP4);
2732 vis_padd16(TMP2, TMP6, TMP2);
2734 vis_mul8x16al(DST_1, CONST_512, TMP6);
2736 vis_mul8x16au(REF_6, CONST_256, TMP12);
2738 vis_padd16(TMP0, TMP4, TMP0);
2739 vis_mul8x16au(REF_6_1, CONST_256, TMP14);
2741 vis_padd16(TMP2, TMP6, TMP2);
2742 vis_mul8x16au(REF_4, CONST_256, TMP16);
2744 vis_padd16(TMP0, CONST_3, TMP8);
2745 vis_mul8x16au(REF_4_1, CONST_256, TMP18);
2747 vis_padd16(TMP2, CONST_3, TMP10);
2748 vis_pack16(TMP8, DST_0);
2750 vis_pack16(TMP10, DST_1);
2751 vis_padd16(TMP16, TMP12, TMP0);
2753 vis_st64(DST_0, dest[0]);
2754 vis_mul8x16al(DST_2, CONST_512, TMP4);
2755 vis_padd16(TMP18, TMP14, TMP2);
2757 vis_mul8x16al(DST_3, CONST_512, TMP6);
2758 vis_padd16(TMP0, CONST_3, TMP0);
2760 vis_padd16(TMP2, CONST_3, TMP2);
2762 vis_padd16(TMP0, TMP4, TMP0);
2764 vis_padd16(TMP2, TMP6, TMP2);
2765 vis_pack16(TMP0, DST_2);
2767 vis_pack16(TMP2, DST_3);
2768 vis_st64(DST_2, dest[8]);
2775 static void MC_avg_no_round_x_8_vis (uint8_t * dest, const uint8_t * _ref,
2776 const int stride, int height)
2778 uint8_t *ref = (uint8_t *) _ref;
2779 unsigned long off = (unsigned long) ref & 0x7;
2780 unsigned long off_plus_1 = off + 1;
2781 int stride_times_2 = stride << 1;
2783 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
2785 vis_ld64(constants3[0], CONST_3);
2787 vis_ld64(constants256_512[0], CONST_256);
2789 ref = vis_alignaddr(ref);
2791 do { /* 47 cycles */
2792 vis_ld64(ref[0], TMP0);
2794 vis_ld64_2(ref, 8, TMP2);
2797 vis_alignaddr_g0((void *)off);
2799 vis_ld64(ref[0], TMP4);
2800 vis_faligndata(TMP0, TMP2, REF_0);
2802 vis_ld64_2(ref, 8, TMP6);
2805 vis_ld64(ref[0], TMP8);
2807 vis_ld64_2(ref, 8, TMP10);
2809 vis_faligndata(TMP4, TMP6, REF_4);
2811 vis_ld64(ref[0], TMP12);
2813 vis_ld64_2(ref, 8, TMP14);
2815 vis_faligndata(TMP8, TMP10, REF_S0);
2817 vis_faligndata(TMP12, TMP14, REF_S4);
2820 vis_alignaddr_g0((void *)off_plus_1);
2822 vis_ld64(dest[0], DST_0);
2823 vis_faligndata(TMP0, TMP2, REF_2);
2825 vis_ld64_2(dest, stride, DST_2);
2826 vis_faligndata(TMP4, TMP6, REF_6);
2828 vis_faligndata(TMP8, TMP10, REF_S2);
2830 vis_faligndata(TMP12, TMP14, REF_S6);
2832 vis_ld64(dest[0], DST_0);
2833 vis_src1(TMP2, REF_2);
2835 vis_ld64_2(dest, stride, DST_2);
2836 vis_src1(TMP6, REF_6);
2838 vis_src1(TMP10, REF_S2);
2840 vis_src1(TMP14, REF_S6);
2843 vis_pmerge(ZERO, REF_0, TMP0);
2844 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
2846 vis_pmerge(ZERO, REF_2, TMP4);
2847 vis_mul8x16au(REF_2_1, CONST_256, TMP6);
2849 vis_padd16(TMP0, CONST_3, TMP0);
2850 vis_mul8x16al(DST_0, CONST_512, TMP16);
2852 vis_padd16(TMP2, CONST_3, TMP2);
2853 vis_mul8x16al(DST_1, CONST_512, TMP18);
2855 vis_padd16(TMP0, TMP4, TMP0);
2856 vis_mul8x16au(REF_4, CONST_256, TMP8);
2858 vis_padd16(TMP2, TMP6, TMP2);
2859 vis_mul8x16au(REF_4_1, CONST_256, TMP10);
2861 vis_padd16(TMP0, TMP16, TMP0);
2862 vis_mul8x16au(REF_6, CONST_256, TMP12);
2864 vis_padd16(TMP2, TMP18, TMP2);
2865 vis_mul8x16au(REF_6_1, CONST_256, TMP14);
2867 vis_padd16(TMP8, CONST_3, TMP8);
2868 vis_mul8x16al(DST_2, CONST_512, TMP16);
2870 vis_padd16(TMP8, TMP12, TMP8);
2871 vis_mul8x16al(DST_3, CONST_512, TMP18);
2873 vis_padd16(TMP10, TMP14, TMP10);
2874 vis_pack16(TMP0, DST_0);
2876 vis_pack16(TMP2, DST_1);
2877 vis_st64(DST_0, dest[0]);
2879 vis_padd16(TMP10, CONST_3, TMP10);
2881 vis_ld64_2(dest, stride, DST_0);
2882 vis_padd16(TMP8, TMP16, TMP8);
2884 vis_ld64_2(dest, stride_times_2, TMP4/*DST_2*/);
2885 vis_padd16(TMP10, TMP18, TMP10);
2886 vis_pack16(TMP8, DST_2);
2888 vis_pack16(TMP10, DST_3);
2889 vis_st64(DST_2, dest[0]);
2892 vis_mul8x16au(REF_S0_1, CONST_256, TMP2);
2893 vis_pmerge(ZERO, REF_S0, TMP0);
2895 vis_pmerge(ZERO, REF_S2, TMP24);
2896 vis_mul8x16au(REF_S2_1, CONST_256, TMP6);
2898 vis_padd16(TMP0, CONST_3, TMP0);
2899 vis_mul8x16au(REF_S4, CONST_256, TMP8);
2901 vis_padd16(TMP2, CONST_3, TMP2);
2902 vis_mul8x16au(REF_S4_1, CONST_256, TMP10);
2904 vis_padd16(TMP0, TMP24, TMP0);
2905 vis_mul8x16au(REF_S6, CONST_256, TMP12);
2907 vis_padd16(TMP2, TMP6, TMP2);
2908 vis_mul8x16au(REF_S6_1, CONST_256, TMP14);
2910 vis_padd16(TMP8, CONST_3, TMP8);
2911 vis_mul8x16al(DST_0, CONST_512, TMP16);
2913 vis_padd16(TMP10, CONST_3, TMP10);
2914 vis_mul8x16al(DST_1, CONST_512, TMP18);
2916 vis_padd16(TMP8, TMP12, TMP8);
2917 vis_mul8x16al(TMP4/*DST_2*/, CONST_512, TMP20);
2919 vis_mul8x16al(TMP5/*DST_3*/, CONST_512, TMP22);
2920 vis_padd16(TMP0, TMP16, TMP0);
2922 vis_padd16(TMP2, TMP18, TMP2);
2923 vis_pack16(TMP0, DST_0);
2925 vis_padd16(TMP10, TMP14, TMP10);
2926 vis_pack16(TMP2, DST_1);
2927 vis_st64(DST_0, dest[0]);
2930 vis_padd16(TMP8, TMP20, TMP8);
2932 vis_padd16(TMP10, TMP22, TMP10);
2933 vis_pack16(TMP8, DST_2);
2935 vis_pack16(TMP10, DST_3);
2936 vis_st64(DST_2, dest[0]);
2941 static void MC_put_no_round_y_16_vis (uint8_t * dest, const uint8_t * _ref,
2942 const int stride, int height)
2944 uint8_t *ref = (uint8_t *) _ref;
2946 ref = vis_alignaddr(ref);
2947 vis_ld64(ref[0], TMP0);
2949 vis_ld64_2(ref, 8, TMP2);
2951 vis_ld64_2(ref, 16, TMP4);
2954 vis_ld64(ref[0], TMP6);
2955 vis_faligndata(TMP0, TMP2, REF_0);
2957 vis_ld64_2(ref, 8, TMP8);
2958 vis_faligndata(TMP2, TMP4, REF_4);
2960 vis_ld64_2(ref, 16, TMP10);
2963 vis_ld64(constants_fe[0], MASK_fe);
2964 vis_faligndata(TMP6, TMP8, REF_2);
2966 vis_ld64(constants_7f[0], MASK_7f);
2967 vis_faligndata(TMP8, TMP10, REF_6);
2969 vis_ld64(constants128[0], CONST_128);
2970 height = (height >> 1) - 1;
2971 do { /* 24 cycles */
2972 vis_ld64(ref[0], TMP0);
2973 vis_xor(REF_0, REF_2, TMP12);
2975 vis_ld64_2(ref, 8, TMP2);
2976 vis_xor(REF_4, REF_6, TMP16);
2978 vis_ld64_2(ref, 16, TMP4);
2980 vis_and(REF_0, REF_2, TMP14);
2982 vis_ld64(ref[0], TMP6);
2983 vis_and(REF_4, REF_6, TMP18);
2985 vis_ld64_2(ref, 8, TMP8);
2986 vis_faligndata(TMP0, TMP2, REF_0);
2988 vis_ld64_2(ref, 16, TMP10);
2990 vis_faligndata(TMP2, TMP4, REF_4);
2992 vis_and(TMP12, MASK_fe, TMP12);
2994 vis_and(TMP16, MASK_fe, TMP16);
2995 vis_mul8x16(CONST_128, TMP12, TMP12);
2997 vis_mul8x16(CONST_128, TMP16, TMP16);
2998 vis_xor(REF_0, REF_2, TMP0);
3000 vis_xor(REF_4, REF_6, TMP2);
3002 vis_and(REF_0, REF_2, TMP20);
3004 vis_and(TMP12, MASK_7f, TMP12);
3006 vis_and(TMP16, MASK_7f, TMP16);
3008 vis_padd16(TMP14, TMP12, TMP12);
3009 vis_st64(TMP12, dest[0]);
3011 vis_padd16(TMP18, TMP16, TMP16);
3012 vis_st64_2(TMP16, dest, 8);
3015 vis_and(REF_4, REF_6, TMP18);
3017 vis_and(TMP0, MASK_fe, TMP0);
3019 vis_and(TMP2, MASK_fe, TMP2);
3020 vis_mul8x16(CONST_128, TMP0, TMP0);
3022 vis_faligndata(TMP6, TMP8, REF_2);
3023 vis_mul8x16(CONST_128, TMP2, TMP2);
3025 vis_faligndata(TMP8, TMP10, REF_6);
3027 vis_and(TMP0, MASK_7f, TMP0);
3029 vis_and(TMP2, MASK_7f, TMP2);
3031 vis_padd16(TMP20, TMP0, TMP0);
3032 vis_st64(TMP0, dest[0]);
3034 vis_padd16(TMP18, TMP2, TMP2);
3035 vis_st64_2(TMP2, dest, 8);
3039 vis_ld64(ref[0], TMP0);
3040 vis_xor(REF_0, REF_2, TMP12);
3042 vis_ld64_2(ref, 8, TMP2);
3043 vis_xor(REF_4, REF_6, TMP16);
3045 vis_ld64_2(ref, 16, TMP4);
3046 vis_and(REF_0, REF_2, TMP14);
3048 vis_and(REF_4, REF_6, TMP18);
3050 vis_faligndata(TMP0, TMP2, REF_0);
3052 vis_faligndata(TMP2, TMP4, REF_4);
3054 vis_and(TMP12, MASK_fe, TMP12);
3056 vis_and(TMP16, MASK_fe, TMP16);
3057 vis_mul8x16(CONST_128, TMP12, TMP12);
3059 vis_mul8x16(CONST_128, TMP16, TMP16);
3060 vis_xor(REF_0, REF_2, TMP0);
3062 vis_xor(REF_4, REF_6, TMP2);
3064 vis_and(REF_0, REF_2, TMP20);
3066 vis_and(TMP12, MASK_7f, TMP12);
3068 vis_and(TMP16, MASK_7f, TMP16);
3070 vis_padd16(TMP14, TMP12, TMP12);
3071 vis_st64(TMP12, dest[0]);
3073 vis_padd16(TMP18, TMP16, TMP16);
3074 vis_st64_2(TMP16, dest, 8);
3077 vis_and(REF_4, REF_6, TMP18);
3079 vis_and(TMP0, MASK_fe, TMP0);
3081 vis_and(TMP2, MASK_fe, TMP2);
3082 vis_mul8x16(CONST_128, TMP0, TMP0);
3084 vis_mul8x16(CONST_128, TMP2, TMP2);
3086 vis_and(TMP0, MASK_7f, TMP0);
3088 vis_and(TMP2, MASK_7f, TMP2);
3090 vis_padd16(TMP20, TMP0, TMP0);
3091 vis_st64(TMP0, dest[0]);
3093 vis_padd16(TMP18, TMP2, TMP2);
3094 vis_st64_2(TMP2, dest, 8);
3097 static void MC_put_no_round_y_8_vis (uint8_t * dest, const uint8_t * _ref,
3098 const int stride, int height)
3100 uint8_t *ref = (uint8_t *) _ref;
3102 ref = vis_alignaddr(ref);
3103 vis_ld64(ref[0], TMP0);
3105 vis_ld64_2(ref, 8, TMP2);
3108 vis_ld64(ref[0], TMP4);
3110 vis_ld64_2(ref, 8, TMP6);
3113 vis_ld64(constants_fe[0], MASK_fe);
3114 vis_faligndata(TMP0, TMP2, REF_0);
3116 vis_ld64(constants_7f[0], MASK_7f);
3117 vis_faligndata(TMP4, TMP6, REF_2);
3119 vis_ld64(constants128[0], CONST_128);
3120 height = (height >> 1) - 1;
3121 do { /* 12 cycles */
3122 vis_ld64(ref[0], TMP0);
3123 vis_xor(REF_0, REF_2, TMP4);
3125 vis_ld64_2(ref, 8, TMP2);
3127 vis_and(TMP4, MASK_fe, TMP4);
3129 vis_and(REF_0, REF_2, TMP6);
3130 vis_mul8x16(CONST_128, TMP4, TMP4);
3132 vis_faligndata(TMP0, TMP2, REF_0);
3133 vis_ld64(ref[0], TMP0);
3135 vis_ld64_2(ref, 8, TMP2);
3137 vis_xor(REF_0, REF_2, TMP12);
3139 vis_and(TMP4, MASK_7f, TMP4);
3141 vis_and(TMP12, MASK_fe, TMP12);
3143 vis_mul8x16(CONST_128, TMP12, TMP12);
3144 vis_and(REF_0, REF_2, TMP14);
3146 vis_padd16(TMP6, TMP4, DST_0);
3147 vis_st64(DST_0, dest[0]);
3150 vis_faligndata(TMP0, TMP2, REF_2);
3152 vis_and(TMP12, MASK_7f, TMP12);
3154 vis_padd16(TMP14, TMP12, DST_0);
3155 vis_st64(DST_0, dest[0]);
3159 vis_ld64(ref[0], TMP0);
3160 vis_xor(REF_0, REF_2, TMP4);
3162 vis_ld64_2(ref, 8, TMP2);
3163 vis_and(TMP4, MASK_fe, TMP4);
3165 vis_and(REF_0, REF_2, TMP6);
3166 vis_mul8x16(CONST_128, TMP4, TMP4);
3168 vis_faligndata(TMP0, TMP2, REF_0);
3170 vis_xor(REF_0, REF_2, TMP12);
3172 vis_and(TMP4, MASK_7f, TMP4);
3174 vis_and(TMP12, MASK_fe, TMP12);
3176 vis_mul8x16(CONST_128, TMP12, TMP12);
3177 vis_and(REF_0, REF_2, TMP14);
3179 vis_padd16(TMP6, TMP4, DST_0);
3180 vis_st64(DST_0, dest[0]);
3183 vis_and(TMP12, MASK_7f, TMP12);
3185 vis_padd16(TMP14, TMP12, DST_0);
3186 vis_st64(DST_0, dest[0]);
3189 static void MC_avg_no_round_y_16_vis (uint8_t * dest, const uint8_t * _ref,
3190 const int stride, int height)
3192 uint8_t *ref = (uint8_t *) _ref;
3193 int stride_8 = stride + 8;
3194 int stride_16 = stride + 16;
3196 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
3198 ref = vis_alignaddr(ref);
3200 vis_ld64(ref[ 0], TMP0);
3203 vis_ld64(ref[ 8], TMP2);
3205 vis_ld64(ref[16], TMP4);
3207 vis_ld64(constants3[0], CONST_3);
3208 vis_faligndata(TMP0, TMP2, REF_2);
3210 vis_ld64(constants256_512[0], CONST_256);
3211 vis_faligndata(TMP2, TMP4, REF_6);
3214 do { /* 31 cycles */
3215 vis_ld64_2(ref, stride, TMP0);
3216 vis_pmerge(ZERO, REF_2, TMP12);
3217 vis_mul8x16au(REF_2_1, CONST_256, TMP14);
3219 vis_ld64_2(ref, stride_8, TMP2);
3220 vis_pmerge(ZERO, REF_6, TMP16);
3221 vis_mul8x16au(REF_6_1, CONST_256, TMP18);
3223 vis_ld64_2(ref, stride_16, TMP4);
3226 vis_ld64(dest[0], DST_0);
3227 vis_faligndata(TMP0, TMP2, REF_0);
3229 vis_ld64_2(dest, 8, DST_2);
3230 vis_faligndata(TMP2, TMP4, REF_4);
3232 vis_ld64_2(ref, stride, TMP6);
3233 vis_pmerge(ZERO, REF_0, TMP0);
3234 vis_mul8x16au(REF_0_1, CONST_256, TMP2);
3236 vis_ld64_2(ref, stride_8, TMP8);
3237 vis_pmerge(ZERO, REF_4, TMP4);
3239 vis_ld64_2(ref, stride_16, TMP10);
3242 vis_ld64_2(dest, stride, REF_S0/*DST_4*/);
3243 vis_faligndata(TMP6, TMP8, REF_2);
3244 vis_mul8x16au(REF_4_1, CONST_256, TMP6);
3246 vis_ld64_2(dest, stride_8, REF_S2/*DST_6*/);
3247 vis_faligndata(TMP8, TMP10, REF_6);
3248 vis_mul8x16al(DST_0, CONST_512, TMP20);
3250 vis_padd16(TMP0, CONST_3, TMP0);
3251 vis_mul8x16al(DST_1, CONST_512, TMP22);
3253 vis_padd16(TMP2, CONST_3, TMP2);
3254 vis_mul8x16al(DST_2, CONST_512, TMP24);
3256 vis_padd16(TMP4, CONST_3, TMP4);
3257 vis_mul8x16al(DST_3, CONST_512, TMP26);
3259 vis_padd16(TMP6, CONST_3, TMP6);
3261 vis_padd16(TMP12, TMP20, TMP12);
3262 vis_mul8x16al(REF_S0, CONST_512, TMP20);
3264 vis_padd16(TMP14, TMP22, TMP14);
3265 vis_mul8x16al(REF_S0_1, CONST_512, TMP22);
3267 vis_padd16(TMP16, TMP24, TMP16);
3268 vis_mul8x16al(REF_S2, CONST_512, TMP24);
3270 vis_padd16(TMP18, TMP26, TMP18);
3271 vis_mul8x16al(REF_S2_1, CONST_512, TMP26);
3273 vis_padd16(TMP12, TMP0, TMP12);
3274 vis_mul8x16au(REF_2, CONST_256, TMP28);
3276 vis_padd16(TMP14, TMP2, TMP14);
3277 vis_mul8x16au(REF_2_1, CONST_256, TMP30);
3279 vis_padd16(TMP16, TMP4, TMP16);
3280 vis_mul8x16au(REF_6, CONST_256, REF_S4);
3282 vis_padd16(TMP18, TMP6, TMP18);
3283 vis_mul8x16au(REF_6_1, CONST_256, REF_S6);
3285 vis_pack16(TMP12, DST_0);
3286 vis_padd16(TMP28, TMP0, TMP12);
3288 vis_pack16(TMP14, DST_1);
3289 vis_st64(DST_0, dest[0]);
3290 vis_padd16(TMP30, TMP2, TMP14);
3292 vis_pack16(TMP16, DST_2);
3293 vis_padd16(REF_S4, TMP4, TMP16);
3295 vis_pack16(TMP18, DST_3);
3296 vis_st64_2(DST_2, dest, 8);
3298 vis_padd16(REF_S6, TMP6, TMP18);
3300 vis_padd16(TMP12, TMP20, TMP12);
3302 vis_padd16(TMP14, TMP22, TMP14);
3303 vis_pack16(TMP12, DST_0);
3305 vis_padd16(TMP16, TMP24, TMP16);
3306 vis_pack16(TMP14, DST_1);
3307 vis_st64(DST_0, dest[0]);
3309 vis_padd16(TMP18, TMP26, TMP18);
3310 vis_pack16(TMP16, DST_2);
3312 vis_pack16(TMP18, DST_3);
3313 vis_st64_2(DST_2, dest, 8);
3318 static void MC_avg_no_round_y_8_vis (uint8_t * dest, const uint8_t * _ref,
3319 const int stride, int height)
3321 uint8_t *ref = (uint8_t *) _ref;
3322 int stride_8 = stride + 8;
3324 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
3326 ref = vis_alignaddr(ref);
3328 vis_ld64(ref[ 0], TMP0);
3331 vis_ld64(ref[ 8], TMP2);
3333 vis_ld64(constants3[0], CONST_3);
3334 vis_faligndata(TMP0, TMP2, REF_2);
3336 vis_ld64(constants256_512[0], CONST_256);
3339 do { /* 20 cycles */
3340 vis_ld64_2(ref, stride, TMP0);
3341 vis_pmerge(ZERO, REF_2, TMP8);
3342 vis_mul8x16au(REF_2_1, CONST_256, TMP10);
3344 vis_ld64_2(ref, stride_8, TMP2);
3347 vis_ld64(dest[0], DST_0);
3349 vis_ld64_2(dest, stride, DST_2);
3350 vis_faligndata(TMP0, TMP2, REF_0);
3352 vis_ld64_2(ref, stride, TMP4);
3353 vis_mul8x16al(DST_0, CONST_512, TMP16);
3354 vis_pmerge(ZERO, REF_0, TMP12);
3356 vis_ld64_2(ref, stride_8, TMP6);
3358 vis_mul8x16al(DST_1, CONST_512, TMP18);
3359 vis_pmerge(ZERO, REF_0_1, TMP14);
3361 vis_padd16(TMP12, CONST_3, TMP12);
3362 vis_mul8x16al(DST_2, CONST_512, TMP24);
3364 vis_padd16(TMP14, CONST_3, TMP14);
3365 vis_mul8x16al(DST_3, CONST_512, TMP26);
3367 vis_faligndata(TMP4, TMP6, REF_2);
3369 vis_padd16(TMP8, TMP12, TMP8);
3371 vis_padd16(TMP10, TMP14, TMP10);
3372 vis_mul8x16au(REF_2, CONST_256, TMP20);
3374 vis_padd16(TMP8, TMP16, TMP0);
3375 vis_mul8x16au(REF_2_1, CONST_256, TMP22);
3377 vis_padd16(TMP10, TMP18, TMP2);
3378 vis_pack16(TMP0, DST_0);
3380 vis_pack16(TMP2, DST_1);
3381 vis_st64(DST_0, dest[0]);
3383 vis_padd16(TMP12, TMP20, TMP12);
3385 vis_padd16(TMP14, TMP22, TMP14);
3387 vis_padd16(TMP12, TMP24, TMP0);
3389 vis_padd16(TMP14, TMP26, TMP2);
3390 vis_pack16(TMP0, DST_2);
3392 vis_pack16(TMP2, DST_3);
3393 vis_st64(DST_2, dest[0]);
3398 static void MC_put_no_round_xy_16_vis (uint8_t * dest, const uint8_t * _ref,
3399 const int stride, int height)
3401 uint8_t *ref = (uint8_t *) _ref;
3402 unsigned long off = (unsigned long) ref & 0x7;
3403 unsigned long off_plus_1 = off + 1;
3404 int stride_8 = stride + 8;
3405 int stride_16 = stride + 16;
3407 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
3409 ref = vis_alignaddr(ref);
3411 vis_ld64(ref[ 0], TMP0);
3414 vis_ld64(ref[ 8], TMP2);
3416 vis_ld64(ref[16], TMP4);
3418 vis_ld64(constants1[0], CONST_1);
3419 vis_faligndata(TMP0, TMP2, REF_S0);
3421 vis_ld64(constants256_512[0], CONST_256);
3422 vis_faligndata(TMP2, TMP4, REF_S4);
3425 vis_alignaddr_g0((void *)off_plus_1);
3426 vis_faligndata(TMP0, TMP2, REF_S2);
3427 vis_faligndata(TMP2, TMP4, REF_S6);
3429 vis_src1(TMP2, REF_S2);
3430 vis_src1(TMP4, REF_S6);
3435 vis_ld64_2(ref, stride, TMP0);
3436 vis_mul8x16au(REF_S0, CONST_256, TMP12);
3437 vis_pmerge(ZERO, REF_S0_1, TMP14);
3439 vis_alignaddr_g0((void *)off);
3441 vis_ld64_2(ref, stride_8, TMP2);
3442 vis_mul8x16au(REF_S2, CONST_256, TMP16);
3443 vis_pmerge(ZERO, REF_S2_1, TMP18);
3445 vis_ld64_2(ref, stride_16, TMP4);
3447 vis_mul8x16au(REF_S4, CONST_256, TMP20);
3448 vis_pmerge(ZERO, REF_S4_1, TMP22);
3450 vis_ld64_2(ref, stride, TMP6);
3451 vis_mul8x16au(REF_S6, CONST_256, TMP24);
3452 vis_pmerge(ZERO, REF_S6_1, TMP26);
3454 vis_ld64_2(ref, stride_8, TMP8);
3455 vis_faligndata(TMP0, TMP2, REF_0);
3457 vis_ld64_2(ref, stride_16, TMP10);
3459 vis_faligndata(TMP2, TMP4, REF_4);
3461 vis_faligndata(TMP6, TMP8, REF_S0);
3463 vis_faligndata(TMP8, TMP10, REF_S4);
3466 vis_alignaddr_g0((void *)off_plus_1);
3467 vis_faligndata(TMP0, TMP2, REF_2);
3468 vis_faligndata(TMP2, TMP4, REF_6);
3469 vis_faligndata(TMP6, TMP8, REF_S2);
3470 vis_faligndata(TMP8, TMP10, REF_S6);
3472 vis_src1(TMP2, REF_2);
3473 vis_src1(TMP4, REF_6);
3474 vis_src1(TMP8, REF_S2);
3475 vis_src1(TMP10, REF_S6);
3478 vis_mul8x16au(REF_0, CONST_256, TMP0);
3479 vis_pmerge(ZERO, REF_0_1, TMP2);
3481 vis_mul8x16au(REF_2, CONST_256, TMP4);
3482 vis_pmerge(ZERO, REF_2_1, TMP6);
3484 vis_padd16(TMP0, CONST_2, TMP8);
3485 vis_mul8x16au(REF_4, CONST_256, TMP0);
3487 vis_padd16(TMP2, CONST_1, TMP10);
3488 vis_mul8x16au(REF_4_1, CONST_256, TMP2);
3490 vis_padd16(TMP8, TMP4, TMP8);
3491 vis_mul8x16au(REF_6, CONST_256, TMP4);
3493 vis_padd16(TMP10, TMP6, TMP10);
3494 vis_mul8x16au(REF_6_1, CONST_256, TMP6);
3496 vis_padd16(TMP12, TMP8, TMP12);
3498 vis_padd16(TMP14, TMP10, TMP14);
3500 vis_padd16(TMP12, TMP16, TMP12);
3502 vis_padd16(TMP14, TMP18, TMP14);
3503 vis_pack16(TMP12, DST_0);
3505 vis_pack16(TMP14, DST_1);
3506 vis_st64(DST_0, dest[0]);
3507 vis_padd16(TMP0, CONST_1, TMP12);
3509 vis_mul8x16au(REF_S0, CONST_256, TMP0);
3510 vis_padd16(TMP2, CONST_1, TMP14);
3512 vis_mul8x16au(REF_S0_1, CONST_256, TMP2);
3513 vis_padd16(TMP12, TMP4, TMP12);
3515 vis_mul8x16au(REF_S2, CONST_256, TMP4);
3516 vis_padd16(TMP14, TMP6, TMP14);
3518 vis_mul8x16au(REF_S2_1, CONST_256, TMP6);
3519 vis_padd16(TMP20, TMP12, TMP20);
3521 vis_padd16(TMP22, TMP14, TMP22);
3523 vis_padd16(TMP20, TMP24, TMP20);
3525 vis_padd16(TMP22, TMP26, TMP22);
3526 vis_pack16(TMP20, DST_2);
3528 vis_pack16(TMP22, DST_3);
3529 vis_st64_2(DST_2, dest, 8);
3531 vis_padd16(TMP0, TMP4, TMP24);
3533 vis_mul8x16au(REF_S4, CONST_256, TMP0);
3534 vis_padd16(TMP2, TMP6, TMP26);
3536 vis_mul8x16au(REF_S4_1, CONST_256, TMP2);
3537 vis_padd16(TMP24, TMP8, TMP24);
3539 vis_padd16(TMP26, TMP10, TMP26);
3540 vis_pack16(TMP24, DST_0);
3542 vis_pack16(TMP26, DST_1);
3543 vis_st64(DST_0, dest[0]);
3544 vis_pmerge(ZERO, REF_S6, TMP4);
3546 vis_pmerge(ZERO, REF_S6_1, TMP6);
3548 vis_padd16(TMP0, TMP4, TMP0);
3550 vis_padd16(TMP2, TMP6, TMP2);
3552 vis_padd16(TMP0, TMP12, TMP0);
3554 vis_padd16(TMP2, TMP14, TMP2);
3555 vis_pack16(TMP0, DST_2);
3557 vis_pack16(TMP2, DST_3);
3558 vis_st64_2(DST_2, dest, 8);
3563 static void MC_put_no_round_xy_8_vis (uint8_t * dest, const uint8_t * _ref,
3564 const int stride, int height)
3566 uint8_t *ref = (uint8_t *) _ref;
3567 unsigned long off = (unsigned long) ref & 0x7;
3568 unsigned long off_plus_1 = off + 1;
3569 int stride_8 = stride + 8;
3571 vis_set_gsr(5 << VIS_GSR_SCALEFACT_SHIFT);
3573 ref = vis_alignaddr(ref);
3575 vis_ld64(ref[ 0], TMP0);
3578 vis_ld64(ref[ 8], TMP2);
3580 vis_ld64(constants1[0], CONST_1);
3582 vis_ld64(constants256_512[0], CONST_256);
3583 vis_faligndata(TMP0, TMP2, REF_S0);
3586 vis_alignaddr_g0((void *)off_plus_1);
3587 vis_faligndata(TMP0, TMP2, REF_S2);
3589 vis_src1(TMP2, REF_S2);
3593 do { /* 26 cycles */
3594 vis_ld64_2(ref, stride, TMP0);
3595 vis_mul8x16au(REF_S0, CONST_256, TMP8);
3596 vis_pmerge(ZERO, REF_S2, TMP12);
3598 vis_alignaddr_g0((void *)off);
3600 vis_ld64_2(ref, stride_8, TMP2);
3602 vis_mul8x16au(REF_S0_1, CONST_256, TMP10);
3603 vis_pmerge(ZERO, REF_S2_1, TMP14);
3605 vis_ld64_2(ref, stride, TMP4);
3607 vis_ld64_2(ref, stride_8, TMP6);
3609 vis_faligndata(TMP0, TMP2, REF_S4);
3611 vis_pmerge(ZERO, REF_S4, TMP18);
3613 vis_pmerge(ZERO, REF_S4_1, TMP20);
3615 vis_faligndata(TMP4, TMP6, REF_S0);
3618 vis_alignaddr_g0((void *)off_plus_1);
3619 vis_faligndata(TMP0, TMP2, REF_S6);
3620 vis_faligndata(TMP4, TMP6, REF_S2);
3622 vis_src1(TMP2, REF_S6);
3623 vis_src1(TMP6, REF_S2);
3626 vis_padd16(TMP18, CONST_1, TMP18);
3627 vis_mul8x16au(REF_S6, CONST_256, TMP22);
3629 vis_padd16(TMP20, CONST_1, TMP20);
3630 vis_mul8x16au(REF_S6_1, CONST_256, TMP24);
3632 vis_mul8x16au(REF_S0, CONST_256, TMP26);
3633 vis_pmerge(ZERO, REF_S0_1, TMP28);
3635 vis_mul8x16au(REF_S2, CONST_256, TMP30);
3636 vis_padd16(TMP18, TMP22, TMP18);
3638 vis_mul8x16au(REF_S2_1, CONST_256, TMP32);
3639 vis_padd16(TMP20, TMP24, TMP20);
3641 vis_padd16(TMP8, TMP18, TMP8);
3643 vis_padd16(TMP10, TMP20, TMP10);
3645 vis_padd16(TMP8, TMP12, TMP8);
3647 vis_padd16(TMP10, TMP14, TMP10);
3648 vis_pack16(TMP8, DST_0);
3650 vis_pack16(TMP10, DST_1);
3651 vis_st64(DST_0, dest[0]);
3653 vis_padd16(TMP18, TMP26, TMP18);
3655 vis_padd16(TMP20, TMP28, TMP20);
3657 vis_padd16(TMP18, TMP30, TMP18);
3659 vis_padd16(TMP20, TMP32, TMP20);
3660 vis_pack16(TMP18, DST_2);
3662 vis_pack16(TMP20, DST_3);
3663 vis_st64(DST_2, dest[0]);
3668 static void MC_avg_no_round_xy_16_vis (uint8_t * dest, const uint8_t * _ref,
3669 const int stride, int height)
3671 uint8_t *ref = (uint8_t *) _ref;
3672 unsigned long off = (unsigned long) ref & 0x7;
3673 unsigned long off_plus_1 = off + 1;
3674 int stride_8 = stride + 8;
3675 int stride_16 = stride + 16;
3677 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT);
3679 ref = vis_alignaddr(ref);
3681 vis_ld64(ref[ 0], TMP0);
3684 vis_ld64(ref[ 8], TMP2);
3686 vis_ld64(ref[16], TMP4);
3688 vis_ld64(constants6[0], CONST_6);
3689 vis_faligndata(TMP0, TMP2, REF_S0);
3691 vis_ld64(constants256_1024[0], CONST_256);
3692 vis_faligndata(TMP2, TMP4, REF_S4);
3695 vis_alignaddr_g0((void *)off_plus_1);
3696 vis_faligndata(TMP0, TMP2, REF_S2);
3697 vis_faligndata(TMP2, TMP4, REF_S6);
3699 vis_src1(TMP2, REF_S2);
3700 vis_src1(TMP4, REF_S6);
3704 do { /* 55 cycles */
3705 vis_ld64_2(ref, stride, TMP0);
3706 vis_mul8x16au(REF_S0, CONST_256, TMP12);
3707 vis_pmerge(ZERO, REF_S0_1, TMP14);
3709 vis_alignaddr_g0((void *)off);
3711 vis_ld64_2(ref, stride_8, TMP2);
3712 vis_mul8x16au(REF_S2, CONST_256, TMP16);
3713 vis_pmerge(ZERO, REF_S2_1, TMP18);
3715 vis_ld64_2(ref, stride_16, TMP4);
3717 vis_mul8x16au(REF_S4, CONST_256, TMP20);
3718 vis_pmerge(ZERO, REF_S4_1, TMP22);
3720 vis_ld64_2(ref, stride, TMP6);
3721 vis_mul8x16au(REF_S6, CONST_256, TMP24);
3722 vis_pmerge(ZERO, REF_S6_1, TMP26);
3724 vis_ld64_2(ref, stride_8, TMP8);
3725 vis_faligndata(TMP0, TMP2, REF_0);
3727 vis_ld64_2(ref, stride_16, TMP10);
3729 vis_faligndata(TMP2, TMP4, REF_4);
3731 vis_ld64(dest[0], DST_0);
3732 vis_faligndata(TMP6, TMP8, REF_S0);
3734 vis_ld64_2(dest, 8, DST_2);
3735 vis_faligndata(TMP8, TMP10, REF_S4);
3738 vis_alignaddr_g0((void *)off_plus_1);
3739 vis_faligndata(TMP0, TMP2, REF_2);
3740 vis_faligndata(TMP2, TMP4, REF_6);
3741 vis_faligndata(TMP6, TMP8, REF_S2);
3742 vis_faligndata(TMP8, TMP10, REF_S6);
3744 vis_src1(TMP2, REF_2);
3745 vis_src1(TMP4, REF_6);
3746 vis_src1(TMP8, REF_S2);
3747 vis_src1(TMP10, REF_S6);
3750 vis_mul8x16al(DST_0, CONST_1024, TMP30);
3751 vis_pmerge(ZERO, REF_0, TMP0);
3753 vis_mul8x16al(DST_1, CONST_1024, TMP32);
3754 vis_pmerge(ZERO, REF_0_1, TMP2);
3756 vis_mul8x16au(REF_2, CONST_256, TMP4);
3757 vis_pmerge(ZERO, REF_2_1, TMP6);
3759 vis_mul8x16al(DST_2, CONST_1024, REF_0);
3760 vis_padd16(TMP0, CONST_6, TMP0);
3762 vis_mul8x16al(DST_3, CONST_1024, REF_2);
3763 vis_padd16(TMP2, CONST_6, TMP2);
3765 vis_padd16(TMP0, TMP4, TMP0);
3766 vis_mul8x16au(REF_4, CONST_256, TMP4);
3768 vis_padd16(TMP2, TMP6, TMP2);
3769 vis_mul8x16au(REF_4_1, CONST_256, TMP6);
3771 vis_padd16(TMP12, TMP0, TMP12);
3772 vis_mul8x16au(REF_6, CONST_256, TMP8);
3774 vis_padd16(TMP14, TMP2, TMP14);
3775 vis_mul8x16au(REF_6_1, CONST_256, TMP10);
3777 vis_padd16(TMP12, TMP16, TMP12);
3778 vis_mul8x16au(REF_S0, CONST_256, REF_4);
3780 vis_padd16(TMP14, TMP18, TMP14);
3781 vis_mul8x16au(REF_S0_1, CONST_256, REF_6);
3783 vis_padd16(TMP12, TMP30, TMP12);
3785 vis_padd16(TMP14, TMP32, TMP14);
3786 vis_pack16(TMP12, DST_0);
3788 vis_pack16(TMP14, DST_1);
3789 vis_st64(DST_0, dest[0]);
3790 vis_padd16(TMP4, CONST_6, TMP4);
3792 vis_ld64_2(dest, stride, DST_0);
3793 vis_padd16(TMP6, CONST_6, TMP6);
3794 vis_mul8x16au(REF_S2, CONST_256, TMP12);
3796 vis_padd16(TMP4, TMP8, TMP4);
3797 vis_mul8x16au(REF_S2_1, CONST_256, TMP14);
3799 vis_padd16(TMP6, TMP10, TMP6);
3801 vis_padd16(TMP20, TMP4, TMP20);
3803 vis_padd16(TMP22, TMP6, TMP22);
3805 vis_padd16(TMP20, TMP24, TMP20);
3807 vis_padd16(TMP22, TMP26, TMP22);
3809 vis_padd16(TMP20, REF_0, TMP20);
3810 vis_mul8x16au(REF_S4, CONST_256, REF_0);
3812 vis_padd16(TMP22, REF_2, TMP22);
3813 vis_pack16(TMP20, DST_2);
3815 vis_pack16(TMP22, DST_3);
3816 vis_st64_2(DST_2, dest, 8);
3819 vis_ld64_2(dest, 8, DST_2);
3820 vis_mul8x16al(DST_0, CONST_1024, TMP30);
3821 vis_pmerge(ZERO, REF_S4_1, REF_2);
3823 vis_mul8x16al(DST_1, CONST_1024, TMP32);
3824 vis_padd16(REF_4, TMP0, TMP8);
3826 vis_mul8x16au(REF_S6, CONST_256, REF_4);
3827 vis_padd16(REF_6, TMP2, TMP10);
3829 vis_mul8x16au(REF_S6_1, CONST_256, REF_6);
3830 vis_padd16(TMP8, TMP12, TMP8);
3832 vis_padd16(TMP10, TMP14, TMP10);
3834 vis_padd16(TMP8, TMP30, TMP8);
3836 vis_padd16(TMP10, TMP32, TMP10);
3837 vis_pack16(TMP8, DST_0);
3839 vis_pack16(TMP10, DST_1);
3840 vis_st64(DST_0, dest[0]);
3842 vis_padd16(REF_0, TMP4, REF_0);
3844 vis_mul8x16al(DST_2, CONST_1024, TMP30);
3845 vis_padd16(REF_2, TMP6, REF_2);
3847 vis_mul8x16al(DST_3, CONST_1024, TMP32);
3848 vis_padd16(REF_0, REF_4, REF_0);
3850 vis_padd16(REF_2, REF_6, REF_2);
3852 vis_padd16(REF_0, TMP30, REF_0);
3856 vis_padd16(REF_2, TMP32, REF_2);
3857 vis_pack16(REF_0, DST_2);
3859 vis_pack16(REF_2, DST_3);
3860 vis_st64_2(DST_2, dest, 8);
3865 static void MC_avg_no_round_xy_8_vis (uint8_t * dest, const uint8_t * _ref,
3866 const int stride, int height)
3868 uint8_t *ref = (uint8_t *) _ref;
3869 unsigned long off = (unsigned long) ref & 0x7;
3870 unsigned long off_plus_1 = off + 1;
3871 int stride_8 = stride + 8;
3873 vis_set_gsr(4 << VIS_GSR_SCALEFACT_SHIFT);
3875 ref = vis_alignaddr(ref);
3877 vis_ld64(ref[0], TMP0);
3880 vis_ld64_2(ref, 8, TMP2);
3882 vis_ld64(constants6[0], CONST_6);
3884 vis_ld64(constants256_1024[0], CONST_256);
3885 vis_faligndata(TMP0, TMP2, REF_S0);
3888 vis_alignaddr_g0((void *)off_plus_1);
3889 vis_faligndata(TMP0, TMP2, REF_S2);
3891 vis_src1(TMP2, REF_S2);
3895 do { /* 31 cycles */
3896 vis_ld64_2(ref, stride, TMP0);
3897 vis_mul8x16au(REF_S0, CONST_256, TMP8);
3898 vis_pmerge(ZERO, REF_S0_1, TMP10);
3900 vis_ld64_2(ref, stride_8, TMP2);
3902 vis_mul8x16au(REF_S2, CONST_256, TMP12);
3903 vis_pmerge(ZERO, REF_S2_1, TMP14);
3905 vis_alignaddr_g0((void *)off);
3907 vis_ld64_2(ref, stride, TMP4);
3908 vis_faligndata(TMP0, TMP2, REF_S4);
3910 vis_ld64_2(ref, stride_8, TMP6);
3913 vis_ld64(dest[0], DST_0);
3914 vis_faligndata(TMP4, TMP6, REF_S0);
3916 vis_ld64_2(dest, stride, DST_2);
3919 vis_alignaddr_g0((void *)off_plus_1);
3920 vis_faligndata(TMP0, TMP2, REF_S6);
3921 vis_faligndata(TMP4, TMP6, REF_S2);
3923 vis_src1(TMP2, REF_S6);
3924 vis_src1(TMP6, REF_S2);
3927 vis_mul8x16al(DST_0, CONST_1024, TMP30);
3928 vis_pmerge(ZERO, REF_S4, TMP22);
3930 vis_mul8x16al(DST_1, CONST_1024, TMP32);
3931 vis_pmerge(ZERO, REF_S4_1, TMP24);
3933 vis_mul8x16au(REF_S6, CONST_256, TMP26);
3934 vis_pmerge(ZERO, REF_S6_1, TMP28);
3936 vis_mul8x16au(REF_S0, CONST_256, REF_S4);
3937 vis_padd16(TMP22, CONST_6, TMP22);
3939 vis_mul8x16au(REF_S0_1, CONST_256, REF_S6);
3940 vis_padd16(TMP24, CONST_6, TMP24);
3942 vis_mul8x16al(DST_2, CONST_1024, REF_0);
3943 vis_padd16(TMP22, TMP26, TMP22);
3945 vis_mul8x16al(DST_3, CONST_1024, REF_2);
3946 vis_padd16(TMP24, TMP28, TMP24);
3948 vis_mul8x16au(REF_S2, CONST_256, TMP26);
3949 vis_padd16(TMP8, TMP22, TMP8);
3951 vis_mul8x16au(REF_S2_1, CONST_256, TMP28);
3952 vis_padd16(TMP10, TMP24, TMP10);
3954 vis_padd16(TMP8, TMP12, TMP8);
3956 vis_padd16(TMP10, TMP14, TMP10);
3958 vis_padd16(TMP8, TMP30, TMP8);
3960 vis_padd16(TMP10, TMP32, TMP10);
3961 vis_pack16(TMP8, DST_0);
3963 vis_pack16(TMP10, DST_1);
3964 vis_st64(DST_0, dest[0]);
3967 vis_padd16(REF_S4, TMP22, TMP12);
3969 vis_padd16(REF_S6, TMP24, TMP14);
3971 vis_padd16(TMP12, TMP26, TMP12);
3973 vis_padd16(TMP14, TMP28, TMP14);
3975 vis_padd16(TMP12, REF_0, TMP12);
3977 vis_padd16(TMP14, REF_2, TMP14);
3978 vis_pack16(TMP12, DST_2);
3980 vis_pack16(TMP14, DST_3);
3981 vis_st64(DST_2, dest[0]);
3986 /* End of no rounding code */
3988 static sigjmp_buf jmpbuf;
3989 static volatile sig_atomic_t canjump = 0;
3991 static void sigill_handler (int sig)
3994 signal (sig, SIG_DFL);
3999 siglongjmp (jmpbuf, 1);
4002 #define ACCEL_SPARC_VIS 1
4003 #define ACCEL_SPARC_VIS2 2
4005 static int vis_level ()
4009 signal (SIGILL, sigill_handler);
4010 if (sigsetjmp (jmpbuf, 1)) {
4011 signal (SIGILL, SIG_DFL);
4017 /* pdist %f0, %f0, %f0 */
4018 __asm__ __volatile__(".word\t0x81b007c0");
4021 accel |= ACCEL_SPARC_VIS;
4023 if (sigsetjmp (jmpbuf, 1)) {
4024 signal (SIGILL, SIG_DFL);
4030 /* edge8n %g0, %g0, %g0 */
4031 __asm__ __volatile__(".word\t0x81b00020");
4034 accel |= ACCEL_SPARC_VIS2;
4036 signal (SIGILL, SIG_DFL);
4041 /* libavcodec initialization code */
4042 void dsputil_init_vis(DSPContext* c, AVCodecContext *avctx)
4044 /* VIS specific optimisations */
4045 int accel = vis_level ();
4047 if (accel & ACCEL_SPARC_VIS) {
4048 c->put_pixels_tab[0][0] = MC_put_o_16_vis;
4049 c->put_pixels_tab[0][1] = MC_put_x_16_vis;
4050 c->put_pixels_tab[0][2] = MC_put_y_16_vis;
4051 c->put_pixels_tab[0][3] = MC_put_xy_16_vis;
4053 c->put_pixels_tab[1][0] = MC_put_o_8_vis;
4054 c->put_pixels_tab[1][1] = MC_put_x_8_vis;
4055 c->put_pixels_tab[1][2] = MC_put_y_8_vis;
4056 c->put_pixels_tab[1][3] = MC_put_xy_8_vis;
4058 c->avg_pixels_tab[0][0] = MC_avg_o_16_vis;
4059 c->avg_pixels_tab[0][1] = MC_avg_x_16_vis;
4060 c->avg_pixels_tab[0][2] = MC_avg_y_16_vis;
4061 c->avg_pixels_tab[0][3] = MC_avg_xy_16_vis;
4063 c->avg_pixels_tab[1][0] = MC_avg_o_8_vis;
4064 c->avg_pixels_tab[1][1] = MC_avg_x_8_vis;
4065 c->avg_pixels_tab[1][2] = MC_avg_y_8_vis;
4066 c->avg_pixels_tab[1][3] = MC_avg_xy_8_vis;
4068 c->put_no_rnd_pixels_tab[0][0] = MC_put_no_round_o_16_vis;
4069 c->put_no_rnd_pixels_tab[0][1] = MC_put_no_round_x_16_vis;
4070 c->put_no_rnd_pixels_tab[0][2] = MC_put_no_round_y_16_vis;
4071 c->put_no_rnd_pixels_tab[0][3] = MC_put_no_round_xy_16_vis;
4073 c->put_no_rnd_pixels_tab[1][0] = MC_put_no_round_o_8_vis;
4074 c->put_no_rnd_pixels_tab[1][1] = MC_put_no_round_x_8_vis;
4075 c->put_no_rnd_pixels_tab[1][2] = MC_put_no_round_y_8_vis;
4076 c->put_no_rnd_pixels_tab[1][3] = MC_put_no_round_xy_8_vis;
4078 c->avg_no_rnd_pixels_tab[0][0] = MC_avg_no_round_o_16_vis;
4079 c->avg_no_rnd_pixels_tab[0][1] = MC_avg_no_round_x_16_vis;
4080 c->avg_no_rnd_pixels_tab[0][2] = MC_avg_no_round_y_16_vis;
4081 c->avg_no_rnd_pixels_tab[0][3] = MC_avg_no_round_xy_16_vis;
4083 c->avg_no_rnd_pixels_tab[1][0] = MC_avg_no_round_o_8_vis;
4084 c->avg_no_rnd_pixels_tab[1][1] = MC_avg_no_round_x_8_vis;
4085 c->avg_no_rnd_pixels_tab[1][2] = MC_avg_no_round_y_8_vis;
4086 c->avg_no_rnd_pixels_tab[1][3] = MC_avg_no_round_xy_8_vis;
4090 #endif /* !(ARCH_SPARC) */