DPADD_UB2_UH(sum2_r, sum1_r, coef2, coef1, sum0_r, sum3_r); \
res0_r = (v8i16) (sum0_r - sum3_r); \
res0_r = __msa_srari_h(res0_r, 5); \
- res0_r = CLIP_SH_0_255(res0_r); \
+ CLIP_SH_0_255(res0_r); \
out = (v16u8) __msa_pckev_b((v16i8) res0_r, (v16i8) res0_r); \
\
out; \
res0_r = (v8i16) (sum0_r - sum3_r); \
res0_r += 15; \
res0_r >>= 5; \
- res0_r = CLIP_SH_0_255(res0_r); \
+ CLIP_SH_0_255(res0_r); \
out = (v16u8) __msa_pckev_b((v16i8) res0_r, (v16i8) res0_r); \
\
out; \
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3,
mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B4_UB(inp0, inp0, inp1, inp1, inp2, inp2, inp3, inp3, 1,
+ inp0, inp1, inp2, inp3);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
AVER_UB2_UB(inp0, res0, inp2, res1, res0, res1);
res1 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp2, inp3, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B4_UB(inp0, inp0, inp1, inp1, inp2, inp2, inp3, inp3, 1,
+ inp0, inp1, inp2, inp3);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
res0 = __msa_ave_u_b(inp0, res0);
mask0, mask1, mask2, mask3,
const20, const6, const3);
LD_UB4(dst, dst_stride, dst0, dst1, dst2, dst3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B4_UB(inp0, inp0, inp1, inp1, inp2, inp2, inp3, inp3, 1,
+ inp0, inp1, inp2, inp3);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
dst0 = (v16u8) __msa_insve_d((v2i64) dst0, 1, (v2i64) dst1);
res0 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp0, inp1, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz0 = __msa_ave_u_b(inp0, res0);
res1 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp2, inp3, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz2 = __msa_ave_u_b(inp2, res1);
res0 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp0, inp1, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz4 = __msa_ave_u_b(inp0, res0);
res1 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp2, inp3, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz6 = __msa_ave_u_b(inp2, res1);
res0 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp0, inp1, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz0 = __msa_ave_u_b(inp0, res0);
res1 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp2, inp3, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz2 = __msa_ave_u_b(inp2, res1);
res0 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp0, inp1, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz4 = __msa_ave_u_b(inp0, res0);
res1 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp2, inp3, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz6 = __msa_ave_u_b(inp2, res1);
res0 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp0, inp1, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz0 = __msa_ave_u_b(inp0, res0);
res1 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp2, inp3, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz2 = __msa_ave_u_b(inp2, res1);
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz4 = __msa_ave_u_b(inp0, res0);
horiz5 = (v16u8) __msa_splati_d((v2i64) horiz4, 1);
res1 = APPLY_HORIZ_QPEL_NO_ROUND_FILTER_8BYTE(inp2, inp3, mask0, mask1,
mask2, mask3, const20,
const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz6 = __msa_ave_u_b(inp2, res1);
const20, const6, const3);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz0 = __msa_aver_u_b(inp0, res0);
horiz1 = (v16u8) __msa_splati_d((v2i64) horiz0, 1);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz2 = __msa_aver_u_b(inp2, res1);
const20, const6, const3);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz4 = __msa_aver_u_b(inp0, res0);
horiz5 = (v16u8) __msa_splati_d((v2i64) horiz4, 1);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz6 = __msa_aver_u_b(inp2, res1);
const20, const6, const3);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz0 = __msa_aver_u_b(inp0, res0);
horiz1 = (v16u8) __msa_splati_d((v2i64) horiz0, 1);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz2 = __msa_aver_u_b(inp2, res1);
const20, const6, const3);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz4 = __msa_aver_u_b(inp0, res0);
horiz5 = (v16u8) __msa_splati_d((v2i64) horiz4, 1);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz6 = __msa_aver_u_b(inp2, res1);
res0 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp0, inp1,
mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz0 = __msa_aver_u_b(inp0, res0);
horiz1 = (v16u8) __msa_splati_d((v2i64) horiz0, 1);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz2 = __msa_aver_u_b(inp2, res1);
src += (2 * src_stride);
res0 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp0, inp1, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_insve_d((v2i64) inp0, 1, (v2i64) inp1);
horiz4 = __msa_aver_u_b(inp0, res0);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_insve_d((v2i64) inp2, 1, (v2i64) inp3);
horiz6 = __msa_aver_u_b(inp2, res1);
LD_UB2(src, src_stride, inp2, inp3);
src += (2 * src_stride);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_ilvr_d((v2i64) inp1, (v2i64) inp0);
horiz0 = __msa_aver_u_b(inp0, res0);
const20, const6, const3);
LD_UB2(src, src_stride, inp0, inp1);
src += (2 * src_stride);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_ilvr_d((v2i64) inp3, (v2i64) inp2);
horiz2 = __msa_aver_u_b(inp2, res1);
res0 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp0, inp1, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_ilvr_d((v2i64) inp1, (v2i64) inp0);
horiz4 = __msa_aver_u_b(inp0, res0);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_ilvr_d((v2i64) inp3, (v2i64) inp2);
horiz6 = __msa_aver_u_b(inp2, res1);
const20, const6, const3);
LD_UB2(src, src_stride, inp2, inp3);
src += (2 * src_stride);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_ilvr_d((v2i64) inp1, (v2i64) inp0);
horiz0 = __msa_aver_u_b(inp0, res0);
const20, const6, const3);
LD_UB2(src, src_stride, inp0, inp1);
src += (2 * src_stride);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_ilvr_d((v2i64) inp3, (v2i64) inp2);
horiz2 = __msa_aver_u_b(inp2, res1);
res0 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp0, inp1, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_ilvr_d((v2i64) inp1, (v2i64) inp0);
horiz4 = __msa_aver_u_b(inp0, res0);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_ilvr_d((v2i64) inp3, (v2i64) inp2);
horiz6 = __msa_aver_u_b(inp2, res1);
const20, const6, const3);
LD_UB2(src, src_stride, inp2, inp3);
src += (2 * src_stride);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_ilvr_d((v2i64) inp1, (v2i64) inp0);
horiz0 = __msa_aver_u_b(inp0, res0);
const20, const6, const3);
LD_UB2(src, src_stride, inp0, inp1);
src += (2 * src_stride);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_ilvr_d((v2i64) inp3, (v2i64) inp2);
horiz2 = __msa_aver_u_b(inp2, res1);
horiz3 = (v16u8) __msa_splati_d((v2i64) horiz2, 1);
res0 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp0, inp1, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp0, inp1, inp0, inp1, inp0, inp1, 1);
+ SLDI_B2_UB(inp0, inp0, inp1, inp1, 1, inp0, inp1);
inp0 = (v16u8) __msa_ilvr_d((v2i64) inp1, (v2i64) inp0);
horiz4 = __msa_aver_u_b(inp0, res0);
src += (2 * src_stride);
res1 = APPLY_HORIZ_QPEL_FILTER_8BYTE(inp2, inp3, mask0, mask1, mask2, mask3,
const20, const6, const3);
- SLDI_B2_UB(inp2, inp3, inp2, inp3, inp2, inp3, 1);
+ SLDI_B2_UB(inp2, inp2, inp3, inp3, 1, inp2, inp3);
inp2 = (v16u8) __msa_ilvr_d((v2i64) inp3, (v2i64) inp2);
horiz6 = __msa_aver_u_b(inp2, res1);