git.sesse.net Git - x264/blob - common/arm/predict-a.S

   1 /*****************************************************************************
   2  * predict.S: arm intra prediction
   3  *****************************************************************************
   4  * Copyright (C) 2009-2013 x264 project
   5  *
   6  * Authors: David Conrad <lessen42@gmail.com>
   7  *          Mans Rullgard <mans@mansr.com>
   8  *
   9  * This program is free software; you can redistribute it and/or modify
  10  * it under the terms of the GNU General Public License as published by
  11  * the Free Software Foundation; either version 2 of the License, or
  12  * (at your option) any later version.
  13  *
  14  * This program is distributed in the hope that it will be useful,
  15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  17  * GNU General Public License for more details.
  18  *
  19  * You should have received a copy of the GNU General Public License
  20  * along with this program; if not, write to the Free Software
  21  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  22  *
  23  * This program is also available under a commercial proprietary license.
  24  * For more information, contact us at licensing@x264.com.
  25  *****************************************************************************/
  26
  27 #include "asm.S"
  28
  29 .fpu neon
  30
  31 .section .rodata
  32 .align 4
  33
  34 p16weight: .short 1,2,3,4,5,6,7,8
  35
  36 .text
  37
  38 .macro ldcol.8  rd,  rs,  rt,  n=8,  hi=0
  39 .if \n == 8 || \hi == 0
  40     vld1.8          {\rd[0]}, [\rs], \rt
  41     vld1.8          {\rd[1]}, [\rs], \rt
  42     vld1.8          {\rd[2]}, [\rs], \rt
  43     vld1.8          {\rd[3]}, [\rs], \rt
  44 .endif
  45 .if \n == 8 || \hi == 1
  46     vld1.8          {\rd[4]}, [\rs], \rt
  47     vld1.8          {\rd[5]}, [\rs], \rt
  48     vld1.8          {\rd[6]}, [\rs], \rt
  49     vld1.8          {\rd[7]}, [\rs], \rt
  50 .endif
  51 .endm
  52
  53 .macro add16x8  dq,  dl,  dh,  rl,  rh
  54     vaddl.u8        \dq, \rl, \rh
  55     vadd.u16        \dl, \dl, \dh
  56     vpadd.u16       \dl, \dl, \dl
  57     vpadd.u16       \dl, \dl, \dl
  58 .endm
  59
  60
  61 // because gcc doesn't believe in using the free shift in add
  62 function x264_predict_4x4_h_armv6
  63     ldrb    r1, [r0, #0*FDEC_STRIDE-1]
  64     ldrb    r2, [r0, #1*FDEC_STRIDE-1]
  65     ldrb    r3, [r0, #2*FDEC_STRIDE-1]
  66     ldrb    ip, [r0, #3*FDEC_STRIDE-1]
  67     add     r1, r1, r1, lsl #8
  68     add     r2, r2, r2, lsl #8
  69     add     r3, r3, r3, lsl #8
  70     add     ip, ip, ip, lsl #8
  71     add     r1, r1, r1, lsl #16
  72     str     r1, [r0, #0*FDEC_STRIDE]
  73     add     r2, r2, r2, lsl #16
  74     str     r2, [r0, #1*FDEC_STRIDE]
  75     add     r3, r3, r3, lsl #16
  76     str     r3, [r0, #2*FDEC_STRIDE]
  77     add     ip, ip, ip, lsl #16
  78     str     ip, [r0, #3*FDEC_STRIDE]
  79     bx      lr
  80 .endfunc
  81
  82 function x264_predict_4x4_dc_armv6
  83     mov     ip, #0
  84     ldr     r1, [r0, #-FDEC_STRIDE]
  85     ldrb    r2, [r0, #0*FDEC_STRIDE-1]
  86     ldrb    r3, [r0, #1*FDEC_STRIDE-1]
  87     usad8   r1, r1, ip
  88     add     r2, r2, #4
  89     ldrb    ip, [r0, #2*FDEC_STRIDE-1]
  90     add     r2, r2, r3
  91     ldrb    r3, [r0, #3*FDEC_STRIDE-1]
  92     add     r2, r2, ip
  93     add     r2, r2, r3
  94     add     r1, r1, r2
  95     lsr     r1, r1, #3
  96     add     r1, r1, r1, lsl #8
  97     add     r1, r1, r1, lsl #16
  98     str     r1, [r0, #0*FDEC_STRIDE]
  99     str     r1, [r0, #1*FDEC_STRIDE]
 100     str     r1, [r0, #2*FDEC_STRIDE]
 101     str     r1, [r0, #3*FDEC_STRIDE]
 102     bx      lr
 103 .endfunc
 104
 105 function x264_predict_4x4_dc_top_neon
 106     mov         r12, #FDEC_STRIDE
 107     sub         r1, r0, #FDEC_STRIDE
 108     vld1.32     d1[], [r1,:32]
 109     vpaddl.u8   d1, d1
 110     vpadd.u16   d1, d1, d1
 111     vrshr.u16   d1, d1, #2
 112     vdup.8      d1, d1[0]
 113     vst1.32     d1[0], [r0,:32], r12
 114     vst1.32     d1[0], [r0,:32], r12
 115     vst1.32     d1[0], [r0,:32], r12
 116     vst1.32     d1[0], [r0,:32], r12
 117     bx          lr
 118 .endfunc
 119
 120 // return a1 = (a1+2*b1+c1+2)>>2  a2 = (a2+2*b2+c2+2)>>2
 121 .macro PRED4x4_LOWPASS a1 b1 c1 a2 b2 c2 pb_1
 122     uhadd8  \a1, \a1, \c1
 123     uhadd8  \a2, \a2, \c2
 124     uhadd8  \c1, \a1, \b1
 125     uhadd8  \c2, \a2, \b2
 126     eor     \a1, \a1, \b1
 127     eor     \a2, \a2, \b2
 128     and     \a1, \a1, \pb_1
 129     and     \a2, \a2, \pb_1
 130     uadd8   \a1, \a1, \c1
 131     uadd8   \a2, \a2, \c2
 132 .endm
 133
 134 function x264_predict_4x4_ddr_armv6
 135     ldr     r1, [r0, # -FDEC_STRIDE]
 136     ldrb    r2, [r0, # -FDEC_STRIDE-1]
 137     ldrb    r3, [r0, #0*FDEC_STRIDE-1]
 138     push    {r4-r6,lr}
 139     add     r2, r2, r1, lsl #8
 140     ldrb    r4, [r0, #1*FDEC_STRIDE-1]
 141     add     r3, r3, r2, lsl #8
 142     ldrb    r5, [r0, #2*FDEC_STRIDE-1]
 143     ldrb    r6, [r0, #3*FDEC_STRIDE-1]
 144     add     r4, r4, r3, lsl #8
 145     add     r5, r5, r4, lsl #8
 146     add     r6, r6, r5, lsl #8
 147     ldr     ip, =0x01010101
 148     PRED4x4_LOWPASS r1, r2, r3, r4, r5, r6, ip
 149     str     r1, [r0, #0*FDEC_STRIDE]
 150     lsl     r2, r1, #8
 151     lsl     r3, r1, #16
 152     lsl     r4, r4, #8
 153     lsl     r5, r1, #24
 154     add     r2, r2, r4, lsr #24
 155     str     r2, [r0, #1*FDEC_STRIDE]
 156     add     r3, r3, r4, lsr #16
 157     str     r3, [r0, #2*FDEC_STRIDE]
 158     add     r5, r5, r4, lsr #8
 159     str     r5, [r0, #3*FDEC_STRIDE]
 160     pop     {r4-r6,pc}
 161 .endfunc
 162
 163 function x264_predict_4x4_ddl_neon
 164     sub         r0, #FDEC_STRIDE
 165     mov         ip, #FDEC_STRIDE
 166     vld1.64     {d0}, [r0], ip
 167     vdup.8      d3, d0[7]
 168     vext.8      d1, d0, d0, #1
 169     vext.8      d2, d0, d3, #2
 170     vhadd.u8    d0, d0, d2
 171     vrhadd.u8   d0, d0, d1
 172     vst1.32     {d0[0]}, [r0,:32], ip
 173     vext.8      d1, d0, d0, #1
 174     vext.8      d2, d0, d0, #2
 175     vst1.32     {d1[0]}, [r0,:32], ip
 176     vext.8      d3, d0, d0, #3
 177     vst1.32     {d2[0]}, [r0,:32], ip
 178     vst1.32     {d3[0]}, [r0,:32], ip
 179     bx          lr
 180 .endfunc
 181
 182 function x264_predict_8x8_dc_neon
 183     mov     ip, #0
 184     ldrd    r2, [r1, #8]
 185     push    {r4-r5,lr}
 186     ldrd    r4, [r1, #16]
 187     lsl     r3, r3, #8
 188     ldrb    lr, [r1, #7]
 189     usad8   r2, r2, ip
 190     usad8   r3, r3, ip
 191     usada8  r2, r4, ip, r2
 192     add     lr, lr, #8
 193     usada8  r3, r5, ip, r3
 194     add     r2, r2, lr
 195     mov     ip, #FDEC_STRIDE
 196     add     r2, r2, r3
 197     lsr     r2, r2, #4
 198
 199     vdup.8   d0, r2
 200 .rept 8
 201     vst1.64 {d0}, [r0,:64], ip
 202 .endr
 203     pop    {r4-r5,pc}
 204 .endfunc
 205
 206 function x264_predict_8x8_h_neon
 207     add         r1, r1, #7
 208     mov         ip, #FDEC_STRIDE
 209     vld1.64     {d16}, [r1]
 210     vdup.8      d0, d16[7]
 211     vdup.8      d1, d16[6]
 212     vst1.64     {d0}, [r0,:64], ip
 213     vdup.8      d2, d16[5]
 214     vst1.64     {d1}, [r0,:64], ip
 215     vdup.8      d3, d16[4]
 216     vst1.64     {d2}, [r0,:64], ip
 217     vdup.8      d4, d16[3]
 218     vst1.64     {d3}, [r0,:64], ip
 219     vdup.8      d5, d16[2]
 220     vst1.64     {d4}, [r0,:64], ip
 221     vdup.8      d6, d16[1]
 222     vst1.64     {d5}, [r0,:64], ip
 223     vdup.8      d7, d16[0]
 224     vst1.64     {d6}, [r0,:64], ip
 225     vst1.64     {d7}, [r0,:64], ip
 226     bx          lr
 227 .endfunc
 228
 229 function x264_predict_8x8_v_neon
 230     add         r1, r1, #16
 231     mov         r12, #FDEC_STRIDE
 232     vld1.8      {d0}, [r1,:64]
 233 .rept 8
 234     vst1.8      {d0}, [r0,:64], r12
 235 .endr
 236     bx          lr
 237 .endfunc
 238
 239 function x264_predict_8x8_ddl_neon
 240     add         r1, #16
 241     vld1.8      {d0, d1}, [r1,:128]
 242     vmov.i8     q3, #0
 243     vrev64.8    d2, d1
 244     vext.8      q8, q3, q0, #15
 245     vext.8      q2, q0, q1, #1
 246     vhadd.u8    q8, q2
 247     mov         r12, #FDEC_STRIDE
 248     vrhadd.u8   q0, q8
 249     vext.8      d2, d0, d1, #1
 250     vext.8      d3, d0, d1, #2
 251     vst1.8      d2, [r0,:64], r12
 252     vext.8      d2, d0, d1, #3
 253     vst1.8      d3, [r0,:64], r12
 254     vext.8      d3, d0, d1, #4
 255     vst1.8      d2, [r0,:64], r12
 256     vext.8      d2, d0, d1, #5
 257     vst1.8      d3, [r0,:64], r12
 258     vext.8      d3, d0, d1, #6
 259     vst1.8      d2, [r0,:64], r12
 260     vext.8      d2, d0, d1, #7
 261     vst1.8      d3, [r0,:64], r12
 262     vst1.8      d2, [r0,:64], r12
 263     vst1.8      d1, [r0,:64], r12
 264     bx          lr
 265 .endfunc
 266
 267 function x264_predict_8x8_ddr_neon
 268     vld1.8      {d0-d3}, [r1,:128]
 269     vext.8      q2, q0, q1, #7
 270     vext.8      q3, q0, q1, #9
 271
 272     vhadd.u8    q2, q2, q3
 273     vrhadd.u8   d0, d1, d4
 274     vrhadd.u8   d1, d2, d5
 275
 276     add         r0, #7*FDEC_STRIDE
 277     mov         r12, #-1*FDEC_STRIDE
 278
 279     vext.8      d2, d0, d1, #1
 280     vst1.8      {d0}, [r0,:64], r12
 281     vext.8      d4, d0, d1, #2
 282     vst1.8      {d2}, [r0,:64], r12
 283     vext.8      d5, d0, d1, #3
 284     vst1.8      {d4}, [r0,:64], r12
 285     vext.8      d4, d0, d1, #4
 286     vst1.8      {d5}, [r0,:64], r12
 287     vext.8      d5, d0, d1, #5
 288     vst1.8      {d4}, [r0,:64], r12
 289     vext.8      d4, d0, d1, #6
 290     vst1.8      {d5}, [r0,:64], r12
 291     vext.8      d5, d0, d1, #7
 292     vst1.8      {d4}, [r0,:64], r12
 293     vst1.8      {d5}, [r0,:64], r12
 294     bx          lr
 295 .endfunc
 296
 297 function x264_predict_8x8_vl_neon
 298     add         r1, #16
 299     mov         r12, #FDEC_STRIDE
 300
 301     vld1.8      {d0, d1}, [r1,:128]
 302     vext.8      q1, q1, q0, #15
 303     vext.8      q2, q0, q2, #1
 304
 305     vrhadd.u8   q3, q0, q2
 306
 307     vhadd.u8    q1, q1, q2
 308     vrhadd.u8   q0, q0, q1
 309
 310     vext.8      d2, d0, d1, #1
 311     vst1.8      {d6}, [r0,:64], r12
 312     vext.8      d3, d6, d7, #1
 313     vst1.8      {d2}, [r0,:64], r12
 314     vext.8      d2, d0, d1, #2
 315     vst1.8      {d3}, [r0,:64], r12
 316     vext.8      d3, d6, d7, #2
 317     vst1.8      {d2}, [r0,:64], r12
 318     vext.8      d2, d0, d1, #3
 319     vst1.8      {d3}, [r0,:64], r12
 320     vext.8      d3, d6, d7, #3
 321     vst1.8      {d2}, [r0,:64], r12
 322     vext.8      d2, d0, d1, #4
 323     vst1.8      {d3}, [r0,:64], r12
 324     vst1.8      {d2}, [r0,:64], r12
 325     bx          lr
 326 .endfunc
 327
 328 function x264_predict_8x8_vr_neon
 329     add         r1, #8
 330     mov         r12, #FDEC_STRIDE
 331     vld1.8      {d4,d5}, [r1,:64]
 332
 333     vext.8      q1, q2, q2, #14
 334     vext.8      q0, q2, q2, #15
 335
 336     vhadd.u8    q3, q2, q1
 337     vrhadd.u8   q2, q2, q0
 338     vrhadd.u8   q0, q0, q3
 339
 340     vmov        d2, d0
 341
 342     vst1.8      {d5}, [r0,:64], r12
 343     vuzp.8      d2, d0
 344     vst1.8      {d1}, [r0,:64], r12
 345     vext.8      d6, d0, d5, #7
 346     vext.8      d3, d2, d1, #7
 347     vst1.8      {d6}, [r0,:64], r12
 348     vst1.8      {d3}, [r0,:64], r12
 349     vext.8      d6, d0, d5, #6
 350     vext.8      d3, d2, d1, #6
 351     vst1.8      {d6}, [r0,:64], r12
 352     vst1.8      {d3}, [r0,:64], r12
 353     vext.8      d6, d0, d5, #5
 354     vext.8      d3, d2, d1, #5
 355     vst1.8      {d6}, [r0,:64], r12
 356     vst1.8      {d3}, [r0,:64], r12
 357     bx          lr
 358 .endfunc
 359
 360 function x264_predict_8x8_hd_neon
 361     mov         r12, #FDEC_STRIDE
 362     add         r1, #7
 363
 364     vld1.8      {d2,d3}, [r1]
 365     vext.8      q3, q1, q1, #1
 366     vext.8      q2, q1, q1, #2
 367
 368     vrhadd.u8   q8, q1, q3
 369
 370     vhadd.u8    q1, q2
 371     vrhadd.u8   q0, q1, q3
 372
 373     vzip.8      d16, d0
 374
 375     vext.8      d2, d0, d1, #6
 376     vext.8      d3, d0, d1, #4
 377     vst1.8      {d2}, [r0,:64], r12
 378     vext.8      d2, d0, d1, #2
 379     vst1.8      {d3}, [r0,:64], r12
 380     vst1.8      {d2}, [r0,:64], r12
 381     vext.8      d2, d16, d0, #6
 382     vst1.8      {d0}, [r0,:64], r12
 383     vext.8      d3, d16, d0, #4
 384     vst1.8      {d2}, [r0,:64], r12
 385     vext.8      d2, d16, d0, #2
 386     vst1.8      {d3}, [r0,:64], r12
 387     vst1.8      {d2}, [r0,:64], r12
 388     vst1.8      {d16}, [r0,:64], r12
 389
 390     bx          lr
 391 .endfunc
 392
 393 function x264_predict_8x8_hu_neon
 394     mov         r12, #FDEC_STRIDE
 395     add         r1, #7
 396     vld1.8      {d7}, [r1]
 397     vdup.8      d6, d7[0]
 398     vrev64.8    d7, d7
 399
 400     vext.8      d4, d7, d6, #2
 401     vext.8      d2, d7, d6, #1
 402
 403     vhadd.u8    d16, d7, d4
 404     vrhadd.u8   d0, d2, d7
 405     vrhadd.u8   d1, d16, d2
 406
 407     vzip.8      d0, d1
 408
 409     vdup.16     q1, d1[3]
 410
 411     vext.8      q2, q0, q1, #2
 412     vext.8      q3, q0, q1, #4
 413     vext.8      q8, q0, q1, #6
 414     vst1.8      {d0}, [r0,:64], r12
 415     vst1.8      {d4}, [r0,:64], r12
 416     vst1.8      {d6}, [r0,:64], r12
 417     vst1.8      {d16}, [r0,:64], r12
 418
 419     vst1.8      {d1}, [r0,:64], r12
 420     vst1.8      {d5}, [r0,:64], r12
 421     vst1.8      {d7}, [r0,:64], r12
 422     vst1.8      {d17}, [r0,:64]
 423     bx          lr
 424 .endfunc
 425
 426 function x264_predict_8x8c_dc_top_neon
 427     sub         r2,  r0,  #FDEC_STRIDE
 428     mov         r1,  #FDEC_STRIDE
 429     vld1.8      {d0}, [r2,:64]
 430     vpaddl.u8   d0,  d0
 431     vpadd.u16   d0,  d0,  d0
 432     vrshrn.u16  d0,  q0,  #2
 433     vdup.8      d1,  d0[1]
 434     vdup.8      d0,  d0[0]
 435     vtrn.32     d0,  d1
 436     b           pred8x8_dc_end
 437 .endfunc
 438
 439 function x264_predict_8x8c_dc_left_neon
 440     mov         r1,  #FDEC_STRIDE
 441     sub         r2,  r0,  #1
 442     ldcol.8     d0,  r2,  r1
 443     vpaddl.u8   d0,  d0
 444     vpadd.u16   d0,  d0,  d0
 445     vrshrn.u16  d0,  q0,  #2
 446     vdup.8      d1,  d0[1]
 447     vdup.8      d0,  d0[0]
 448     b           pred8x8_dc_end
 449 .endfunc
 450
 451 function x264_predict_8x8c_dc_neon
 452     sub         r2,  r0,  #FDEC_STRIDE
 453     mov         r1,  #FDEC_STRIDE
 454     vld1.8      {d0}, [r2,:64]
 455     sub         r2,  r0,  #1
 456     ldcol.8     d1,  r2,  r1
 457     vtrn.32     d0,  d1
 458     vpaddl.u8   q0,  q0
 459     vpadd.u16   d0,  d0,  d1
 460     vpadd.u16   d1,  d0,  d0
 461     vrshrn.u16  d2,  q0,  #3
 462     vrshrn.u16  d3,  q0,  #2
 463     vdup.8      d0,  d2[4]
 464     vdup.8      d1,  d3[3]
 465     vdup.8      d4,  d3[2]
 466     vdup.8      d5,  d2[5]
 467     vtrn.32     q0,  q2
 468 pred8x8_dc_end:
 469     add         r2,  r0,  r1,  lsl #2
 470 .rept 4
 471     vst1.8      {d0}, [r0,:64], r1
 472     vst1.8      {d1}, [r2,:64], r1
 473 .endr
 474     bx          lr
 475 .endfunc
 476
 477 function x264_predict_8x8c_h_neon
 478     sub         r1, r0, #1
 479     mov         ip, #FDEC_STRIDE
 480 .rept 4
 481     vld1.8      {d0[]}, [r1], ip
 482     vld1.8      {d2[]}, [r1], ip
 483     vst1.64     {d0}, [r0,:64], ip
 484     vst1.64     {d2}, [r0,:64], ip
 485 .endr
 486     bx          lr
 487 .endfunc
 488
 489 function x264_predict_8x8c_v_neon
 490     sub         r0, r0, #FDEC_STRIDE
 491     mov         ip, #FDEC_STRIDE
 492     vld1.64     {d0}, [r0,:64], ip
 493 .rept 8
 494     vst1.64     {d0}, [r0,:64], ip
 495 .endr
 496     bx          lr
 497 .endfunc
 498
 499 function x264_predict_8x8c_p_neon
 500     sub         r3,  r0,  #FDEC_STRIDE
 501     mov         r1,  #FDEC_STRIDE
 502     add         r2,  r3,  #4
 503     sub         r3,  r3,  #1
 504     vld1.32     {d0[0]}, [r3]
 505     vld1.32     {d2[0]}, [r2,:32], r1
 506     ldcol.8     d0,  r3,  r1,  4,  hi=1
 507     add         r3,  r3,  r1
 508     ldcol.8     d3,  r3,  r1,  4
 509     vaddl.u8    q8,  d2,  d3
 510     vrev32.8    d0,  d0
 511     vtrn.32     d2,  d3
 512     vsubl.u8    q2,  d2,  d0
 513     movrel      r3,  p16weight
 514     vld1.16     {q0}, [r3,:128]
 515     vmul.s16    d4,  d4,  d0
 516     vmul.s16    d5,  d5,  d0
 517     vpadd.i16   d4,  d4,  d5
 518     vpaddl.s16  d4,  d4
 519     vshl.i32    d5,  d4,  #4
 520     vadd.s32    d4,  d4,  d5
 521     vrshrn.s32  d4,  q2,  #5
 522     mov         r3,  #0
 523     vtrn.16     d4,  d5
 524     vadd.i16    d2,  d4,  d5
 525     vshl.i16    d3,  d2,  #2
 526     vrev64.16   d16, d16
 527     vsub.i16    d3,  d3,  d2
 528     vadd.i16    d16, d16, d0
 529     vshl.i16    d2,  d16, #4
 530     vsub.i16    d2,  d2,  d3
 531     vshl.i16    d3,  d4,  #3
 532     vext.16     q0,  q0,  q0,  #7
 533     vsub.i16    d6,  d5,  d3
 534     vmov.16     d0[0], r3
 535     vmul.i16    q0,  q0,  d4[0]
 536     vdup.16     q1,  d2[0]
 537     vdup.16     q2,  d4[0]
 538     vdup.16     q3,  d6[0]
 539     vshl.i16    q2,  q2,  #3
 540     vadd.i16    q1,  q1,  q0
 541     vadd.i16    q3,  q3,  q2
 542     mov         r3,  #8
 543 1:
 544     vqshrun.s16 d0,  q1,  #5
 545     vadd.i16    q1,  q1,  q3
 546     vst1.8      {d0}, [r0,:64], r1
 547     subs        r3,  r3,  #1
 548     bne         1b
 549     bx          lr
 550 .endfunc
 551
 552
 553 function x264_predict_16x16_dc_top_neon
 554     sub         r2,  r0,  #FDEC_STRIDE
 555     mov         r1,  #FDEC_STRIDE
 556     vld1.8      {q0}, [r2,:128]
 557     add16x8     q0,  d0,  d1,  d0,  d1
 558     vrshrn.u16  d0,  q0,  #4
 559     vdup.8      q0,  d0[0]
 560     b           pred16x16_dc_end
 561 .endfunc
 562
 563 function x264_predict_16x16_dc_left_neon
 564     mov         r1,  #FDEC_STRIDE
 565     sub         r2,  r0,  #1
 566     ldcol.8     d0,  r2,  r1
 567     ldcol.8     d1,  r2,  r1
 568     add16x8     q0,  d0,  d1,  d0,  d1
 569     vrshrn.u16  d0,  q0,  #4
 570     vdup.8      q0,  d0[0]
 571     b           pred16x16_dc_end
 572 .endfunc
 573
 574 function x264_predict_16x16_dc_neon
 575     sub         r3, r0, #FDEC_STRIDE
 576     sub         r0, r0, #1
 577     vld1.64     {d0-d1}, [r3,:128]
 578     ldrb        ip, [r0], #FDEC_STRIDE
 579     vaddl.u8    q0, d0, d1
 580     ldrb        r1, [r0], #FDEC_STRIDE
 581     vadd.u16    d0, d0, d1
 582     vpadd.u16   d0, d0, d0
 583     vpadd.u16   d0, d0, d0
 584 .rept 4
 585     ldrb        r2, [r0], #FDEC_STRIDE
 586     add         ip, ip, r1
 587     ldrb        r3, [r0], #FDEC_STRIDE
 588     add         ip, ip, r2
 589     ldrb        r1, [r0], #FDEC_STRIDE
 590     add         ip, ip, r3
 591 .endr
 592     ldrb        r2, [r0], #FDEC_STRIDE
 593     add         ip, ip, r1
 594     ldrb        r3, [r0], #FDEC_STRIDE
 595     add         ip, ip, r2
 596
 597     sub         r0, r0, #FDEC_STRIDE*16
 598     add         ip, ip, r3
 599     vdup.16     d1, ip
 600     vadd.u16    d0, d0, d1
 601     mov         r1, #FDEC_STRIDE
 602     add         r0, r0, #1
 603     vrshr.u16   d0, d0, #5
 604     vdup.8      q0, d0[0]
 605 pred16x16_dc_end:
 606 .rept 16
 607     vst1.64     {d0-d1}, [r0,:128], r1
 608 .endr
 609     bx          lr
 610 .endfunc
 611
 612 function x264_predict_16x16_h_neon
 613     sub         r1, r0, #1
 614     mov         ip, #FDEC_STRIDE
 615 .rept 8
 616     vld1.8      {d0[]}, [r1], ip
 617     vmov        d1, d0
 618     vld1.8      {d2[]}, [r1], ip
 619     vmov        d3, d2
 620     vst1.64     {d0-d1}, [r0,:128], ip
 621     vst1.64     {d2-d3}, [r0,:128], ip
 622 .endr
 623     bx          lr
 624 .endfunc
 625
 626 function x264_predict_16x16_v_neon
 627     sub         r0, r0, #FDEC_STRIDE
 628     mov         ip, #FDEC_STRIDE
 629     vld1.64     {d0-d1}, [r0,:128], ip
 630 .rept 16
 631     vst1.64     {d0-d1}, [r0,:128], ip
 632 .endr
 633     bx          lr
 634 .endfunc
 635
 636 function x264_predict_16x16_p_neon
 637     sub         r3,  r0,  #FDEC_STRIDE
 638     mov         r1,  #FDEC_STRIDE
 639     add         r2,  r3,  #8
 640     sub         r3,  r3,  #1
 641     vld1.8      {d0}, [r3]
 642     vld1.8      {d2}, [r2,:64], r1
 643     ldcol.8     d1,  r3,  r1
 644     add         r3,  r3,  r1
 645     ldcol.8     d3,  r3,  r1
 646     vrev64.8    q0,  q0
 647     vaddl.u8    q8,  d2,  d3
 648     vsubl.u8    q2,  d2,  d0
 649     vsubl.u8    q3,  d3,  d1
 650     movrel      r3,  p16weight
 651     vld1.8      {q0}, [r3,:128]
 652     vmul.s16    q2,  q2,  q0
 653     vmul.s16    q3,  q3,  q0
 654     vadd.i16    d4,  d4,  d5
 655     vadd.i16    d5,  d6,  d7
 656     vpadd.i16   d4,  d4,  d5
 657     vpadd.i16   d4,  d4,  d4
 658     vshll.s16   q3,  d4,  #2
 659     vaddw.s16   q2,  q3,  d4
 660     vrshrn.s32  d4,  q2,  #6
 661     mov         r3,  #0
 662     vtrn.16     d4,  d5
 663     vadd.i16    d2,  d4,  d5
 664     vshl.i16    d3,  d2,  #3
 665     vrev64.16   d16, d17
 666     vsub.i16    d3,  d3,  d2
 667     vadd.i16    d16, d16, d0
 668     vshl.i16    d2,  d16, #4
 669     vsub.i16    d2,  d2,  d3
 670     vshl.i16    d3,  d4,  #4
 671     vext.16     q0,  q0,  q0,  #7
 672     vsub.i16    d6,  d5,  d3
 673     vmov.16     d0[0], r3
 674     vmul.i16    q0,  q0,  d4[0]
 675     vdup.16     q1,  d2[0]
 676     vdup.16     q2,  d4[0]
 677     vdup.16     q3,  d6[0]
 678     vshl.i16    q2,  q2,  #3
 679     vadd.i16    q1,  q1,  q0
 680     vadd.i16    q3,  q3,  q2
 681     mov         r3,  #16
 682 1:
 683     vqshrun.s16 d0,  q1,  #5
 684     vadd.i16    q1,  q1,  q2
 685     vqshrun.s16 d1,  q1,  #5
 686     vadd.i16    q1,  q1,  q3
 687     vst1.8      {q0}, [r0,:128], r1
 688     subs        r3,  r3,  #1
 689     bne         1b
 690     bx          lr
 691 .endfunc