git.sesse.net Git - x264/blob - common/arm/mc-a.S

   1 /*****************************************************************************
   2  * mc.S: arm motion compensation
   3  *****************************************************************************
   4  * Copyright (C) 2009-2015 x264 project
   5  *
   6  * Authors: David Conrad <lessen42@gmail.com>
   7  *          Mans Rullgard <mans@mansr.com>
   8  *          Stefan Groenroos <stefan.gronroos@gmail.com>
   9  *          Janne Grunau <janne-x264@jannau.net>
  10  *
  11  * This program is free software; you can redistribute it and/or modify
  12  * it under the terms of the GNU General Public License as published by
  13  * the Free Software Foundation; either version 2 of the License, or
  14  * (at your option) any later version.
  15  *
  16  * This program is distributed in the hope that it will be useful,
  17  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  18  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  19  * GNU General Public License for more details.
  20  *
  21  * You should have received a copy of the GNU General Public License
  22  * along with this program; if not, write to the Free Software
  23  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  24  *
  25  * This program is also available under a commercial proprietary license.
  26  * For more information, contact us at licensing@x264.com.
  27  *****************************************************************************/
  28
  29 #include "asm.S"
  30
  31 .section .rodata
  32 .align 4
  33 pw_0to15:
  34 .short 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15
  35
  36 .text
  37
  38 // note: prefetch stuff assumes 64-byte cacheline, true for the Cortex-A8
  39 // They also use nothing above armv5te, but we don't care about pre-armv6
  40
  41 // void prefetch_ref( uint8_t *pix, intptr_t stride, int parity )
  42 function x264_prefetch_ref_arm
  43     sub         r2, r2, #1
  44     add         r0, r0, #64
  45     and         r2, r2, r1
  46     add         r0, r0, r2, lsl #3
  47     add         r2, r1, r1, lsl #1
  48     pld         [r0]
  49     pld         [r0, r1]
  50     pld         [r0, r1, lsl #1]
  51     add         r3, r0, r1, lsl #2
  52     pld         [r0, r2]
  53     pld         [r3]
  54     pld         [r3, r1]
  55     pld         [r3, r1, lsl #1]
  56     pld         [r3, r2]
  57     bx          lr
  58 endfunc
  59
  60 // void prefetch_fenc( uint8_t *pix_y,  intptr_t stride_y,
  61 //                     uint8_t *pix_uv, intptr_t stride_uv, int mb_x )
  62 function x264_prefetch_fenc_arm
  63     ldr         ip, [sp]
  64     push        {lr}
  65     and         lr, ip, #3
  66     smulbb      lr, lr, r1      // note: this assumes stride_y is <= 16 bits signed
  67     and         ip, ip, #6
  68     smulbb      ip, ip, r3
  69     add         r0, r0, #64
  70     add         r2, r2, #64
  71     add         r0, r0, lr, lsl #2
  72     pld         [r0]
  73     add         lr, r0, r1, lsl #1
  74     pld         [r0, r1]
  75     pld         [lr]
  76     add         r2, r2, ip, lsl #2
  77     pld         [lr, r1]
  78     pld         [r2]
  79     add         ip, r2, r3, lsl #1
  80     pld         [r2, r3]
  81     pld         [ip]
  82     pld         [ip, r3]
  83     pop         {pc}
  84 endfunc
  85
  86
  87 // void *x264_memcpy_aligned( void *dst, const void *src, size_t n )
  88 function x264_memcpy_aligned_neon
  89     orr         r3,  r0,  r1,  lsr #1
  90     movrel      ip,  memcpy_table
  91     and         r3,  r3,  #0xc
  92     ldr         pc,  [ip, r3]
  93 endfunc
  94
  95 .macro MEMCPY_ALIGNED srcalign dstalign
  96 function memcpy_aligned_\dstalign\()_\srcalign\()_neon, export=0
  97     mov         r3, r0
  98 .if \srcalign == 8 && \dstalign == 8
  99     sub         r2, #16
 100     vld1.64     {d0}, [r1,:64]!
 101     vst1.64     {d0}, [r3,:64]!
 102     .set r1align, 128
 103     .set r3align, 128
 104 .else
 105     .set r1align, \srcalign * 8
 106     .set r3align, \dstalign * 8
 107 .endif
 108     tst         r2, #16
 109     beq         32f
 110     sub         r2, #16
 111     vld1.64     {d0-d1}, [r1,:r1align]!
 112     vst1.64     {d0-d1}, [r3,:r3align]!
 113 32: // n is a multiple of 32
 114     tst         r2, #32
 115     beq         640f
 116     sub         r2, #32
 117     vld1.64     {d0-d3}, [r1,:r1align]!
 118     vst1.64     {d0-d3}, [r3,:r3align]!
 119 640: // n is a multiple of 64
 120     cmp         r2, #0
 121     beq         1f
 122 64:
 123     subs        r2, #64
 124     vld1.64     {d0-d3}, [r1,:r1align]!
 125     vld1.64     {d4-d7}, [r1,:r1align]!
 126     vst1.64     {d0-d3}, [r3,:r3align]!
 127     vst1.64     {d4-d7}, [r3,:r3align]!
 128     bgt         64b
 129 1:   // end
 130 .if \srcalign == 8 && \dstalign == 8
 131     vld1.64     {d0}, [r1,:64]!
 132     vst1.64     {d0}, [r3,:64]!
 133 .endif
 134     bx          lr
 135 endfunc
 136 .endm
 137
 138 MEMCPY_ALIGNED 16, 16
 139 MEMCPY_ALIGNED 16, 8
 140 MEMCPY_ALIGNED  8, 16
 141 MEMCPY_ALIGNED  8, 8
 142
 143 .section .rodata
 144 memcpy_table:
 145 .word memcpy_aligned_16_16_neon
 146 .word memcpy_aligned_16_8_neon
 147 .word memcpy_aligned_8_16_neon
 148 .word memcpy_aligned_8_8_neon
 149 .text
 150
 151 .ltorg
 152
 153 // void x264_memzero_aligned( void *dst, size_t n )
 154 function x264_memzero_aligned_neon
 155     vmov.i8     q0, #0
 156     vmov.i8     q1, #0
 157 memzero_loop:
 158     subs        r1, #128
 159 .rept 4
 160     vst1.64     {d0-d3}, [r0,:128]!
 161 .endr
 162     bgt         memzero_loop
 163     bx          lr
 164 endfunc
 165
 166
 167 // void pixel_avg( uint8_t *dst,  intptr_t dst_stride,
 168 //                 uint8_t *src1, intptr_t src1_stride,
 169 //                 uint8_t *src2, intptr_t src2_stride, int weight );
 170 .macro AVGH w h
 171 function x264_pixel_avg_\w\()x\h\()_neon
 172     ldr         ip, [sp, #8]
 173     push        {r4-r6,lr}
 174     cmp         ip, #32
 175     ldrd        r4, r5, [sp, #16]
 176     mov         lr, #\h
 177     beq         x264_pixel_avg_w\w\()_neon
 178     rsbs        r6,  ip,  #64
 179     blt         x264_pixel_avg_weight_w\w\()_add_sub_neon     // weight > 64
 180     cmp         ip,  #0
 181     bge         x264_pixel_avg_weight_w\w\()_add_add_neon
 182     b           x264_pixel_avg_weight_w\w\()_sub_add_neon     // weight < 0
 183 endfunc
 184 .endm
 185
 186 AVGH  4, 2
 187 AVGH  4, 4
 188 AVGH  4, 8
 189 AVGH  4, 16
 190 AVGH  8, 4
 191 AVGH  8, 8
 192 AVGH  8, 16
 193 AVGH 16, 8
 194 AVGH 16, 16
 195
 196 // 0 < weight < 64
 197 .macro load_weights_add_add
 198     vdup.8      d30, ip
 199     vdup.8      d31, r6
 200 .endm
 201
 202 .macro load_add_add d1 d2
 203     vld1.32     {\d1}, [r2], r3
 204     vld1.32     {\d2}, [r4], r5
 205 .endm
 206
 207 .macro weight_add_add dst s1 s2
 208     vmull.u8    \dst, \s1, d30
 209     vmlal.u8    \dst, \s2, d31
 210 .endm
 211
 212 // weight > 64
 213 .macro load_weights_add_sub
 214     rsb         r6,  #0
 215     vdup.8      d30, ip
 216     vdup.8      d31, r6
 217 .endm
 218
 219 .macro load_add_sub d1 d2
 220     vld1.32     {\d1}, [r2], r3
 221     vld1.32     {\d2}, [r4], r5
 222 .endm
 223
 224 .macro weight_add_sub dst s1 s2
 225     vmull.u8    \dst, \s1, d30
 226     vmlsl.u8    \dst, \s2, d31
 227 .endm
 228
 229 // weight < 0
 230 .macro load_weights_sub_add
 231     rsb         ip,  #0
 232     vdup.8      d31, r6
 233     vdup.8      d30, ip
 234 .endm
 235
 236 .macro load_sub_add d1 d2
 237     vld1.32     {\d2}, [r4], r5
 238     vld1.32     {\d1}, [r2], r3
 239 .endm
 240
 241 .macro weight_sub_add dst s1 s2
 242     vmull.u8    \dst, \s2, d31
 243     vmlsl.u8    \dst, \s1, d30
 244 .endm
 245
 246 .macro AVG_WEIGHT ext
 247 function x264_pixel_avg_weight_w4_\ext\()_neon, export=0
 248     load_weights_\ext
 249 1:  // height loop
 250     subs            lr,  lr,  #2
 251     load_\ext       d0[], d1[]
 252     weight_\ext     q8,  d0,  d1
 253     load_\ext       d2[], d3[]
 254     vqrshrun.s16    d0,  q8,  #6
 255     weight_\ext     q9,  d2,  d3
 256     vst1.32         {d0[0]}, [r0,:32], r1
 257     vqrshrun.s16    d1,  q9,  #6
 258     vst1.32         {d1[0]}, [r0,:32], r1
 259     bgt             1b
 260     pop             {r4-r6,pc}
 261 endfunc
 262
 263 function x264_pixel_avg_weight_w8_\ext\()_neon, export=0
 264     load_weights_\ext
 265 1:  // height loop
 266     subs            lr,  lr,  #4
 267     load_\ext       d0,  d1
 268     weight_\ext     q8,  d0,  d1
 269     load_\ext       d2,  d3
 270     weight_\ext     q9,  d2,  d3
 271     load_\ext       d4,  d5
 272     weight_\ext     q10, d4,  d5
 273     load_\ext       d6,  d7
 274     weight_\ext     q11, d6,  d7
 275     vqrshrun.s16    d0,  q8,  #6
 276     vqrshrun.s16    d1,  q9,  #6
 277     vqrshrun.s16    d2,  q10, #6
 278     vqrshrun.s16    d3,  q11, #6
 279     vst1.64         {d0}, [r0,:64], r1
 280     vst1.64         {d1}, [r0,:64], r1
 281     vst1.64         {d2}, [r0,:64], r1
 282     vst1.64         {d3}, [r0,:64], r1
 283     bgt             1b
 284     pop             {r4-r6,pc}
 285 endfunc
 286
 287 function x264_pixel_avg_weight_w16_\ext\()_neon, export=0
 288     load_weights_\ext
 289 1:  // height loop
 290     subs            lr,  lr,  #2
 291     load_\ext       d0-d1, d2-d3
 292     weight_\ext     q8,  d0,  d2
 293     weight_\ext     q9,  d1,  d3
 294     load_\ext       d4-d5, d6-d7
 295     weight_\ext     q10, d4,  d6
 296     weight_\ext     q11, d5,  d7
 297     vqrshrun.s16    d0,  q8,  #6
 298     vqrshrun.s16    d1,  q9,  #6
 299     vqrshrun.s16    d2,  q10, #6
 300     vqrshrun.s16    d3,  q11, #6
 301     vst1.64         {d0-d1}, [r0,:128], r1
 302     vst1.64         {d2-d3}, [r0,:128], r1
 303     bgt             1b
 304     pop             {r4-r6,pc}
 305 endfunc
 306 .endm
 307
 308 AVG_WEIGHT add_add
 309 AVG_WEIGHT add_sub
 310 AVG_WEIGHT sub_add
 311
 312 function x264_pixel_avg_w4_neon, export=0
 313     subs        lr,  lr,  #2
 314     vld1.32     {d0[]}, [r2], r3
 315     vld1.32     {d2[]}, [r4], r5
 316     vrhadd.u8   d0,  d0,  d2
 317     vld1.32     {d1[]}, [r2], r3
 318     vld1.32     {d3[]}, [r4], r5
 319     vrhadd.u8   d1,  d1,  d3
 320     vst1.32     {d0[0]}, [r0,:32], r1
 321     vst1.32     {d1[0]}, [r0,:32], r1
 322     bgt         x264_pixel_avg_w4_neon
 323     pop         {r4-r6,pc}
 324 endfunc
 325
 326 function x264_pixel_avg_w8_neon, export=0
 327     subs        lr,  lr,  #4
 328     vld1.64     {d0}, [r2], r3
 329     vld1.64     {d2}, [r4], r5
 330     vrhadd.u8   d0,  d0,  d2
 331     vld1.64     {d1}, [r2], r3
 332     vld1.64     {d3}, [r4], r5
 333     vrhadd.u8   d1,  d1,  d3
 334     vst1.64     {d0}, [r0,:64], r1
 335     vld1.64     {d2}, [r2], r3
 336     vld1.64     {d4}, [r4], r5
 337     vrhadd.u8   d2,  d2,  d4
 338     vst1.64     {d1}, [r0,:64], r1
 339     vld1.64     {d3}, [r2], r3
 340     vld1.64     {d5}, [r4], r5
 341     vrhadd.u8   d3,  d3,  d5
 342     vst1.64     {d2}, [r0,:64], r1
 343     vst1.64     {d3}, [r0,:64], r1
 344     bgt         x264_pixel_avg_w8_neon
 345     pop         {r4-r6,pc}
 346 endfunc
 347
 348 function x264_pixel_avg_w16_neon, export=0
 349     subs        lr,  lr,  #4
 350     vld1.64     {d0-d1}, [r2], r3
 351     vld1.64     {d2-d3}, [r4], r5
 352     vrhadd.u8   q0,  q0,  q1
 353     vld1.64     {d2-d3}, [r2], r3
 354     vld1.64     {d4-d5}, [r4], r5
 355     vrhadd.u8   q1,  q1,  q2
 356     vst1.64     {d0-d1}, [r0,:128], r1
 357     vld1.64     {d4-d5}, [r2], r3
 358     vld1.64     {d6-d7}, [r4], r5
 359     vrhadd.u8   q2,  q2,  q3
 360     vst1.64     {d2-d3}, [r0,:128], r1
 361     vld1.64     {d6-d7}, [r2], r3
 362     vld1.64     {d0-d1}, [r4], r5
 363     vrhadd.u8   q3,  q3,  q0
 364     vst1.64     {d4-d5}, [r0,:128], r1
 365     vst1.64     {d6-d7}, [r0,:128], r1
 366     bgt         x264_pixel_avg_w16_neon
 367     pop         {r4-r6,pc}
 368 endfunc
 369
 370
 371 function x264_pixel_avg2_w4_neon
 372     ldr         ip,  [sp, #4]
 373     push        {lr}
 374     ldr         lr,  [sp, #4]
 375 avg2_w4_loop:
 376     subs        ip,  ip,  #2
 377     vld1.32     {d0[]},  [r2], r3
 378     vld1.32     {d2[]},  [lr], r3
 379     vrhadd.u8   d0,  d0,  d2
 380     vld1.32     {d1[]},  [r2], r3
 381     vld1.32     {d3[]},  [lr], r3
 382     vrhadd.u8   d1,  d1,  d3
 383     vst1.32     {d0[0]}, [r0,:32], r1
 384     vst1.32     {d1[0]}, [r0,:32], r1
 385     bgt         avg2_w4_loop
 386     pop         {pc}
 387 endfunc
 388
 389 function x264_pixel_avg2_w8_neon
 390     ldr         ip,  [sp, #4]
 391     push        {lr}
 392     ldr         lr,  [sp, #4]
 393 avg2_w8_loop:
 394     subs        ip,  ip,  #2
 395     vld1.64     {d0}, [r2], r3
 396     vld1.64     {d2}, [lr], r3
 397     vrhadd.u8   d0,  d0,  d2
 398     vld1.64     {d1}, [r2], r3
 399     vld1.64     {d3}, [lr], r3
 400     vrhadd.u8   d1,  d1,  d3
 401     vst1.64     {d0}, [r0,:64], r1
 402     vst1.64     {d1}, [r0,:64], r1
 403     bgt         avg2_w8_loop
 404     pop         {pc}
 405 endfunc
 406
 407 function x264_pixel_avg2_w16_neon
 408     ldr         ip,  [sp, #4]
 409     push        {lr}
 410     ldr         lr,  [sp, #4]
 411 avg2_w16_loop:
 412     subs        ip,  ip,  #2
 413     vld1.64     {d0-d1}, [r2], r3
 414     vld1.64     {d2-d3}, [lr], r3
 415     vrhadd.u8   q0,  q0,  q1
 416     vld1.64     {d4-d5}, [r2], r3
 417     vld1.64     {d6-d7}, [lr], r3
 418     vrhadd.u8   q2,  q2,  q3
 419     vst1.64     {d0-d1}, [r0,:128], r1
 420     vst1.64     {d4-d5}, [r0,:128], r1
 421     bgt         avg2_w16_loop
 422     pop         {pc}
 423 endfunc
 424
 425 function x264_pixel_avg2_w20_neon
 426     ldr         ip,  [sp, #4]
 427     push        {lr}
 428     sub         r1,  r1,  #16
 429     ldr         lr,  [sp, #4]
 430 avg2_w20_loop:
 431     subs        ip,  ip,  #2
 432     vld1.64     {d0-d2},  [r2], r3
 433     vld1.64     {d4-d6},  [lr], r3
 434     vrhadd.u8   q0,  q0,  q2
 435     vrhadd.u8   d2,  d2,  d6
 436     vld1.64     {d4-d6},  [r2], r3
 437     vld1.64     {d16-d18},[lr], r3
 438     vrhadd.u8   q2,  q2,  q8
 439     vst1.64     {d0-d1},  [r0,:128]!
 440     vrhadd.u8   d6,  d6,  d18
 441     vst1.32     {d2[0]},  [r0,:32], r1
 442     vst1.64     {d4-d5},  [r0,:128]!
 443     vst1.32     {d6[0]},  [r0,:32], r1
 444     bgt         avg2_w20_loop
 445     pop         {pc}
 446 endfunc
 447
 448
 449 .macro weight_prologue type
 450     push        {r4-r5,lr}
 451     ldr         r4,  [sp, #4*3]     // weight_t
 452     ldr         ip,  [sp, #4*3+4]   // h
 453 .ifc \type, full
 454     ldr         lr,  [r4, #32]      // denom
 455 .endif
 456     ldrd        r4,  r5,  [r4, #32+4]    // scale, offset
 457     vdup.8      d0,  r4
 458     vdup.16     q1,  r5
 459 .ifc \type, full
 460     rsb         lr,  lr,  #0
 461     vdup.16     q2,  lr
 462 .endif
 463 .endm
 464
 465 // void mc_weight( uint8_t *src, intptr_t src_stride, uint8_t *dst, intptr_t dst_stride,
 466 //                 const x264_weight_t *weight, int height )
 467 function x264_mc_weight_w20_neon
 468     weight_prologue full
 469     sub         r1, #16
 470 weight20_loop:
 471     subs        ip,  #2
 472     vld1.8      {d17-d19}, [r2], r3
 473     vmull.u8    q10, d17, d0
 474     vmull.u8    q11, d18, d0
 475     vld1.8      {d16-d18}, [r2], r3
 476     vmull.u8    q12, d16, d0
 477     vmull.u8    q13, d17, d0
 478     vtrn.32     d19, d18
 479     vmull.u8    q14, d19, d0
 480     vrshl.s16   q10, q10, q2
 481     vrshl.s16   q11, q11, q2
 482     vrshl.s16   q12, q12, q2
 483     vrshl.s16   q13, q13, q2
 484     vrshl.s16   q14, q14, q2
 485     vadd.s16    q10, q10, q1
 486     vadd.s16    q11, q11, q1
 487     vadd.s16    q12, q12, q1
 488     vadd.s16    q13, q13, q1
 489     vadd.s16    q14, q14, q1
 490     vqmovun.s16 d16, q10
 491     vqmovun.s16 d17, q11
 492     vqmovun.s16 d18, q12
 493     vqmovun.s16 d19, q13
 494     vqmovun.s16 d20, q14
 495     vst1.8      {d16-d17}, [r0,:128]!
 496     vst1.32     {d20[0]},  [r0,:32], r1
 497     vst1.8      {d18-d19}, [r0,:128]!
 498     vst1.32     {d20[1]},  [r0,:32], r1
 499     bgt         weight20_loop
 500     pop         {r4-r5,pc}
 501 endfunc
 502
 503 function x264_mc_weight_w16_neon
 504     weight_prologue full
 505 weight16_loop:
 506     subs        ip,  #2
 507     vld1.8      {d16-d17}, [r2], r3
 508     vld1.8      {d18-d19}, [r2], r3
 509     vmull.u8    q10, d16, d0
 510     vmull.u8    q11, d17, d0
 511     vmull.u8    q12, d18, d0
 512     vmull.u8    q13, d19, d0
 513     vrshl.s16   q10, q10, q2
 514     vrshl.s16   q11, q11, q2
 515     vrshl.s16   q12, q12, q2
 516     vrshl.s16   q13, q13, q2
 517     vadd.s16    q10, q10, q1
 518     vadd.s16    q11, q11, q1
 519     vadd.s16    q12, q12, q1
 520     vadd.s16    q13, q13, q1
 521     vqmovun.s16 d16, q10
 522     vqmovun.s16 d17, q11
 523     vqmovun.s16 d18, q12
 524     vqmovun.s16 d19, q13
 525     vst1.8      {d16-d17}, [r0,:128], r1
 526     vst1.8      {d18-d19}, [r0,:128], r1
 527     bgt         weight16_loop
 528     pop         {r4-r5,pc}
 529 endfunc
 530
 531 function x264_mc_weight_w8_neon
 532     weight_prologue full
 533 weight8_loop:
 534     subs        ip,  #2
 535     vld1.8      {d16}, [r2], r3
 536     vld1.8      {d18}, [r2], r3
 537     vmull.u8    q8,  d16, d0
 538     vmull.u8    q9,  d18, d0
 539     vrshl.s16   q8,  q8,  q2
 540     vrshl.s16   q9,  q9,  q2
 541     vadd.s16    q8,  q8,  q1
 542     vadd.s16    q9,  q9,  q1
 543     vqmovun.s16 d16, q8
 544     vqmovun.s16 d18, q9
 545     vst1.8      {d16}, [r0,:64], r1
 546     vst1.8      {d18}, [r0,:64], r1
 547     bgt         weight8_loop
 548     pop         {r4-r5,pc}
 549 endfunc
 550
 551 function x264_mc_weight_w4_neon
 552     weight_prologue full
 553 weight4_loop:
 554     subs        ip,  #2
 555     vld1.32     {d16[0]}, [r2], r3
 556     vld1.32     {d16[1]}, [r2], r3
 557     vmull.u8    q8,  d16, d0
 558     vrshl.s16   q8,  q8,  q2
 559     vadd.s16    q8,  q8,  q1
 560     vqmovun.s16 d16, q8
 561     vst1.32     {d16[0]}, [r0], r1
 562     vst1.32     {d16[1]}, [r0], r1
 563     bgt         weight4_loop
 564     pop         {r4-r5,pc}
 565 endfunc
 566
 567 function x264_mc_weight_w20_nodenom_neon
 568     weight_prologue nodenom
 569     sub         r1, #16
 570 weight20_nodenom_loop:
 571     subs        ip,  #2
 572     vld1.8      {d26-d28}, [r2], r3
 573     vmov        q8,  q1
 574     vmov        q9,  q1
 575     vld1.8      {d29-d31}, [r2], r3
 576     vmov        q10, q1
 577     vmov        q11, q1
 578     vmov        q12, q1
 579     vtrn.32     d28, d31
 580     vmlal.u8    q8,  d26, d0
 581     vmlal.u8    q9,  d27, d0
 582     vmlal.u8    q10, d29, d0
 583     vmlal.u8    q11, d30, d0
 584     vmlal.u8    q12, d28, d0
 585     vqmovun.s16 d16, q8
 586     vqmovun.s16 d17, q9
 587     vqmovun.s16 d18, q10
 588     vqmovun.s16 d19, q11
 589     vqmovun.s16 d20, q12
 590     vst1.8      {d16-d17}, [r0,:128]!
 591     vst1.32     {d20[0]},  [r0,:32], r1
 592     vst1.8      {d18-d19}, [r0,:128]!
 593     vst1.32     {d20[1]},  [r0,:32], r1
 594     bgt         weight20_nodenom_loop
 595     pop         {r4-r5,pc}
 596 endfunc
 597
 598 function x264_mc_weight_w16_nodenom_neon
 599     weight_prologue nodenom
 600 weight16_nodenom_loop:
 601     subs        ip,  #2
 602     vld1.8      {d16-d17}, [r2], r3
 603     vld1.8      {d18-d19}, [r2], r3
 604     vmov        q12, q1
 605     vmov        q13, q1
 606     vmov        q14, q1
 607     vmov        q15, q1
 608     vmlal.u8    q12, d16, d0
 609     vmlal.u8    q13, d17, d0
 610     vmlal.u8    q14, d18, d0
 611     vmlal.u8    q15, d19, d0
 612     vqmovun.s16 d16, q12
 613     vqmovun.s16 d17, q13
 614     vqmovun.s16 d18, q14
 615     vqmovun.s16 d19, q15
 616     vst1.8      {d16-d17}, [r0,:128], r1
 617     vst1.8      {d18-d19}, [r0,:128], r1
 618     bgt         weight16_nodenom_loop
 619     pop         {r4-r5,pc}
 620 endfunc
 621
 622 function x264_mc_weight_w8_nodenom_neon
 623     weight_prologue nodenom
 624 weight8_nodenom_loop:
 625     subs        ip,  #2
 626     vld1.8      {d16}, [r2], r3
 627     vld1.8      {d18}, [r2], r3
 628     vmov        q10, q1
 629     vmov        q11, q1
 630     vmlal.u8    q10, d16, d0
 631     vmlal.u8    q11, d18, d0
 632     vqmovun.s16 d16, q10
 633     vqmovun.s16 d17, q11
 634     vst1.8      {d16}, [r0,:64], r1
 635     vst1.8      {d17}, [r0,:64], r1
 636     bgt         weight8_nodenom_loop
 637     pop         {r4-r5,pc}
 638 endfunc
 639
 640 function x264_mc_weight_w4_nodenom_neon
 641     weight_prologue nodenom
 642 weight4_nodenom_loop:
 643     subs        ip,  #2
 644     vld1.32     {d16[0]}, [r2], r3
 645     vld1.32     {d16[1]}, [r2], r3
 646     vmov        q10, q1
 647     vmlal.u8    q10, d16, d0
 648     vqmovun.s16 d16, q10
 649     vst1.32     {d16[0]}, [r0], r1
 650     vst1.32     {d16[1]}, [r0], r1
 651     bgt         weight4_nodenom_loop
 652     pop         {r4-r5,pc}
 653 endfunc
 654
 655 .macro weight_simple_prologue
 656     push        {lr}
 657     ldr         lr,  [sp, #4]       // weight_t
 658     ldr         ip,  [sp, #8]       // h
 659     ldr         lr,  [lr]           // offset
 660     vdup.8      q1,  lr
 661 .endm
 662
 663 .macro weight_simple name op
 664 function x264_mc_weight_w20_\name\()_neon
 665     weight_simple_prologue
 666 weight20_\name\()_loop:
 667     subs        ip,  #2
 668     vld1.8      {d16-d18}, [r2], r3
 669     vld1.8      {d19-d21}, [r2], r3
 670     \op         q8,  q8,  q1
 671     \op         q9,  q9,  q1
 672     \op         q10, q10, q1
 673     vst1.8      {d16-d18}, [r0,:64], r1
 674     vst1.8      {d19-d21}, [r0,:64], r1
 675     bgt         weight20_\name\()_loop
 676     pop         {pc}
 677 endfunc
 678
 679 function x264_mc_weight_w16_\name\()_neon
 680     weight_simple_prologue
 681 weight16_\name\()_loop:
 682     subs        ip,  #2
 683     vld1.8      {d16-d17}, [r2], r3
 684     vld1.8      {d18-d19}, [r2], r3
 685     \op         q8,  q8,  q1
 686     \op         q9,  q9,  q1
 687     vst1.8      {d16-d17}, [r0,:128], r1
 688     vst1.8      {d18-d19}, [r0,:128], r1
 689     bgt         weight16_\name\()_loop
 690     pop         {pc}
 691 endfunc
 692
 693 function x264_mc_weight_w8_\name\()_neon
 694     weight_simple_prologue
 695 weight8_\name\()_loop:
 696     subs        ip,  #2
 697     vld1.8      {d16}, [r2], r3
 698     vld1.8      {d17}, [r2], r3
 699     \op         q8,  q8,  q1
 700     vst1.8      {d16}, [r0,:64], r1
 701     vst1.8      {d17}, [r0,:64], r1
 702     bgt         weight8_\name\()_loop
 703     pop         {pc}
 704 endfunc
 705
 706 function x264_mc_weight_w4_\name\()_neon
 707     weight_simple_prologue
 708 weight4_\name\()_loop:
 709     subs        ip,  #2
 710     vld1.32     {d16[]}, [r2], r3
 711     vld1.32     {d17[]}, [r2], r3
 712     \op         q8,  q8,  q1
 713     vst1.32     {d16[0]}, [r0], r1
 714     vst1.32     {d17[0]}, [r0], r1
 715     bgt         weight4_\name\()_loop
 716     pop         {pc}
 717 endfunc
 718 .endm
 719
 720 weight_simple offsetadd, vqadd.u8
 721 weight_simple offsetsub, vqsub.u8
 722
 723
 724 // void mc_copy( uint8_t *dst, intptr_t dst_stride, uint8_t *src, intptr_t src_stride, int height )
 725 function x264_mc_copy_w4_neon
 726     ldr         ip,  [sp]
 727 copy_w4_loop:
 728     subs        ip,  ip,  #4
 729     vld1.32     {d0[]},  [r2], r3
 730     vld1.32     {d1[]},  [r2], r3
 731     vld1.32     {d2[]},  [r2], r3
 732     vld1.32     {d3[]},  [r2], r3
 733     vst1.32     {d0[0]}, [r0,:32], r1
 734     vst1.32     {d1[0]}, [r0,:32], r1
 735     vst1.32     {d2[0]}, [r0,:32], r1
 736     vst1.32     {d3[0]}, [r0,:32], r1
 737     bgt         copy_w4_loop
 738     bx          lr
 739 endfunc
 740
 741 function x264_mc_copy_w8_neon
 742     ldr         ip,  [sp]
 743 copy_w8_loop:
 744     subs        ip,  ip,  #4
 745     vld1.32     {d0}, [r2], r3
 746     vld1.32     {d1}, [r2], r3
 747     vld1.32     {d2}, [r2], r3
 748     vld1.32     {d3}, [r2], r3
 749     vst1.32     {d0}, [r0,:64], r1
 750     vst1.32     {d1}, [r0,:64], r1
 751     vst1.32     {d2}, [r0,:64], r1
 752     vst1.32     {d3}, [r0,:64], r1
 753     bgt         copy_w8_loop
 754     bx          lr
 755 endfunc
 756
 757 function x264_mc_copy_w16_neon
 758     ldr         ip,  [sp]
 759 copy_w16_loop:
 760     subs        ip,  ip,  #4
 761     vld1.32     {d0-d1}, [r2], r3
 762     vld1.32     {d2-d3}, [r2], r3
 763     vld1.32     {d4-d5}, [r2], r3
 764     vld1.32     {d6-d7}, [r2], r3
 765     vst1.32     {d0-d1}, [r0,:128], r1
 766     vst1.32     {d2-d3}, [r0,:128], r1
 767     vst1.32     {d4-d5}, [r0,:128], r1
 768     vst1.32     {d6-d7}, [r0,:128], r1
 769     bgt         copy_w16_loop
 770     bx          lr
 771 endfunc
 772
 773 function x264_mc_copy_w16_aligned_neon
 774     ldr         ip,  [sp]
 775 copy_w16_aligned_loop:
 776     subs        ip,  ip,  #4
 777     vld1.32     {d0-d1}, [r2,:128], r3
 778     vld1.32     {d2-d3}, [r2,:128], r3
 779     vld1.32     {d4-d5}, [r2,:128], r3
 780     vld1.32     {d6-d7}, [r2,:128], r3
 781     vst1.32     {d0-d1}, [r0,:128], r1
 782     vst1.32     {d2-d3}, [r0,:128], r1
 783     vst1.32     {d4-d5}, [r0,:128], r1
 784     vst1.32     {d6-d7}, [r0,:128], r1
 785     bgt         copy_w16_aligned_loop
 786     bx          lr
 787 endfunc
 788
 789
 790 // void x264_mc_chroma_neon( uint8_t *dst, intptr_t i_dst_stride,
 791 //                           uint8_t *src, intptr_t i_src_stride,
 792 //                           int dx, int dy, int i_width, int i_height );
 793
 794 function x264_mc_chroma_neon
 795     push            {r4-r8, lr}
 796     vpush           {d8-d11}
 797     ldrd            r4, r5, [sp, #56]
 798     ldrd            r6, r7, [sp, #64]
 799
 800     asr             lr, r6, #3
 801     mul             lr, r4, lr
 802     add             r3, r3, r5, asr #2
 803     cmp             r7, #4
 804
 805     and             r5, r5, #7
 806     and             r6, r6, #7
 807
 808     add             r3, r3, lr
 809     bic             r3, r3, #0x1
 810
 811     pld             [r3]
 812     pld             [r3, r4]
 813
 814     bgt             mc_chroma_w8
 815     beq             mc_chroma_w4
 816
 817 .macro CHROMA_MC_START r00, r01, r10, r11
 818     muls            lr, r5, r6
 819     rsb             r7, lr, r6, lsl #3
 820     rsb             ip, lr, r5, lsl #3
 821     sub             r5, lr, r5, lsl #3
 822     sub             r5, r5, r6, lsl #3
 823     add             r5, r5, #64
 824
 825     beq             2f
 826     vld2.8          {\r00-\r01}, [r3], r4
 827
 828     vdup.8          d0,    r5
 829     vdup.8          d1,    ip
 830
 831     vdup.8          d2,    r7
 832     vld2.8          {\r10-\r11}, [r3], r4
 833     vdup.8          d3,    lr
 834     ldr             r5,    [sp, #72]
 835 .endm
 836
 837 .macro CHROMA_MC width, align
 838 mc_chroma_w\width:
 839     CHROMA_MC_START d4, d5,  d8, d9
 840     vext.8          d6,  d4,  d6,  #1
 841     vext.8          d7,  d5,  d7,  #1
 842     vext.8          d10, d8,  d10, #1
 843     vext.8          d11, d9,  d11, #1
 844 // since the element size varies, there's a different index for the 2nd store
 845 .if \width == 4
 846     .set st2, 1
 847 .else
 848     .set st2, 2
 849 .endif
 850
 851     vtrn.32         d4, d6
 852     vtrn.32         d5, d7
 853     vtrn.32         d8, d10
 854     vtrn.32         d9, d11
 855
 856     vtrn.32         d0, d1
 857     vtrn.32         d2, d3
 858
 859 1:  // height loop, interpolate xy
 860
 861     vmull.u8        q8,  d4,  d0
 862     vmlal.u8        q8,  d8,  d2
 863     vmull.u8        q9,  d5,  d0
 864     vmlal.u8        q9,  d9,  d2
 865
 866     vld2.8          {d4-d5},  [r3], r4
 867
 868     vext.8          d6,  d4,  d6,  #1
 869     vext.8          d7,  d5,  d7,  #1
 870
 871     vadd.i16        d16, d16, d17
 872     vadd.i16        d17, d18, d19
 873
 874     vtrn.32         d4,  d6
 875     vtrn.32         d5,  d7
 876
 877     vmull.u8        q10, d8,  d0
 878     vmlal.u8        q10, d4,  d2
 879     vmull.u8        q11, d9,  d0
 880     vmlal.u8        q11, d5,  d2
 881
 882     vld2.8          {d8-d9},  [r3], r4
 883
 884     vrshrn.u16      d16, q8,  #6
 885
 886     vext.8          d10, d8,  d10,  #1
 887     vext.8          d11, d9,  d11,  #1
 888
 889     vadd.i16        d18, d20, d21
 890     vadd.i16        d19, d22, d23
 891
 892     vtrn.32         d8, d10
 893     vtrn.32         d9, d11
 894
 895     vrshrn.u16      d18, q9,  #6
 896
 897     subs            r5,  r5,  #2
 898
 899     pld             [r3]
 900     pld             [r3, r4]
 901
 902     vst1.\align     {d16[0]},   [r0,:\align], r2
 903     vst1.\align     {d16[st2]}, [r1,:\align], r2
 904     vst1.\align     {d18[0]},   [r0,:\align], r2
 905     vst1.\align     {d18[st2]}, [r1,:\align], r2
 906     bgt             1b
 907
 908     vpop            {d8-d11}
 909     pop             {r4-r8, pc}
 910
 911 2:  // dx or dy are 0
 912     tst             r7,  r7
 913     add             ip,  ip,  r7
 914     vdup.8          d0,  r5
 915     ldr             r5,  [sp, #72]
 916     vdup.8          d1,  ip
 917
 918     beq             4f
 919
 920     vld1.64          {d4}, [r3], r4
 921     vld1.64          {d6}, [r3], r4
 922
 923 3:  // vertical interpolation loop
 924
 925     vmull.u8        q8,  d4,  d0
 926     vmlal.u8        q8,  d6,  d1
 927     vmull.u8        q9,  d6,  d0
 928     vld1.64         {d4}, [r3], r4
 929     vmlal.u8        q9,  d4,  d1
 930     vld1.64         {d6}, [r3], r4
 931
 932     vrshrn.u16      d16, q8,  #6 // uvuvuvuv
 933     vrshrn.u16      d17, q9,  #6 // uvuvuvuv
 934     subs            r5,  r5,  #2
 935     vuzp.8          d16, d17 // d16=uuuu|uuuu, d17=vvvv|vvvv
 936
 937     pld             [r3]
 938     pld             [r3, r4]
 939
 940     vst1.\align     {d16[0]},   [r0,:\align], r2
 941     vst1.\align     {d16[st2]}, [r0,:\align], r2
 942     vst1.\align     {d17[0]},   [r1,:\align], r2
 943     vst1.\align     {d17[st2]}, [r1,:\align], r2
 944     bgt             3b
 945
 946     vpop            {d8-d11}
 947     pop             {r4-r8, pc}
 948
 949 4:  // dy is 0
 950
 951     vld1.64         {d4-d5},  [r3], r4
 952     vld1.64         {d6-d7},  [r3], r4
 953
 954     vext.8          d5,  d4,  d5,  #2
 955     vext.8          d7,  d6,  d7,  #2
 956
 957 5:  // horizontal interpolation loop
 958
 959     vmull.u8        q8,  d4,  d0
 960     vmlal.u8        q8,  d5,  d1
 961     vmull.u8        q9,  d6,  d0
 962     vmlal.u8        q9,  d7,  d1
 963
 964     subs            r5,  r5,  #2
 965     vld1.64         {d4-d5},  [r3], r4
 966     vld1.64         {d6-d7},  [r3], r4
 967     vext.8          d5,  d4,  d5,  #2
 968     vrshrn.u16      d16, q8,  #6
 969     vrshrn.u16      d17, q9,  #6
 970     vext.8          d7,  d6,  d7,  #2
 971     vuzp.8          d16, d17
 972
 973     pld             [r3]
 974     pld             [r3, r4]
 975
 976     vst1.\align     {d16[0]},   [r0,:\align], r2
 977     vst1.\align     {d16[st2]}, [r0,:\align], r2
 978     vst1.\align     {d17[0]},   [r1,:\align], r2
 979     vst1.\align     {d17[st2]}, [r1,:\align], r2
 980     bgt             5b
 981
 982     vpop            {d8-d11}
 983     pop             {r4-r8, pc}
 984 .endm
 985
 986    CHROMA_MC 2, 16
 987    CHROMA_MC 4, 32
 988
 989 mc_chroma_w8:
 990     CHROMA_MC_START d4, d7, d8, d11
 991     vext.8          d5,  d4,  d5,  #1
 992     vext.8          d9,  d8,  d9,  #1
 993     vext.8          d7,  d6,  d7,  #1
 994     vext.8          d11, d10, d11,  #1
 995
 996 1:  // height loop, interpolate xy
 997     vmull.u8        q8,  d4,  d0
 998     vmlal.u8        q8,  d5,  d1
 999     vmlal.u8        q8,  d8,  d2
1000     vmlal.u8        q8,  d9,  d3
1001
1002     vmull.u8        q9,  d6,  d0
1003     vmlal.u8        q9,  d7,  d1
1004     vmlal.u8        q9,  d10,  d2
1005     vmlal.u8        q9,  d11,  d3
1006
1007     vld2.8          {d4-d7}, [r3], r4
1008
1009     vext.8          d5,  d4,  d5,  #1
1010     vext.8          d7,  d6,  d7,  #1
1011
1012     vmull.u8        q10, d8,   d0
1013     vmlal.u8        q10, d9,   d1
1014     vmlal.u8        q10, d4,   d2
1015     vmlal.u8        q10, d5,   d3
1016
1017     vmull.u8        q11, d10,  d0
1018     vmlal.u8        q11, d11,  d1
1019     vmlal.u8        q11, d6,   d2
1020     vmlal.u8        q11, d7,   d3
1021
1022     subs            r5,  r5,   #2
1023     vld2.8          {d8-d11}, [r3], r4
1024
1025     vrshrn.u16      d16, q8,  #6
1026     vrshrn.u16      d17, q9,  #6
1027     vrshrn.u16      d18, q10, #6
1028     vext.8          d9,  d8,  d9,  #1
1029     vrshrn.u16      d19, q11, #6
1030     vext.8          d11, d10, d11,  #1
1031
1032     pld             [r3]
1033     pld             [r3, r4]
1034
1035     vst1.64         {d16}, [r0,:64], r2
1036     vst1.64         {d17}, [r1,:64], r2
1037     vst1.64         {d18}, [r0,:64], r2
1038     vst1.64         {d19}, [r1,:64], r2
1039
1040     bgt             1b
1041
1042     vpop            {d8-d11}
1043     pop             {r4-r8, pc}
1044
1045 2:  // dx or dy are 0
1046     tst             r7,  r7
1047     add             ip,  ip,  r7
1048     vdup.8          d0,  r5
1049     ldr             r5,  [sp, #72]
1050     vdup.8          d1,  ip
1051
1052     beq             4f
1053
1054     vld2.8          {d4-d5}, [r3], r4
1055     vld2.8          {d6-d7}, [r3], r4
1056
1057 3:  // vertical interpolation loop
1058     vmull.u8        q8,  d4,  d0 //U
1059     vmlal.u8        q8,  d6,  d1
1060     vmull.u8        q9,  d5,  d0 //V
1061     vmlal.u8        q9,  d7,  d1
1062
1063     vld2.8          {d4-d5}, [r3], r4
1064
1065     vmull.u8        q10, d6,  d0
1066     vmlal.u8        q10, d4,  d1
1067     vmull.u8        q11, d7,  d0
1068     vmlal.u8        q11, d5,  d1
1069
1070     vld2.8          {d6-d7}, [r3], r4
1071
1072     vrshrn.u16      d16, q8,  #6
1073     vrshrn.u16      d17, q9,  #6
1074     vrshrn.u16      d18, q10, #6
1075     vrshrn.u16      d19, q11, #6
1076     subs            r5,  r5,  #2
1077
1078     pld             [r3]
1079     pld             [r3, r4]
1080
1081     vst1.64         {d16}, [r0,:64], r2
1082     vst1.64         {d17}, [r1,:64], r2
1083     vst1.64         {d18}, [r0,:64], r2
1084     vst1.64         {d19}, [r1,:64], r2
1085
1086     bgt             3b
1087
1088     vpop            {d8-d11}
1089     pop             {r4-r8, pc}
1090
1091 4:  // dy is 0
1092
1093     vld2.8          {d4-d7},  [r3], r4
1094     vld2.8          {d8-d11}, [r3], r4
1095     vext.8          d5,  d4,  d5,  #1
1096     vext.8          d7,  d6,  d7,  #1
1097     vext.8          d9,  d8,  d9,  #1
1098     vext.8          d11, d10, d11, #1
1099
1100 5:  // horizontal interpolation loop
1101     subs            r5,  r5,  #2
1102     vmull.u8        q8,  d4,  d0 //U
1103     vmlal.u8        q8,  d5,  d1
1104     vmull.u8        q9,  d6,  d0 //V
1105     vmlal.u8        q9,  d7,  d1
1106
1107     vld2.8          {d4-d7}, [r3], r4
1108
1109     vmull.u8        q10, d8,  d0
1110     vmlal.u8        q10, d9,  d1
1111     vmull.u8        q11, d10, d0
1112     vmlal.u8        q11, d11, d1
1113
1114     vld2.8          {d8-d11}, [r3], r4
1115
1116     vext.8          d5,  d4,  d5,  #1
1117     vrshrn.u16      d16, q8,  #6
1118     vext.8          d7,  d6,  d7,  #1
1119     vrshrn.u16      d17, q9,  #6
1120     vext.8          d9,  d8,  d9,  #1
1121     vrshrn.u16      d18, q10, #6
1122     vext.8          d11, d10, d11, #1
1123     vrshrn.u16      d19, q11, #6
1124
1125     pld             [r3]
1126     pld             [r3, r4]
1127
1128     vst1.64         {d16}, [r0,:64], r2
1129     vst1.64         {d17}, [r1,:64], r2
1130     vst1.64         {d18}, [r0,:64], r2
1131     vst1.64         {d19}, [r1,:64], r2
1132     bgt             5b
1133
1134     vpop            {d8-d11}
1135     pop             {r4-r8, pc}
1136
1137 endfunc
1138
1139
1140 // hpel_filter_v( uint8_t *dst, uint8_t *src, int16_t *buf, intptr_t stride, int width )
1141 function x264_hpel_filter_v_neon
1142     ldr             ip,  [sp]
1143     sub             r1,  r1,  r3,  lsl #1
1144     push            {lr}
1145     add             lr,  r1,  ip
1146     vmov.u8         d30, #5
1147     vmov.u8         d31, #20
1148
1149 filter_v_loop:
1150     subs            ip,  ip,  #16
1151     vld1.64         {d0-d1},   [r1,:128], r3
1152     vld1.64         {d2-d3},   [r1,:128], r3
1153     vld1.64         {d4-d5},   [r1,:128], r3
1154     vld1.64         {d6-d7},   [r1,:128], r3
1155     vld1.64         {d16-d17}, [r1,:128], r3
1156     vld1.64         {d18-d19}, [r1,:128], r3
1157     sub             r1,  lr,  ip
1158
1159     vaddl.u8        q10, d0,  d18
1160     vmlsl.u8        q10, d2,  d30
1161     vmlal.u8        q10, d4,  d31
1162     vmlal.u8        q10, d6,  d31
1163     vmlsl.u8        q10, d16, d30
1164
1165     vaddl.u8        q11, d1,  d19
1166     vmlsl.u8        q11, d3,  d30
1167     vmlal.u8        q11, d5,  d31
1168     vmlal.u8        q11, d7,  d31
1169     vmlsl.u8        q11, d17, d30
1170
1171     vqrshrun.s16    d0,  q10, #5
1172     vst1.64         {d20-d21}, [r2,:128]!
1173     vqrshrun.s16    d1,  q11, #5
1174     vst1.64         {d22-d23}, [r2,:128]!
1175     vst1.64         {d0-d1},   [r0,:128]!
1176     bgt             filter_v_loop
1177     pop             {pc}
1178 endfunc
1179
1180 // hpel_filter_c( uint8_t *dst, int16_t *buf, int width );
1181 function x264_hpel_filter_c_neon
1182     sub             r1,  #16
1183     vld1.64         {d0-d3}, [r1,:128]!
1184
1185     // unrolled 2x: 4% faster
1186 filter_c_loop:
1187     subs            r2,  r2,  #16
1188     vld1.64         {d4-d7}, [r1,:128]!
1189     vext.16         q8,  q0,  q1,  #6
1190     vext.16         q12, q1,  q2,  #3
1191     vadd.s16        q8,  q8,  q12
1192     vext.16         q9,  q0,  q1,  #7
1193     vext.16         q11, q1,  q2,  #2
1194     vadd.s16        q9,  q9,  q11
1195     vext.16         q10, q1,  q2,  #1
1196     vext.16         q11, q1,  q2,  #6
1197     vadd.s16        q10, q1,  q10
1198     vsub.s16        q8,  q8,  q9    // a-b
1199     vext.16         q15, q2,  q3,  #3
1200     vsub.s16        q9,  q9,  q10   // b-c
1201
1202     vext.16         q12, q1,  q2,  #7
1203     vshr.s16        q8,  q8,  #2    // (a-b)/4
1204     vadd.s16        q11, q11, q15
1205     vext.16         q14, q2,  q3,  #2
1206     vsub.s16        q8,  q8,  q9    // (a-b)/4-b+c
1207     vadd.s16        q12, q12, q14
1208     vext.16         q13, q2,  q3,  #1
1209
1210     vshr.s16        q8,  q8,  #2    // ((a-b)/4-b+c)/4
1211     vadd.s16        q13, q2,  q13
1212     vadd.s16        q8,  q8,  q10   // ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
1213     vsub.s16        q11, q11, q12   // a-b
1214     vsub.s16        q12, q12, q13   // b-c
1215     vshr.s16        q11, q11, #2    // (a-b)/4
1216     vqrshrun.s16    d30, q8,  #6
1217     vsub.s16        q11, q11, q12   // (a-b)/4-b+c
1218     vshr.s16        q11, q11, #2    // ((a-b)/4-b+c)/4
1219     vld1.64         {d0-d3}, [r1,:128]!
1220     vadd.s16        q11, q11, q13   // ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
1221
1222     vext.16         q8,  q2,  q3,  #6
1223     vqrshrun.s16    d31, q11,  #6
1224     vext.16         q12, q3,  q0,  #3
1225     vadd.s16        q8,  q8,  q12
1226     vext.16         q9,  q2,  q3,  #7
1227     vst1.64         {d30-d31}, [r0,:128]!
1228     bxle            lr
1229     subs            r2,  r2,  #16
1230
1231     vext.16         q11, q3,  q0,  #2
1232     vadd.s16        q9,  q9,  q11
1233     vext.16         q10, q3,  q0,  #1
1234     vext.16         q11, q3,  q0,  #6
1235     vadd.s16        q10, q3,  q10
1236     vsub.s16        q8,  q8,  q9    // a-b
1237     vext.16         q15, q0,  q1,  #3
1238     vsub.s16        q9,  q9,  q10   // b-c
1239
1240     vext.16         q12, q3,  q0,  #7
1241     vshr.s16        q8,  q8,  #2    // (a-b)/4
1242     vadd.s16        q11, q11, q15
1243     vext.16         q14, q0,  q1,  #2
1244     vsub.s16        q8,  q8,  q9    // (a-b)/4-b+c
1245     vadd.s16        q12, q12, q14
1246     vext.16         q13, q0,  q1,  #1
1247
1248     vshr.s16        q8,  q8,  #2    // ((a-b)/4-b+c)/4
1249     vadd.s16        q13, q0,  q13
1250     vadd.s16        q8,  q8,  q10   // ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
1251     vsub.s16        q11, q11, q12   // a-b
1252     vsub.s16        q12, q12, q13   // b-c
1253     vshr.s16        q11, q11, #2    // (a-b)/4
1254     vqrshrun.s16    d30, q8,  #6
1255     vsub.s16        q11, q11, q12   // (a-b)/4-b+c
1256     vshr.s16        q11, q11, #2    // ((a-b)/4-b+c)/4
1257     vadd.s16        q11, q11, q13   // ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
1258
1259     vqrshrun.s16    d31, q11,  #6
1260     vst1.64         {d30-d31}, [r0,:128]!
1261     bgt             filter_c_loop
1262     bx              lr
1263 endfunc
1264
1265 // hpel_filter_h( uint8_t *dst, uint8_t *src, int width );
1266 function x264_hpel_filter_h_neon
1267     sub             r1,  #16
1268     vmov.u8         d30, #5
1269     vld1.64         {d0-d3}, [r1,:128]!
1270     vmov.u8         d31, #20
1271
1272     // unrolled 3x because it's 5% faster, due to mitigating
1273     // the high latency of multiplication and vqrshrun
1274 filter_h_loop:
1275     subs            r2,  r2,  #16
1276     vld1.64         {d4-d5}, [r1,:128]!
1277     vext.8          q8,  q0,  q1,  #14
1278     vext.8          q12, q1,  q2,  #3
1279     vaddl.u8        q13, d16, d24
1280     vext.8          q9,  q0,  q1,  #15
1281     vaddl.u8        q14, d17, d25
1282
1283     vext.8          q10, q1,  q2,  #1
1284     vmlal.u8        q13, d2,  d31
1285     vmlsl.u8        q13, d18, d30
1286     vext.8          q11, q1,  q2,  #2
1287     vmlal.u8        q13, d20, d31
1288     vmlsl.u8        q13, d22, d30
1289
1290     vmlsl.u8        q14, d19, d30
1291     vmlal.u8        q14, d3,  d31
1292     vmlal.u8        q14, d21, d31
1293     vmlsl.u8        q14, d23, d30
1294     vqrshrun.s16    d6,  q13, #5
1295
1296     vld1.64         {d0-d1}, [r1,:128]!
1297     vext.8          q8,  q1,  q2,  #14
1298     vext.8          q12, q2,  q0,  #3
1299     vaddl.u8        q13, d16, d24
1300     vqrshrun.s16    d7,  q14, #5
1301     vext.8          q9,  q1,  q2,  #15
1302     vaddl.u8        q14, d17, d25
1303
1304     vst1.64         {d6-d7}, [r0,:128]!
1305     bxle            lr
1306     subs            r2,  r2,  #16
1307
1308     vext.8          q10, q2,  q0,  #1
1309     vmlal.u8        q13, d4,  d31
1310     vmlsl.u8        q13, d18, d30
1311     vext.8          q11, q2,  q0,  #2
1312     vmlal.u8        q13, d20, d31
1313     vmlsl.u8        q13, d22, d30
1314
1315     vmlsl.u8        q14, d19, d30
1316     vmlal.u8        q14, d5,  d31
1317     vmlal.u8        q14, d21, d31
1318     vmlsl.u8        q14, d23, d30
1319     vqrshrun.s16    d6,  q13, #5
1320
1321     vld1.64         {d2-d3}, [r1,:128]!
1322     vext.8          q8,  q2,  q0,  #14
1323     vext.8          q12, q0,  q1,  #3
1324     vaddl.u8        q13, d16, d24
1325     vqrshrun.s16    d7,  q14, #5
1326     vext.8          q9,  q2,  q0,  #15
1327     vaddl.u8        q14, d17, d25
1328
1329     vst1.64         {d6-d7}, [r0,:128]!
1330     bxle            lr
1331     subs            r2,  r2,  #16
1332
1333     vext.8          q10, q0,  q1,  #1
1334     vmlal.u8        q13, d0,  d31
1335     vmlsl.u8        q13, d18, d30
1336     vext.8          q11, q0,  q1,  #2
1337     vmlal.u8        q13, d20, d31
1338     vmlsl.u8        q13, d22, d30
1339
1340     vmlsl.u8        q14, d19, d30
1341     vmlal.u8        q14, d1,  d31
1342     vmlal.u8        q14, d21, d31
1343     vmlsl.u8        q14, d23, d30
1344
1345     vqrshrun.s16    d6, q13, #5
1346     vqrshrun.s16    d7, q14, #5
1347     vst1.64         {d6-d7}, [r0,:128]!
1348     bgt             filter_h_loop
1349     bx              lr
1350 endfunc
1351
1352
1353 // frame_init_lowres_core( uint8_t *src0, uint8_t *dst0, uint8_t *dsth, uint8_t *dstv,
1354 //                         uint8_t *dstc, intptr_t src_stride, intptr_t dst_stride, int width,
1355 //                         int height )
1356 function x264_frame_init_lowres_core_neon
1357     push            {r4-r10,lr}
1358     vpush           {d8-d15}
1359     ldrd            r4,  r5,  [sp, #96]
1360     ldrd            r6,  r7,  [sp, #104]
1361     ldr             lr,  [sp, #112]
1362     sub             r10, r6,  r7            // dst_stride - width
1363     and             r10, r10, #~15
1364
1365 lowres_yloop:
1366     mov             ip,  r7                 // width
1367     mov             r6,  r0                 // src0
1368     add             r8,  r0,  r5            // src1 = src0 + src_stride
1369     add             r9,  r0,  r5,  lsl #1   // src2 = src1 + src_stride
1370
1371     vld2.8          {d8, d10}, [r6,:128]!
1372     vld2.8          {d12,d14}, [r8,:128]!
1373     vld2.8          {d16,d18}, [r9,:128]!
1374
1375 lowres_xloop:
1376     subs            ip,  ip,  #16
1377
1378     vld2.8          {d9, d11}, [r6,:128]!
1379     vld2.8          {d13,d15}, [r8,:128]!
1380     vrhadd.u8       q0,  q4,  q6
1381     vld2.8          {d17,d19}, [r9,:128]!
1382     vrhadd.u8       q5,  q5,  q7
1383     vld2.8          {d20,d22}, [r6,:128]!
1384     vrhadd.u8       q1,  q6,  q8
1385     vld2.8          {d24,d26}, [r8,:128]!
1386     vrhadd.u8       q7,  q7,  q9
1387     vext.8          q4,  q4,  q10, #1
1388     vrhadd.u8       q0,  q0,  q5
1389     vext.8          q6,  q6,  q12, #1
1390     vrhadd.u8       q1,  q1,  q7
1391     vld2.8          {d28,d30}, [r9,:128]!
1392     vrhadd.u8       q4,  q4,  q6
1393     vext.8          q8,  q8,  q14, #1
1394     vrhadd.u8       q6,  q6,  q8
1395     vst1.64         {d0-d1},   [r1,:128]!
1396     vrhadd.u8       q2,  q4,  q5
1397     vst1.64         {d2-d3},   [r3,:128]!
1398     vrhadd.u8       q3,  q6,  q7
1399     vst1.64         {d4-d5},   [r2,:128]!
1400     vst1.64         {d6-d7},   [r4,:128]!
1401
1402     ble             lowres_xloop_end
1403     subs            ip,  ip,  #16
1404
1405     vld2.8          {d21,d23}, [r6,:128]!
1406     vld2.8          {d25,d27}, [r8,:128]!
1407     vrhadd.u8       q0,  q10, q12
1408     vld2.8          {d29,d31}, [r9,:128]!
1409     vrhadd.u8       q11, q11, q13
1410     vld2.8          {d8, d10}, [r6,:128]!
1411     vrhadd.u8       q1,  q12, q14
1412     vld2.8          {d12,d14}, [r8,:128]!
1413     vrhadd.u8       q13, q13, q15
1414     vext.8          q10, q10, q4,  #1
1415     vrhadd.u8       q0,  q0,  q11
1416     vext.8          q12, q12, q6,  #1
1417     vrhadd.u8       q1,  q1,  q13
1418     vld2.8          {d16,d18}, [r9,:128]!
1419     vrhadd.u8       q10, q10, q12
1420     vext.8          q14, q14, q8,  #1
1421     vrhadd.u8       q12, q12, q14
1422     vst1.64         {d0-d1},   [r1,:128]!
1423     vrhadd.u8       q2,  q10, q11
1424     vst1.64         {d2-d3},   [r3,:128]!
1425     vrhadd.u8       q3,  q12, q13
1426     vst1.64         {d4-d5},   [r2,:128]!
1427     vst1.64         {d6-d7},   [r4,:128]!
1428
1429     bgt             lowres_xloop
1430
1431 lowres_xloop_end:
1432     subs            lr,  lr,  #1
1433     add             r0,  r0,  r5,  lsl #1
1434     add             r1,  r1,  r10
1435     add             r2,  r2,  r10
1436     add             r3,  r3,  r10
1437     add             r4,  r4,  r10
1438     bgt             lowres_yloop
1439
1440     vpop            {d8-d15}
1441     pop             {r4-r10,pc}
1442 endfunc
1443
1444 function x264_load_deinterleave_chroma_fdec_neon
1445     mov             ip,  #FDEC_STRIDE/2
1446 1:
1447     vld2.8          {d0-d1}, [r1,:128], r2
1448     subs            r3,  r3,  #1
1449     pld             [r1]
1450     vst1.8          {d0},    [r0,:64], ip
1451     vst1.8          {d1},    [r0,:64], ip
1452     bgt             1b
1453
1454     bx              lr
1455 endfunc
1456
1457 function x264_load_deinterleave_chroma_fenc_neon
1458     mov             ip,  #FENC_STRIDE/2
1459 1:
1460     vld2.8          {d0-d1}, [r1,:128], r2
1461     subs            r3,  r3,  #1
1462     pld             [r1]
1463     vst1.8          {d0},    [r0,:64], ip
1464     vst1.8          {d1},    [r0,:64], ip
1465     bgt             1b
1466
1467     bx              lr
1468 endfunc
1469
1470 function x264_plane_copy_neon
1471     push            {r4,lr}
1472     ldr             r4,  [sp, #8]
1473     ldr             lr,  [sp, #12]
1474     add             r12, r4,  #15
1475     bic             r4,  r12, #15
1476     sub             r1,  r1,  r4
1477     sub             r3,  r3,  r4
1478 1:
1479     mov             r12, r4
1480 16:
1481     tst             r12, #16
1482     beq             32f
1483     subs            r12, r12, #16
1484     vld1.8          {q0}, [r2]!
1485     vst1.8          {q0}, [r0]!
1486     beq             0f
1487 32:
1488     subs            r12, r12, #32
1489     vld1.8          {q0, q1}, [r2]!
1490     vst1.8          {q0, q1}, [r0]!
1491     bgt             32b
1492 0:
1493     subs            lr,  lr,  #1
1494     add             r2,  r2,  r3
1495     add             r0,  r0,  r1
1496     bgt             1b
1497
1498     pop             {r4,pc}
1499 endfunc
1500
1501 function x264_plane_copy_deinterleave_neon
1502     push            {r4-r7, lr}
1503     ldrd            r6, r7, [sp, #28]
1504     ldrd            r4, r5, [sp, #20]
1505     add             lr,  r6,  #15
1506     bic             lr,  lr,  #15
1507     sub             r1,  r1,  lr
1508     sub             r3,  r3,  lr
1509     sub             r5,  r5,  lr, lsl #1
1510 block:
1511     vld2.8          {d0-d3}, [r4,:128]!
1512     subs            lr,  lr,  #16
1513     vst1.8          {q0},    [r0]!
1514     vst1.8          {q1},    [r2]!
1515     bgt             block
1516
1517     add             r4,  r4,  r5
1518     subs            r7,  r7,  #1
1519     add             r0,  r0,  r1
1520     add             r2,  r2,  r3
1521     mov             lr,  r6
1522     bgt             block
1523
1524     pop             {r4-r7, pc}
1525 endfunc
1526
1527 function x264_plane_copy_deinterleave_rgb_neon
1528     push            {r4-r8, r10, r11, lr}
1529     ldrd            r4,  r5,  [sp, #32]
1530     ldrd            r6,  r7,  [sp, #40]
1531     ldr             r8,  [sp, #48]
1532     ldrd            r10, r11, [sp, #52]
1533     add             lr,  r10, #7
1534     subs            r8,  r8,  #3
1535     bic             lr,  lr,  #7
1536     sub             r7,  r7,  lr, lsl #1
1537     sub             r1,  r1,  lr
1538     sub             r3,  r3,  lr
1539     sub             r5,  r5,  lr
1540     subne           r7,  r7,  lr, lsl #1
1541     subeq           r7,  r7,  lr
1542     bne             block4
1543 block3:
1544     vld3.8          {d0,d1,d2}, [r6]!
1545     subs            lr,  lr,  #8
1546     vst1.8          {d0},    [r0]!
1547     vst1.8          {d1},    [r2]!
1548     vst1.8          {d2},    [r4]!
1549     bgt             block3
1550
1551     subs            r11, r11, #1
1552     add             r0,  r0,  r1
1553     add             r2,  r2,  r3
1554     add             r4,  r4,  r5
1555     add             r6,  r6,  r7
1556     mov             lr,  r10
1557     bgt             block3
1558
1559     pop             {r4-r8, r10, r11, pc}
1560 block4:
1561     vld4.8          {d0,d1,d2,d3}, [r6]!
1562     subs            lr,  lr,  #8
1563     vst1.8          {d0},    [r0]!
1564     vst1.8          {d1},    [r2]!
1565     vst1.8          {d2},    [r4]!
1566     bgt             block4
1567
1568     subs            r11, r11, #1
1569     add             r0,  r0,  r1
1570     add             r2,  r2,  r3
1571     add             r4,  r4,  r5
1572     add             r6,  r6,  r7
1573     mov             lr,  r10
1574     bgt             block4
1575
1576     pop             {r4-r8, r10, r11, pc}
1577 endfunc
1578
1579 function x264_plane_copy_interleave_neon
1580     push            {r4-r7, lr}
1581     ldrd            r6, r7, [sp, #28]
1582     ldrd            r4, r5, [sp, #20]
1583     add             lr,  r6,  #15
1584     bic             lr,  lr,  #15
1585     sub             r1,  r1,  lr, lsl #1
1586     sub             r3,  r3,  lr
1587     sub             r5,  r5,  lr
1588 blocki:
1589     vld1.8          {q0}, [r2]!
1590     vld1.8          {q1}, [r4]!
1591     subs            lr,  lr,  #16
1592     vst2.8          {d0,d2}, [r0]!
1593     vst2.8          {d1,d3}, [r0]!
1594     bgt             blocki
1595
1596     subs            r7,  r7,  #1
1597     add             r0,  r0,  r1
1598     add             r2,  r2,  r3
1599     add             r4,  r4,  r5
1600     mov             lr,  r6
1601     bgt             blocki
1602
1603     pop             {r4-r7, pc}
1604 endfunc
1605
1606 function x264_plane_copy_swap_neon
1607     push            {r4-r5, lr}
1608     ldrd            r4, r5, [sp, #12]
1609     add             lr,  r4,  #15
1610     bic             lr,  lr,  #15
1611     sub             r1,  r1,  lr, lsl #1
1612     sub             r3,  r3,  lr, lsl #1
1613 1:
1614     vld1.8          {q0, q1}, [r2]!
1615     subs            lr,  lr,  #16
1616     vrev16.8        q0,  q0
1617     vrev16.8        q1,  q1
1618     vst1.8          {q0, q1}, [r0]!
1619     bgt             1b
1620
1621     subs            r5,  r5,  #1
1622     add             r0,  r0,  r1
1623     add             r2,  r2,  r3
1624     mov             lr,  r4
1625     bgt             1b
1626
1627     pop             {r4-r5, pc}
1628 endfunc
1629
1630 function x264_store_interleave_chroma_neon
1631     push            {lr}
1632     ldr             lr,  [sp, #4]
1633     mov             ip,  #FDEC_STRIDE
1634 1:
1635     vld1.8          {d0}, [r2], ip
1636     vld1.8          {d1}, [r3], ip
1637     subs            lr,  lr,  #1
1638     vst2.8          {d0,d1}, [r0,:128], r1
1639     bgt             1b
1640
1641     pop             {pc}
1642 endfunc
1643
1644 .macro integral4h p1, p2
1645     vext.8          d1,  \p1, \p2,  #1
1646     vext.8          d2,  \p1, \p2,  #2
1647     vext.8          d3,  \p1, \p2,  #3
1648     vaddl.u8        q0,  \p1, d1
1649     vaddl.u8        q1,  d2,  d3
1650     vadd.u16        q0,  q0,  q1
1651     vadd.u16        q0,  q0,  q2
1652 .endm
1653
1654 function integral_init4h_neon
1655     sub             r3,  r0,  r2, lsl #1
1656     vld1.8          {d6, d7}, [r1, :128]!
1657 1:
1658     subs            r2,  r2,  #16
1659     vld1.16         {q2},  [r3, :128]!
1660     integral4h      d6, d7
1661     vld1.8          {d6},  [r1, :64]!
1662     vld1.16         {q2},  [r3, :128]!
1663     vst1.16         {q0},  [r0, :128]!
1664     integral4h      d7, d6
1665     vld1.8          {d7},  [r1, :64]!
1666     vst1.16         {q0},  [r0, :128]!
1667     bgt             1b
1668     bx              lr
1669 endfunc
1670
1671 .macro integral8h p1, p2, s
1672     vext.8          d1,  \p1,  \p2,  #1
1673     vext.8          d2,  \p1,  \p2,  #2
1674     vext.8          d3,  \p1,  \p2,  #3
1675     vext.8          d4,  \p1,  \p2,  #4
1676     vext.8          d5,  \p1,  \p2,  #5
1677     vext.8          d6,  \p1,  \p2,  #6
1678     vext.8          d7,  \p1,  \p2,  #7
1679     vaddl.u8        q0,  \p1,  d1
1680     vaddl.u8        q1,  d2,   d3
1681     vaddl.u8        q2,  d4,   d5
1682     vaddl.u8        q3,  d6,   d7
1683     vadd.u16        q0,  q0,   q1
1684     vadd.u16        q2,  q2,   q3
1685     vadd.u16        q0,  q0,   q2
1686     vadd.u16        q0,  q0,   \s
1687 .endm
1688
1689 function integral_init8h_neon
1690     sub             r3,  r0,  r2, lsl #1
1691     vld1.8          {d16, d17}, [r1, :128]!
1692 1:
1693     subs            r2,  r2,  #16
1694     vld1.16         {q9},  [r3, :128]!
1695     integral8h      d16, d17, q9
1696     vld1.8          {d16}, [r1, :64]!
1697     vld1.16         {q9},  [r3, :128]!
1698     vst1.16         {q0},  [r0, :128]!
1699     integral8h      d17, d16, q9
1700     vld1.8          {d17}, [r1, :64]!
1701     vst1.16         {q0},  [r0, :128]!
1702     bgt             1b
1703     bx              lr
1704 endfunc
1705
1706 function integral_init4v_neon
1707     push            {r4-r5}
1708     mov             r3,   r0
1709     add             r4,   r0,   r2,  lsl #3
1710     add             r5,   r0,   r2,  lsl #4
1711     sub             r2,   r2,   #8
1712     vld1.16         {q11, q12}, [r3]!
1713     vld1.16         {q8,  q9},  [r5]!
1714     vld1.16         {q13}, [r3]!
1715     vld1.16         {q10}, [r5]!
1716 1:
1717     subs            r2,   r2,   #16
1718     vld1.16         {q14, q15}, [r4]!
1719     vext.8          q0,   q11,  q12, #8
1720     vext.8          q1,   q12,  q13, #8
1721     vext.8          q2,   q8,   q9,  #8
1722     vext.8          q3,   q9,   q10, #8
1723     vsub.u16        q14,  q14,  q11
1724     vsub.u16        q15,  q15,  q12
1725     vadd.u16        q0,   q0,   q11
1726     vadd.u16        q1,   q1,   q12
1727     vadd.u16        q2,   q2,   q8
1728     vadd.u16        q3,   q3,   q9
1729     vst1.16         {q14},  [r1]!
1730     vst1.16         {q15},  [r1]!
1731     vmov            q11,  q13
1732     vmov            q8,   q10
1733     vsub.u16        q0,   q2,   q0
1734     vsub.u16        q1,   q3,   q1
1735     vld1.16         {q12, q13}, [r3]!
1736     vld1.16         {q9,  q10}, [r5]!
1737     vst1.16         {q0}, [r0]!
1738     vst1.16         {q1}, [r0]!
1739     bgt             1b
1740 2:
1741     pop             {r4-r5}
1742     bx              lr
1743 endfunc
1744
1745 function integral_init8v_neon
1746     add             r2,  r0,  r1,  lsl #4
1747     sub             r1,  r1,  #8
1748     ands            r3,  r1,  #16 - 1
1749     beq             1f
1750     subs            r1,  r1,  #8
1751     vld1.16         {q0}, [r0]
1752     vld1.16         {q2}, [r2]!
1753     vsub.u16        q8,  q2,  q0
1754     vst1.16         {q8}, [r0]!
1755     ble             2f
1756 1:
1757     subs            r1,  r1,  #16
1758     vld1.16         {q0, q1}, [r0]
1759     vld1.16         {q2, q3}, [r2]!
1760     vsub.u16        q8,  q2,  q0
1761     vsub.u16        q9,  q3,  q1
1762     vst1.16         {q8},  [r0]!
1763     vst1.16         {q9},  [r0]!
1764     bgt             1b
1765 2:
1766     bx              lr
1767 endfunc
1768
1769 function x264_mbtree_propagate_cost_neon
1770     push            {r4-r5,lr}
1771     ldrd            r4, r5, [sp, #12]
1772     ldr             lr, [sp, #20]
1773     vld1.32         {d6[], d7[]},  [r5]
1774 8:
1775     subs            lr,  lr,  #8
1776     vld1.16         {q8},  [r1]!
1777     vld1.16         {q9},  [r2]!
1778     vld1.16         {q10}, [r3]!
1779     vld1.16         {q11}, [r4]!
1780     vbic.u16        q10, #0xc000
1781     vmin.u16        q10, q9,  q10
1782     vmull.u16       q12, d18, d22           @ propagate_intra
1783     vmull.u16       q13, d19, d23           @ propagate_intra
1784     vsubl.u16       q14, d18, d20           @ propagate_num
1785     vsubl.u16       q15, d19, d21           @ propagate_num
1786     vmovl.u16       q10, d18                @ propagate_denom
1787     vmovl.u16       q11, d19                @ propagate_denom
1788     vmovl.u16       q9,  d17
1789     vmovl.u16       q8,  d16
1790     vcvt.f32.s32    q12, q12
1791     vcvt.f32.s32    q13, q13
1792     vcvt.f32.s32    q14, q14
1793     vcvt.f32.s32    q15, q15
1794     vcvt.f32.s32    q10, q10
1795     vcvt.f32.s32    q11, q11
1796     vrecpe.f32      q0,  q10
1797     vrecpe.f32      q1,  q11
1798     vcvt.f32.s32    q8,  q8
1799     vcvt.f32.s32    q9,  q9
1800     vrecps.f32      q10, q0,  q10
1801     vrecps.f32      q11, q1,  q11
1802     vmla.f32        q8,  q12, q3            @ propagate_amount
1803     vmla.f32        q9,  q13, q3            @ propagate_amount
1804     vmul.f32        q0,  q0,  q10
1805     vmul.f32        q1,  q1,  q11
1806     vmul.f32        q8,  q8,  q14
1807     vmul.f32        q9,  q9,  q15
1808     vmul.f32        q0,  q8,  q0
1809     vmul.f32        q1,  q9,  q1
1810     vcvt.s32.f32    q0,  q0
1811     vcvt.s32.f32    q1,  q1
1812     vqmovn.s32      d0,  q0
1813     vqmovn.s32      d1,  q1
1814     vst1.16         {q0},  [r0]!
1815     bgt             8b
1816     pop             {r4-r5,pc}
1817 endfunc
1818
1819 function x264_mbtree_propagate_list_internal_neon
1820     vld2.16         {d4[], d5[]}, [sp]      @ bipred_weight, mb_y
1821     movrel          r12, pw_0to15
1822     vmov.u16        q10, #0xc000
1823     vld1.16         {q0},  [r12, :128]      @h->mb.i_mb_x,h->mb.i_mb_y
1824     vmov.u32        q11, #4
1825     vmov.u8         q3,  #32
1826     vdup.u16        q8,  d5[0]              @ mb_y
1827     vzip.u16        q0,  q8
1828     ldr             r12, [sp, #8]
1829 8:
1830     subs            r12, r12,  #8
1831     vld1.16         {q14},  [r1, :128]!      @ propagate_amount
1832     vld1.16         {q15},  [r2, :128]!      @ lowres_cost
1833     vld1.16         {q8, q9},  [r0, :128]!
1834     vand            q15, q15, q10
1835     vceq.u16        q1,  q15, q10
1836     vmull.u16       q12, d28, d4
1837     vmull.u16       q13, d29, d4
1838     vrshrn.u32      d30, q12, #6
1839     vrshrn.u32      d31, q13, #6
1840     vbsl            q1,  q15, q14           @ if( lists_used == 3 )
1841     @ propagate_amount = (propagate_amount * bipred_weight + 32) >> 6
1842     vshr.s16        q12, q8,  #5
1843     vshr.s16        q13, q9,  #5
1844     vuzp.16         q8,  q9                 @ x & 31, y & 31
1845     vadd.s16        q12, q12, q0
1846     vadd.s16        q0,  q0,  q11
1847     vmovn.i16       d16, q8
1848     vmovn.i16       d17, q9
1849     vadd.s16        q13, q13, q0
1850     vbic.i16        q8,  #128+64+32
1851     vadd.s16        q0,  q0,  q11
1852     vbic.i16        q8,  #(128+64+32)<<8
1853     vst1.16         {q12, q13},  [r3, :128]!
1854     vsub.i8         q9,  q3,  q8
1855     vmull.u8        q12, d17, d16           @ idx3weight = y*x
1856     vmull.u8        q14, d19, d16           @ idx1weight = (32-y)*x
1857     vmull.u8        q15, d19, d18           @ idx0weight = (32-y)*(32-x)
1858     vmull.u8        q13, d17, d18           @ idx2weight = y*(32-x)
1859     vmull.u16       q9,  d28, d2            @ idx1weight
1860     vmull.u16       q8,  d29, d3
1861     vmull.u16       q14, d30, d2            @ idx0weight
1862     vmull.u16       q15, d31, d3
1863     vrshrn.u32      d18, q9,  #10           @ idx1weight
1864     vrshrn.u32      d19, q8,  #10
1865     vrshrn.u32      d16, q14, #10           @ idx0weight
1866     vrshrn.u32      d17, q15, #10
1867     vmull.u16       q14, d24, d2            @ idx3weight
1868     vmull.u16       q15, d25, d3
1869     vzip.16         q8,  q9
1870     vmull.u16       q12, d26, d2            @ idx2weight
1871     vmull.u16       q13, d27, d3
1872     vst1.16         {q8, q9},   [r3, :128]!
1873     vrshrn.u32      d19, q15, #10           @ idx3weight
1874     vrshrn.u32      d18, q14, #10
1875     vrshrn.u32      d16, q12, #10           @ idx2weight
1876     vrshrn.u32      d17, q13, #10
1877     vzip.16         q8,  q9
1878     vst1.16         {q8, q9},   [r3, :128]!
1879     bge             8b
1880     bx              lr
1881 endfunc