git.sesse.net Git - x264/blob - common/arm/quant-a.S

   1 /****************************************************************************
   2  * quant.S: arm quantization and level-run
   3  *****************************************************************************
   4  * Copyright (C) 2009-2014 x264 project
   5  *
   6  * Authors: David Conrad <lessen42@gmail.com>
   7  *
   8  * This program is free software; you can redistribute it and/or modify
   9  * it under the terms of the GNU General Public License as published by
  10  * the Free Software Foundation; either version 2 of the License, or
  11  * (at your option) any later version.
  12  *
  13  * This program is distributed in the hope that it will be useful,
  14  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  15  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  16  * GNU General Public License for more details.
  17  *
  18  * You should have received a copy of the GNU General Public License
  19  * along with this program; if not, write to the Free Software
  20  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  21  *
  22  * This program is also available under a commercial proprietary license.
  23  * For more information, contact us at licensing@x264.com.
  24  *****************************************************************************/
  25
  26 #include "asm.S"
  27
  28 .fpu neon
  29
  30 .section .rodata
  31 .align 4
  32 pmovmskb_byte:
  33 .byte 1,2,4,8,16,32,64,128
  34 .byte 1,2,4,8,16,32,64,128
  35
  36 .text
  37
  38 .macro QUANT_TWO bias0 bias1 mf0 mf1 mf2 mf3 mask load_mf=no
  39     vadd.u16    q8,  q8,  \bias0
  40     vadd.u16    q9,  q9,  \bias1
  41 .ifc \load_mf, yes
  42     vld1.64     {\mf0-\mf3}, [r1,:128]!
  43 .endif
  44     vmull.u16   q10, d16, \mf0
  45     vmull.u16   q11, d17, \mf1
  46     vmull.u16   q12, d18, \mf2
  47     vmull.u16   q13, d19, \mf3
  48     vshr.s16    q14, q14, #15
  49     vshr.s16    q15, q15, #15
  50     vshrn.u32   d16, q10, #16
  51     vshrn.u32   d17, q11, #16
  52     vshrn.u32   d18, q12, #16
  53     vshrn.u32   d19, q13, #16
  54     veor        q8,  q8,  q14
  55     veor        q9,  q9,  q15
  56     vsub.s16    q8,  q8,  q14
  57     vsub.s16    q9,  q9,  q15
  58     vorr        \mask, q8,  q9
  59     vst1.64     {d16-d19}, [r0,:128]!
  60 .endm
  61
  62 .macro QUANT_END d
  63     vmov        r2,  r3,  \d
  64     orrs        r0,  r2,  r3
  65     movne       r0,  #1
  66     bx          lr
  67 .endm
  68
  69 // quant_2x2_dc( int16_t dct[4], int mf, int bias )
  70 function x264_quant_2x2_dc_neon
  71     vld1.64     {d0}, [r0,:64]
  72     vabs.s16    d3,  d0
  73     vdup.16     d2,  r2
  74     vdup.16     d1,  r1
  75     vadd.u16    d3,  d3,  d2
  76     vmull.u16   q3,  d3,  d1
  77     vshr.s16    d0,  d0,  #15
  78     vshrn.u32   d3,  q3,  #16
  79     veor        d3,  d3,  d0
  80     vsub.s16    d3,  d3,  d0
  81     vst1.64     {d3}, [r0,:64]
  82     QUANT_END   d3
  83 .endfunc
  84
  85 // quant_4x4_dc( int16_t dct[16], int mf, int bias )
  86 function x264_quant_4x4_dc_neon
  87     vld1.64     {d28-d31}, [r0,:128]
  88     vabs.s16    q8,  q14
  89     vabs.s16    q9,  q15
  90     vdup.16     q0,  r2
  91     vdup.16     q2,  r1
  92     QUANT_TWO   q0,  q0,  d4,  d5,  d4,  d5,  q0
  93     vorr        d0,  d0,  d1
  94     QUANT_END   d0
  95 .endfunc
  96
  97 // quant_4x4( int16_t dct[16], uint16_t mf[16], uint16_t bias[16] )
  98 function x264_quant_4x4_neon
  99     vld1.64     {d28-d31}, [r0,:128]
 100     vabs.s16    q8,  q14
 101     vabs.s16    q9,  q15
 102     vld1.64     {d0-d3}, [r2,:128]
 103     vld1.64     {d4-d7}, [r1,:128]
 104     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7, q0
 105     vorr        d0,  d0,  d1
 106     QUANT_END   d0
 107 .endfunc
 108
 109 // quant_4x4x4( int16_t dct[4][16], uint16_t mf[16], uint16_t bias[16] )
 110 function x264_quant_4x4x4_neon
 111     vpush       {d8-d15}
 112     vld1.64     {d28-d31}, [r0,:128]
 113     vabs.s16    q8,  q14
 114     vabs.s16    q9,  q15
 115     vld1.64     {d0-d3},   [r2,:128]
 116     vld1.64     {d4-d7},   [r1,:128]
 117     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7,  q4
 118     vld1.64     {d28-d31}, [r0,:128]
 119     vabs.s16    q8,  q14
 120     vabs.s16    q9,  q15
 121     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7,  q5
 122     vld1.64     {d28-d31}, [r0,:128]
 123     vabs.s16    q8,  q14
 124     vabs.s16    q9,  q15
 125     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7,  q6
 126     vld1.64     {d28-d31}, [r0,:128]
 127     vabs.s16    q8,  q14
 128     vabs.s16    q9,  q15
 129     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7,  q7
 130     vorr        d8,  d8,  d9
 131     vorr       d10, d10, d11
 132     vorr       d12, d12, d13
 133     vorr       d14, d14, d15
 134     vmov        r0,  r1,  d8
 135     vmov        r2,  r3, d10
 136     orrs        r0,  r1
 137     movne       r0,  #1
 138     orrs        r2,  r3
 139     orrne       r0,  #2
 140     vmov        r1,  r2, d12
 141     vmov        r3,  ip, d14
 142     orrs        r1,  r2
 143     orrne       r0,  #4
 144     orrs        r3,  ip
 145     orrne       r0,  #8
 146     vpop        {d8-d15}
 147     bx          lr
 148 .endfunc
 149
 150 // quant_8x8( int16_t dct[64], uint16_t mf[64], uint16_t bias[64] )
 151 function x264_quant_8x8_neon
 152     vld1.64     {d28-d31}, [r0,:128]
 153     vabs.s16    q8,  q14
 154     vabs.s16    q9,  q15
 155     vld1.64     {d0-d3},   [r2,:128]!
 156     vld1.64     {d4-d7},   [r1,:128]!
 157     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7,  q0
 158 .rept 3
 159     vld1.64     {d28-d31}, [r0,:128]
 160     vabs.s16    q8,  q14
 161     vabs.s16    q9,  q15
 162     vld1.64     {d2-d5},   [r2,:128]!
 163     QUANT_TWO   q1,  q2,  d4,  d5,  d6,  d7,  q1, yes
 164     vorr        q0,  q0,  q1
 165 .endr
 166     vorr        d0,  d0,  d1
 167     QUANT_END   d0
 168 .endfunc
 169
 170 .macro DEQUANT_START mf_size offset dc=no
 171     mov         r3,  #0x2b
 172     mul         r3,  r3,  r2
 173     lsr         r3,  r3,  #8            // i_qbits = i_qp / 6
 174     add         ip,  r3,  r3,  lsl #1
 175     sub         r2,  r2,  ip,  lsl #1   // i_mf = i_qp % 6
 176 .ifc \dc,no
 177     add         r1,  r1,  r2, lsl #\mf_size  // dequant_mf[i_mf]
 178 .else
 179     ldr         r1, [r1,  r2, lsl #\mf_size] // dequant_mf[i_mf][0][0]
 180 .endif
 181     subs        r3,  r3,  #\offset      // 6 for 8x8
 182 .endm
 183
 184 // dequant_4x4( int16_t dct[16], int dequant_mf[6][16], int i_qp )
 185 .macro DEQUANT size bits
 186 function x264_dequant_\size\()_neon
 187     DEQUANT_START \bits+2, \bits
 188 .ifc \size, 8x8
 189     mov         r2,  #4
 190 .endif
 191     blt         dequant_\size\()_rshift
 192
 193     vdup.16     q15, r3
 194 dequant_\size\()_lshift_loop:
 195 .ifc \size, 8x8
 196     subs        r2,  r2,  #1
 197 .endif
 198     vld1.32     {d16-d17}, [r1,:128]!
 199     vld1.32     {d18-d19}, [r1,:128]!
 200     vmovn.s32   d4,  q8
 201     vld1.32     {d20-d21}, [r1,:128]!
 202     vmovn.s32   d5,  q9
 203     vld1.32     {d22-d23}, [r1,:128]!
 204     vmovn.s32   d6,  q10
 205     vld1.16     {d0-d3},   [r0,:128]
 206     vmovn.s32   d7,  q11
 207     vmul.s16    q0,  q0,  q2
 208     vmul.s16    q1,  q1,  q3
 209     vshl.s16    q0,  q0,  q15
 210     vshl.s16    q1,  q1,  q15
 211     vst1.16     {d0-d3},   [r0,:128]!
 212 .ifc \size, 8x8
 213     bgt         dequant_\size\()_lshift_loop
 214 .endif
 215     bx          lr
 216
 217 dequant_\size\()_rshift:
 218     vdup.32     q15, r3
 219     rsb         r3,  r3,  #0
 220     mov         ip,  #1
 221     sub         r3,  r3,  #1
 222     lsl         ip,  ip,  r3
 223
 224 .ifc \size, 8x8
 225 dequant_\size\()_rshift_loop:
 226     subs        r2,  r2,  #1
 227 .endif
 228     vdup.32     q10, ip
 229     vld1.32     {d16-d17}, [r1,:128]!
 230     vdup.32     q11, ip
 231     vld1.32     {d18-d19}, [r1,:128]!
 232     vmovn.s32   d4,  q8
 233     vld1.32     {d16-d17}, [r1,:128]!
 234     vmovn.s32   d5,  q9
 235     vld1.32     {d18-d19}, [r1,:128]!
 236     vmovn.s32   d6,  q8
 237     vld1.16     {d0-d3},   [r0,:128]
 238     vmovn.s32   d7,  q9
 239     vdup.32     q12, ip
 240     vdup.32     q13, ip
 241
 242     vmlal.s16   q10, d0,  d4
 243     vmlal.s16   q11, d1,  d5
 244     vmlal.s16   q12, d2,  d6
 245     vmlal.s16   q13, d3,  d7
 246     vshl.s32    q10, q10, q15
 247     vshl.s32    q11, q11, q15
 248     vshl.s32    q12, q12, q15
 249     vshl.s32    q13, q13, q15
 250
 251     vmovn.s32   d0,  q10
 252     vmovn.s32   d1,  q11
 253     vmovn.s32   d2,  q12
 254     vmovn.s32   d3,  q13
 255     vst1.16     {d0-d3},   [r0,:128]!
 256 .ifc \size, 8x8
 257     bgt         dequant_\size\()_rshift_loop
 258 .endif
 259     bx          lr
 260 .endfunc
 261 .endm
 262
 263 DEQUANT 4x4, 4
 264 DEQUANT 8x8, 6
 265
 266 // dequant_4x4_dc( int16_t dct[16], int dequant_mf[6][16], int i_qp )
 267 function x264_dequant_4x4_dc_neon
 268     DEQUANT_START 6, 6, yes
 269     blt         dequant_4x4_dc_rshift
 270
 271     lsl         r1,  r1,  r3
 272     vdup.16     q2,  r1
 273     vld1.16     {d0-d3},   [r0,:128]
 274     vdup.16     q15, r3
 275
 276     vmul.s16    q0,  q0,  q2
 277     vmul.s16    q1,  q1,  q2
 278     vst1.16     {d0-d3},   [r0,:128]
 279     bx          lr
 280
 281 dequant_4x4_dc_rshift:
 282     vdup.16     d4,  r1
 283     vdup.32     q15, r3
 284     rsb         r3,  r3,  #0
 285     mov         ip,  #1
 286     sub         r3,  r3,  #1
 287     lsl         ip,  ip,  r3
 288
 289     vdup.32     q10, ip
 290     vdup.32     q11, ip
 291     vld1.16     {d0-d3},   [r0,:128]
 292     vdup.32     q12, ip
 293     vdup.32     q13, ip
 294
 295     vmlal.s16   q10, d0,  d4
 296     vmlal.s16   q11, d1,  d4
 297     vmlal.s16   q12, d2,  d4
 298     vmlal.s16   q13, d3,  d4
 299     vshl.s32    q10, q10, q15
 300     vshl.s32    q11, q11, q15
 301     vshl.s32    q12, q12, q15
 302     vshl.s32    q13, q13, q15
 303
 304     vmovn.s32   d0,  q10
 305     vmovn.s32   d1,  q11
 306     vmovn.s32   d2,  q12
 307     vmovn.s32   d3,  q13
 308     vst1.16     {d0-d3},   [r0,:128]
 309     bx          lr
 310 .endfunc
 311
 312
 313 // int coeff_last( int16_t *l )
 314 function x264_coeff_last4_arm
 315     ldrd        r2,  r3,  [r0]
 316     subs        r0,  r3,  #0
 317     movne       r0,  #2
 318     movne       r2,  r3
 319     lsrs        r2,  r2,  #16
 320     addne       r0,  r0,  #1
 321     bx          lr
 322 .endfunc
 323
 324 function x264_coeff_last8_arm
 325     ldrd        r2,  r3,  [r0, #8]
 326     orrs        ip,  r2,  r3
 327     movne       r0,  #4
 328     ldrdeq      r2,  r3,  [r0]
 329     moveq       r0,  #0
 330     tst         r3,  r3
 331     addne       r0,  #2
 332     movne       r2,  r3
 333     lsrs        r2,  r2,  #16
 334     addne       r0,  r0,  #1
 335     bx          lr
 336 .endfunc
 337
 338 .macro COEFF_LAST_1x size
 339 function x264_coeff_last\size\()_neon
 340 .if \size == 15
 341     sub         r0,  r0,  #2
 342     vld1.64     {d0-d3}, [r0]
 343 .else
 344     vld1.64     {d0-d3}, [r0,:128]
 345 .endif
 346     vtst.16     q0,  q0
 347     vtst.16     q1,  q1
 348     vshrn.u16   d0,  q0,  #8
 349     vshrn.u16   d1,  q1,  #8
 350     vshrn.u16   d0,  q0,  #4
 351     vclz.i32    d0,  d0
 352     mov         ip,  #7
 353     mov         r3,  #\size - 9
 354     vmov        r0,  r1,  d0
 355
 356     subs        r1,  ip,  r1,  lsr #2
 357     addge       r0,  r1,  #\size - 8
 358     subslt      r0,  r3,  r0,  lsr #2
 359     movlt       r0,  #0
 360     bx          lr
 361 .endfunc
 362 .endm
 363
 364 COEFF_LAST_1x 15
 365 COEFF_LAST_1x 16
 366
 367 function x264_coeff_last64_neon
 368     vld1.64     {d16-d19}, [r0,:128]!
 369     vqmovn.u16  d16, q8
 370     vqmovn.u16  d17, q9
 371     vld1.64     {d20-d23}, [r0,:128]!
 372     vqmovn.u16  d18, q10
 373     vqmovn.u16  d19, q11
 374     vld1.64     {d24-d27}, [r0,:128]!
 375     vqmovn.u16  d20, q12
 376     vqmovn.u16  d21, q13
 377     vld1.64     {d28-d31}, [r0,:128]!
 378     vqmovn.u16  d22, q14
 379     vqmovn.u16  d23, q15
 380
 381     movrel      r1, pmovmskb_byte
 382     vld1.64     {d0-d1}, [r1,:128]
 383
 384     vtst.8      q8,  q8
 385     vtst.8      q9,  q9
 386     vtst.8      q10, q10
 387     vtst.8      q11, q11
 388
 389     vand        q8,  q8,  q0
 390     vand        q9,  q9,  q0
 391     vand        q10, q10, q0
 392     vand        q11, q11, q0
 393
 394     vpadd.u8    d0,  d16, d17
 395     vpadd.u8    d1,  d18, d19
 396     vpadd.u8    d2,  d20, d21
 397     vpadd.u8    d3,  d22, d23
 398     vpadd.u8    d0,  d0,  d1
 399     vpadd.u8    d1,  d2,  d3
 400     vpadd.u8    d0,  d0,  d1
 401     vclz.i32    d0,  d0
 402     mov         ip,  #31
 403     vmov        r0,  r1,  d0
 404
 405     subs        r1,  ip,  r1
 406     addge       r0,  r1,  #32
 407     subslt      r0,  ip,  r0
 408     movlt       r0,  #0
 409     bx          lr
 410 .endfunc