git.sesse.net Git - x264/blob - common/arm/quant-a.S

   1 /****************************************************************************
   2  * quant.S: arm quantization and level-run
   3  *****************************************************************************
   4  * Copyright (C) 2009-2013 x264 project
   5  *
   6  * Authors: David Conrad <lessen42@gmail.com>
   7  *
   8  * This program is free software; you can redistribute it and/or modify
   9  * it under the terms of the GNU General Public License as published by
  10  * the Free Software Foundation; either version 2 of the License, or
  11  * (at your option) any later version.
  12  *
  13  * This program is distributed in the hope that it will be useful,
  14  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  15  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  16  * GNU General Public License for more details.
  17  *
  18  * You should have received a copy of the GNU General Public License
  19  * along with this program; if not, write to the Free Software
  20  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  21  *
  22  * This program is also available under a commercial proprietary license.
  23  * For more information, contact us at licensing@x264.com.
  24  *****************************************************************************/
  25
  26 #include "asm.S"
  27
  28 .fpu neon
  29
  30 .section .rodata
  31 .align 4
  32 pmovmskb_byte:
  33 .byte 1,2,4,8,16,32,64,128
  34 .byte 1,2,4,8,16,32,64,128
  35
  36 .text
  37
  38 .macro QUANT_TWO bias0 bias1 mf0 mf1 mf2 mf3 load_mf=no
  39     vadd.u16    q8,  q8,  \bias0
  40     vadd.u16    q9,  q9,  \bias1
  41 .ifc \load_mf, yes
  42     vld1.64     {\mf0-\mf3}, [r1,:128]!
  43 .endif
  44     vmull.u16   q10, d16, \mf0
  45     vmull.u16   q11, d17, \mf1
  46     vmull.u16   q12, d18, \mf2
  47     vmull.u16   q13, d19, \mf3
  48     vshr.s16    q14, q14, #15
  49     vshr.s16    q15, q15, #15
  50     vshrn.u32   d16, q10, #16
  51     vshrn.u32   d17, q11, #16
  52     vshrn.u32   d18, q12, #16
  53     vshrn.u32   d19, q13, #16
  54     veor        q8,  q8,  q14
  55     veor        q9,  q9,  q15
  56     vsub.s16    q8,  q8,  q14
  57     vsub.s16    q9,  q9,  q15
  58     vorr        \bias0, q8,  q9
  59     vst1.64     {d16-d19}, [r0,:128]!
  60 .endm
  61
  62 .macro QUANT_END d
  63     vmov        r2,  r3,  \d
  64     orrs        r0,  r2,  r3
  65     movne       r0,  #1
  66     bx          lr
  67 .endm
  68
  69 // quant_2x2_dc( int16_t dct[4], int mf, int bias )
  70 function x264_quant_2x2_dc_neon
  71     vld1.64     {d0}, [r0,:64]
  72     vabs.s16    d3,  d0
  73     vdup.16     d2,  r2
  74     vdup.16     d1,  r1
  75     vadd.u16    d3,  d3,  d2
  76     vmull.u16   q3,  d3,  d1
  77     vshr.s16    d0,  d0,  #15
  78     vshrn.u32   d3,  q3,  #16
  79     veor        d3,  d3,  d0
  80     vsub.s16    d3,  d3,  d0
  81     vst1.64     {d3}, [r0,:64]
  82     QUANT_END   d3
  83 .endfunc
  84
  85 // quant_4x4_dc( int16_t dct[16], int mf, int bias )
  86 function x264_quant_4x4_dc_neon
  87     vld1.64     {d28-d31}, [r0,:128]
  88     vabs.s16    q8,  q14
  89     vabs.s16    q9,  q15
  90     vdup.16     q0,  r2
  91     vdup.16     q2,  r1
  92     QUANT_TWO   q0,  q0,  d4,  d5,  d4,  d5
  93     vorr        d0,  d0,  d1
  94     QUANT_END   d0
  95 .endfunc
  96
  97 // quant_4x4( int16_t dct[16], uint16_t mf[16], uint16_t bias[16] )
  98 function x264_quant_4x4_neon
  99     vld1.64     {d28-d31}, [r0,:128]
 100     vabs.s16    q8,  q14
 101     vabs.s16    q9,  q15
 102     vld1.64     {d0-d3}, [r2,:128]
 103     vld1.64     {d4-d7}, [r1,:128]
 104     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7
 105     vorr        d0,  d0,  d1
 106     QUANT_END   d0
 107 .endfunc
 108
 109 // quant_8x8( int16_t dct[64], uint16_t mf[64], uint16_t bias[64] )
 110 function x264_quant_8x8_neon
 111     vld1.64     {d28-d31}, [r0,:128]
 112     vabs.s16    q8,  q14
 113     vabs.s16    q9,  q15
 114     vld1.64     {d0-d3},   [r2,:128]!
 115     vld1.64     {d4-d7},   [r1,:128]!
 116     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7
 117 .rept 3
 118     vld1.64     {d28-d31}, [r0,:128]
 119     vabs.s16    q8,  q14
 120     vabs.s16    q9,  q15
 121     vld1.64     {d2-d5},   [r2,:128]!
 122     QUANT_TWO   q1,  q2,  d4,  d5,  d6,  d7, yes
 123     vorr        q0,  q0,  q1
 124 .endr
 125     vorr        d0,  d0,  d1
 126     QUANT_END   d0
 127 .endfunc
 128
 129 .macro DEQUANT_START mf_size offset dc=no
 130     mov         r3,  #0x2b
 131     mul         r3,  r3,  r2
 132     lsr         r3,  r3,  #8            // i_qbits = i_qp / 6
 133     add         ip,  r3,  r3,  lsl #1
 134     sub         r2,  r2,  ip,  lsl #1   // i_mf = i_qp % 6
 135 .ifc \dc,no
 136     add         r1,  r1,  r2, lsl #\mf_size  // dequant_mf[i_mf]
 137 .else
 138     ldr         r1, [r1,  r2, lsl #\mf_size] // dequant_mf[i_mf][0][0]
 139 .endif
 140     subs        r3,  r3,  #\offset      // 6 for 8x8
 141 .endm
 142
 143 // dequant_4x4( int16_t dct[16], int dequant_mf[6][16], int i_qp )
 144 .macro DEQUANT size bits
 145 function x264_dequant_\size\()_neon
 146     DEQUANT_START \bits+2, \bits
 147 .ifc \size, 8x8
 148     mov         r2,  #4
 149 .endif
 150     blt         dequant_\size\()_rshift
 151
 152     vdup.16     q15, r3
 153 dequant_\size\()_lshift_loop:
 154 .ifc \size, 8x8
 155     subs        r2,  r2,  #1
 156 .endif
 157     vld1.32     {d16-d17}, [r1,:128]!
 158     vld1.32     {d18-d19}, [r1,:128]!
 159     vmovn.s32   d4,  q8
 160     vld1.32     {d20-d21}, [r1,:128]!
 161     vmovn.s32   d5,  q9
 162     vld1.32     {d22-d23}, [r1,:128]!
 163     vmovn.s32   d6,  q10
 164     vld1.16     {d0-d3},   [r0,:128]
 165     vmovn.s32   d7,  q11
 166     vmul.s16    q0,  q0,  q2
 167     vmul.s16    q1,  q1,  q3
 168     vshl.s16    q0,  q0,  q15
 169     vshl.s16    q1,  q1,  q15
 170     vst1.16     {d0-d3},   [r0,:128]!
 171 .ifc \size, 8x8
 172     bgt         dequant_\size\()_lshift_loop
 173 .endif
 174     bx          lr
 175
 176 dequant_\size\()_rshift:
 177     vdup.32     q15, r3
 178     rsb         r3,  r3,  #0
 179     mov         ip,  #1
 180     sub         r3,  r3,  #1
 181     lsl         ip,  ip,  r3
 182
 183 .ifc \size, 8x8
 184 dequant_\size\()_rshift_loop:
 185     subs        r2,  r2,  #1
 186 .endif
 187     vdup.32     q10, ip
 188     vld1.32     {d16-d17}, [r1,:128]!
 189     vdup.32     q11, ip
 190     vld1.32     {d18-d19}, [r1,:128]!
 191     vmovn.s32   d4,  q8
 192     vld1.32     {d16-d17}, [r1,:128]!
 193     vmovn.s32   d5,  q9
 194     vld1.32     {d18-d19}, [r1,:128]!
 195     vmovn.s32   d6,  q8
 196     vld1.16     {d0-d3},   [r0,:128]
 197     vmovn.s32   d7,  q9
 198     vdup.32     q12, ip
 199     vdup.32     q13, ip
 200
 201     vmlal.s16   q10, d0,  d4
 202     vmlal.s16   q11, d1,  d5
 203     vmlal.s16   q12, d2,  d6
 204     vmlal.s16   q13, d3,  d7
 205     vshl.s32    q10, q10, q15
 206     vshl.s32    q11, q11, q15
 207     vshl.s32    q12, q12, q15
 208     vshl.s32    q13, q13, q15
 209
 210     vmovn.s32   d0,  q10
 211     vmovn.s32   d1,  q11
 212     vmovn.s32   d2,  q12
 213     vmovn.s32   d3,  q13
 214     vst1.16     {d0-d3},   [r0,:128]!
 215 .ifc \size, 8x8
 216     bgt         dequant_\size\()_rshift_loop
 217 .endif
 218     bx          lr
 219 .endfunc
 220 .endm
 221
 222 DEQUANT 4x4, 4
 223 DEQUANT 8x8, 6
 224
 225 // dequant_4x4_dc( int16_t dct[16], int dequant_mf[6][16], int i_qp )
 226 function x264_dequant_4x4_dc_neon
 227     DEQUANT_START 6, 6, yes
 228     blt         dequant_4x4_dc_rshift
 229
 230     lsl         r1,  r1,  r3
 231     vdup.16     q2,  r1
 232     vld1.16     {d0-d3},   [r0,:128]
 233     vdup.16     q15, r3
 234
 235     vmul.s16    q0,  q0,  q2
 236     vmul.s16    q1,  q1,  q2
 237     vst1.16     {d0-d3},   [r0,:128]
 238     bx          lr
 239
 240 dequant_4x4_dc_rshift:
 241     vdup.16     d4,  r1
 242     vdup.32     q15, r3
 243     rsb         r3,  r3,  #0
 244     mov         ip,  #1
 245     sub         r3,  r3,  #1
 246     lsl         ip,  ip,  r3
 247
 248     vdup.32     q10, ip
 249     vdup.32     q11, ip
 250     vld1.16     {d0-d3},   [r0,:128]
 251     vdup.32     q12, ip
 252     vdup.32     q13, ip
 253
 254     vmlal.s16   q10, d0,  d4
 255     vmlal.s16   q11, d1,  d4
 256     vmlal.s16   q12, d2,  d4
 257     vmlal.s16   q13, d3,  d4
 258     vshl.s32    q10, q10, q15
 259     vshl.s32    q11, q11, q15
 260     vshl.s32    q12, q12, q15
 261     vshl.s32    q13, q13, q15
 262
 263     vmovn.s32   d0,  q10
 264     vmovn.s32   d1,  q11
 265     vmovn.s32   d2,  q12
 266     vmovn.s32   d3,  q13
 267     vst1.16     {d0-d3},   [r0,:128]
 268     bx          lr
 269 .endfunc
 270
 271
 272 // int coeff_last( int16_t *l )
 273 function x264_coeff_last4_arm
 274     ldrd        r2,  [r0]
 275     subs        r0,  r3,  #0
 276     movne       r0,  #2
 277     movne       r2,  r3
 278     lsrs        r2,  r2,  #16
 279     addne       r0,  r0,  #1
 280     bx          lr
 281 .endfunc
 282
 283 .macro COEFF_LAST_1x size
 284 function x264_coeff_last\size\()_neon
 285 .if \size == 15
 286     sub         r0,  r0,  #2
 287     vld1.64     {d0-d3}, [r0]
 288 .else
 289     vld1.64     {d0-d3}, [r0,:128]
 290 .endif
 291     vtst.16     q0,  q0
 292     vtst.16     q1,  q1
 293     vshrn.u16   d0,  q0,  #8
 294     vshrn.u16   d1,  q1,  #8
 295     vshrn.u16   d0,  q0,  #4
 296     vclz.i32    d0,  d0
 297     mov         ip,  #7
 298     mov         r3,  #\size - 9
 299     vmov        r0,  r1,  d0
 300
 301     subs        r1,  ip,  r1,  lsr #2
 302     addge       r0,  r1,  #\size - 8
 303     sublts      r0,  r3,  r0,  lsr #2
 304     movlt       r0,  #0
 305     bx          lr
 306 .endfunc
 307 .endm
 308
 309 COEFF_LAST_1x 15
 310 COEFF_LAST_1x 16
 311
 312 function x264_coeff_last64_neon
 313     vld1.64     {d16-d19}, [r0,:128]!
 314     vqmovn.u16  d16, q8
 315     vqmovn.u16  d17, q9
 316     vld1.64     {d20-d23}, [r0,:128]!
 317     vqmovn.u16  d18, q10
 318     vqmovn.u16  d19, q11
 319     vld1.64     {d24-d27}, [r0,:128]!
 320     vqmovn.u16  d20, q12
 321     vqmovn.u16  d21, q13
 322     vld1.64     {d28-d31}, [r0,:128]!
 323     vqmovn.u16  d22, q14
 324     vqmovn.u16  d23, q15
 325
 326     movrel      r1, pmovmskb_byte
 327     vld1.64     {d0-d1}, [r1,:128]
 328
 329     vtst.8      q8,  q8
 330     vtst.8      q9,  q9
 331     vtst.8      q10, q10
 332     vtst.8      q11, q11
 333
 334     vand        q8,  q8,  q0
 335     vand        q9,  q9,  q0
 336     vand        q10, q10, q0
 337     vand        q11, q11, q0
 338
 339     vpadd.u8    d0,  d16, d17
 340     vpadd.u8    d1,  d18, d19
 341     vpadd.u8    d2,  d20, d21
 342     vpadd.u8    d3,  d22, d23
 343     vpadd.u8    d0,  d0,  d1
 344     vpadd.u8    d1,  d2,  d3
 345     vpadd.u8    d0,  d0,  d1
 346     vclz.i32    d0,  d0
 347     mov         ip,  #31
 348     vmov        r0,  r1,  d0
 349
 350     subs        r1,  ip,  r1
 351     addge       r0,  r1,  #32
 352     sublts      r0,  ip,  r0
 353     movlt       r0,  #0
 354     bx          lr
 355 .endfunc