]> git.sesse.net Git - x264/blob - common/arm/quant-a.S
Fix x264 compilation on Apple GCC
[x264] / common / arm / quant-a.S
1 /*****************************************************************************
2  * quant.S: h264 encoder
3  *****************************************************************************
4  * Copyright (C) 2009 x264 project
5  *
6  * Authors: David Conrad <lessen42@gmail.com>
7  *
8  * This program is free software; you can redistribute it and/or modify
9  * it under the terms of the GNU General Public License as published by
10  * the Free Software Foundation; either version 2 of the License, or
11  * (at your option) any later version.
12  *
13  * This program is distributed in the hope that it will be useful,
14  * but WITHOUT ANY WARRANTY; without even the implied warranty of
15  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
16  * GNU General Public License for more details.
17  *
18  * You should have received a copy of the GNU General Public License
19  * along with this program; if not, write to the Free Software
20  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
21  *****************************************************************************/
22
23 #include "asm.S"
24
25 .fpu neon
26
27 .section .rodata
28 .align 4
29 pmovmskb_byte:
30 .byte 1,2,4,8,16,32,64,128
31 .byte 1,2,4,8,16,32,64,128
32
33 .text
34
35 .macro QUANT_TWO bias0 bias1 mf0 mf1 mf2 mf3 load_mf=no
36     vadd.u16    q8,  q8,  \bias0
37     vadd.u16    q9,  q9,  \bias1
38 .ifc \load_mf, yes
39     vld1.64     {\mf0-\mf3}, [r1,:128]!
40 .endif
41     vmull.u16   q10, d16, \mf0
42     vmull.u16   q11, d17, \mf1
43     vmull.u16   q12, d18, \mf2
44     vmull.u16   q13, d19, \mf3
45     vshr.s16    q14, q14, #15
46     vshr.s16    q15, q15, #15
47     vshrn.u32   d16, q10, #16
48     vshrn.u32   d17, q11, #16
49     vshrn.u32   d18, q12, #16
50     vshrn.u32   d19, q13, #16
51     veor        q8,  q8,  q14
52     veor        q9,  q9,  q15
53     vsub.s16    q8,  q8,  q14
54     vsub.s16    q9,  q9,  q15
55     vorr        \bias0, q8,  q9
56     vst1.64     {d16-d19}, [r0,:128]!
57 .endm
58
59 .macro QUANT_END d
60     vmov        r2,  r3,  \d
61     orrs        r0,  r2,  r3
62     movne       r0,  #1
63     bx          lr
64 .endm
65
66 // quant_2x2_dc( int16_t dct[4], int mf, int bias )
67 function x264_quant_2x2_dc_neon
68     vld1.64     {d0}, [r0,:64]
69     vabs.s16    d3,  d0
70     vdup.16     d2,  r2
71     vdup.16     d1,  r1
72     vadd.u16    d3,  d3,  d2
73     vmull.u16   q3,  d3,  d1
74     vshr.s16    d0,  d0,  #15
75     vshrn.u32   d3,  q3,  #16
76     veor        d3,  d3,  d0
77     vsub.s16    d3,  d3,  d0
78     vst1.64     {d3}, [r0,:64]
79     QUANT_END   d3
80 .endfunc
81
82 // quant_4x4_dc( int16_t dct[16], int mf, int bias )
83 function x264_quant_4x4_dc_neon
84     vld1.64     {d28-d31}, [r0,:128]
85     vabs.s16    q8,  q14
86     vabs.s16    q9,  q15
87     vdup.16     q0,  r2
88     vdup.16     q2,  r1
89     QUANT_TWO   q0,  q0,  d4,  d5,  d4,  d5
90     vorr        d0,  d0,  d1
91     QUANT_END   d0
92 .endfunc
93
94 // quant_4x4( int16_t dct[16], uint16_t mf[16], uint16_t bias[16] )
95 function x264_quant_4x4_neon
96     vld1.64     {d28-d31}, [r0,:128]
97     vabs.s16    q8,  q14
98     vabs.s16    q9,  q15
99     vld1.64     {d0-d3}, [r2,:128]
100     vld1.64     {d4-d7}, [r1,:128]
101     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7
102     vorr        d0,  d0,  d1
103     QUANT_END   d0
104 .endfunc
105
106 // quant_8x8( int16_t dct[64], uint16_t mf[64], uint16_t bias[64] )
107 function x264_quant_8x8_neon
108     vld1.64     {d28-d31}, [r0,:128]
109     vabs.s16    q8,  q14
110     vabs.s16    q9,  q15
111     vld1.64     {d0-d3},   [r2,:128]!
112     vld1.64     {d4-d7},   [r1,:128]!
113     QUANT_TWO   q0,  q1,  d4,  d5,  d6,  d7
114 .rept 3
115     vld1.64     {d28-d31}, [r0,:128]
116     vabs.s16    q8,  q14
117     vabs.s16    q9,  q15
118     vld1.64     {d2-d5},   [r2,:128]!
119     QUANT_TWO   q1,  q2,  d4,  d5,  d6,  d7, yes
120     vorr        q0,  q0,  q1
121 .endr
122     vorr        d0,  d0,  d1
123     QUANT_END   d0
124 .endfunc
125
126 .macro DEQUANT_START mf_size offset dc=no
127     mov         r3,  #0x2b
128     mul         r3,  r3,  r2
129     lsr         r3,  r3,  #8            // i_qbits = i_qp / 6
130     add         ip,  r3,  r3,  lsl #1
131     sub         r2,  r2,  ip,  lsl #1   // i_mf = i_qp % 6
132 .ifc \dc,no
133     add         r1,  r1,  r2, lsl #\mf_size  // dequant_mf[i_mf]
134 .else
135     ldr         r1, [r1,  r2, lsl #\mf_size] // dequant_mf[i_mf][0][0]
136 .endif
137     subs        r3,  r3,  #\offset      // 6 for 8x8
138 .endm
139
140 // dequant_4x4( int16_t dct[16], int dequant_mf[6][16], int i_qp )
141 .macro DEQUANT size bits
142 function x264_dequant_\size\()_neon
143     DEQUANT_START \bits+2, \bits
144 .ifc \size, 8x8
145     mov         r2,  #4
146 .endif
147     blt         dequant_\size\()_rshift
148
149     vdup.16     q15, r3
150 dequant_\size\()_lshift_loop:
151 .ifc \size, 8x8
152     subs        r2,  r2,  #1
153 .endif
154     vld1.32     {d16-d17}, [r1,:128]!
155     vld1.32     {d18-d19}, [r1,:128]!
156     vmovn.s32   d4,  q8
157     vld1.32     {d20-d21}, [r1,:128]!
158     vmovn.s32   d5,  q9
159     vld1.32     {d22-d23}, [r1,:128]!
160     vmovn.s32   d6,  q10
161     vld1.16     {d0-d3},   [r0,:128]
162     vmovn.s32   d7,  q11
163     vmul.s16    q0,  q0,  q2
164     vmul.s16    q1,  q1,  q3
165     vshl.s16    q0,  q0,  q15
166     vshl.s16    q1,  q1,  q15
167     vst1.16     {d0-d3},   [r0,:128]!
168 .ifc \size, 8x8
169     bgt         dequant_\size\()_lshift_loop
170 .endif
171     bx          lr
172
173 dequant_\size\()_rshift:
174     vdup.32     q15, r3
175     rsb         r3,  r3,  #0
176     mov         ip,  #1
177     sub         r3,  r3,  #1
178     lsl         ip,  ip,  r3
179
180 .ifc \size, 8x8
181 dequant_\size\()_rshift_loop:
182     subs        r2,  r2,  #1
183 .endif
184     vdup.32     q10, ip
185     vld1.32     {d16-d17}, [r1,:128]!
186     vdup.32     q11, ip
187     vld1.32     {d18-d19}, [r1,:128]!
188     vmovn.s32   d4,  q8
189     vld1.32     {d16-d17}, [r1,:128]!
190     vmovn.s32   d5,  q9
191     vld1.32     {d18-d19}, [r1,:128]!
192     vmovn.s32   d6,  q8
193     vld1.16     {d0-d3},   [r0,:128]
194     vmovn.s32   d7,  q9
195     vdup.32     q12, ip
196     vdup.32     q13, ip
197
198     vmlal.s16   q10, d0,  d4
199     vmlal.s16   q11, d1,  d5
200     vmlal.s16   q12, d2,  d6
201     vmlal.s16   q13, d3,  d7
202     vshl.s32    q10, q10, q15
203     vshl.s32    q11, q11, q15
204     vshl.s32    q12, q12, q15
205     vshl.s32    q13, q13, q15
206
207     vmovn.s32   d0,  q10
208     vmovn.s32   d1,  q11
209     vmovn.s32   d2,  q12
210     vmovn.s32   d3,  q13
211     vst1.16     {d0-d3},   [r0,:128]!
212 .ifc \size, 8x8
213     bgt         dequant_\size\()_rshift_loop
214 .endif
215     bx          lr
216 .endfunc
217 .endm
218
219 DEQUANT 4x4, 4
220 DEQUANT 8x8, 6
221
222 // dequant_4x4_dc( int16_t dct[16], int dequant_mf[6][16], int i_qp )
223 function x264_dequant_4x4_dc_neon
224     DEQUANT_START 6, 6, yes
225     blt         dequant_4x4_dc_rshift
226
227     lsl         r1,  r1,  r3
228     vdup.16     q2,  r1
229     vld1.16     {d0-d3},   [r0,:128]
230     vdup.16     q15, r3
231
232     vmul.s16    q0,  q0,  q2
233     vmul.s16    q1,  q1,  q2
234     vst1.16     {d0-d3},   [r0,:128]
235     bx          lr
236
237 dequant_4x4_dc_rshift:
238     vdup.16     d4,  r1
239     vdup.32     q15, r3
240     rsb         r3,  r3,  #0
241     mov         ip,  #1
242     sub         r3,  r3,  #1
243     lsl         ip,  ip,  r3
244
245     vdup.32     q10, ip
246     vdup.32     q11, ip
247     vld1.16     {d0-d3},   [r0,:128]
248     vdup.32     q12, ip
249     vdup.32     q13, ip
250
251     vmlal.s16   q10, d0,  d4
252     vmlal.s16   q11, d1,  d4
253     vmlal.s16   q12, d2,  d4
254     vmlal.s16   q13, d3,  d4
255     vshl.s32    q10, q10, q15
256     vshl.s32    q11, q11, q15
257     vshl.s32    q12, q12, q15
258     vshl.s32    q13, q13, q15
259
260     vmovn.s32   d0,  q10
261     vmovn.s32   d1,  q11
262     vmovn.s32   d2,  q12
263     vmovn.s32   d3,  q13
264     vst1.16     {d0-d3},   [r0,:128]
265     bx          lr
266 .endfunc
267
268
269 // int coeff_last( int16_t *l )
270 function x264_coeff_last4_arm
271     ldrd        r2,  [r0]
272     subs        r0,  r3,  #0
273     movne       r0,  #2
274     movne       r2,  r3
275     lsrs        r2,  r2,  #16
276     addne       r0,  r0,  #1
277     bx          lr
278 .endfunc
279
280 .macro COEFF_LAST_1x size
281 function x264_coeff_last\size\()_neon
282 .if \size == 15
283     sub         r0,  r0,  #2
284     vld1.64     {d0-d3}, [r0]
285 .else
286     vld1.64     {d0-d3}, [r0,:128]
287 .endif
288     vtst.16     q0,  q0
289     vtst.16     q1,  q1
290     vshrn.u16   d0,  q0,  #8
291     vshrn.u16   d1,  q1,  #8
292     vshrn.u16   d0,  q0,  #4
293     vclz.i32    d0,  d0
294     mov         ip,  #7
295     mov         r3,  #\size - 9
296     vmov        r0,  r1,  d0
297
298     subs        r1,  ip,  r1,  lsr #2
299     addge       r0,  r1,  #\size - 8
300     sublts      r0,  r3,  r0,  lsr #2
301     movlt       r0,  #0
302     bx          lr
303 .endfunc
304 .endm
305
306 COEFF_LAST_1x 15
307 COEFF_LAST_1x 16
308
309 function x264_coeff_last64_neon
310     vld1.64     {d16-d19}, [r0,:128]!
311     vqmovn.u16  d16, q8
312     vqmovn.u16  d17, q9
313     vld1.64     {d20-d23}, [r0,:128]!
314     vqmovn.u16  d18, q10
315     vqmovn.u16  d19, q11
316     vld1.64     {d24-d27}, [r0,:128]!
317     vqmovn.u16  d20, q12
318     vqmovn.u16  d21, q13
319     vld1.64     {d28-d31}, [r0,:128]!
320     vqmovn.u16  d22, q14
321     vqmovn.u16  d23, q15
322
323     movrel      r1, pmovmskb_byte
324     vld1.64     {d0-d1}, [r1,:128]
325
326     vtst.8      q8,  q8
327     vtst.8      q9,  q9
328     vtst.8      q10, q10
329     vtst.8      q11, q11
330
331     vand        q8,  q8,  q0
332     vand        q9,  q9,  q0
333     vand        q10, q10, q0
334     vand        q11, q11, q0
335
336     vpadd.u8    d0,  d16, d17
337     vpadd.u8    d1,  d18, d19
338     vpadd.u8    d2,  d20, d21
339     vpadd.u8    d3,  d22, d23
340     vpadd.u8    d0,  d0,  d1
341     vpadd.u8    d1,  d2,  d3
342     vpadd.u8    d0,  d0,  d1
343     vclz.i32    d0,  d0
344     mov         ip,  #31
345     vmov        r0,  r1,  d0
346
347     subs        r1,  ip,  r1
348     addge       r0,  r1,  #32
349     sublts      r0,  ip,  r0
350     movlt       r0,  #0
351     bx          lr
352 .endfunc