]> git.sesse.net Git - ffmpeg/blob - libavcodec/arm/vp9itxfm_neon.S
avcodec: Move all AVCodecParser.split functions to remove_extradata_bsf
[ffmpeg] / libavcodec / arm / vp9itxfm_neon.S
1 /*
2  * Copyright (c) 2016 Google Inc.
3  *
4  * This file is part of FFmpeg.
5  *
6  * FFmpeg is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU Lesser General Public
8  * License as published by the Free Software Foundation; either
9  * version 2.1 of the License, or (at your option) any later version.
10  *
11  * FFmpeg is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14  * Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with FFmpeg; if not, write to the Free Software
18  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
19  */
20
21 #include "libavutil/arm/asm.S"
22 #include "neon.S"
23
24 const itxfm4_coeffs, align=4
25         .short  11585, 0, 6270, 15137
26 iadst4_coeffs:
27         .short  5283, 15212, 9929, 13377
28 endconst
29
30 const iadst8_coeffs, align=4
31         .short  16305, 1606, 14449, 7723, 10394, 12665, 4756, 15679
32 idct_coeffs:
33         .short  11585, 0, 6270, 15137, 3196, 16069, 13623, 9102
34         .short  1606, 16305, 12665, 10394, 7723, 14449, 15679, 4756
35         .short  804, 16364, 12140, 11003, 7005, 14811, 15426, 5520
36         .short  3981, 15893, 14053, 8423, 9760, 13160, 16207, 2404
37 endconst
38
39 const iadst16_coeffs, align=4
40         .short  16364, 804, 15893, 3981, 11003, 12140, 8423, 14053
41         .short  14811, 7005, 13160, 9760, 5520, 15426, 2404, 16207
42 endconst
43
44 @ Do four 4x4 transposes, using q registers for the subtransposes that don't
45 @ need to address the individual d registers.
46 @ r0,r1 == rq1, r2,r3 == rq1, etc
47 .macro transpose16_q_4x_4x4 rq0, rq1, rq2, rq3, rq4, rq5, rq6, rq7, r0, r1, r2, r3, r4, r5, r6, r7, r8, r9, r10, r11, r12, r13, r14, r15
48         vtrn.32          \rq0, \rq1
49         vtrn.32          \rq2, \rq3
50         vtrn.32          \rq4, \rq5
51         vtrn.32          \rq6, \rq7
52         vtrn.16          \r0,  \r1
53         vtrn.16          \r2,  \r3
54         vtrn.16          \r4,  \r5
55         vtrn.16          \r6,  \r7
56         vtrn.16          \r8,  \r9
57         vtrn.16          \r10, \r11
58         vtrn.16          \r12, \r13
59         vtrn.16          \r14, \r15
60 .endm
61
62 @ out1 = ((in1 + in2) * d0[0] + (1 << 13)) >> 14
63 @ out2 = ((in1 - in2) * d0[0] + (1 << 13)) >> 14
64 @ in/out are d registers
65 .macro mbutterfly0 out1, out2, in1, in2, tmpd1, tmpd2, tmpq3, tmpq4, neg=0
66         vadd.s16        \tmpd1, \in1,  \in2
67         vsub.s16        \tmpd2, \in1,  \in2
68         vmull.s16       \tmpq3, \tmpd1, d0[0]
69         vmull.s16       \tmpq4, \tmpd2, d0[0]
70 .if \neg > 0
71         vneg.s32        \tmpq3, \tmpq3
72 .endif
73         vrshrn.s32      \out1, \tmpq3, #14
74         vrshrn.s32      \out2, \tmpq4, #14
75 .endm
76
77 @ Same as mbutterfly0 above, but treating the input in in2 as zero,
78 @ writing the same output into both out1 and out2.
79 .macro mbutterfly0_h out1, out2, in1, in2, tmpd1, tmpd2, tmpq3, tmpq4
80         vmull.s16       \tmpq3, \in1, d0[0]
81         vrshrn.s32      \out1,  \tmpq3, #14
82         vrshrn.s32      \out2,  \tmpq3, #14
83 .endm
84
85 @ out1,out2 = ((in1 + in2) * d0[0] + (1 << 13)) >> 14
86 @ out3,out4 = ((in1 - in2) * d0[0] + (1 << 13)) >> 14
87 @ Same as mbutterfly0, but with input being 2 q registers, output
88 @ being 4 d registers.
89 @ This can do with either 4 or 6 temporary q registers.
90 .macro dmbutterfly0 out1, out2, out3, out4, in1, in2, tmpq1, tmpq2, tmpd11, tmpd12, tmpd21, tmpd22, tmpq3, tmpq4, tmpq5, tmpq6
91         vadd.s16        \tmpq1, \in1,  \in2
92         vsub.s16        \tmpq2, \in1,  \in2
93         vmull.s16       \tmpq3, \tmpd11, d0[0]
94         vmull.s16       \tmpq4, \tmpd12, d0[0]
95 .ifb \tmpq5
96         vrshrn.s32      \out1, \tmpq3, #14
97         vrshrn.s32      \out2, \tmpq4, #14
98         vmull.s16       \tmpq3, \tmpd21, d0[0]
99         vmull.s16       \tmpq4, \tmpd22, d0[0]
100         vrshrn.s32      \out3, \tmpq3, #14
101         vrshrn.s32      \out4, \tmpq4, #14
102 .else
103         vmull.s16       \tmpq5, \tmpd21, d0[0]
104         vmull.s16       \tmpq6, \tmpd22, d0[0]
105         vrshrn.s32      \out1, \tmpq3, #14
106         vrshrn.s32      \out2, \tmpq4, #14
107         vrshrn.s32      \out3, \tmpq5, #14
108         vrshrn.s32      \out4, \tmpq6, #14
109 .endif
110 .endm
111
112 @ out1 = in1 * coef1 - in2 * coef2
113 @ out2 = in1 * coef2 + in2 * coef1
114 @ out are 2 q registers, in are 2 d registers
115 .macro mbutterfly_l out1, out2, in1, in2, coef1, coef2
116         vmull.s16       \out1, \in1, \coef1
117         vmlsl.s16       \out1, \in2, \coef2
118         vmull.s16       \out2, \in1, \coef2
119         vmlal.s16       \out2, \in2, \coef1
120 .endm
121
122 @ out1,out2 = in1,in2 * coef1 - in3,in4 * coef2
123 @ out3,out4 = in1,in2 * coef2 + in3,in4 * coef1
124 @ out are 4 q registers, in are 4 d registers
125 .macro dmbutterfly_l out1, out2, out3, out4, in1, in2, in3, in4, coef1, coef2
126         vmull.s16       \out1, \in1, \coef1
127         vmull.s16       \out2, \in2, \coef1
128         vmull.s16       \out3, \in1, \coef2
129         vmull.s16       \out4, \in2, \coef2
130         vmlsl.s16       \out1, \in3, \coef2
131         vmlsl.s16       \out2, \in4, \coef2
132         vmlal.s16       \out3, \in3, \coef1
133         vmlal.s16       \out4, \in4, \coef1
134 .endm
135
136 @ inout1 = (inout1 * coef1 - inout2 * coef2 + (1 << 13)) >> 14
137 @ inout2 = (inout1 * coef2 + inout2 * coef1 + (1 << 13)) >> 14
138 @ inout are 2 d registers, tmp are 2 q registers
139 .macro mbutterfly inout1, inout2, coef1, coef2, tmp1, tmp2, neg=0
140         mbutterfly_l    \tmp1, \tmp2, \inout1, \inout2, \coef1, \coef2
141 .if \neg > 0
142         vneg.s32        \tmp2, \tmp2
143 .endif
144         vrshrn.s32      \inout1, \tmp1,  #14
145         vrshrn.s32      \inout2, \tmp2,  #14
146 .endm
147
148 @ Same as mbutterfly above, but treating the input in inout2 as zero
149 .macro mbutterfly_h1 inout1, inout2, coef1, coef2, tmp1, tmp2
150         vmull.s16       \tmp1,   \inout1, \coef1
151         vmull.s16       \tmp2,   \inout1, \coef2
152         vrshrn.s32      \inout1, \tmp1,   #14
153         vrshrn.s32      \inout2, \tmp2,   #14
154 .endm
155
156 @ Same as mbutterfly above, but treating the input in inout1 as zero
157 .macro mbutterfly_h2 inout1, inout2, coef1, coef2, tmp1, tmp2
158         vmull.s16       \tmp1,   \inout2, \coef2
159         vmull.s16       \tmp2,   \inout2, \coef1
160         vneg.s32        \tmp1,   \tmp1
161         vrshrn.s32      \inout2, \tmp2,   #14
162         vrshrn.s32      \inout1, \tmp1,   #14
163 .endm
164
165 @ inout1,inout2 = (inout1,inout2 * coef1 - inout3,inout4 * coef2 + (1 << 13)) >> 14
166 @ inout3,inout4 = (inout1,inout2 * coef2 + inout3,inout4 * coef1 + (1 << 13)) >> 14
167 @ inout are 4 d registers, tmp are 4 q registers
168 .macro dmbutterfly inout1, inout2, inout3, inout4, coef1, coef2, tmp1, tmp2, tmp3, tmp4
169         dmbutterfly_l   \tmp1, \tmp2, \tmp3, \tmp4, \inout1, \inout2, \inout3, \inout4, \coef1, \coef2
170         vrshrn.s32      \inout1, \tmp1,  #14
171         vrshrn.s32      \inout2, \tmp2,  #14
172         vrshrn.s32      \inout3, \tmp3,  #14
173         vrshrn.s32      \inout4, \tmp4,  #14
174 .endm
175
176 @ out1 = in1 + in2
177 @ out2 = in1 - in2
178 .macro butterfly out1, out2, in1, in2
179         vadd.s16        \out1, \in1, \in2
180         vsub.s16        \out2, \in1, \in2
181 .endm
182
183 @ out1 = in1 - in2
184 @ out2 = in1 + in2
185 .macro butterfly_r out1, out2, in1, in2
186         vsub.s16        \out1, \in1, \in2
187         vadd.s16        \out2, \in1, \in2
188 .endm
189
190 @ out1 = (in1 + in2 + (1 << 13)) >> 14
191 @ out2 = (in1 - in2 + (1 << 13)) >> 14
192 @ out are 2 d registers, in are 2 q registers, tmp are 2 q registers
193 .macro butterfly_n out1, out2, in1, in2, tmp1, tmp2
194         vadd.s32        \tmp1, \in1, \in2
195         vsub.s32        \tmp2, \in1, \in2
196         vrshrn.s32      \out1, \tmp1,  #14
197         vrshrn.s32      \out2, \tmp2,  #14
198 .endm
199
200 @ out1,out2 = (in1,in2 + in3,in4 + (1 << 13)) >> 14
201 @ out3,out4 = (in1,in2 - in3,in4 + (1 << 13)) >> 14
202 @ out are 4 d registers, in are 4 q registers, tmp are 4 q registers
203 .macro dbutterfly_n out1, out2, out3, out4, in1, in2, in3, in4, tmp1, tmp2, tmp3, tmp4
204         vadd.s32        \tmp1, \in1, \in3
205         vadd.s32        \tmp2, \in2, \in4
206         vsub.s32        \tmp3, \in1, \in3
207         vsub.s32        \tmp4, \in2, \in4
208         vrshrn.s32      \out1, \tmp1,  #14
209         vrshrn.s32      \out2, \tmp2,  #14
210         vrshrn.s32      \out3, \tmp3,  #14
211         vrshrn.s32      \out4, \tmp4,  #14
212 .endm
213
214
215 .macro iwht4 c0, c1, c2, c3
216         vadd.i16        \c0,  \c0,  \c1
217         vsub.i16        d17,  \c2,  \c3
218         vsub.i16        d16,  \c0,  d17
219         vshr.s16        d16,  d16,  #1
220         vsub.i16        \c2,  d16,  \c1
221         vsub.i16        \c1,  d16,  \c3
222         vadd.i16        \c3,  d17,  \c2
223         vsub.i16        \c0,  \c0,  \c1
224 .endm
225
226 .macro idct4 c0, c1, c2, c3
227         vmull.s16       q13,  \c1,  d0[3]
228         vmull.s16       q11,  \c1,  d0[2]
229         vadd.i16        d16,  \c0,  \c2
230         vsub.i16        d17,  \c0,  \c2
231         vmlal.s16       q13,  \c3,  d0[2]
232         vmull.s16       q9,   d16,  d0[0]
233         vmull.s16       q10,  d17,  d0[0]
234         vmlsl.s16       q11,  \c3,  d0[3]
235         vrshrn.s32      d26,  q13,  #14
236         vrshrn.s32      d18,  q9,   #14
237         vrshrn.s32      d20,  q10,  #14
238         vrshrn.s32      d22,  q11,  #14
239         vadd.i16        \c0,  d18,  d26
240         vsub.i16        \c3,  d18,  d26
241         vadd.i16        \c1,  d20,  d22
242         vsub.i16        \c2,  d20,  d22
243 .endm
244
245 .macro iadst4 c0, c1, c2, c3
246         vmull.s16       q10,  \c0,  d1[0]
247         vmlal.s16       q10,  \c2,  d1[1]
248         vmlal.s16       q10,  \c3,  d1[2]
249         vmull.s16       q11,  \c0,  d1[2]
250         vmlsl.s16       q11,  \c2,  d1[0]
251         vsub.s16        \c0,  \c0,  \c2
252         vmlsl.s16       q11,  \c3,  d1[1]
253         vadd.s16        \c0,  \c0,  \c3
254         vmull.s16       q13,  \c1,  d1[3]
255         vmull.s16       q12,  \c0,  d1[3]
256         vadd.s32        q14,  q10,  q13
257         vadd.s32        q1,   q11,  q13
258         vrshrn.s32      \c0,  q14,  #14
259         vadd.s32        q10,  q10,  q11
260         vrshrn.s32      \c1,  q1,   #14
261         vsub.s32        q10,  q10,  q13
262         vrshrn.s32      \c2,  q12,  #14
263         vrshrn.s32      \c3,  q10,  #14
264 .endm
265
266 @ The public functions in this file have got the following signature:
267 @ void itxfm_add(uint8_t *dst, ptrdiff_t stride, int16_t *block, int eob);
268
269 .macro itxfm_func4x4 txfm1, txfm2
270 function ff_vp9_\txfm1\()_\txfm2\()_4x4_add_neon, export=1
271 .ifc \txfm1,\txfm2
272 .ifc \txfm1,idct
273         movrel          r12, itxfm4_coeffs
274         vld1.16         {d0}, [r12,:64]
275 .endif
276 .ifc \txfm1,iadst
277         movrel          r12, iadst4_coeffs
278         vld1.16         {d1}, [r12,:64]
279 .endif
280 .else
281         movrel          r12, itxfm4_coeffs
282         vld1.16         {q0}, [r12,:128]
283 .endif
284
285         vmov.i16        q15, #0
286 .ifc \txfm1\()_\txfm2,idct_idct
287         cmp             r3,  #1
288         bne             1f
289         @ DC-only for idct/idct
290         vld1.16         {d4[]},   [r2,:16]
291         vmull.s16       q2,  d4,  d0[0]
292         vrshrn.s32      d4,  q2,  #14
293         vmull.s16       q2,  d4,  d0[0]
294         vrshrn.s32      d4,  q2,  #14
295         vst1.16         {d30[0]}, [r2,:16]
296         vdup.16         q2,  d4[0]
297         vmov            q3,  q2
298         b               2f
299 .endif
300
301 1:
302         vld1.16         {d4-d7},  [r2,:128]
303         vst1.16         {q15}, [r2,:128]!
304
305 .ifc \txfm1,iwht
306         vshr.s16        q2,  q2,  #2
307         vshr.s16        q3,  q3,  #2
308 .endif
309
310         \txfm1\()4      d4,  d5,  d6,  d7
311
312         vst1.16         {q15}, [r2,:128]!
313         @ Transpose 4x4 with 16 bit elements
314         vtrn.16         d4,  d5
315         vtrn.16         d6,  d7
316         vtrn.32         q2,  q3
317
318         \txfm2\()4      d4,  d5,  d6,  d7
319 2:
320         vld1.32         {d0[]},   [r0,:32], r1
321         vld1.32         {d0[1]},  [r0,:32], r1
322 .ifnc \txfm1,iwht
323         vrshr.s16       q2,  q2,  #4
324         vrshr.s16       q3,  q3,  #4
325 .endif
326         vaddw.u8        q2,  q2,  d0
327         vld1.32         {d1[]},   [r0,:32], r1
328         vld1.32         {d1[1]},  [r0,:32], r1
329         vqmovun.s16     d0,  q2
330         sub             r0,  r0,  r1, lsl #2
331
332         vaddw.u8        q3,  q3,  d1
333         vst1.32         {d0[0]},  [r0,:32], r1
334         vqmovun.s16     d1,  q3
335
336         vst1.32         {d0[1]},  [r0,:32], r1
337         vst1.32         {d1[0]},  [r0,:32], r1
338         vst1.32         {d1[1]},  [r0,:32], r1
339
340         bx              lr
341 endfunc
342 .endm
343
344 itxfm_func4x4 idct,  idct
345 itxfm_func4x4 iadst, idct
346 itxfm_func4x4 idct,  iadst
347 itxfm_func4x4 iadst, iadst
348 itxfm_func4x4 iwht,  iwht
349
350
351 .macro idct8
352         dmbutterfly0    d16, d17, d24, d25, q8,  q12, q2, q4, d4, d5, d8, d9, q3, q2, q5, q4 @ q8 = t0a, q12 = t1a
353         dmbutterfly     d20, d21, d28, d29, d0[2], d0[3], q2,  q3,  q4,  q5 @ q10 = t2a, q14 = t3a
354         dmbutterfly     d18, d19, d30, d31, d1[0], d1[1], q2,  q3,  q4,  q5 @ q9  = t4a, q15 = t7a
355         dmbutterfly     d26, d27, d22, d23, d1[2], d1[3], q2,  q3,  q4,  q5 @ q13 = t5a, q11 = t6a
356
357         butterfly       q2,  q14, q8,  q14 @ q2 = t0, q14 = t3
358         butterfly       q3,  q10, q12, q10 @ q3 = t1, q10 = t2
359         butterfly       q4,  q13, q9,  q13 @ q4 = t4, q13 = t5a
360         butterfly       q5,  q11, q15, q11 @ q5 = t7, q11 = t6a
361
362         butterfly       q8,  q15, q2,  q5  @ q8 = out[0], q15 = out[7]
363
364         dmbutterfly0    d4,  d5,  d10, d11, q11, q13, q9,  q13, d18, d19, d26, d27, q2,  q5, q11, q12 @ q2 = t6, q5 = t5
365
366         butterfly       q11, q12, q14, q4  @ q11 = out[3], q12 = out[4]
367         butterfly       q9,  q14, q3,  q2  @ q9 = out[1],  q14 = out[6]
368         butterfly_r     q13, q10, q10, q5  @ q13 = out[5], q10 = out[2]
369 .endm
370
371 .macro iadst8
372         dmbutterfly_l   q4,  q5,  q2,  q3,  d30, d31, d16, d17, d2[1], d2[0] @ q4,q5  = t1a, q2,q3 = t0a
373         dmbutterfly_l   q8,  q15, q6,  q7,  d22, d23, d24, d25, d3[1], d3[0] @ q8,q15 = t5a, q6,q7 = t4a
374
375         dbutterfly_n    d22, d23, d4,  d5,  q2,  q3,  q6,  q7,  q11, q12, q2,  q3 @ q11 = t0, q2 = t4
376
377         dbutterfly_n    d24, d25, d6,  d7,  q4,  q5,  q8,  q15, q12, q3,  q6,  q7 @ q12 = t1, q3 = t5
378
379         dmbutterfly_l   q6,  q7,  q4,  q5,  d26, d27, d20, d21, d2[3], d2[2] @ q6,q7 = t3a, q4,q5 = t2a
380         dmbutterfly_l   q10, q13, q8,  q15, d18, d19, d28, d29, d3[3], d3[2] @ q10,q13 = t7a, q8,q15 = t6a
381
382         dbutterfly_n    d18, d19, d8,  d9,  q4,  q5,  q8,  q15, q9,  q14, q4, q5 @ q9 = t2, q4 = t6
383         dbutterfly_n    d16, d17, d12, d13, q6,  q7,  q10, q13, q8,  q15, q6, q7 @ q8 = t3, q6 = t7
384
385         butterfly       q15, q12, q12, q8 @ q15 = -out[7], q12 = t3
386         vneg.s16        q15, q15          @ q15 = out[7]
387         butterfly       q8,  q9,  q11, q9 @ q8 = out[0], q9 = t2
388
389         dmbutterfly_l   q10, q11, q5,  q7,  d4,  d5,  d6,  d7,  d0[2], d0[3] @ q10,q11 = t5a, q5,q7 = t4a
390         dmbutterfly_l   q2,  q3,  q13, q14, d12, d13, d8,  d9,  d0[3], d0[2] @ q2,q3 = t6a, q13,q14 = t7a
391
392         dbutterfly_n    d28, d29, d8,  d9,  q10, q11, q13, q14, q4,  q6,  q10, q11 @ q14 = out[6], q4 = t7
393
394         dmbutterfly0    d22, d23, d24, d25, q9,  q12, q6, q13, d12, d13, d26, d27, q9, q10 @ q11 = -out[3], q12 = out[4]
395         vneg.s16        q11, q11      @ q11 = out[3]
396
397         dbutterfly_n    d18, d19, d4,  d5,  q5,  q7,  q2,  q3,  q9, q10, q2,  q3 @ q9 = -out[1], q2 = t6
398         vneg.s16        q9,  q9       @ q9 = out[1]
399
400         dmbutterfly0    d20, d21, d26, d27, q2,  q4,  q3, q5,  d6,  d7,  d10, d11, q6,  q7 @ q10 = out[2], q13 = -out[5]
401         vneg.s16        q13, q13      @ q13 = out[5]
402 .endm
403
404
405 .macro itxfm_func8x8 txfm1, txfm2
406 function ff_vp9_\txfm1\()_\txfm2\()_8x8_add_neon, export=1
407         @ Push q4-q7 if iadst is used, idct requires
408         @ a few scratch registers less, so only push q4-q5
409         @ if only idct is involved.
410         @ The iadst also uses a few coefficients from
411         @ idct, so those always need to be loaded.
412 .ifc \txfm1\()_\txfm2,idct_idct
413         movrel          r12, idct_coeffs
414         vpush           {q4-q5}
415 .else
416         movrel          r12, iadst8_coeffs
417         vld1.16         {q1}, [r12,:128]!
418         vpush           {q4-q7}
419 .endif
420         vld1.16         {q0}, [r12,:128]
421
422         vmov.i16        q2, #0
423         vmov.i16        q3, #0
424
425 .ifc \txfm1\()_\txfm2,idct_idct
426         cmp             r3,  #1
427         bne             1f
428         @ DC-only for idct/idct
429         vld1.16         {d16[]}, [r2,:16]
430         vmull.s16       q8,  d16, d0[0]
431         vrshrn.s32      d16, q8,  #14
432         vmull.s16       q8,  d16, d0[0]
433         vrshrn.s32      d16, q8,  #14
434         vdup.16         q8,  d16[0]
435         vmov            q9,  q8
436         vmov            q10, q8
437         vmov            q11, q8
438         vmov            q12, q8
439         vmov            q13, q8
440         vmov            q14, q8
441         vmov            q15, q8
442         vst1.16         {d4[0]}, [r2,:16]
443         b               2f
444 .endif
445 1:
446         vld1.16         {q8-q9},    [r2,:128]!
447         vld1.16         {q10-q11},  [r2,:128]!
448         vld1.16         {q12-q13},  [r2,:128]!
449         vld1.16         {q14-q15},  [r2,:128]!
450         sub             r2,  r2,  #128
451         vst1.16         {q2-q3}, [r2,:128]!
452         vst1.16         {q2-q3}, [r2,:128]!
453         vst1.16         {q2-q3}, [r2,:128]!
454         vst1.16         {q2-q3}, [r2,:128]!
455
456         \txfm1\()8
457
458         @ Transpose 8x8 with 16 bit elements
459         vswp            d17, d24
460         vswp            d19, d26
461         vswp            d21, d28
462         vswp            d23, d30
463         transpose16_4x4 q8, q9, q10, q11, q12, q13, q14, q15
464
465         \txfm2\()8
466 2:
467         mov             r3,  r0
468         @ Add into the destination
469         vld1.8          {d4},  [r0,:64], r1
470         vrshr.s16       q8,  q8,  #5
471         vld1.8          {d5},  [r0,:64], r1
472         vrshr.s16       q9,  q9,  #5
473         vld1.8          {d6},  [r0,:64], r1
474         vrshr.s16       q10, q10, #5
475         vaddw.u8        q8,  q8,  d4
476         vld1.8          {d7},  [r0,:64], r1
477         vrshr.s16       q11, q11, #5
478         vaddw.u8        q9,  q9,  d5
479         vld1.8          {d8},  [r0,:64], r1
480         vrshr.s16       q12, q12, #5
481         vaddw.u8        q10, q10, d6
482         vqmovun.s16     d4,  q8
483         vld1.8          {d9},  [r0,:64], r1
484         vrshr.s16       q13, q13, #5
485         vaddw.u8        q11, q11, d7
486         vqmovun.s16     d5,  q9
487         vld1.8          {d10}, [r0,:64], r1
488         vrshr.s16       q14, q14, #5
489         vaddw.u8        q12, q12, d8
490         vqmovun.s16     d6,  q10
491         vld1.8          {d11}, [r0,:64], r1
492         vrshr.s16       q15, q15, #5
493         vaddw.u8        q13, q13, d9
494         vqmovun.s16     d7,  q11
495
496
497         vst1.8          {d4},  [r3,:64], r1
498         vaddw.u8        q14, q14, d10
499         vst1.8          {d5},  [r3,:64], r1
500         vqmovun.s16     d8,  q12
501         vst1.8          {d6},  [r3,:64], r1
502         vaddw.u8        q15, q15, d11
503         vst1.8          {d7},  [r3,:64], r1
504         vqmovun.s16     d9,  q13
505         vst1.8          {d8},  [r3,:64], r1
506         vqmovun.s16     d10, q14
507         vst1.8          {d9},  [r3,:64], r1
508         vqmovun.s16     d11, q15
509
510         vst1.8          {d10}, [r3,:64], r1
511         vst1.8          {d11}, [r3,:64], r1
512
513 .ifc \txfm1\()_\txfm2,idct_idct
514         vpop            {q4-q5}
515 .else
516         vpop            {q4-q7}
517 .endif
518         bx              lr
519 endfunc
520 .endm
521
522 itxfm_func8x8 idct,  idct
523 itxfm_func8x8 iadst, idct
524 .ltorg
525 itxfm_func8x8 idct,  iadst
526 itxfm_func8x8 iadst, iadst
527
528
529 function idct16x16_dc_add_neon
530         movrel          r12, idct_coeffs
531         vld1.16         {d0}, [r12,:64]
532
533         vmov.i16        q2,  #0
534
535         vld1.16         {d16[]}, [r2,:16]
536         vmull.s16       q8,  d16, d0[0]
537         vrshrn.s32      d16, q8,  #14
538         vmull.s16       q8,  d16, d0[0]
539         vrshrn.s32      d16, q8,  #14
540         vdup.16         q8,  d16[0]
541         vst1.16         {d4[0]}, [r2,:16]
542
543         vrshr.s16       q8,  q8,  #6
544
545         mov             r3,  r0
546         mov             r12, #16
547 1:
548         @ Loop to add the constant from q8 into all 16x16 outputs
549         subs            r12, r12, #2
550         vld1.8          {q2},  [r0,:128], r1
551         vaddw.u8        q10, q8,  d4
552         vld1.8          {q3},  [r0,:128], r1
553         vaddw.u8        q11, q8,  d5
554         vaddw.u8        q12, q8,  d6
555         vaddw.u8        q13, q8,  d7
556         vqmovun.s16     d4,  q10
557         vqmovun.s16     d5,  q11
558         vqmovun.s16     d6,  q12
559         vst1.8          {q2},  [r3,:128], r1
560         vqmovun.s16     d7,  q13
561         vst1.8          {q3},  [r3,:128], r1
562         bne             1b
563
564         bx              lr
565 endfunc
566 .ltorg
567
568 .macro idct16_end
569         butterfly       d18, d7,  d4,  d7                @ d18 = t0a,  d7  = t7a
570         butterfly       d19, d22, d5,  d22               @ d19 = t1a,  d22 = t6
571         butterfly       d4,  d26, d20, d26               @ d4  = t2a,  d26 = t5
572         butterfly       d5,  d6,  d28, d6                @ d5  = t3a,  d6  = t4
573         butterfly       d20, d28, d16, d24               @ d20 = t8a,  d28 = t11a
574         butterfly       d24, d21, d23, d21               @ d24 = t9,   d21 = t10
575         butterfly       d23, d27, d25, d27               @ d23 = t14,  d27 = t13
576         butterfly       d25, d29, d29, d17               @ d25 = t15a, d29 = t12a
577
578         mbutterfly0     d27, d21, d27, d21, d16, d30, q8, q15 @ d27 = t13a, d21 = t10a
579         mbutterfly0     d29, d28, d29, d28, d16, d30, q8, q15 @ d29 = t12,  d28 = t11
580
581         vswp            d27, d29                         @ d27 = t12, d29 = t13a
582         vswp            d28, d27                         @ d28 = t12, d27 = t11
583         butterfly       d16, d31, d18, d25               @ d16 = out[0], d31 = out[15]
584         butterfly       d17, d30, d19, d23               @ d17 = out[1], d30 = out[14]
585         butterfly_r     d25, d22, d22, d24               @ d25 = out[9], d22 = out[6]
586         butterfly       d23, d24, d7,  d20               @ d23 = out[7], d24 = out[8]
587         butterfly       d18, d29, d4,  d29               @ d18 = out[2], d29 = out[13]
588         butterfly       d19, d28, d5,  d28               @ d19 = out[3], d28 = out[12]
589         vmov            d4,  d21                         @ d4  = t10a
590         butterfly       d20, d27, d6,  d27               @ d20 = out[4], d27 = out[11]
591         butterfly       d21, d26, d26, d4                @ d21 = out[5], d26 = out[10]
592         bx              lr
593 .endm
594
595 function idct16
596         mbutterfly0     d16, d24, d16, d24, d4, d6,  q2,  q3 @ d16 = t0a,  d24 = t1a
597         mbutterfly      d20, d28, d0[2], d0[3], q2,  q3  @ d20 = t2a,  d28 = t3a
598         mbutterfly      d18, d30, d1[0], d1[1], q2,  q3  @ d18 = t4a,  d30 = t7a
599         mbutterfly      d26, d22, d1[2], d1[3], q2,  q3  @ d26 = t5a,  d22 = t6a
600         mbutterfly      d17, d31, d2[0], d2[1], q2,  q3  @ d17 = t8a,  d31 = t15a
601         mbutterfly      d25, d23, d2[2], d2[3], q2,  q3  @ d25 = t9a,  d23 = t14a
602         mbutterfly      d21, d27, d3[0], d3[1], q2,  q3  @ d21 = t10a, d27 = t13a
603         mbutterfly      d29, d19, d3[2], d3[3], q2,  q3  @ d29 = t11a, d19 = t12a
604
605         butterfly       d4,  d28, d16, d28               @ d4  = t0,   d28 = t3
606         butterfly       d5,  d20, d24, d20               @ d5  = t1,   d20 = t2
607         butterfly       d6,  d26, d18, d26               @ d6  = t4,   d26 = t5
608         butterfly       d7,  d22, d30, d22               @ d7  = t7,   d22 = t6
609         butterfly       d16, d25, d17, d25               @ d16 = t8,   d25 = t9
610         butterfly       d24, d21, d29, d21               @ d24 = t11,  d21 = t10
611         butterfly       d17, d27, d19, d27               @ d17 = t12,  d27 = t13
612         butterfly       d29, d23, d31, d23               @ d29 = t15,  d23 = t14
613
614         mbutterfly0     d22, d26, d22, d26, d18, d30, q9,  q15  @ d22 = t6a, d26 = t5a
615         mbutterfly      d23, d25, d0[2], d0[3], q9,  q15        @ d23 = t9a,  d25 = t14a
616         mbutterfly      d27, d21, d0[2], d0[3], q9,  q15, neg=1 @ d27 = t13a, d21 = t10a
617         idct16_end
618 endfunc
619
620 function idct16_half
621         mbutterfly0_h   d16, d24, d16, d24, d4, d6,  q2,  q3 @ d16 = t0a,  d24 = t1a
622         mbutterfly_h1   d20, d28, d0[2], d0[3], q2,  q3  @ d20 = t2a,  d28 = t3a
623         mbutterfly_h1   d18, d30, d1[0], d1[1], q2,  q3  @ d18 = t4a,  d30 = t7a
624         mbutterfly_h2   d26, d22, d1[2], d1[3], q2,  q3  @ d26 = t5a,  d22 = t6a
625         mbutterfly_h1   d17, d31, d2[0], d2[1], q2,  q3  @ d17 = t8a,  d31 = t15a
626         mbutterfly_h2   d25, d23, d2[2], d2[3], q2,  q3  @ d25 = t9a,  d23 = t14a
627         mbutterfly_h1   d21, d27, d3[0], d3[1], q2,  q3  @ d21 = t10a, d27 = t13a
628         mbutterfly_h2   d29, d19, d3[2], d3[3], q2,  q3  @ d29 = t11a, d19 = t12a
629
630         butterfly       d4,  d28, d16, d28               @ d4  = t0,   d28 = t3
631         butterfly       d5,  d20, d24, d20               @ d5  = t1,   d20 = t2
632         butterfly       d6,  d26, d18, d26               @ d6  = t4,   d26 = t5
633         butterfly       d7,  d22, d30, d22               @ d7  = t7,   d22 = t6
634         butterfly       d16, d25, d17, d25               @ d16 = t8,   d25 = t9
635         butterfly       d24, d21, d29, d21               @ d24 = t11,  d21 = t10
636         butterfly       d17, d27, d19, d27               @ d17 = t12,  d27 = t13
637         butterfly       d29, d23, d31, d23               @ d29 = t15,  d23 = t14
638
639         mbutterfly0     d22, d26, d22, d26, d18, d30, q9,  q15  @ d22 = t6a, d26 = t5a
640         mbutterfly      d23, d25, d0[2], d0[3], q9,  q15        @ d23 = t9a,  d25 = t14a
641         mbutterfly      d27, d21, d0[2], d0[3], q9,  q15, neg=1 @ d27 = t13a, d21 = t10a
642         idct16_end
643 endfunc
644
645 function idct16_quarter
646         vmull.s16       q12, d19, d3[3]
647         vmull.s16       q2,  d17, d2[0]
648         vmull.s16       q3,  d18, d1[1]
649         vmull.s16       q15, d18, d1[0]
650         vneg.s32        q12, q12
651         vmull.s16       q14, d17, d2[1]
652         vmull.s16       q13, d19, d3[2]
653         vmull.s16       q11, d16, d0[0]
654         vrshrn.s32      d24, q12, #14
655         vrshrn.s32      d16, q2,  #14
656         vrshrn.s32      d7,  q3,  #14
657         vrshrn.s32      d6,  q15, #14
658         vrshrn.s32      d29, q14, #14
659         vrshrn.s32      d17, q13, #14
660         vrshrn.s32      d28, q11, #14
661
662         mbutterfly_l    q10, q11, d17, d24, d0[2], d0[3]
663         mbutterfly_l    q9,  q15, d29, d16, d0[2], d0[3]
664         vneg.s32        q11, q11
665         vrshrn.s32      d27, q10, #14
666         vrshrn.s32      d21, q11, #14
667         vrshrn.s32      d23, q9,  #14
668         vrshrn.s32      d25, q15, #14
669         vmov            d4,  d28
670         vmov            d5,  d28
671         mbutterfly0     d22, d26, d7,  d6,  d18, d30, q9,  q15
672         vmov            d20, d28
673         idct16_end
674 endfunc
675
676 function iadst16
677         movrel          r12, iadst16_coeffs
678         vld1.16         {q0-q1}, [r12,:128]
679
680         mbutterfly_l    q3,  q2,  d31, d16, d0[1], d0[0] @ q3  = t1,   q2  = t0
681         mbutterfly_l    q5,  q4,  d23, d24, d1[1], d1[0] @ q5  = t9,   q4  = t8
682         butterfly_n     d31, d24, q3,  q5,  q6,  q5      @ d31 = t1a,  d24 = t9a
683         mbutterfly_l    q7,  q6,  d29, d18, d0[3], d0[2] @ q7  = t3,   q6  = t2
684         butterfly_n     d16, d23, q2,  q4,  q3,  q4      @ d16 = t0a,  d23 = t8a
685
686         mbutterfly_l    q3,  q2,  d21, d26, d1[3], d1[2] @ q3  = t11,  q2  = t10
687         butterfly_n     d29, d26, q7,  q3,  q4,  q3      @ d29 = t3a,  d26 = t11a
688         mbutterfly_l    q5,  q4,  d27, d20, d2[1], d2[0] @ q5  = t5,   q4  = t4
689         butterfly_n     d18, d21, q6,  q2,  q3,  q2      @ d18 = t2a,  d21 = t10a
690
691         mbutterfly_l    q7,  q6,  d19, d28, d3[1], d3[0] @ q7  = t13,  q6  = t12
692         butterfly_n     d20, d28, q5,  q7,  q2,  q7      @ d20 = t5a,  d28 = t13a
693         mbutterfly_l    q3,  q2,  d25, d22, d2[3], d2[2] @ q3  = t7,   q2  = t6
694         butterfly_n     d27, d19, q4,  q6,  q5,  q6      @ d27 = t4a,  d19 = t12a
695
696         mbutterfly_l    q5,  q4,  d17, d30, d3[3], d3[2] @ q5  = t15,  q4  = t14
697         movrel          r12, idct_coeffs
698         vld1.16         {q0}, [r12,:128]
699         butterfly_n     d22, d30, q3,  q5,  q6,  q5      @ d22 = t7a,  d30 = t15a
700         mbutterfly_l    q7,  q6,  d23, d24, d1[0], d1[1] @ q7  = t9,   q6  = t8
701         butterfly_n     d25, d17, q2,  q4,  q3,  q4      @ d25 = t6a,  d17 = t14a
702
703         mbutterfly_l    q2,  q3,  d28, d19, d1[1], d1[0] @ q2  = t12,  q3  = t13
704         butterfly_n     d23, d19, q6,  q2,  q4,  q2      @ d23 = t8a,  d19 = t12a
705         mbutterfly_l    q5,  q4,  d21, d26, d1[2], d1[3] @ q5  = t11,  q4  = t10
706         butterfly_r     d4,  d27, d16, d27               @ d4  = t4,   d27 = t0
707         butterfly_n     d24, d28, q7,  q3,  q6,  q3      @ d24 = t9a,  d28 = t13a
708
709         mbutterfly_l    q6,  q7,  d30, d17, d1[3], d1[2] @ q6  = t14,  q7  = t15
710         butterfly_r     d5,  d20, d31, d20               @ d5  = t5,   d20 = t1
711         butterfly_n     d21, d17, q4,  q6,  q3,  q6      @ d21 = t10a, d17 = t14a
712         butterfly_n     d26, d30, q5,  q7,  q4,  q7      @ d26 = t11a, d30 = t15a
713
714         butterfly_r     d6,  d25, d18, d25               @ d6  = t6,   d25 = t2
715         butterfly_r     d7,  d22, d29, d22               @ d7  = t7,   d22 = t3
716
717         mbutterfly_l    q5,  q4,  d19, d28, d0[2], d0[3] @ q5  = t13,  q4  = t12
718         mbutterfly_l    q6,  q7,  d30, d17, d0[3], d0[2] @ q6  = t14,  q7  = t15
719
720         butterfly_n     d18, d30, q4,  q6,  q8,  q6      @ d18 = out[2],   d30 = t14a
721         butterfly_n     d29, d17, q5,  q7,  q6,  q7      @ d29 = -out[13], d17 = t15a
722         vneg.s16        d29, d29                         @ d29 = out[13]
723
724         mbutterfly_l    q5,  q4,  d4,  d5,  d0[2], d0[3] @ q5  = t5a,  q4  = t4a
725         mbutterfly_l    q6,  q7,  d7,  d6,  d0[3], d0[2] @ q6  = t6a,  q7  = t7a
726
727         butterfly       d2,  d6,  d27, d25               @ d2 = out[0], d6 = t2a
728         butterfly       d3,  d7,  d23, d21               @ d3 =-out[1], d7 = t10
729
730         butterfly_n     d19, d31, q4,  q6,  q2,  q4      @ d19 = -out[3],  d31 = t6
731         vneg.s16        d19, d19                         @ d19 = out[3]
732         butterfly_n     d28, d16, q5,  q7,  q2,  q5      @ d28 = out[12],  d16 = t7
733
734         butterfly       d5,  d8,  d20, d22               @ d5 =-out[15],d8 = t3a
735         butterfly       d4,  d9,  d24, d26               @ d4 = out[14],d9 = t11
736
737         mbutterfly0     d23, d24, d6,  d8,  d10, d11, q6,  q7, 1 @ d23 = out[7], d24 = out[8]
738         mbutterfly0     d20, d27, d16, d31, d10, d11, q6,  q7    @ d20 = out[4], d27 = out[11]
739         mbutterfly0     d22, d25, d9,  d7,  d10, d11, q6,  q7    @ d22 = out[6], d25 = out[9]
740         mbutterfly0     d21, d26, d30, d17, d10, d11, q6,  q7, 1 @ d21 = out[5], d26 = out[10]
741
742         vneg.s16        d31, d5                          @ d31 = out[15]
743         vneg.s16        d17, d3                          @ d17 = out[1]
744
745         vmov            d16, d2
746         vmov            d30, d4
747         bx              lr
748 endfunc
749
750 .macro load_add_store coef0, coef1, coef2, coef3
751         vrshr.s16       \coef0, \coef0, #6
752         vrshr.s16       \coef1, \coef1, #6
753
754         vld1.32         {d4[]},   [r0,:32], r1
755         vld1.32         {d4[1]},  [r3,:32], r1
756         vrshr.s16       \coef2, \coef2, #6
757         vrshr.s16       \coef3, \coef3, #6
758         vld1.32         {d5[]},   [r0,:32], r1
759         vld1.32         {d5[1]},  [r3,:32], r1
760         vaddw.u8        \coef0, \coef0, d4
761         vld1.32         {d6[]},   [r0,:32], r1
762         vld1.32         {d6[1]},  [r3,:32], r1
763         vaddw.u8        \coef1, \coef1, d5
764         vld1.32         {d7[]},   [r0,:32], r1
765         vld1.32         {d7[1]},  [r3,:32], r1
766
767         vqmovun.s16     d4,  \coef0
768         vqmovun.s16     d5,  \coef1
769         sub             r0,  r0,  r1, lsl #2
770         sub             r3,  r3,  r1, lsl #2
771         vaddw.u8        \coef2, \coef2, d6
772         vaddw.u8        \coef3, \coef3, d7
773         vst1.32         {d4[0]},  [r0,:32], r1
774         vst1.32         {d4[1]},  [r3,:32], r1
775         vqmovun.s16     d6,  \coef2
776         vst1.32         {d5[0]},  [r0,:32], r1
777         vst1.32         {d5[1]},  [r3,:32], r1
778         vqmovun.s16     d7,  \coef3
779
780         vst1.32         {d6[0]},  [r0,:32], r1
781         vst1.32         {d6[1]},  [r3,:32], r1
782         vst1.32         {d7[0]},  [r0,:32], r1
783         vst1.32         {d7[1]},  [r3,:32], r1
784 .endm
785
786 .macro itxfm16_1d_funcs txfm
787 @ Read a vertical 4x16 slice out of a 16x16 matrix, do a transform on it,
788 @ transpose into a horizontal 16x4 slice and store.
789 @ r0 = dst (temp buffer)
790 @ r1 = slice offset
791 @ r2 = src
792 function \txfm\()16_1d_4x16_pass1_neon
793         push            {lr}
794
795         mov             r12, #32
796         vmov.s16        q2,  #0
797 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
798         vld1.16         {d\i}, [r2,:64]
799         vst1.16         {d4},  [r2,:64], r12
800 .endr
801
802         bl              \txfm\()16
803
804         @ Do four 4x4 transposes. Originally, d16-d31 contain the
805         @ 16 rows. Afterwards, d16-d19, d20-d23, d24-d27, d28-d31
806         @ contain the transposed 4x4 blocks.
807         transpose16_q_4x_4x4 q8,  q9,  q10, q11, q12, q13, q14, q15, d16, d17, d18, d19, d20, d21, d22, d23, d24, d25, d26, d27, d28, d29, d30, d31
808
809         @ Store the transposed 4x4 blocks horizontally.
810         cmp             r1,  #12
811         beq             1f
812 .irp i, 16, 20, 24, 28, 17, 21, 25, 29, 18, 22, 26, 30, 19, 23, 27, 31
813         vst1.16         {d\i}, [r0,:64]!
814 .endr
815         pop             {pc}
816 1:
817         @ Special case: For the last input column (r1 == 12),
818         @ which would be stored as the last row in the temp buffer,
819         @ don't store the first 4x4 block, but keep it in registers
820         @ for the first slice of the second pass (where it is the
821         @ last 4x4 block).
822         add             r0,  r0,  #8
823         vst1.16         {d20}, [r0,:64]!
824         vst1.16         {d24}, [r0,:64]!
825         vst1.16         {d28}, [r0,:64]!
826         add             r0,  r0,  #8
827         vst1.16         {d21}, [r0,:64]!
828         vst1.16         {d25}, [r0,:64]!
829         vst1.16         {d29}, [r0,:64]!
830         add             r0,  r0,  #8
831         vst1.16         {d22}, [r0,:64]!
832         vst1.16         {d26}, [r0,:64]!
833         vst1.16         {d30}, [r0,:64]!
834         add             r0,  r0,  #8
835         vst1.16         {d23}, [r0,:64]!
836         vst1.16         {d27}, [r0,:64]!
837         vst1.16         {d31}, [r0,:64]!
838         vmov            d28, d16
839         vmov            d29, d17
840         vmov            d30, d18
841         vmov            d31, d19
842         pop             {pc}
843 endfunc
844
845 @ Read a vertical 4x16 slice out of a 16x16 matrix, do a transform on it,
846 @ load the destination pixels (from a similar 4x16 slice), add and store back.
847 @ r0 = dst
848 @ r1 = dst stride
849 @ r2 = src (temp buffer)
850 @ r3 = slice offset
851 function \txfm\()16_1d_4x16_pass2_neon
852         push            {lr}
853         mov             r12, #32
854 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27
855         vld1.16         {d\i}, [r2,:64], r12
856 .endr
857         cmp             r3,  #0
858         beq             1f
859 .irp i, 28, 29, 30, 31
860         vld1.16         {d\i}, [r2,:64], r12
861 .endr
862 1:
863
864         add             r3,  r0,  r1
865         lsl             r1,  r1,  #1
866         bl              \txfm\()16
867
868         load_add_store  q8,  q9,  q10, q11
869         load_add_store  q12, q13, q14, q15
870
871         pop             {pc}
872 endfunc
873 .endm
874
875 itxfm16_1d_funcs idct
876 itxfm16_1d_funcs iadst
877
878 @ This is the minimum eob value for each subpartition, in increments of 4
879 const min_eob_idct_idct_16, align=4
880         .short  0, 10, 38, 89
881 endconst
882
883 .macro itxfm_func16x16 txfm1, txfm2
884 function ff_vp9_\txfm1\()_\txfm2\()_16x16_add_neon, export=1
885 .ifc \txfm1\()_\txfm2,idct_idct
886         cmp             r3,  #1
887         beq             idct16x16_dc_add_neon
888 .endif
889         push            {r4-r8,lr}
890 .ifnc \txfm1\()_\txfm2,idct_idct
891         vpush           {q4-q7}
892 .endif
893
894         @ Align the stack, allocate a temp buffer
895 T       mov             r7,  sp
896 T       and             r7,  r7,  #15
897 A       and             r7,  sp,  #15
898         add             r7,  r7,  #512
899         sub             sp,  sp,  r7
900
901         mov             r4,  r0
902         mov             r5,  r1
903         mov             r6,  r2
904
905 .ifc \txfm1,idct
906         movrel          r12, idct_coeffs
907         vld1.16         {q0-q1}, [r12,:128]
908 .endif
909
910 .ifc \txfm1\()_\txfm2,idct_idct
911         cmp             r3,  #10
912         ble             idct16x16_quarter_add_neon
913         cmp             r3,  #38
914         ble             idct16x16_half_add_neon
915
916         movrel          r8,  min_eob_idct_idct_16 + 2
917 .endif
918
919 .irp i, 0, 4, 8, 12
920         add             r0,  sp,  #(\i*32)
921 .ifc \txfm1\()_\txfm2,idct_idct
922 .if \i > 0
923         ldrh_post       r1,  r8,  #2
924         cmp             r3,  r1
925         it              le
926         movle           r1,  #(16 - \i)/4
927         ble             1f
928 .endif
929 .endif
930         mov             r1,  #\i
931         add             r2,  r6,  #(\i*2)
932         bl              \txfm1\()16_1d_4x16_pass1_neon
933 .endr
934
935 .ifc \txfm1\()_\txfm2,idct_idct
936         b               3f
937 1:
938         @ For all-zero slices in pass 1, set d28-d31 to zero, for the in-register
939         @ passthrough of coefficients to pass 2 and clear the end of the temp buffer
940         vmov.i16        q14, #0
941         vmov.i16        q15, #0
942 2:
943         subs            r1,  r1,  #1
944 .rept 4
945         vst1.16         {q14-q15}, [r0,:128]!
946 .endr
947         bne             2b
948 3:
949 .endif
950
951 .ifc \txfm1\()_\txfm2,iadst_idct
952         movrel          r12, idct_coeffs
953         vld1.16         {q0-q1}, [r12,:128]
954 .endif
955 .irp i, 0, 4, 8, 12
956         add             r0,  r4,  #(\i)
957         mov             r1,  r5
958         add             r2,  sp,  #(\i*2)
959         mov             r3,  #\i
960         bl              \txfm2\()16_1d_4x16_pass2_neon
961 .endr
962
963         add             sp,  sp,  r7
964 .ifnc \txfm1\()_\txfm2,idct_idct
965         vpop            {q4-q7}
966 .endif
967         pop             {r4-r8,pc}
968 endfunc
969 .endm
970
971 itxfm_func16x16 idct,  idct
972 itxfm_func16x16 iadst, idct
973 itxfm_func16x16 idct,  iadst
974 itxfm_func16x16 iadst, iadst
975 .ltorg
976
977 function idct16_1d_4x16_pass1_quarter_neon
978         push            {lr}
979         mov             r12, #32
980         vmov.s16        q2, #0
981 .irp i, 16, 17, 18, 19
982         vld1.16         {d\i}, [r2,:64]
983         vst1.16         {d4},  [r2,:64], r12
984 .endr
985
986         bl              idct16_quarter
987
988         @ Do four 4x4 transposes. Originally, d16-d31 contain the
989         @ 16 rows. Afterwards, d16-d19, d20-d23, d24-d27, d28-d31
990         @ contain the transposed 4x4 blocks.
991         transpose16_q_4x_4x4 q8,  q9,  q10, q11, q12, q13, q14, q15, d16, d17, d18, d19, d20, d21, d22, d23, d24, d25, d26, d27, d28, d29, d30, d31
992
993         @ Store the transposed 4x4 blocks horizontally.
994         @ The first 4x4 block is kept in registers for the second pass,
995         @ store the rest in the temp buffer.
996         add             r0,  r0,  #8
997         vst1.16         {d20}, [r0,:64]!
998         vst1.16         {d24}, [r0,:64]!
999         vst1.16         {d28}, [r0,:64]!
1000         add             r0,  r0,  #8
1001         vst1.16         {d21}, [r0,:64]!
1002         vst1.16         {d25}, [r0,:64]!
1003         vst1.16         {d29}, [r0,:64]!
1004         add             r0,  r0,  #8
1005         vst1.16         {d22}, [r0,:64]!
1006         vst1.16         {d26}, [r0,:64]!
1007         vst1.16         {d30}, [r0,:64]!
1008         add             r0,  r0,  #8
1009         vst1.16         {d23}, [r0,:64]!
1010         vst1.16         {d27}, [r0,:64]!
1011         vst1.16         {d31}, [r0,:64]!
1012         pop             {pc}
1013 endfunc
1014
1015 function idct16_1d_4x16_pass2_quarter_neon
1016         push            {lr}
1017         @ Only load the top 4 lines, and only do it for the later slices.
1018         @ For the first slice, d16-d19 is kept in registers from the first pass.
1019         cmp             r3,  #0
1020         beq             1f
1021         mov             r12, #32
1022 .irp i, 16, 17, 18, 19
1023         vld1.16         {d\i}, [r2,:64], r12
1024 .endr
1025 1:
1026
1027         add             r3,  r0,  r1
1028         lsl             r1,  r1,  #1
1029         bl              idct16_quarter
1030
1031         load_add_store  q8,  q9,  q10, q11
1032         load_add_store  q12, q13, q14, q15
1033
1034         pop             {pc}
1035 endfunc
1036
1037 function idct16_1d_4x16_pass1_half_neon
1038         push            {lr}
1039         mov             r12, #32
1040         vmov.s16        q2, #0
1041 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1042         vld1.16         {d\i}, [r2,:64]
1043         vst1.16         {d4},  [r2,:64], r12
1044 .endr
1045
1046         bl              idct16_half
1047
1048         @ Do four 4x4 transposes. Originally, d16-d31 contain the
1049         @ 16 rows. Afterwards, d16-d19, d20-d23, d24-d27, d28-d31
1050         @ contain the transposed 4x4 blocks.
1051         transpose16_q_4x_4x4 q8,  q9,  q10, q11, q12, q13, q14, q15, d16, d17, d18, d19, d20, d21, d22, d23, d24, d25, d26, d27, d28, d29, d30, d31
1052
1053         @ Store the transposed 4x4 blocks horizontally.
1054         cmp             r1,  #4
1055         beq             1f
1056 .irp i, 16, 20, 24, 28, 17, 21, 25, 29, 18, 22, 26, 30, 19, 23, 27, 31
1057         vst1.16         {d\i}, [r0,:64]!
1058 .endr
1059         pop             {pc}
1060 1:
1061         @ Special case: For the second input column (r1 == 4),
1062         @ which would be stored as the second row in the temp buffer,
1063         @ don't store the first 4x4 block, but keep it in registers
1064         @ for the first slice of the second pass (where it is the
1065         @ second 4x4 block).
1066         add             r0,  r0,  #8
1067         vst1.16         {d20}, [r0,:64]!
1068         vst1.16         {d24}, [r0,:64]!
1069         vst1.16         {d28}, [r0,:64]!
1070         add             r0,  r0,  #8
1071         vst1.16         {d21}, [r0,:64]!
1072         vst1.16         {d25}, [r0,:64]!
1073         vst1.16         {d29}, [r0,:64]!
1074         add             r0,  r0,  #8
1075         vst1.16         {d22}, [r0,:64]!
1076         vst1.16         {d26}, [r0,:64]!
1077         vst1.16         {d30}, [r0,:64]!
1078         add             r0,  r0,  #8
1079         vst1.16         {d23}, [r0,:64]!
1080         vst1.16         {d27}, [r0,:64]!
1081         vst1.16         {d31}, [r0,:64]!
1082         vmov            d20, d16
1083         vmov            d21, d17
1084         vmov            d22, d18
1085         vmov            d23, d19
1086         pop             {pc}
1087 endfunc
1088
1089 function idct16_1d_4x16_pass2_half_neon
1090         push            {lr}
1091         mov             r12, #32
1092         cmp             r3,  #0
1093 .irp i, 16, 17, 18, 19
1094         vld1.16         {d\i}, [r2,:64], r12
1095 .endr
1096         beq             1f
1097 .irp i, 20, 21, 22, 23
1098         vld1.16         {d\i}, [r2,:64], r12
1099 .endr
1100 1:
1101
1102         add             r3,  r0,  r1
1103         lsl             r1,  r1,  #1
1104         bl              idct16_half
1105
1106         load_add_store  q8,  q9,  q10, q11
1107         load_add_store  q12, q13, q14, q15
1108
1109         pop             {pc}
1110 endfunc
1111 .purgem load_add_store
1112
1113 .macro idct16_partial size
1114 function idct16x16_\size\()_add_neon
1115         add             r0,  sp,  #(0*32)
1116         mov             r1,  #0
1117         add             r2,  r6,  #(0*2)
1118         bl              idct16_1d_4x16_pass1_\size\()_neon
1119 .ifc \size,half
1120         add             r0,  sp,  #(4*32)
1121         mov             r1,  #4
1122         add             r2,  r6,  #(4*2)
1123         bl              idct16_1d_4x16_pass1_\size\()_neon
1124 .endif
1125 .irp i, 0, 4, 8, 12
1126         add             r0,  r4,  #(\i)
1127         mov             r1,  r5
1128         add             r2,  sp,  #(\i*2)
1129         mov             r3,  #\i
1130         bl              idct16_1d_4x16_pass2_\size\()_neon
1131 .endr
1132
1133         add             sp,  sp,  r7
1134         pop             {r4-r8,pc}
1135 endfunc
1136 .endm
1137
1138 idct16_partial quarter
1139 idct16_partial half
1140
1141 function idct32x32_dc_add_neon
1142         movrel          r12, idct_coeffs
1143         vld1.16         {d0}, [r12,:64]
1144
1145         vmov.i16        q2,  #0
1146
1147         vld1.16         {d16[]}, [r2,:16]
1148         vmull.s16       q8,  d16, d0[0]
1149         vrshrn.s32      d16, q8,  #14
1150         vmull.s16       q8,  d16, d0[0]
1151         vrshrn.s32      d16, q8,  #14
1152         vdup.16         q8,  d16[0]
1153         vst1.16         {d4[0]}, [r2,:16]
1154
1155         vrshr.s16       q8,  q8,  #6
1156
1157         mov             r3,  r0
1158         mov             r12, #32
1159 1:
1160         @ Loop to add the constant from q8 into all 32x32 outputs
1161         subs            r12, r12, #2
1162         vld1.8          {q0-q1},  [r0,:128], r1
1163         vaddw.u8        q9,  q8,  d0
1164         vaddw.u8        q10, q8,  d1
1165         vld1.8          {q2-q3},  [r0,:128], r1
1166         vaddw.u8        q11, q8,  d2
1167         vaddw.u8        q12, q8,  d3
1168         vaddw.u8        q13, q8,  d4
1169         vaddw.u8        q14, q8,  d5
1170         vaddw.u8        q15, q8,  d6
1171         vqmovun.s16     d0,  q9
1172         vaddw.u8        q9,  q8,  d7
1173         vqmovun.s16     d1,  q10
1174         vqmovun.s16     d2,  q11
1175         vqmovun.s16     d3,  q12
1176         vqmovun.s16     d4,  q13
1177         vqmovun.s16     d5,  q14
1178         vst1.8          {q0-q1},  [r3,:128], r1
1179         vqmovun.s16     d6,  q15
1180         vqmovun.s16     d7,  q9
1181         vst1.8          {q2-q3},  [r3,:128], r1
1182         bne             1b
1183
1184         bx              lr
1185 endfunc
1186
1187 .macro idct32_end
1188         butterfly       d16, d9,  d8,  d9  @ d16 = t16a, d9  = t19a
1189         butterfly       d17, d20, d23, d20 @ d17 = t17,  d20 = t18
1190         butterfly       d18, d10, d11, d10 @ d18 = t23a, d10 = t20a
1191         butterfly       d19, d21, d22, d21 @ d19 = t22,  d21 = t21
1192         butterfly       d8,  d28, d28, d30 @ d8  = t24a, d28 = t27a
1193         butterfly       d23, d26, d25, d26 @ d23 = t25,  d26 = t26
1194         butterfly       d11, d29, d29, d31 @ d11 = t31a, d29 = t28a
1195         butterfly       d22, d27, d24, d27 @ d22 = t30,  d27 = t29
1196
1197         mbutterfly      d27, d20, d0[2], d0[3], q12, q15        @ d27 = t18a, d20 = t29a
1198         mbutterfly      d29, d9,  d0[2], d0[3], q12, q15        @ d29 = t19,  d5  = t28
1199         mbutterfly      d28, d10, d0[2], d0[3], q12, q15, neg=1 @ d28 = t27,  d6  = t20
1200         mbutterfly      d26, d21, d0[2], d0[3], q12, q15, neg=1 @ d26 = t26a, d21 = t21a
1201
1202         butterfly       d31, d24, d11, d8  @ d31 = t31,  d24 = t24
1203         butterfly       d30, d25, d22, d23 @ d30 = t30a, d25 = t25a
1204         butterfly_r     d23, d16, d16, d18 @ d23 = t23,  d16 = t16
1205         butterfly_r     d22, d17, d17, d19 @ d22 = t22a, d17 = t17a
1206         butterfly       d18, d21, d27, d21 @ d18 = t18,  d21 = t21
1207         butterfly_r     d27, d28, d9,  d28 @ d27 = t27a, d28 = t28a
1208         butterfly       d8,  d26, d20, d26 @ d8  = t29,  d26 = t26
1209         butterfly       d19, d20, d29, d10 @ d19 = t19a, d20 = t20
1210         vmov            d29, d8            @ d29 = t29
1211
1212         mbutterfly0     d27, d20, d27, d20, d8, d10, q4, q5 @ d27 = t27,  d20 = t20
1213         mbutterfly0     d26, d21, d26, d21, d8, d10, q4, q5 @ d26 = t26a, d21 = t21a
1214         mbutterfly0     d25, d22, d25, d22, d8, d10, q4, q5 @ d25 = t25,  d22 = t22
1215         mbutterfly0     d24, d23, d24, d23, d8, d10, q4, q5 @ d24 = t24a, d23 = t23a
1216         bx              lr
1217 .endm
1218
1219 function idct32_odd
1220         mbutterfly      d16, d31, d4[0], d4[1], q4, q5 @ d16 = t16a, d31 = t31a
1221         mbutterfly      d24, d23, d4[2], d4[3], q4, q5 @ d24 = t17a, d23 = t30a
1222         mbutterfly      d20, d27, d5[0], d5[1], q4, q5 @ d20 = t18a, d27 = t29a
1223         mbutterfly      d28, d19, d5[2], d5[3], q4, q5 @ d28 = t19a, d19 = t28a
1224         mbutterfly      d18, d29, d6[0], d6[1], q4, q5 @ d18 = t20a, d29 = t27a
1225         mbutterfly      d26, d21, d6[2], d6[3], q4, q5 @ d26 = t21a, d21 = t26a
1226         mbutterfly      d22, d25, d7[0], d7[1], q4, q5 @ d22 = t22a, d25 = t25a
1227         mbutterfly      d30, d17, d7[2], d7[3], q4, q5 @ d30 = t23a, d17 = t24a
1228
1229         butterfly       d8,  d24, d16, d24 @ d8  = t16, d24 = t17
1230         butterfly       d9,  d20, d28, d20 @ d9  = t19, d20 = t18
1231         butterfly       d10, d26, d18, d26 @ d10 = t20, d26 = t21
1232         butterfly       d11, d22, d30, d22 @ d11 = t23, d22 = t22
1233         butterfly       d28, d25, d17, d25 @ d28 = t24, d25 = t25
1234         butterfly       d30, d21, d29, d21 @ d30 = t27, d21 = t26
1235         butterfly       d29, d23, d31, d23 @ d29 = t31, d23 = t30
1236         butterfly       d31, d27, d19, d27 @ d31 = t28, d27 = t29
1237
1238         mbutterfly      d23, d24, d1[0], d1[1], q8, q9        @ d23 = t17a, d24 = t30a
1239         mbutterfly      d27, d20, d1[0], d1[1], q8, q9, neg=1 @ d27 = t29a, d20 = t18a
1240         mbutterfly      d21, d26, d1[2], d1[3], q8, q9        @ d21 = t21a, d26 = t26a
1241         mbutterfly      d25, d22, d1[2], d1[3], q8, q9, neg=1 @ d25 = t25a, d22 = t22a
1242         idct32_end
1243 endfunc
1244
1245 function idct32_odd_half
1246         mbutterfly_h1   d16, d31, d4[0], d4[1], q4, q5 @ d16 = t16a, d31 = t31a
1247         mbutterfly_h2   d24, d23, d4[2], d4[3], q4, q5 @ d24 = t17a, d23 = t30a
1248         mbutterfly_h1   d20, d27, d5[0], d5[1], q4, q5 @ d20 = t18a, d27 = t29a
1249         mbutterfly_h2   d28, d19, d5[2], d5[3], q4, q5 @ d28 = t19a, d19 = t28a
1250         mbutterfly_h1   d18, d29, d6[0], d6[1], q4, q5 @ d18 = t20a, d29 = t27a
1251         mbutterfly_h2   d26, d21, d6[2], d6[3], q4, q5 @ d26 = t21a, d21 = t26a
1252         mbutterfly_h1   d22, d25, d7[0], d7[1], q4, q5 @ d22 = t22a, d25 = t25a
1253         mbutterfly_h2   d30, d17, d7[2], d7[3], q4, q5 @ d30 = t23a, d17 = t24a
1254
1255         butterfly       d8,  d24, d16, d24 @ d8  = t16, d24 = t17
1256         butterfly       d9,  d20, d28, d20 @ d9  = t19, d20 = t18
1257         butterfly       d10, d26, d18, d26 @ d10 = t20, d26 = t21
1258         butterfly       d11, d22, d30, d22 @ d11 = t23, d22 = t22
1259         butterfly       d28, d25, d17, d25 @ d28 = t24, d25 = t25
1260         butterfly       d30, d21, d29, d21 @ d30 = t27, d21 = t26
1261         butterfly       d29, d23, d31, d23 @ d29 = t31, d23 = t30
1262         butterfly       d31, d27, d19, d27 @ d31 = t28, d27 = t29
1263
1264         mbutterfly      d23, d24, d1[0], d1[1], q8, q9        @ d23 = t17a, d24 = t30a
1265         mbutterfly      d27, d20, d1[0], d1[1], q8, q9, neg=1 @ d27 = t29a, d20 = t18a
1266         mbutterfly      d21, d26, d1[2], d1[3], q8, q9        @ d21 = t21a, d26 = t26a
1267         mbutterfly      d25, d22, d1[2], d1[3], q8, q9, neg=1 @ d25 = t25a, d22 = t22a
1268
1269         idct32_end
1270 endfunc
1271
1272 function idct32_odd_quarter
1273         vmull.s16       q4,  d16, d4[0]
1274         vmull.s16       q14, d19, d5[3]
1275         vmull.s16       q15, d16, d4[1]
1276         vmull.s16       q11, d17, d7[2]
1277         vmull.s16       q5,  d17, d7[3]
1278         vmull.s16       q13, d19, d5[2]
1279         vmull.s16       q10, d18, d6[0]
1280         vmull.s16       q12, d18, d6[1]
1281
1282         vneg.s32        q14, q14
1283         vneg.s32        q5,  q5
1284
1285         vrshrn.s32      d8,  q4,  #14
1286         vrshrn.s32      d9,  q14, #14
1287         vrshrn.s32      d29, q15, #14
1288         vrshrn.s32      d28, q11, #14
1289         vrshrn.s32      d11, q5,  #14
1290         vrshrn.s32      d31, q13, #14
1291         vrshrn.s32      d10, q10, #14
1292         vrshrn.s32      d30, q12, #14
1293
1294         mbutterfly_l    q8,  q9,  d29, d8,  d1[0], d1[1]
1295         mbutterfly_l    q13, q10, d31, d9,  d1[0], d1[1]
1296         vrshrn.s32      d23, q8,  #14
1297         vrshrn.s32      d24, q9,  #14
1298         vneg.s32        q10, q10
1299         vrshrn.s32      d27, q13, #14
1300         vrshrn.s32      d20, q10, #14
1301         mbutterfly_l    q8,  q9,  d30, d10, d1[2], d1[3]
1302         vrshrn.s32      d21, q8,  #14
1303         vrshrn.s32      d26, q9,  #14
1304         mbutterfly_l    q8,  q9,  d28, d11, d1[2], d1[3]
1305         vrshrn.s32      d25, q8,  #14
1306         vneg.s32        q9,  q9
1307         vrshrn.s32      d22, q9,  #14
1308
1309         idct32_end
1310 endfunc
1311
1312 .macro idct32_funcs suffix
1313 @ Do an 32-point IDCT of a 4x32 slice out of a 32x32 matrix.
1314 @ We don't have register space to do a single pass IDCT of 4x32 though,
1315 @ but the 32-point IDCT can be decomposed into two 16-point IDCTs;
1316 @ a normal IDCT16 with every other input component (the even ones, with
1317 @ each output written twice), followed by a separate 16-point IDCT
1318 @ of the odd inputs, added/subtracted onto the outputs of the first idct16.
1319 @ r0 = dst (temp buffer)
1320 @ r1 = unused
1321 @ r2 = src
1322 function idct32_1d_4x32_pass1\suffix\()_neon
1323         push            {lr}
1324
1325         @ idct16 clobbers q2-q3 (since it doesn't clobber q4-q7 at all
1326         @ when doing the normal 16x16 idct), so move the idct32_odd coeffs
1327         @ to q4-q5
1328         vmov            q4,  q2
1329         vmov            q5,  q3
1330
1331         @ Double stride of the input, since we only read every other line
1332         mov             r12, #128
1333         vmov.s16        d4,  #0
1334
1335         @ d16 = IN(0), d17 = IN(2) ... d31 = IN(30)
1336 .ifb \suffix
1337 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1338         vld1.16         {d\i}, [r2,:64]
1339         vst1.16         {d4},  [r2,:64], r12
1340 .endr
1341 .endif
1342 .ifc \suffix,_quarter
1343 .irp i, 16, 17, 18, 19
1344         vld1.16         {d\i}, [r2,:64]
1345         vst1.16         {d4},  [r2,:64], r12
1346 .endr
1347 .endif
1348 .ifc \suffix,_half
1349 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1350         vld1.16         {d\i}, [r2,:64]
1351         vst1.16         {d4},  [r2,:64], r12
1352 .endr
1353 .endif
1354
1355         bl              idct16\suffix
1356
1357         @ Move the idct32_odd coeffs back into q2-q3 for idct32_odd;
1358         @ the constants for a vmul with a lane must be in q0-q3.
1359         vmov            q2,  q4
1360         vmov            q3,  q5
1361
1362         @ Do four 4x4 transposes. Originally, d16-d31 contain the
1363         @ 16 rows. Afterwards, d16-d19, d20-d23, d24-d27, d28-d31
1364         @ contain the transposed 4x4 blocks.
1365         transpose16_q_4x_4x4 q8,  q9,  q10, q11, q12, q13, q14, q15, d16, d17, d18, d19, d20, d21, d22, d23, d24, d25, d26, d27, d28, d29, d30, d31
1366         @ Store the registers a, b, c, d horizontally, followed
1367         @ by the same registers d, c, b, a mirrored.
1368 .macro store_rev a, b, c, d
1369 .irp i, \a, \b, \c, \d
1370         vst1.16         {d\i}, [r0,:64]!
1371         vrev64.16       d\i, d\i
1372 .endr
1373 .irp i, \d, \c, \b, \a
1374         vst1.16         {d\i}, [r0,:64]!
1375 .endr
1376 .endm
1377         store_rev       16, 20, 24, 28
1378         store_rev       17, 21, 25, 29
1379         store_rev       18, 22, 26, 30
1380         store_rev       19, 23, 27, 31
1381         sub             r0,  r0,  #256
1382 .purgem store_rev
1383
1384         @ Move r2 back to the start of the input, and move
1385         @ to the first odd row
1386 .ifb \suffix
1387         sub             r2,  r2,  r12, lsl #4
1388 .endif
1389 .ifc \suffix,_quarter
1390         sub             r2,  r2,  r12, lsl #2
1391 .endif
1392 .ifc \suffix,_half
1393         sub             r2,  r2,  r12, lsl #3
1394 .endif
1395         add             r2,  r2,  #64
1396
1397         vmov.s16        d8,  #0
1398         @ d16 = IN(1), d17 = IN(3) ... d31 = IN(31)
1399 .ifb \suffix
1400 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1401         vld1.16         {d\i}, [r2,:64]
1402         vst1.16         {d8},  [r2,:64], r12
1403 .endr
1404 .endif
1405 .ifc \suffix,_quarter
1406 .irp i, 16, 17, 18, 19
1407         vld1.16         {d\i}, [r2,:64]
1408         vst1.16         {d8},  [r2,:64], r12
1409 .endr
1410 .endif
1411 .ifc \suffix,_half
1412 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1413         vld1.16         {d\i}, [r2,:64]
1414         vst1.16         {d8},  [r2,:64], r12
1415 .endr
1416 .endif
1417
1418         bl              idct32_odd\suffix
1419
1420         transpose16_q_4x_4x4 q15, q14, q13, q12, q11, q10, q9,  q8,  d31, d30, d29, d28, d27, d26, d25, d24, d23, d22, d21, d20, d19, d18, d17, d16
1421
1422         @ Store the registers a, b, c, d horizontally,
1423         @ adding into the output first, and then mirrored, subtracted
1424         @ from the output.
1425 .macro store_rev a, b, c, d
1426 .irp i, \a, \b, \c, \d
1427         vld1.16         {d8},  [r0,:64]
1428         vadd.s16        d8,  d8,  d\i
1429         vst1.16         {d8},  [r0,:64]!
1430         vrev64.16       d\i, d\i
1431 .endr
1432 .irp i, \d, \c, \b, \a
1433         vld1.16         {d8},  [r0,:64]
1434         vsub.s16        d8,  d8,  d\i
1435         vst1.16         {d8},  [r0,:64]!
1436 .endr
1437 .endm
1438
1439         store_rev       31, 27, 23, 19
1440         store_rev       30, 26, 22, 18
1441         store_rev       29, 25, 21, 17
1442         store_rev       28, 24, 20, 16
1443 .purgem store_rev
1444         pop             {pc}
1445 endfunc
1446 .ltorg
1447
1448 @ This is mostly the same as 4x32_pass1, but without the transpose,
1449 @ and use the source as temp buffer between the two idct passes, and
1450 @ add into the destination.
1451 @ r0 = dst
1452 @ r1 = dst stride
1453 @ r2 = src (temp buffer)
1454 function idct32_1d_4x32_pass2\suffix\()_neon
1455         push            {lr}
1456         vmov            q4,  q2
1457         vmov            q5,  q3
1458
1459         mov             r12, #128
1460         @ d16 = IN(0), d17 = IN(2) ... d31 = IN(30)
1461 .ifb \suffix
1462 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1463         vld1.16         {d\i}, [r2,:64], r12
1464 .endr
1465         sub             r2,  r2,  r12, lsl #4
1466 .endif
1467 .ifc \suffix,_quarter
1468 .irp i, 16, 17, 18, 19
1469         vld1.16         {d\i}, [r2,:64], r12
1470 .endr
1471         sub             r2,  r2,  r12, lsl #2
1472 .endif
1473 .ifc \suffix,_half
1474 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1475         vld1.16         {d\i}, [r2,:64], r12
1476 .endr
1477         sub             r2,  r2,  r12, lsl #3
1478 .endif
1479
1480         bl              idct16\suffix
1481
1482         vmov            q2,  q4
1483         vmov            q3,  q5
1484
1485 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1486         vst1.16         {d\i}, [r2,:64], r12
1487 .endr
1488
1489         sub             r2,  r2,  r12, lsl #4
1490         add             r2,  r2,  #64
1491
1492         @ d16 = IN(1), d17 = IN(3) ... d31 = IN(31)
1493 .ifb \suffix
1494 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1495         vld1.16         {d\i}, [r2,:64], r12
1496 .endr
1497         sub             r2,  r2,  r12, lsl #4
1498 .endif
1499 .ifc \suffix,_quarter
1500 .irp i, 16, 17, 18, 19
1501         vld1.16         {d\i}, [r2,:64], r12
1502 .endr
1503         sub             r2,  r2,  r12, lsl #2
1504 .endif
1505 .ifc \suffix,_half
1506 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1507         vld1.16         {d\i}, [r2,:64], r12
1508 .endr
1509         sub             r2,  r2,  r12, lsl #3
1510 .endif
1511         sub             r2,  r2,  #64
1512
1513         bl              idct32_odd\suffix
1514
1515         mov             r12, #128
1516 .macro load_acc_store a, b, c, d, neg=0
1517         vld1.16         {d8},  [r2,:64], r12
1518         vld1.16         {d9},  [r2,:64], r12
1519 .if \neg == 0
1520         vadd.s16        d8,  d8,  d\a
1521         vld1.16         {d10}, [r2,:64], r12
1522         vadd.s16        d9,  d9,  d\b
1523         vld1.16         {d11}, [r2,:64], r12
1524         vadd.s16        d10, d10, d\c
1525         vadd.s16        d11, d11, d\d
1526 .else
1527         vsub.s16        d8,  d8,  d\a
1528         vld1.16         {d10}, [r2,:64], r12
1529         vsub.s16        d9,  d9,  d\b
1530         vld1.16         {d11}, [r2,:64], r12
1531         vsub.s16        d10, d10, d\c
1532         vsub.s16        d11, d11, d\d
1533 .endif
1534         vld1.32         {d12[]},  [r0,:32], r1
1535         vld1.32         {d12[1]}, [r0,:32], r1
1536         vrshr.s16       q4,  q4,  #6
1537         vld1.32         {d13[]},  [r0,:32], r1
1538         vrshr.s16       q5,  q5,  #6
1539         vld1.32         {d13[1]}, [r0,:32], r1
1540         sub             r0,  r0,  r1, lsl #2
1541         vaddw.u8        q4,  q4,  d12
1542         vaddw.u8        q5,  q5,  d13
1543         vqmovun.s16     d8,  q4
1544         vqmovun.s16     d9,  q5
1545         vst1.32         {d8[0]},  [r0,:32], r1
1546         vst1.32         {d8[1]},  [r0,:32], r1
1547         vst1.32         {d9[0]},  [r0,:32], r1
1548         vst1.32         {d9[1]},  [r0,:32], r1
1549 .endm
1550         load_acc_store  31, 30, 29, 28
1551         load_acc_store  27, 26, 25, 24
1552         load_acc_store  23, 22, 21, 20
1553         load_acc_store  19, 18, 17, 16
1554         sub             r2,  r2,  r12
1555         neg             r12, r12
1556         load_acc_store  16, 17, 18, 19, 1
1557         load_acc_store  20, 21, 22, 23, 1
1558         load_acc_store  24, 25, 26, 27, 1
1559         load_acc_store  28, 29, 30, 31, 1
1560 .purgem load_acc_store
1561         pop             {pc}
1562 endfunc
1563 .endm
1564
1565 idct32_funcs
1566 idct32_funcs _quarter
1567 idct32_funcs _half
1568
1569 const min_eob_idct_idct_32, align=4
1570         .short  0, 9, 34, 70, 135, 240, 336, 448
1571 endconst
1572
1573 function ff_vp9_idct_idct_32x32_add_neon, export=1
1574         cmp             r3,  #1
1575         beq             idct32x32_dc_add_neon
1576         push            {r4-r8,lr}
1577         vpush           {q4-q6}
1578
1579         @ Align the stack, allocate a temp buffer
1580 T       mov             r7,  sp
1581 T       and             r7,  r7,  #15
1582 A       and             r7,  sp,  #15
1583         add             r7,  r7,  #2048
1584         sub             sp,  sp,  r7
1585
1586         mov             r4,  r0
1587         mov             r5,  r1
1588         mov             r6,  r2
1589
1590         movrel          r12, idct_coeffs
1591         vld1.16         {q0-q1}, [r12,:128]!
1592         vld1.16         {q2-q3}, [r12,:128]
1593
1594         cmp             r3,  #34
1595         ble             idct32x32_quarter_add_neon
1596         cmp             r3,  #135
1597         ble             idct32x32_half_add_neon
1598
1599         movrel          r8,  min_eob_idct_idct_32 + 2
1600
1601 .irp i, 0, 4, 8, 12, 16, 20, 24, 28
1602         add             r0,  sp,  #(\i*64)
1603 .if \i > 0
1604         ldrh_post       r1,  r8,  #2
1605         cmp             r3,  r1
1606         it              le
1607         movle           r1,  #(32 - \i)/2
1608         ble             1f
1609 .endif
1610         add             r2,  r6,  #(\i*2)
1611         bl              idct32_1d_4x32_pass1_neon
1612 .endr
1613         b               3f
1614
1615 1:
1616         @ Write zeros to the temp buffer for pass 2
1617         vmov.i16        q14, #0
1618         vmov.i16        q15, #0
1619 2:
1620         subs            r1,  r1,  #1
1621 .rept 4
1622         vst1.16         {q14-q15}, [r0,:128]!
1623 .endr
1624         bne             2b
1625 3:
1626 .irp i, 0, 4, 8, 12, 16, 20, 24, 28
1627         add             r0,  r4,  #(\i)
1628         mov             r1,  r5
1629         add             r2,  sp,  #(\i*2)
1630         bl              idct32_1d_4x32_pass2_neon
1631 .endr
1632
1633         add             sp,  sp,  r7
1634         vpop            {q4-q6}
1635         pop             {r4-r8,pc}
1636 endfunc
1637
1638 .macro idct32_partial size
1639 function idct32x32_\size\()_add_neon
1640 .irp i, 0, 4
1641         add             r0,  sp,  #(\i*64)
1642 .ifc \size,quarter
1643 .if \i == 4
1644         cmp             r3,  #9
1645         ble             1f
1646 .endif
1647 .endif
1648         add             r2,  r6,  #(\i*2)
1649         bl              idct32_1d_4x32_pass1_\size\()_neon
1650 .endr
1651
1652 .ifc \size,half
1653 .irp i, 8, 12
1654         add             r0,  sp,  #(\i*64)
1655 .if \i == 12
1656         cmp             r3,  #70
1657         ble             1f
1658 .endif
1659         add             r2,  r6,  #(\i*2)
1660         bl              idct32_1d_4x32_pass1_\size\()_neon
1661 .endr
1662 .endif
1663         b               3f
1664
1665 1:
1666         @ Write zeros to the temp buffer for pass 2
1667         vmov.i16        q14, #0
1668         vmov.i16        q15, #0
1669 .rept 8
1670         vst1.16         {q14-q15}, [r0,:128]!
1671 .endr
1672
1673 3:
1674 .irp i, 0, 4, 8, 12, 16, 20, 24, 28
1675         add             r0,  r4,  #(\i)
1676         mov             r1,  r5
1677         add             r2,  sp,  #(\i*2)
1678         bl              idct32_1d_4x32_pass2_\size\()_neon
1679 .endr
1680
1681         add             sp,  sp,  r7
1682         vpop            {q4-q6}
1683         pop             {r4-r8,pc}
1684 endfunc
1685 .endm
1686
1687 idct32_partial quarter
1688 idct32_partial half