]> git.sesse.net Git - ffmpeg/blob - libavcodec/arm/vp9itxfm_16bpp_neon.S
avcodec/mediacodec_wrapper: use MediaFormat to probe frame color characteristics
[ffmpeg] / libavcodec / arm / vp9itxfm_16bpp_neon.S
1 /*
2  * Copyright (c) 2017 Google Inc.
3  *
4  * This file is part of FFmpeg.
5  *
6  * FFmpeg is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU Lesser General Public
8  * License as published by the Free Software Foundation; either
9  * version 2.1 of the License, or (at your option) any later version.
10  *
11  * FFmpeg is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14  * Lesser General Public License for more details.
15  *
16  * You should have received a copy of the GNU Lesser General Public
17  * License along with FFmpeg; if not, write to the Free Software
18  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
19  */
20
21 #include "libavutil/arm/asm.S"
22 #include "neon.S"
23
24 const itxfm4_coeffs, align=4
25         .short  11585, 0, 6270, 15137
26 iadst4_coeffs:
27         .short  5283, 15212, 9929, 13377
28 endconst
29
30 const iadst8_coeffs, align=4
31         .short  16305, 1606, 14449, 7723, 10394, 12665, 4756, 15679
32 idct_coeffs:
33         .short  11585, 0, 6270, 15137, 3196, 16069, 13623, 9102
34         .short  1606, 16305, 12665, 10394, 7723, 14449, 15679, 4756
35         .short  804, 16364, 12140, 11003, 7005, 14811, 15426, 5520
36         .short  3981, 15893, 14053, 8423, 9760, 13160, 16207, 2404
37 endconst
38
39 const iadst16_coeffs, align=4
40         .short  16364, 804, 15893, 3981, 11003, 12140, 8423, 14053
41         .short  14811, 7005, 13160, 9760, 5520, 15426, 2404, 16207
42 endconst
43
44 @ Do two 4x4 transposes, using q registers for the subtransposes that don't
45 @ need to address the individual d registers.
46 @ r0,r1 == rq1, r2,r3 == rq1, etc
47 .macro transpose32_q_2x_4x4 rq0, rq1, rq2, rq3, rq4, rq5, rq6, rq7, r0, r1, r2, r3, r4, r5, r6, r7, r8, r9, r10, r11, r12, r13, r14, r15
48         vswp             \r1,  \r4  @ vtrn.64 \rq0, \rq2
49         vswp             \r3,  \r6  @ vtrn.64 \rq1, \rq3
50         vswp             \r9,  \r12 @ vtrn.64 \rq4, \rq6
51         vswp             \r11, \r14 @ vtrn.64 \rq5, \rq7
52         vtrn.32          \rq0, \rq1
53         vtrn.32          \rq2, \rq3
54         vtrn.32          \rq4, \rq5
55         vtrn.32          \rq6, \rq7
56 .endm
57
58 @ Do eight 2x2 transposes.
59 .macro transpose32_8x_2x2 r0, r1, r2, r3, r4, r5, r6, r7, r8, r9, r10, r11, r12, r13, r14, r15
60         vtrn.32          \r0,  \r1
61         vtrn.32          \r2,  \r3
62         vtrn.32          \r4,  \r5
63         vtrn.32          \r6,  \r7
64         vtrn.32          \r8,  \r9
65         vtrn.32          \r10, \r11
66         vtrn.32          \r12, \r13
67         vtrn.32          \r14, \r15
68 .endm
69
70 @ out1 = ((in1 + in2) * d0[0] + (1 << 13)) >> 14
71 @ out2 = ((in1 - in2) * d0[0] + (1 << 13)) >> 14
72 @ in/out are d registers
73 .macro mbutterfly0 out1, out2, in1, in2, tmpd1, tmpd2, tmpq3, tmpq4, neg=0
74         vadd.s32        \tmpd1, \in1,  \in2
75         vsub.s32        \tmpd2, \in1,  \in2
76 .if \neg > 0
77         vneg.s32        \tmpd1, \tmpd1
78 .endif
79         vmull.s32       \tmpq3, \tmpd1, d0[0]
80         vmull.s32       \tmpq4, \tmpd2, d0[0]
81         vrshrn.s64      \out1, \tmpq3, #14
82         vrshrn.s64      \out2, \tmpq4, #14
83 .endm
84
85 @ Same as mbutterfly0 above, but treating the input in in2 as zero,
86 @ writing the same output into both out1 and out2.
87 .macro mbutterfly0_h out1, out2, in1, in2, tmpd1, tmpd2, tmpq3, tmpq4
88         vmull.s32       \tmpq3, \in1, d0[0]
89         vrshrn.s64      \out1, \tmpq3, #14
90         vrshrn.s64      \out2, \tmpq3, #14
91 .endm
92
93 @ out1,out2 = ((in1 + in2) * d0[0] + (1 << 13)) >> 14
94 @ out3,out4 = ((in1 - in2) * d0[0] + (1 << 13)) >> 14
95 @ Same as mbutterfly0, but with input being 2 q registers, output
96 @ being 4 d registers.
97 @ This can do with either 4 or 6 temporary q registers.
98 .macro dmbutterfly0 out1, out2, out3, out4, in1, in2, tmpq1, tmpq2, tmpd11, tmpd12, tmpd21, tmpd22, tmpq3, tmpq4, tmpq5, tmpq6
99         vadd.s32        \tmpq1, \in1,  \in2
100         vsub.s32        \tmpq2, \in1,  \in2
101         vmull.s32       \tmpq3, \tmpd11, d0[0]
102         vmull.s32       \tmpq4, \tmpd12, d0[0]
103 .ifb \tmpq5
104         vrshrn.s64      \out1, \tmpq3, #14
105         vrshrn.s64      \out2, \tmpq4, #14
106         vmull.s32       \tmpq3, \tmpd21, d0[0]
107         vmull.s32       \tmpq4, \tmpd22, d0[0]
108         vrshrn.s64      \out3, \tmpq3, #14
109         vrshrn.s64      \out4, \tmpq4, #14
110 .else
111         vmull.s32       \tmpq5, \tmpd21, d0[0]
112         vmull.s32       \tmpq6, \tmpd22, d0[0]
113         vrshrn.s64      \out1, \tmpq3, #14
114         vrshrn.s64      \out2, \tmpq4, #14
115         vrshrn.s64      \out3, \tmpq5, #14
116         vrshrn.s64      \out4, \tmpq6, #14
117 .endif
118 .endm
119
120 @ out1 = in1 * coef1 - in2 * coef2
121 @ out2 = in1 * coef2 + in2 * coef1
122 @ out are 2 q registers, in are 2 d registers
123 .macro mbutterfly_l out1, out2, in1, in2, coef1, coef2, neg=0
124         vmull.s32       \out1, \in1, \coef1
125         vmlsl.s32       \out1, \in2, \coef2
126 .if \neg
127         vmov.s64        \out2, #0
128         vmlsl.s32       \out2, \in1, \coef2
129         vmlsl.s32       \out2, \in2, \coef1
130 .else
131         vmull.s32       \out2, \in1, \coef2
132         vmlal.s32       \out2, \in2, \coef1
133 .endif
134 .endm
135
136 @ out1,out2 = in1,in2 * coef1 - in3,in4 * coef2
137 @ out3,out4 = in1,in2 * coef2 + in3,in4 * coef1
138 @ out are 4 q registers, in are 4 d registers
139 .macro dmbutterfly_l out1, out2, out3, out4, in1, in2, in3, in4, coef1, coef2
140         vmull.s32       \out1, \in1, \coef1
141         vmull.s32       \out2, \in2, \coef1
142         vmull.s32       \out3, \in1, \coef2
143         vmull.s32       \out4, \in2, \coef2
144         vmlsl.s32       \out1, \in3, \coef2
145         vmlsl.s32       \out2, \in4, \coef2
146         vmlal.s32       \out3, \in3, \coef1
147         vmlal.s32       \out4, \in4, \coef1
148 .endm
149
150 @ inout1 = (inout1 * coef1 - inout2 * coef2 + (1 << 13)) >> 14
151 @ inout2 = (inout1 * coef2 + inout2 * coef1 + (1 << 13)) >> 14
152 @ inout are 2 d registers, tmp are 2 q registers
153 .macro mbutterfly inout1, inout2, coef1, coef2, tmp1, tmp2, neg=0
154         mbutterfly_l    \tmp1, \tmp2, \inout1, \inout2, \coef1, \coef2, \neg
155         vrshrn.s64      \inout1, \tmp1,  #14
156         vrshrn.s64      \inout2, \tmp2,  #14
157 .endm
158
159 @ Same as mbutterfly above, but treating the input in inout2 as zero
160 .macro mbutterfly_h1 inout1, inout2, coef1, coef2, tmp1, tmp2
161         vmull.s32       \tmp1,   \inout1, \coef1
162         vmull.s32       \tmp2,   \inout1, \coef2
163         vrshrn.s64      \inout1, \tmp1,   #14
164         vrshrn.s64      \inout2, \tmp2,   #14
165 .endm
166
167 @ Same as mbutterfly above, but treating the input in inout1 as zero
168 .macro mbutterfly_h2 inout1, inout2, coef1, coef2, tmp1, tmp2
169         vmov.s64        \tmp1,   #0
170         vmull.s32       \tmp2,   \inout2, \coef1
171         vmlsl.s32       \tmp1,   \inout2, \coef2
172         vrshrn.s64      \inout2, \tmp2,   #14
173         vrshrn.s64      \inout1, \tmp1,   #14
174 .endm
175
176 @ inout1,inout2 = (inout1,inout2 * coef1 - inout3,inout4 * coef2 + (1 << 13)) >> 14
177 @ inout3,inout4 = (inout1,inout2 * coef2 + inout3,inout4 * coef1 + (1 << 13)) >> 14
178 @ inout are 4 d registers, tmp are 4 q registers
179 .macro dmbutterfly inout1, inout2, inout3, inout4, coef1, coef2, tmp1, tmp2, tmp3, tmp4
180         dmbutterfly_l   \tmp1, \tmp2, \tmp3, \tmp4, \inout1, \inout2, \inout3, \inout4, \coef1, \coef2
181         vrshrn.s64      \inout1, \tmp1,  #14
182         vrshrn.s64      \inout2, \tmp2,  #14
183         vrshrn.s64      \inout3, \tmp3,  #14
184         vrshrn.s64      \inout4, \tmp4,  #14
185 .endm
186
187 @ out1 = in1 + in2
188 @ out2 = in1 - in2
189 .macro butterfly out1, out2, in1, in2
190         vadd.s32        \out1, \in1, \in2
191         vsub.s32        \out2, \in1, \in2
192 .endm
193
194 @ out1 = in1 - in2
195 @ out2 = in1 + in2
196 .macro butterfly_r out1, out2, in1, in2
197         vsub.s32        \out1, \in1, \in2
198         vadd.s32        \out2, \in1, \in2
199 .endm
200
201 @ out1 = (in1 + in2 + (1 << 13)) >> 14
202 @ out2 = (in1 - in2 + (1 << 13)) >> 14
203 @ out are 2 d registers, in are 2 q registers, tmp are 2 q registers
204 .macro butterfly_n out1, out2, in1, in2, tmp1, tmp2
205         vadd.s64        \tmp1, \in1, \in2
206         vsub.s64        \tmp2, \in1, \in2
207         vrshrn.s64      \out1, \tmp1,  #14
208         vrshrn.s64      \out2, \tmp2,  #14
209 .endm
210
211 @ out1,out2 = (in1,in2 + in3,in4 + (1 << 13)) >> 14
212 @ out3,out4 = (in1,in2 - in3,in4 + (1 << 13)) >> 14
213 @ out are 4 d registers, in are 4 q registers, tmp are 4 q registers
214 .macro dbutterfly_n out1, out2, out3, out4, in1, in2, in3, in4, tmp1, tmp2, tmp3, tmp4
215         vadd.s64        \tmp1, \in1, \in3
216         vadd.s64        \tmp2, \in2, \in4
217         vsub.s64        \tmp3, \in1, \in3
218         vsub.s64        \tmp4, \in2, \in4
219         vrshrn.s64      \out1, \tmp1,  #14
220         vrshrn.s64      \out2, \tmp2,  #14
221         vrshrn.s64      \out3, \tmp3,  #14
222         vrshrn.s64      \out4, \tmp4,  #14
223 .endm
224
225
226 .macro iwht4_10 c0, c1, c2, c3, cd0, cd1, cd2, cd3, cd4, cd5, cd6, cd7
227         vadd.i32        \c0,  \c0,  \c1
228         vsub.i32        q11,  \c2,  \c3
229         vsub.i32        q10,  \c0,  q11
230         vshr.s32        q10,  q10,  #1
231         vsub.i32        \c2,  q10,  \c1
232         vsub.i32        \c1,  q10,  \c3
233         vadd.i32        \c3,  q11,  \c2
234         vsub.i32        \c0,  \c0,  \c1
235 .endm
236
237 .macro iwht4_12 c0, c1, c2, c3, cd0, cd1, cd2, cd3, cd4, cd5, cd6, cd7
238         iwht4_10        \c0, \c1, \c2, \c3, \cd0, \cd1, \cd2, \cd3, \cd4, \cd5, \cd6, \cd7
239 .endm
240
241 @ c0 == cd0,cd1, c1 == cd2,cd3
242 .macro idct4_10 c0, c1, c2, c3, cd0, cd1, cd2, cd3, cd4, cd5, cd6, cd7
243         vmul.s32        q13,  \c1,  d1[1]
244         vmul.s32        q11,  \c1,  d1[0]
245         vadd.i32        q14,  \c0,  \c2
246         vsub.i32        q15,  \c0,  \c2
247         vmla.s32        q13,  \c3,  d1[0]
248         vmul.s32        q12,  q14,  d0[0]
249         vmul.s32        q10,  q15,  d0[0]
250         vmls.s32        q11,  \c3,  d1[1]
251         vrshr.s32       q13,  q13,  #14
252         vrshr.s32       q12,  q12,  #14
253         vrshr.s32       q10,  q10,  #14
254         vrshr.s32       q11,  q11,  #14
255         vadd.i32        \c0,  q12,  q13
256         vsub.i32        \c3,  q12,  q13
257         vadd.i32        \c1,  q10,  q11
258         vsub.i32        \c2,  q10,  q11
259 .endm
260
261 .macro idct4_12 c0, c1, c2, c3, cd0, cd1, cd2, cd3, cd4, cd5, cd6, cd7
262         vmull.s32       q13,  \cd2, d1[1]
263         vmull.s32       q15,  \cd3, d1[1]
264         vmull.s32       q11,  \cd2, d1[0]
265         vmull.s32       q3,   \cd3, d1[0]
266         vadd.i32        q14,  \c0,  \c2
267         vsub.i32        q2,   \c0,  \c2
268         vmlal.s32       q13,  \cd6, d1[0]
269         vmlal.s32       q15,  \cd7, d1[0]
270         vmull.s32       q12,  d28,  d0[0]
271         vmull.s32       q14,  d29,  d0[0]
272         vmull.s32       q10,  d4,   d0[0]
273         vmull.s32       q8,   d5,   d0[0]
274         vmlsl.s32       q11,  \cd6, d1[1]
275         vmlsl.s32       q3,   \cd7, d1[1]
276         vrshrn.s64      d26,  q13,  #14
277         vrshrn.s64      d27,  q15,  #14
278         vrshrn.s64      d24,  q12,  #14
279         vrshrn.s64      d25,  q14,  #14
280         vrshrn.s64      d20,  q10,  #14
281         vrshrn.s64      d21,  q8,   #14
282         vrshrn.s64      d22,  q11,  #14
283         vrshrn.s64      d23,  q3,   #14
284         vadd.i32        \c0,  q12,  q13
285         vsub.i32        \c3,  q12,  q13
286         vadd.i32        \c1,  q10,  q11
287         vsub.i32        \c2,  q10,  q11
288 .endm
289
290 .macro iadst4_10 c0, c1, c2, c3, cd0, cd1, cd2, cd3, cd4, cd5, cd6, cd7
291         vmul.s32        q10,  \c0,  d2[0]
292         vmla.s32        q10,  \c2,  d2[1]
293         vmla.s32        q10,  \c3,  d3[0]
294         vmul.s32        q11,  \c0,  d3[0]
295         vmls.s32        q11,  \c2,  d2[0]
296         vsub.s32        \c0,  \c0,  \c2
297         vmls.s32        q11,  \c3,  d2[1]
298         vadd.s32        \c0,  \c0,  \c3
299         vmul.s32        q13,  \c1,  d3[1]
300         vmul.s32        q12,  \c0,  d3[1]
301         vadd.s32        q14,  q10,  q13
302         vadd.s32        q15,  q11,  q13
303         vrshr.s32       \c0,  q14,  #14
304         vadd.s32        q10,  q10,  q11
305         vrshr.s32       \c1,  q15,  #14
306         vsub.s32        q10,  q10,  q13
307         vrshr.s32       \c2,  q12,  #14
308         vrshr.s32       \c3,  q10,  #14
309 .endm
310
311 .macro iadst4_12 c0, c1, c2, c3, cd0, cd1, cd2, cd3, cd4, cd5, cd6, cd7
312         vmull.s32       q10,  \cd0, d2[0]
313         vmull.s32       q4,   \cd1, d2[0]
314         vmlal.s32       q10,  \cd4, d2[1]
315         vmlal.s32       q4,   \cd5, d2[1]
316         vmlal.s32       q10,  \cd6, d3[0]
317         vmlal.s32       q4,   \cd7, d3[0]
318         vmull.s32       q11,  \cd0, d3[0]
319         vmull.s32       q5,   \cd1, d3[0]
320         vmlsl.s32       q11,  \cd4, d2[0]
321         vmlsl.s32       q5,   \cd5, d2[0]
322         vsub.s32        \c0,  \c0,  \c2
323         vmlsl.s32       q11,  \cd6, d2[1]
324         vmlsl.s32       q5,   \cd7, d2[1]
325         vadd.s32        \c0,  \c0,  \c3
326         vmull.s32       q13,  \cd2, d3[1]
327         vmull.s32       q6,   \cd3, d3[1]
328         vmull.s32       q12,  \cd0, d3[1]
329         vmull.s32       q7,   \cd1, d3[1]
330         vadd.s64        q14,  q10,  q13
331         vadd.s64        q2,   q4,   q6
332         vadd.s64        q15,  q11,  q13
333         vadd.s64        q3,   q5,   q6
334         vrshrn.s64      \cd1, q2,   #14
335         vrshrn.s64      \cd0, q14,  #14
336         vadd.s64        q10,  q10,  q11
337         vadd.s64        q4,   q4,   q5
338         vrshrn.s64      \cd3, q3,   #14
339         vrshrn.s64      \cd2, q15,  #14
340         vsub.s64        q10,  q10,  q13
341         vsub.s64        q4,   q4,   q6
342         vrshrn.s64      \cd4, q12,  #14
343         vrshrn.s64      \cd5, q7,   #14
344         vrshrn.s64      \cd6, q10,  #14
345         vrshrn.s64      \cd7, q4,   #14
346 .endm
347
348 @ The public functions in this file have got the following signature:
349 @ void itxfm_add(uint8_t *dst, ptrdiff_t stride, int16_t *block, int eob);
350
351 .macro itxfm_func4x4 txfm1, txfm2, bpp
352 function ff_vp9_\txfm1\()_\txfm2\()_4x4_add_\bpp\()_neon, export=1
353 .ifc \txfm1,\txfm2
354 .ifc \txfm1,idct
355         movrel          r12, itxfm4_coeffs
356         vld1.16         {d0}, [r12,:64]
357         vmovl.s16       q0,  d0
358 .endif
359 .ifc \txfm1,iadst
360         movrel          r12, iadst4_coeffs
361         vld1.16         {d1}, [r12,:64]
362         vmovl.s16       q1,  d1
363 .endif
364 .else
365         movrel          r12, itxfm4_coeffs
366         vld1.16         {q0}, [r12,:128]
367         vmovl.s16       q1,  d1
368         vmovl.s16       q0,  d0
369 .endif
370 .if \bpp > 10
371 .ifnc \txfm1\()_\txfm2,idct_idct
372         @ iadst4_12 needs q4-q7
373         vpush           {q4-q7}
374 .endif
375 .endif
376
377         vmov.i32        q14, #0
378         vmov.i32        q15, #0
379 .ifc \txfm1\()_\txfm2,idct_idct
380         cmp             r3,  #1
381         bne             1f
382         @ DC-only for idct/idct
383         vld1.32         {d4[]},   [r2,:32]
384         vmull.s32       q2,  d4,  d0[0]
385         vrshrn.s64      d4,  q2,  #14
386         vmull.s32       q2,  d4,  d0[0]
387         vrshrn.s64      d4,  q2,  #14
388         vst1.32         {d30[0]}, [r2,:32]
389         vdup.32         q2,  d4[0]
390         vmov            q3,  q2
391         vmov            q8,  q2
392         vmov            q9,  q2
393         b               2f
394 .endif
395
396 1:
397         vld1.32         {q2-q3},   [r2,:128]
398         vst1.32         {q14-q15}, [r2,:128]!
399         vld1.32         {q8-q9},   [r2,:128]
400
401 .ifc \txfm1,iwht
402         vshr.s32        q2,  q2,  #2
403         vshr.s32        q3,  q3,  #2
404         vshr.s32        q8,  q8,  #2
405         vshr.s32        q9,  q9,  #2
406 .endif
407
408         vst1.16         {q14-q15}, [r2,:128]!
409         \txfm1\()4_\bpp q2,  q3,  q8,  q9,  d4,  d5,  d6,  d7,  d16, d17, d18, d19
410
411         @ Transpose 4x4 with 32 bit elements
412         vtrn.32         q2,  q3
413         vtrn.32         q8,  q9
414         vswp            d5,  d16
415         vswp            d7,  d18
416
417         \txfm2\()4_\bpp q2,  q3,  q8,  q9,  d4,  d5,  d6,  d7,  d16, d17, d18, d19
418 2:
419         vmvn.u16        q15, #((0xffff << \bpp) & 0xffff)
420         vld1.16         {d0},  [r0,:64], r1
421         vld1.16         {d1},  [r0,:64], r1
422 .ifnc \txfm1,iwht
423         vrshr.s32       q2,  q2,  #4
424         vrshr.s32       q3,  q3,  #4
425         vrshr.s32       q8,  q8,  #4
426         vrshr.s32       q9,  q9,  #4
427 .endif
428         vaddw.u16       q2,  q2,  d0
429         vaddw.u16       q3,  q3,  d1
430         vld1.16         {d2},  [r0,:64], r1
431         vld1.16         {d3},  [r0,:64], r1
432         vqmovun.s32     d0,  q2
433         vqmovun.s32     d1,  q3
434         sub             r0,  r0,  r1, lsl #2
435
436         vaddw.u16       q8,  q8,  d2
437         vmin.u16        q0,  q0,  q15
438         vaddw.u16       q9,  q9,  d3
439         vst1.16         {d0},  [r0,:64], r1
440         vqmovun.s32     d2,  q8
441         vqmovun.s32     d3,  q9
442         vmin.u16        q1,  q1,  q15
443
444         vst1.16         {d1},  [r0,:64], r1
445         vst1.16         {d2},  [r0,:64], r1
446         vst1.16         {d3},  [r0,:64], r1
447
448 .if \bpp > 10
449 .ifnc \txfm1\()_\txfm2,idct_idct
450         vpop            {q4-q7}
451 .endif
452 .endif
453         bx              lr
454 endfunc
455 .endm
456
457 .macro itxfm_funcs4x4 bpp
458 itxfm_func4x4 idct,  idct,  \bpp
459 itxfm_func4x4 iadst, idct,  \bpp
460 itxfm_func4x4 idct,  iadst, \bpp
461 itxfm_func4x4 iadst, iadst, \bpp
462 itxfm_func4x4 iwht,  iwht,  \bpp
463 .endm
464
465 itxfm_funcs4x4 10
466 itxfm_funcs4x4 12
467
468 .macro idct8
469         dmbutterfly0    d16, d17, d24, d25, q8,  q12, q2, q4, d4, d5, d8, d9, q3, q2, q5, q4 @ q8 = t0a, q12 = t1a
470         dmbutterfly     d20, d21, d28, d29, d1[0], d1[1], q2,  q3,  q4,  q5 @ q10 = t2a, q14 = t3a
471         dmbutterfly     d18, d19, d30, d31, d2[0], d2[1], q2,  q3,  q4,  q5 @ q9  = t4a, q15 = t7a
472         dmbutterfly     d26, d27, d22, d23, d3[0], d3[1], q2,  q3,  q4,  q5 @ q13 = t5a, q11 = t6a
473
474         butterfly       q2,  q14, q8,  q14 @ q2 = t0, q14 = t3
475         butterfly       q3,  q10, q12, q10 @ q3 = t1, q10 = t2
476         butterfly       q4,  q13, q9,  q13 @ q4 = t4, q13 = t5a
477         butterfly       q5,  q11, q15, q11 @ q5 = t7, q11 = t6a
478
479         butterfly       q8,  q15, q2,  q5  @ q8 = out[0], q15 = out[7]
480
481         dmbutterfly0    d4,  d5,  d10, d11, q11, q13, q9,  q13, d18, d19, d26, d27, q2,  q5, q11, q12 @ q2 = t6, q5 = t5
482
483         butterfly       q11, q12, q14, q4  @ q11 = out[3], q12 = out[4]
484         butterfly       q9,  q14, q3,  q2  @ q9 = out[1],  q14 = out[6]
485         butterfly_r     q13, q10, q10, q5  @ q13 = out[5], q10 = out[2]
486 .endm
487
488 .macro iadst8
489         movrel          r12, iadst8_coeffs
490         vld1.16         {q1}, [r12,:128]!
491         vmovl.s16       q0,  d2
492         vmovl.s16       q1,  d3
493
494         dmbutterfly_l   q4,  q5,  q2,  q3,  d30, d31, d16, d17, d0[1], d0[0] @ q4,q5  = t1a, q2,q3 = t0a
495         dmbutterfly_l   q8,  q15, q6,  q7,  d22, d23, d24, d25, d2[1], d2[0] @ q8,q15 = t5a, q6,q7 = t4a
496
497         dbutterfly_n    d22, d23, d4,  d5,  q2,  q3,  q6,  q7,  q11, q12, q2,  q3 @ q11 = t0, q2 = t4
498
499         dbutterfly_n    d24, d25, d6,  d7,  q4,  q5,  q8,  q15, q12, q3,  q6,  q7 @ q12 = t1, q3 = t5
500
501         dmbutterfly_l   q6,  q7,  q4,  q5,  d26, d27, d20, d21, d1[1], d1[0] @ q6,q7 = t3a, q4,q5 = t2a
502         dmbutterfly_l   q10, q13, q8,  q15, d18, d19, d28, d29, d3[1], d3[0] @ q10,q13 = t7a, q8,q15 = t6a
503
504         dbutterfly_n    d18, d19, d8,  d9,  q4,  q5,  q8,  q15, q9,  q14, q4, q5 @ q9 = t2, q4 = t6
505         dbutterfly_n    d16, d17, d12, d13, q6,  q7,  q10, q13, q8,  q15, q6, q7 @ q8 = t3, q6 = t7
506
507         movrel          r12, idct_coeffs
508         vld1.16         {q0}, [r12,:128]
509         vmovl.s16       q1,  d1
510         vmovl.s16       q0,  d0
511
512         butterfly       q15, q12, q12, q8 @ q15 = -out[7], q12 = t3
513         vneg.s32        q15, q15          @ q15 = out[7]
514         butterfly       q8,  q9,  q11, q9 @ q8 = out[0], q9 = t2
515
516         dmbutterfly_l   q10, q11, q5,  q7,  d4,  d5,  d6,  d7,  d1[0], d1[1] @ q10,q11 = t5a, q5,q7 = t4a
517         dmbutterfly_l   q2,  q3,  q13, q14, d12, d13, d8,  d9,  d1[1], d1[0] @ q2,q3 = t6a, q13,q14 = t7a
518
519         dbutterfly_n    d28, d29, d8,  d9,  q10, q11, q13, q14, q4,  q6,  q10, q11 @ q14 = out[6], q4 = t7
520
521         dmbutterfly0    d22, d23, d24, d25, q9,  q12, q6, q13, d12, d13, d26, d27, q9, q10 @ q11 = -out[3], q12 = out[4]
522         vneg.s32        q11, q11      @ q11 = out[3]
523
524         dbutterfly_n    d18, d19, d4,  d5,  q5,  q7,  q2,  q3,  q9, q10, q2,  q3 @ q9 = -out[1], q2 = t6
525         vneg.s32        q9,  q9       @ q9 = out[1]
526
527         dmbutterfly0    d20, d21, d26, d27, q2,  q4,  q3, q5,  d6,  d7,  d10, d11, q6,  q7 @ q10 = out[2], q13 = -out[5]
528         vneg.s32        q13, q13      @ q13 = out[5]
529 .endm
530
531 function idct8x8_dc_add_neon
532         movrel          r12, idct_coeffs
533         vld1.16         {d0}, [r12,:64]
534
535         vmov.i32        q2,  #0
536         vmovl.s16       q0,  d0
537
538         vld1.32         {d16[]}, [r2,:32]
539         vmull.s32       q8,  d16, d0[0]
540         vrshrn.s64      d16, q8,  #14
541         vmull.s32       q8,  d16, d0[0]
542         vrshrn.s64      d16, q8,  #14
543         vdup.32         q8,  d16[0]
544         vst1.32         {d4[0]}, [r2,:32]
545
546         vrshr.s32       q8,  q8,  #5
547         vdup.s16        q15, r8
548
549         mov             r3,  r0
550         mov             r12, #8
551 1:
552         @ Loop to add the constant from q8 into all 8x8 outputs
553         subs            r12, r12, #2
554         vld1.16         {q2},  [r0,:128], r1
555         vaddw.u16       q10, q8,  d4
556         vld1.16         {q3},  [r0,:128], r1
557         vaddw.u16       q11, q8,  d5
558         vaddw.u16       q12, q8,  d6
559         vaddw.u16       q13, q8,  d7
560         vqmovun.s32     d4,  q10
561         vqmovun.s32     d5,  q11
562         vqmovun.s32     d6,  q12
563         vqmovun.s32     d7,  q13
564         vmin.u16        q2,  q2,  q15
565         vst1.16         {q2},  [r3,:128], r1
566         vmin.u16        q3,  q3,  q15
567         vst1.16         {q3},  [r3,:128], r1
568         bne             1b
569
570         pop             {r4-r8,pc}
571 endfunc
572 .ltorg
573
574 .macro itxfm8_1d_funcs txfm
575 @ Read a vertical 4x8 slice out of a 8x8 matrix, do a transform on it,
576 @ transpose into a horizontal 8x4 slice and store.
577 @ r0 = dst (temp buffer)
578 @ r1 = slice offset
579 @ r2 = src
580 function \txfm\()8_1d_4x8_pass1_neon
581         mov             r12, #32
582         vmov.s32        q2,  #0
583 .irp i, 8, 9, 10, 11, 12, 13, 14, 15
584         vld1.32         {q\i}, [r2,:128]
585         vst1.32         {q2},  [r2,:128], r12
586 .endr
587
588         \txfm\()8
589
590         @ Do two 4x4 transposes. Originally, q8-q15 contain the
591         @ 8 rows. Afterwards, q8-q11, q12-q15 contain the transposed
592         @ 4x4 blocks.
593         transpose32_q_2x_4x4 q8,  q9,  q10, q11, q12, q13, q14, q15, d16, d17, d18, d19, d20, d21, d22, d23, d24, d25, d26, d27, d28, d29, d30, d31
594
595         @ Store the transposed 4x4 blocks horizontally.
596         cmp             r1,  #4
597         beq             1f
598 .irp i, 8, 12, 9, 13, 10, 14, 11, 15
599         vst1.32         {q\i}, [r0,:128]!
600 .endr
601         bx              lr
602 1:
603         @ Special case: For the last input column (r1 == 4),
604         @ which would be stored as the last row in the temp buffer,
605         @ don't store the first 4x4 block, but keep it in registers
606         @ for the first slice of the second pass (where it is the
607         @ last 4x4 block).
608 .irp i, 12, 13, 14, 15
609         add             r0,  r0,  #16
610         vst1.32         {q\i}, [r0,:128]!
611 .endr
612         vmov            q12, q8
613         vmov            q13, q9
614         vmov            q14, q10
615         vmov            q15, q11
616         bx              lr
617 endfunc
618
619 @ Read a vertical 4x8 slice out of a 8x8 matrix, do a transform on it,
620 @ load the destination pixels (from a similar 4x8 slice), add and store back.
621 @ r0 = dst
622 @ r1 = dst stride
623 @ r2 = src (temp buffer)
624 @ r3 = slice offset
625 function \txfm\()8_1d_4x8_pass2_neon
626         mov             r12, #32
627 .irp i, 8, 9, 10, 11
628         vld1.32         {q\i}, [r2,:128], r12
629 .endr
630         cmp             r3,  #0
631         beq             1f
632 .irp i, 12, 13, 14, 15
633         vld1.32         {q\i}, [r2,:128], r12
634 .endr
635 1:
636
637         add             r3,  r0,  r1
638         lsl             r1,  r1,  #1
639         \txfm\()8
640
641         vdup.s16        q4,  r8
642 .macro load_add_store coef0, coef1, coef2, coef3
643         vld1.16         {d4},   [r0,:64], r1
644         vld1.16         {d5},   [r3,:64], r1
645         vld1.16         {d6},   [r0,:64], r1
646         vld1.16         {d7},   [r3,:64], r1
647
648         vrshr.s32       \coef0, \coef0, #5
649         vrshr.s32       \coef1, \coef1, #5
650         vrshr.s32       \coef2, \coef2, #5
651         vrshr.s32       \coef3, \coef3, #5
652
653         vaddw.u16       \coef0, \coef0, d4
654         vaddw.u16       \coef1, \coef1, d5
655         vaddw.u16       \coef2, \coef2, d6
656         vaddw.u16       \coef3, \coef3, d7
657
658         sub             r0,  r0,  r1, lsl #1
659         sub             r3,  r3,  r1, lsl #1
660
661         vqmovun.s32     d4,  \coef0
662         vqmovun.s32     d5,  \coef1
663         vqmovun.s32     d6,  \coef2
664         vqmovun.s32     d7,  \coef3
665
666         vmin.u16        q2,  q2,  q4
667         vmin.u16        q3,  q3,  q4
668
669         vst1.16         {d4},  [r0,:64], r1
670         vst1.16         {d5},  [r3,:64], r1
671         vst1.16         {d6},  [r0,:64], r1
672         vst1.16         {d7},  [r3,:64], r1
673 .endm
674         load_add_store  q8,  q9,  q10, q11
675         load_add_store  q12, q13, q14, q15
676 .purgem load_add_store
677
678         bx              lr
679 endfunc
680 .endm
681
682 itxfm8_1d_funcs idct
683 itxfm8_1d_funcs iadst
684
685 .macro itxfm_func8x8 txfm1, txfm2
686 function vp9_\txfm1\()_\txfm2\()_8x8_add_16_neon
687 .ifc \txfm1\()_\txfm2,idct_idct
688         cmp             r3,  #1
689         beq             idct8x8_dc_add_neon
690 .endif
691 .ifnc \txfm1\()_\txfm2,idct_idct
692         vpush           {q4-q7}
693 .else
694         vpush           {q4-q5}
695 .endif
696
697         @ Align the stack, allocate a temp buffer
698 T       mov             r7,  sp
699 T       and             r7,  r7,  #15
700 A       and             r7,  sp,  #15
701         add             r7,  r7,  #256
702         sub             sp,  sp,  r7
703
704         mov             r4,  r0
705         mov             r5,  r1
706         mov             r6,  r2
707
708 .ifc \txfm1,idct
709         movrel          r12, idct_coeffs
710         vld1.16         {q0}, [r12,:128]
711         vmovl.s16       q1,  d1
712         vmovl.s16       q0,  d0
713 .endif
714
715 .irp i, 0, 4
716         add             r0,  sp,  #(\i*32)
717 .ifc \txfm1\()_\txfm2,idct_idct
718 .if \i == 4
719         cmp             r3,  #12
720         ble             1f
721 .endif
722 .endif
723         mov             r1,  #\i
724         add             r2,  r6,  #(\i*4)
725         bl              \txfm1\()8_1d_4x8_pass1_neon
726 .endr
727 .ifc \txfm1\()_\txfm2,idct_idct
728         b               3f
729 1:
730         @ For all-zero slices in pass 1, set q12-q15 to zero, for the in-register
731         @ passthrough of coefficients to pass 2 and clear the end of the temp buffer
732         vmov.i32        q12, #0
733         vmov.i32        q13, #0
734         vmov.i32        q14, #0
735         vmov.i32        q15, #0
736 .rept 4
737         vst1.32         {q12-q13}, [r0,:128]!
738 .endr
739 3:
740 .endif
741 .ifc \txfm1\()_\txfm2,iadst_idct
742         movrel          r12, idct_coeffs
743         vld1.16         {q0}, [r12,:128]
744         vmovl.s16       q1,  d1
745         vmovl.s16       q0,  d0
746 .endif
747 .irp i, 0, 4
748         add             r0,  r4,  #(\i*2)
749         mov             r1,  r5
750         add             r2,  sp,  #(\i*4)
751         mov             r3,  #\i
752         bl              \txfm2\()8_1d_4x8_pass2_neon
753 .endr
754
755         add             sp,  sp,  r7
756 .ifnc \txfm1\()_\txfm2,idct_idct
757         vpop            {q4-q7}
758 .else
759         vpop            {q4-q5}
760 .endif
761         pop             {r4-r8,pc}
762 endfunc
763
764 function ff_vp9_\txfm1\()_\txfm2\()_8x8_add_10_neon, export=1
765         push            {r4-r8,lr}
766         movw            r8,  #0x03ff
767         b               vp9_\txfm1\()_\txfm2\()_8x8_add_16_neon
768 endfunc
769
770 function ff_vp9_\txfm1\()_\txfm2\()_8x8_add_12_neon, export=1
771         push            {r4-r8,lr}
772         movw            r8,  #0x0fff
773         b               vp9_\txfm1\()_\txfm2\()_8x8_add_16_neon
774 endfunc
775 .endm
776
777 itxfm_func8x8 idct,  idct
778 itxfm_func8x8 iadst, idct
779 itxfm_func8x8 idct,  iadst
780 itxfm_func8x8 iadst, iadst
781
782 function idct16x16_dc_add_neon
783         movrel          r12, idct_coeffs
784         vld1.16         {d0}, [r12,:64]
785
786         vmov.i32        q2,  #0
787         vmovl.s16       q0,  d0
788
789         vld1.32         {d16[]}, [r2,:32]
790         vmull.s32       q8,  d16, d0[0]
791         vrshrn.s64      d16, q8,  #14
792         vmull.s32       q8,  d16, d0[0]
793         vrshrn.s64      d16, q8,  #14
794         vdup.32         q8,  d16[0]
795         vst1.32         {d4[0]}, [r2,:32]
796
797         vrshr.s32       q8,  q8,  #6
798         vdup.s16        q15, r9
799
800         mov             r3,  r0
801         mov             r12, #16
802 1:
803         @ Loop to add the constant from q8 into all 16x16 outputs
804         subs            r12, r12, #2
805         vld1.16         {q0-q1},  [r0,:128], r1
806         vaddw.u16       q9,  q8,  d0
807         vaddw.u16       q10, q8,  d1
808         vld1.16         {q2-q3},  [r0,:128], r1
809         vaddw.u16       q11, q8,  d2
810         vaddw.u16       q12, q8,  d3
811         vaddw.u16       q13, q8,  d4
812         vaddw.u16       q14, q8,  d5
813         vqmovun.s32     d0,  q9
814         vaddw.u16       q9,  q8,  d6
815         vqmovun.s32     d1,  q10
816         vaddw.u16       q10, q8,  d7
817         vqmovun.s32     d2,  q11
818         vqmovun.s32     d3,  q12
819         vqmovun.s32     d4,  q13
820         vqmovun.s32     d5,  q14
821         vmin.u16        q0,  q0,  q15
822         vmin.u16        q1,  q1,  q15
823         vqmovun.s32     d6,  q9
824         vqmovun.s32     d7,  q10
825         vst1.16         {q0-q1},  [r3,:128], r1
826         vmin.u16        q2,  q2,  q15
827         vmin.u16        q3,  q3,  q15
828         vst1.16         {q2-q3},  [r3,:128], r1
829         bne             1b
830
831         pop             {r4-r9,pc}
832 endfunc
833 .ltorg
834
835 .macro idct16_end
836         butterfly       d18, d11, d8,  d11               @ d18 = t0a,  d11 = t7a
837         butterfly       d19, d22, d9,  d22               @ d19 = t1a,  d22 = t6
838         butterfly       d8,  d26, d20, d26               @ d8  = t2a,  d26 = t5
839         butterfly       d9,  d10, d28, d10               @ d9  = t3a,  d10 = t4
840         butterfly       d20, d28, d16, d24               @ d20 = t8a,  d28 = t11a
841         butterfly       d24, d21, d23, d21               @ d24 = t9,   d21 = t10
842         butterfly       d23, d27, d25, d27               @ d23 = t14,  d27 = t13
843         butterfly       d25, d29, d29, d17               @ d25 = t15a, d29 = t12a
844
845         mbutterfly0     d27, d21, d27, d21, d16, d30, q8, q15 @ d27 = t13a, d21 = t10a
846         mbutterfly0     d29, d28, d29, d28, d16, d30, q8, q15 @ d29 = t12,  d28 = t11
847
848         vswp            d27, d29                         @ d27 = t12, d29 = t13a
849         vswp            d28, d27                         @ d28 = t12, d27 = t11
850         butterfly       d16, d31, d18, d25               @ d16 = out[0], d31 = out[15]
851         butterfly       d17, d30, d19, d23               @ d17 = out[1], d30 = out[14]
852         butterfly_r     d25, d22, d22, d24               @ d25 = out[9], d22 = out[6]
853         butterfly       d23, d24, d11, d20               @ d23 = out[7], d24 = out[8]
854         butterfly       d18, d29, d8,  d29               @ d18 = out[2], d29 = out[13]
855         butterfly       d19, d28, d9,  d28               @ d19 = out[3], d28 = out[12]
856         vmov            d8,  d21                         @ d8  = t10a
857         butterfly       d20, d27, d10, d27               @ d20 = out[4], d27 = out[11]
858         butterfly       d21, d26, d26, d8                @ d21 = out[5], d26 = out[10]
859         bx              lr
860 .endm
861
862 function idct16
863         mbutterfly0     d16, d24, d16, d24, d8, d10, q4,  q5 @ d16 = t0a,  d24 = t1a
864         mbutterfly      d20, d28, d1[0], d1[1], q4,  q5  @ d20 = t2a,  d28 = t3a
865         mbutterfly      d18, d30, d2[0], d2[1], q4,  q5  @ d18 = t4a,  d30 = t7a
866         mbutterfly      d26, d22, d3[0], d3[1], q4,  q5  @ d26 = t5a,  d22 = t6a
867         mbutterfly      d17, d31, d4[0], d4[1], q4,  q5  @ d17 = t8a,  d31 = t15a
868         mbutterfly      d25, d23, d5[0], d5[1], q4,  q5  @ d25 = t9a,  d23 = t14a
869         mbutterfly      d21, d27, d6[0], d6[1], q4,  q5  @ d21 = t10a, d27 = t13a
870         mbutterfly      d29, d19, d7[0], d7[1], q4,  q5  @ d29 = t11a, d19 = t12a
871
872         butterfly       d8,  d28, d16, d28               @ d8  = t0,   d28 = t3
873         butterfly       d9,  d20, d24, d20               @ d9  = t1,   d20 = t2
874         butterfly       d10, d26, d18, d26               @ d10 = t4,   d26 = t5
875         butterfly       d11, d22, d30, d22               @ d11 = t7,   d22 = t6
876         butterfly       d16, d25, d17, d25               @ d16 = t8,   d25 = t9
877         butterfly       d24, d21, d29, d21               @ d24 = t11,  d21 = t10
878         butterfly       d17, d27, d19, d27               @ d17 = t12,  d27 = t13
879         butterfly       d29, d23, d31, d23               @ d29 = t15,  d23 = t14
880
881         mbutterfly0     d22, d26, d22, d26, d18, d30, q9,  q15  @ d22 = t6a, d26 = t5a
882         mbutterfly      d23, d25, d1[0], d1[1], q9,  q15        @ d23 = t9a,  d25 = t14a
883         mbutterfly      d27, d21, d1[0], d1[1], q9,  q15, neg=1 @ d27 = t13a, d21 = t10a
884         idct16_end
885 endfunc
886
887 function idct16_half
888         mbutterfly0_h   d16, d24, d16, d24, d8, d10, q4,  q5 @ d16 = t0a,  d24 = t1a
889         mbutterfly_h1   d20, d28, d1[0], d1[1], q4,  q5  @ d20 = t2a,  d28 = t3a
890         mbutterfly_h1   d18, d30, d2[0], d2[1], q4,  q5  @ d18 = t4a,  d30 = t7a
891         mbutterfly_h2   d26, d22, d3[0], d3[1], q4,  q5  @ d26 = t5a,  d22 = t6a
892         mbutterfly_h1   d17, d31, d4[0], d4[1], q4,  q5  @ d17 = t8a,  d31 = t15a
893         mbutterfly_h2   d25, d23, d5[0], d5[1], q4,  q5  @ d25 = t9a,  d23 = t14a
894         mbutterfly_h1   d21, d27, d6[0], d6[1], q4,  q5  @ d21 = t10a, d27 = t13a
895         mbutterfly_h2   d29, d19, d7[0], d7[1], q4,  q5  @ d29 = t11a, d19 = t12a
896
897         butterfly       d8,  d28, d16, d28               @ d8  = t0,   d28 = t3
898         butterfly       d9,  d20, d24, d20               @ d9  = t1,   d20 = t2
899         butterfly       d10, d26, d18, d26               @ d10 = t4,   d26 = t5
900         butterfly       d11, d22, d30, d22               @ d11 = t7,   d22 = t6
901         butterfly       d16, d25, d17, d25               @ d16 = t8,   d25 = t9
902         butterfly       d24, d21, d29, d21               @ d24 = t11,  d21 = t10
903         butterfly       d17, d27, d19, d27               @ d17 = t12,  d27 = t13
904         butterfly       d29, d23, d31, d23               @ d29 = t15,  d23 = t14
905
906         mbutterfly0     d22, d26, d22, d26, d18, d30, q9,  q15  @ d22 = t6a, d26 = t5a
907         mbutterfly      d23, d25, d1[0], d1[1], q9,  q15        @ d23 = t9a,  d25 = t14a
908         mbutterfly      d27, d21, d1[0], d1[1], q9,  q15, neg=1 @ d27 = t13a, d21 = t10a
909         idct16_end
910 endfunc
911
912 function idct16_quarter
913         vmov.s64        q12, #0
914         vmull.s32       q4,  d17, d4[0]
915         vmull.s32       q5,  d18, d2[1]
916         vmull.s32       q15, d18, d2[0]
917         vmlsl.s32       q12, d19, d7[1]
918         vmull.s32       q14, d17, d4[1]
919         vmull.s32       q13, d19, d7[0]
920         vmull.s32       q11, d16, d0[0]
921         vrshrn.s64      d16, q4,  #14
922         vrshrn.s64      d11, q5,  #14
923         vrshrn.s64      d10, q15, #14
924         vrshrn.s64      d24, q12, #14
925         vrshrn.s64      d29, q14, #14
926         vrshrn.s64      d17, q13, #14
927         vrshrn.s64      d28, q11, #14
928
929         mbutterfly_l    q10, q11, d17, d24, d1[0], d1[1], neg=1
930         mbutterfly_l    q9,  q15, d29, d16, d1[0], d1[1]
931         vrshrn.s64      d27, q10, #14
932         vrshrn.s64      d21, q11, #14
933         vrshrn.s64      d23, q9,  #14
934         vrshrn.s64      d25, q15, #14
935         vmov            d8,  d28
936         vmov            d9,  d28
937         mbutterfly0     d22, d26, d11, d10, d18, d30, q9,  q15
938         vmov            d20, d28
939         idct16_end
940 endfunc
941
942 function iadst16
943         movrel          r12, iadst16_coeffs
944         vld1.16         {q0},  [r12,:128]!
945         vmovl.s16       q1,  d1
946         vmovl.s16       q0,  d0
947
948         mbutterfly_l    q3,  q2,  d31, d16, d0[1], d0[0] @ q3  = t1,   q2  = t0
949         mbutterfly_l    q5,  q4,  d23, d24, d2[1], d2[0] @ q5  = t9,   q4  = t8
950         butterfly_n     d31, d24, q3,  q5,  q6,  q5      @ d31 = t1a,  d24 = t9a
951         mbutterfly_l    q7,  q6,  d29, d18, d1[1], d1[0] @ q7  = t3,   q6  = t2
952         butterfly_n     d16, d23, q2,  q4,  q3,  q4      @ d16 = t0a,  d23 = t8a
953         mbutterfly_l    q3,  q2,  d21, d26, d3[1], d3[0] @ q3  = t11,  q2  = t10
954
955         vld1.16         {q0},  [r12,:128]!
956         butterfly_n     d29, d26, q7,  q3,  q4,  q3      @ d29 = t3a,  d26 = t11a
957         vmovl.s16       q1,  d1
958         vmovl.s16       q0,  d0
959         mbutterfly_l    q5,  q4,  d27, d20, d0[1], d0[0] @ q5  = t5,   q4  = t4
960         butterfly_n     d18, d21, q6,  q2,  q3,  q2      @ d18 = t2a,  d21 = t10a
961
962         mbutterfly_l    q7,  q6,  d19, d28, d2[1], d2[0] @ q7  = t13,  q6  = t12
963         butterfly_n     d20, d28, q5,  q7,  q2,  q7      @ d20 = t5a,  d28 = t13a
964         mbutterfly_l    q3,  q2,  d25, d22, d1[1], d1[0] @ q3  = t7,   q2  = t6
965         butterfly_n     d27, d19, q4,  q6,  q5,  q6      @ d27 = t4a,  d19 = t12a
966
967         mbutterfly_l    q5,  q4,  d17, d30, d3[1], d3[0] @ q5  = t15,  q4  = t14
968         movrel          r12, idct_coeffs
969         vld1.16         {q0}, [r12,:128]
970         vmovl.s16       q1,  d1
971         vmovl.s16       q0,  d0
972         butterfly_n     d22, d30, q3,  q5,  q6,  q5      @ d22 = t7a,  d30 = t15a
973         mbutterfly_l    q7,  q6,  d23, d24, d2[0], d2[1] @ q7  = t9,   q6  = t8
974         butterfly_n     d25, d17, q2,  q4,  q3,  q4      @ d25 = t6a,  d17 = t14a
975
976         mbutterfly_l    q2,  q3,  d28, d19, d2[1], d2[0] @ q2  = t12,  q3  = t13
977         butterfly_n     d23, d19, q6,  q2,  q4,  q2      @ d23 = t8a,  d19 = t12a
978         mbutterfly_l    q5,  q4,  d21, d26, d3[0], d3[1] @ q5  = t11,  q4  = t10
979         butterfly_r     d4,  d27, d16, d27               @ d4  = t4,   d27 = t0
980         butterfly_n     d24, d28, q7,  q3,  q6,  q3      @ d24 = t9a,  d28 = t13a
981
982         mbutterfly_l    q6,  q7,  d30, d17, d3[1], d3[0] @ q6  = t14,  q7  = t15
983         butterfly_r     d5,  d20, d31, d20               @ d5  = t5,   d20 = t1
984         butterfly_n     d21, d17, q4,  q6,  q3,  q6      @ d21 = t10a, d17 = t14a
985         butterfly_n     d26, d30, q5,  q7,  q4,  q7      @ d26 = t11a, d30 = t15a
986
987         butterfly_r     d6,  d25, d18, d25               @ d6  = t6,   d25 = t2
988         butterfly_r     d7,  d22, d29, d22               @ d7  = t7,   d22 = t3
989
990         mbutterfly_l    q5,  q4,  d19, d28, d1[0], d1[1] @ q5  = t13,  q4  = t12
991         mbutterfly_l    q6,  q7,  d30, d17, d1[1], d1[0] @ q6  = t14,  q7  = t15
992
993         butterfly_n     d18, d30, q4,  q6,  q8,  q6      @ d18 = out[2],   d30 = t14a
994         butterfly_n     d29, d17, q5,  q7,  q6,  q7      @ d29 = -out[13], d17 = t15a
995         vneg.s32        d29, d29                         @ d29 = out[13]
996
997         mbutterfly_l    q5,  q4,  d4,  d5,  d1[0], d1[1] @ q5  = t5a,  q4  = t4a
998         mbutterfly_l    q6,  q7,  d7,  d6,  d1[1], d1[0] @ q6  = t6a,  q7  = t7a
999
1000         butterfly       d2,  d6,  d27, d25               @ d2 = out[0], d6 = t2a
1001         butterfly       d3,  d7,  d23, d21               @ d3 =-out[1], d7 = t10
1002
1003         butterfly_n     d19, d31, q4,  q6,  q2,  q4      @ d19 = -out[3],  d31 = t6
1004         vneg.s32        d19, d19                         @ d19 = out[3]
1005         butterfly_n     d28, d16, q5,  q7,  q2,  q5      @ d28 = out[12],  d16 = t7
1006
1007         butterfly       d5,  d8,  d20, d22               @ d5 =-out[15],d8 = t3a
1008         butterfly       d4,  d9,  d24, d26               @ d4 = out[14],d9 = t11
1009
1010         mbutterfly0     d23, d24, d6,  d8,  d10, d11, q6,  q7, 1 @ d23 = out[7], d24 = out[8]
1011         mbutterfly0     d20, d27, d16, d31, d10, d11, q6,  q7    @ d20 = out[4], d27 = out[11]
1012         mbutterfly0     d22, d25, d9,  d7,  d10, d11, q6,  q7    @ d22 = out[6], d25 = out[9]
1013         mbutterfly0     d21, d26, d30, d17, d10, d11, q6,  q7, 1 @ d21 = out[5], d26 = out[10]
1014
1015         vneg.s32        d31, d5                          @ d31 = out[15]
1016         vneg.s32        d17, d3                          @ d17 = out[1]
1017
1018         vmov            d16, d2
1019         vmov            d30, d4
1020         bx              lr
1021 endfunc
1022
1023 .macro itxfm16_1d_funcs txfm, suffix
1024 @ Read a vertical 2x16 slice out of a 16x16 matrix, do a transform on it,
1025 @ transpose into a horizontal 16x2 slice and store.
1026 @ r0 = dst (temp buffer)
1027 @ r2 = src
1028 function \txfm\()16_1d_2x16_pass1\suffix\()_neon
1029         push            {lr}
1030
1031         mov             r12, #64
1032         vmov.s32        q4,  #0
1033 .ifb \suffix
1034 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1035         vld1.32         {d\i}, [r2,:64]
1036         vst1.32         {d8},  [r2,:64], r12
1037 .endr
1038 .endif
1039 .ifc \suffix,_quarter
1040 .irp i, 16, 17, 18, 19
1041         vld1.32         {d\i}, [r2,:64]
1042         vst1.32         {d8},  [r2,:64], r12
1043 .endr
1044 .endif
1045 .ifc \suffix,_half
1046 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1047         vld1.32         {d\i}, [r2,:64]
1048         vst1.32         {d8},  [r2,:64], r12
1049 .endr
1050 .endif
1051
1052         bl              \txfm\()16\suffix
1053
1054         @ Do eight 2x2 transposes. Originally, d16-d31 contain the
1055         @ 16 rows. Afterwards, d16-d17, d18-d19 etc contain the eight
1056         @ transposed 2x2 blocks.
1057         transpose32_8x_2x2 d16, d17, d18, d19, d20, d21, d22, d23, d24, d25, d26, d27, d28, d29, d30, d31
1058
1059         @ Store the transposed 2x2 blocks horizontally.
1060 .irp i, 16, 18, 20, 22, 24, 26, 28, 30, 17, 19, 21, 23, 25, 27, 29, 31
1061         vst1.32         {d\i}, [r0,:64]!
1062 .endr
1063         pop             {pc}
1064 endfunc
1065
1066 @ Read a vertical 2x16 slice out of a 16x16 matrix, do a transform on it,
1067 @ load the destination pixels (from a similar 2x16 slice), add and store back.
1068 @ r0 = dst
1069 @ r1 = dst stride
1070 @ r2 = src (temp buffer)
1071 function \txfm\()16_1d_2x16_pass2\suffix\()_neon
1072         push            {lr}
1073
1074         mov             r12, #64
1075 .ifb \suffix
1076 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1077         vld1.16         {d\i}, [r2,:64], r12
1078 .endr
1079 .endif
1080 .ifc \suffix,_quarter
1081 .irp i, 16, 17, 18, 19, 20
1082         vld1.16         {d\i}, [r2,:64], r12
1083 .endr
1084 .endif
1085 .ifc \suffix,_half
1086 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1087         vld1.16         {d\i}, [r2,:64], r12
1088 .endr
1089 .endif
1090
1091         add             r3,  r0,  r1
1092         lsl             r1,  r1,  #1
1093         bl              \txfm\()16\suffix
1094
1095 .macro load_add_store coef0, coef1, coef2, coef3
1096         vrshr.s32       \coef0, \coef0, #6
1097         vrshr.s32       \coef1, \coef1, #6
1098
1099         vld1.32         {d8[]},   [r0,:32], r1
1100         vld1.32         {d8[1]},  [r3,:32], r1
1101         vrshr.s32       \coef2, \coef2, #6
1102         vrshr.s32       \coef3, \coef3, #6
1103         vld1.32         {d9[]},   [r0,:32], r1
1104         vld1.32         {d9[1]},  [r3,:32], r1
1105         vaddw.u16       \coef0, \coef0, d8
1106         vld1.32         {d10[]},  [r0,:32], r1
1107         vld1.32         {d10[1]}, [r3,:32], r1
1108         vaddw.u16       \coef1, \coef1, d9
1109         vld1.32         {d11[]},  [r0,:32], r1
1110         vld1.32         {d11[1]}, [r3,:32], r1
1111
1112         vqmovun.s32     d8,  \coef0
1113         vdup.s16        q8,  r9
1114         vqmovun.s32     d9,  \coef1
1115         sub             r0,  r0,  r1, lsl #2
1116         sub             r3,  r3,  r1, lsl #2
1117         vaddw.u16       \coef2, \coef2, d10
1118         vaddw.u16       \coef3, \coef3, d11
1119         vmin.u16        q4,  q4,  q8
1120         vst1.32         {d8[0]},  [r0,:32], r1
1121         vst1.32         {d8[1]},  [r3,:32], r1
1122         vqmovun.s32     d10, \coef2
1123         vst1.32         {d9[0]},  [r0,:32], r1
1124         vst1.32         {d9[1]},  [r3,:32], r1
1125         vqmovun.s32     d11, \coef3
1126         vmin.u16        q5,  q5,  q8
1127
1128         vst1.32         {d10[0]}, [r0,:32], r1
1129         vst1.32         {d10[1]}, [r3,:32], r1
1130         vst1.32         {d11[0]}, [r0,:32], r1
1131         vst1.32         {d11[1]}, [r3,:32], r1
1132 .endm
1133         load_add_store  q8,  q9,  q10, q11
1134         load_add_store  q12, q13, q14, q15
1135 .purgem load_add_store
1136
1137         pop             {pc}
1138 endfunc
1139 .endm
1140
1141 itxfm16_1d_funcs idct
1142 itxfm16_1d_funcs iadst
1143 itxfm16_1d_funcs idct, _quarter
1144 itxfm16_1d_funcs idct, _half
1145 .ltorg
1146
1147 @ This is the minimum eob value for each subpartition, in increments of 2
1148 const min_eob_idct_idct_16, align=4
1149         .short  0, 3, 10, 22, 38, 62, 89, 121
1150 endconst
1151
1152 .macro itxfm_func16x16 txfm1, txfm2
1153 function vp9_\txfm1\()_\txfm2\()_16x16_add_16_neon
1154 .ifc \txfm1\()_\txfm2,idct_idct
1155         cmp             r3,  #1
1156         beq             idct16x16_dc_add_neon
1157 .endif
1158 .ifnc \txfm1\()_\txfm2,idct_idct
1159         vpush           {q4-q7}
1160 .else
1161         vpush           {q4-q5}
1162 .endif
1163
1164         @ Align the stack, allocate a temp buffer
1165 T       mov             r7,  sp
1166 T       and             r7,  r7,  #15
1167 A       and             r7,  sp,  #15
1168         add             r7,  r7,  #1024
1169         sub             sp,  sp,  r7
1170
1171         mov             r4,  r0
1172         mov             r5,  r1
1173         mov             r6,  r2
1174
1175 .ifc \txfm1,idct
1176         movrel          r12, idct_coeffs
1177         vld1.16         {q0-q1}, [r12,:128]
1178         vmovl.s16       q2,  d2
1179         vmovl.s16       q3,  d3
1180         vmovl.s16       q1,  d1
1181         vmovl.s16       q0,  d0
1182 .endif
1183
1184 .ifc \txfm1\()_\txfm2,idct_idct
1185         cmp             r3,  #10
1186         ble             idct16x16_quarter_add_16_neon
1187         cmp             r3,  #38
1188         ble             idct16x16_half_add_16_neon
1189
1190         movrel          r8,  min_eob_idct_idct_16 + 2
1191 .endif
1192
1193 .irp i, 0, 2, 4, 6, 8, 10, 12, 14
1194         add             r0,  sp,  #(\i*64)
1195 .ifc \txfm1\()_\txfm2,idct_idct
1196 .if \i > 0
1197         ldrh_post       r1,  r8,  #2
1198         cmp             r3,  r1
1199         it              le
1200         movle           r1,  #(16 - \i)/2
1201         ble             1f
1202 .endif
1203 .endif
1204         add             r2,  r6,  #(\i*4)
1205         bl              \txfm1\()16_1d_2x16_pass1_neon
1206 .endr
1207
1208 .ifc \txfm1\()_\txfm2,idct_idct
1209         b               3f
1210 1:
1211         vmov.i32        q14, #0
1212         vmov.i32        q15, #0
1213 2:
1214         subs            r1,  r1,  #1
1215         @ Unroll for 2 lines
1216 .rept 2
1217         @ Fill one line with zeros
1218         vst1.32         {q14-q15}, [r0,:128]!
1219         vst1.32         {q14-q15}, [r0,:128]!
1220 .endr
1221         bne             2b
1222 3:
1223 .endif
1224
1225 .ifc \txfm1\()_\txfm2,iadst_idct
1226         movrel          r12, idct_coeffs
1227         vld1.16         {q0-q1}, [r12,:128]
1228         vmovl.s16       q2,  d2
1229         vmovl.s16       q3,  d3
1230         vmovl.s16       q1,  d1
1231         vmovl.s16       q0,  d0
1232 .endif
1233 .irp i, 0, 2, 4, 6, 8, 10, 12, 14
1234         add             r0,  r4,  #(\i*2)
1235         mov             r1,  r5
1236         add             r2,  sp,  #(\i*4)
1237         bl              \txfm2\()16_1d_2x16_pass2_neon
1238 .endr
1239
1240         add             sp,  sp,  r7
1241 .ifnc \txfm1\()_\txfm2,idct_idct
1242         vpop            {q4-q7}
1243 .else
1244         vpop            {q4-q5}
1245 .endif
1246         pop             {r4-r9,pc}
1247 endfunc
1248
1249 function ff_vp9_\txfm1\()_\txfm2\()_16x16_add_10_neon, export=1
1250         push            {r4-r9,lr}
1251         movw            r9,  #0x03ff
1252         b               vp9_\txfm1\()_\txfm2\()_16x16_add_16_neon
1253 endfunc
1254
1255 function ff_vp9_\txfm1\()_\txfm2\()_16x16_add_12_neon, export=1
1256         push            {r4-r9,lr}
1257         movw            r9,  #0x0fff
1258         b               vp9_\txfm1\()_\txfm2\()_16x16_add_16_neon
1259 endfunc
1260 .endm
1261
1262 itxfm_func16x16 idct,  idct
1263 itxfm_func16x16 iadst, idct
1264 itxfm_func16x16 idct,  iadst
1265 itxfm_func16x16 iadst, iadst
1266 .ltorg
1267
1268 .macro idct16_partial size
1269 function idct16x16_\size\()_add_16_neon
1270 .irp i, 0, 2
1271         add             r0,  sp,  #(\i*64)
1272 .ifc \size,quarter
1273 .if \i == 2
1274         cmp             r3,  #3
1275         ble             1f
1276 .endif
1277 .endif
1278         add             r2,  r6,  #(\i*4)
1279         bl              idct16_1d_2x16_pass1_\size\()_neon
1280 .endr
1281
1282 .ifc \size,half
1283 .irp i, 4, 6
1284         add             r0,  sp,  #(\i*64)
1285 .if \i == 6
1286         cmp             r3,  #22
1287         ble             1f
1288 .endif
1289         add             r2,  r6,  #(\i*4)
1290         bl              idct16_1d_2x16_pass1_\size\()_neon
1291 .endr
1292 .endif
1293
1294         b               3f
1295 1:
1296         vmov.i32        q14, #0
1297         vmov.i32        q15, #0
1298
1299         @ Unroll for 2 lines
1300 .rept 2
1301         @ Fill one line with zeros
1302         vst1.32         {q14-q15}, [r0,:128]!
1303         vst1.32         {q14-q15}, [r0,:128]!
1304 .endr
1305
1306 3:
1307
1308 .irp i, 0, 2, 4, 6, 8, 10, 12, 14
1309         add             r0,  r4,  #(\i*2)
1310         mov             r1,  r5
1311         add             r2,  sp,  #(\i*4)
1312         bl              idct16_1d_2x16_pass2_\size\()_neon
1313 .endr
1314
1315         add             sp,  sp,  r7
1316         vpop            {q4-q5}
1317         pop             {r4-r9,pc}
1318 endfunc
1319 .endm
1320
1321 idct16_partial quarter
1322 idct16_partial half
1323
1324 function idct32x32_dc_add_neon
1325         movrel          r12, idct_coeffs
1326         vld1.16         {d0}, [r12,:64]
1327
1328         vmov.i32        q2,  #0
1329         vmovl.s16       q0,  d0
1330
1331         vld1.32         {d16[]}, [r2,:32]
1332         vmull.s32       q8,  d16, d0[0]
1333         vrshrn.s64      d16, q8,  #14
1334         vmull.s32       q8,  d16, d0[0]
1335         vrshrn.s64      d16, q8,  #14
1336         vdup.32         q8,  d16[0]
1337         vst1.32         {d4[0]}, [r2,:32]
1338
1339         vrshr.s32       q8,  q8,  #6
1340         vdup.s16        q15, r9
1341
1342         mov             r3,  r0
1343         mov             r12, #32
1344         sub             r1,  r1,  #32
1345 1:
1346         @ Loop to add the constant from q8 into all 32x32 outputs
1347         subs            r12, r12, #1
1348         vld1.16         {q0-q1},  [r0,:128]!
1349         vaddw.u16       q9,  q8,  d0
1350         vaddw.u16       q10, q8,  d1
1351         vld1.16         {q2-q3},  [r0,:128], r1
1352         vaddw.u16       q11, q8,  d2
1353         vaddw.u16       q12, q8,  d3
1354         vaddw.u16       q13, q8,  d4
1355         vaddw.u16       q14, q8,  d5
1356         vqmovun.s32     d0,  q9
1357         vaddw.u16       q9,  q8,  d6
1358         vqmovun.s32     d1,  q10
1359         vaddw.u16       q10, q8,  d7
1360         vqmovun.s32     d2,  q11
1361         vqmovun.s32     d3,  q12
1362         vqmovun.s32     d4,  q13
1363         vqmovun.s32     d5,  q14
1364         vmin.u16        q0,  q0,  q15
1365         vmin.u16        q1,  q1,  q15
1366         vqmovun.s32     d6,  q9
1367         vqmovun.s32     d7,  q10
1368         vst1.16         {q0-q1},  [r3,:128]!
1369         vmin.u16        q2,  q2,  q15
1370         vmin.u16        q3,  q3,  q15
1371         vst1.16         {q2-q3},  [r3,:128], r1
1372         bne             1b
1373
1374         pop             {r4-r9,pc}
1375 endfunc
1376
1377 .macro idct32_end
1378         butterfly       d16, d9,  d8,  d9  @ d16 = t16a, d9  = t19a
1379         butterfly       d17, d20, d23, d20 @ d17 = t17,  d20 = t18
1380         butterfly       d18, d10, d11, d10 @ d18 = t23a, d10 = t20a
1381         butterfly       d19, d21, d22, d21 @ d19 = t22,  d21 = t21
1382         butterfly       d8,  d28, d28, d30 @ d8  = t24a, d28 = t27a
1383         butterfly       d23, d26, d25, d26 @ d23 = t25,  d26 = t26
1384         butterfly       d11, d29, d29, d31 @ d11 = t31a, d29 = t28a
1385         butterfly       d22, d27, d24, d27 @ d22 = t30,  d27 = t29
1386
1387         mbutterfly      d27, d20, d1[0], d1[1], q12, q15        @ d27 = t18a, d20 = t29a
1388         mbutterfly      d29, d9,  d1[0], d1[1], q12, q15        @ d29 = t19,  d9  = t28
1389         mbutterfly      d28, d10, d1[0], d1[1], q12, q15, neg=1 @ d28 = t27,  d10 = t20
1390         mbutterfly      d26, d21, d1[0], d1[1], q12, q15, neg=1 @ d26 = t26a, d21 = t21a
1391
1392         butterfly       d31, d24, d11, d8  @ d31 = t31,  d24 = t24
1393         butterfly       d30, d25, d22, d23 @ d30 = t30a, d25 = t25a
1394         butterfly_r     d23, d16, d16, d18 @ d23 = t23,  d16 = t16
1395         butterfly_r     d22, d17, d17, d19 @ d22 = t22a, d17 = t17a
1396         butterfly       d18, d21, d27, d21 @ d18 = t18,  d21 = t21
1397         butterfly_r     d27, d28, d9,  d28 @ d27 = t27a, d28 = t28a
1398         butterfly       d8,  d26, d20, d26 @ d8  = t29,  d26 = t26
1399         butterfly       d19, d20, d29, d10 @ d19 = t19a, d20 = t20
1400         vmov            d29, d8            @ d29 = t29
1401
1402         mbutterfly0     d27, d20, d27, d20, d8, d10, q4, q5 @ d27 = t27,  d20 = t20
1403         mbutterfly0     d26, d21, d26, d21, d8, d10, q4, q5 @ d26 = t26a, d21 = t21a
1404         mbutterfly0     d25, d22, d25, d22, d8, d10, q4, q5 @ d25 = t25,  d22 = t22
1405         mbutterfly0     d24, d23, d24, d23, d8, d10, q4, q5 @ d24 = t24a, d23 = t23a
1406         bx              lr
1407 .endm
1408
1409 function idct32_odd
1410         movrel          r12, idct_coeffs
1411
1412         @ Overwrite the idct16 coeffs with the stored ones for idct32
1413         vmovl.s16       q0,  d12
1414         vmovl.s16       q1,  d13
1415         vmovl.s16       q2,  d14
1416         vmovl.s16       q3,  d15
1417
1418         mbutterfly      d16, d31, d0[0], d0[1], q4, q5 @ d16 = t16a, d31 = t31a
1419         mbutterfly      d24, d23, d1[0], d1[1], q4, q5 @ d24 = t17a, d23 = t30a
1420         mbutterfly      d20, d27, d2[0], d2[1], q4, q5 @ d20 = t18a, d27 = t29a
1421         mbutterfly      d28, d19, d3[0], d3[1], q4, q5 @ d28 = t19a, d19 = t28a
1422         mbutterfly      d18, d29, d4[0], d4[1], q4, q5 @ d18 = t20a, d29 = t27a
1423         mbutterfly      d26, d21, d5[0], d5[1], q4, q5 @ d26 = t21a, d21 = t26a
1424         mbutterfly      d22, d25, d6[0], d6[1], q4, q5 @ d22 = t22a, d25 = t25a
1425         mbutterfly      d30, d17, d7[0], d7[1], q4, q5 @ d30 = t23a, d17 = t24a
1426
1427         @ Reload the idct16 coefficients. We could swap the coefficients between
1428         @ q0-q3 and q6-q7 by narrowing/lengthening, but that's slower than just
1429         @ loading and lengthening.
1430         vld1.16         {q0-q1}, [r12,:128]
1431
1432         butterfly       d8,  d24, d16, d24 @ d8  = t16, d24 = t17
1433         butterfly       d9,  d20, d28, d20 @ d9  = t19, d20 = t18
1434         butterfly       d10, d26, d18, d26 @ d10 = t20, d26 = t21
1435         butterfly       d11, d22, d30, d22 @ d11 = t23, d22 = t22
1436         vmovl.s16       q2,  d2
1437         vmovl.s16       q3,  d3
1438         vmovl.s16       q1,  d1
1439         vmovl.s16       q0,  d0
1440         butterfly       d28, d25, d17, d25 @ d28 = t24, d25 = t25
1441         butterfly       d30, d21, d29, d21 @ d30 = t27, d21 = t26
1442         butterfly       d29, d23, d31, d23 @ d29 = t31, d23 = t30
1443         butterfly       d31, d27, d19, d27 @ d31 = t28, d27 = t29
1444
1445         mbutterfly      d23, d24, d2[0], d2[1], q8, q9        @ d23 = t17a, d24 = t30a
1446         mbutterfly      d27, d20, d2[0], d2[1], q8, q9, neg=1 @ d27 = t29a, d20 = t18a
1447         mbutterfly      d21, d26, d3[0], d3[1], q8, q9        @ d21 = t21a, d26 = t26a
1448         mbutterfly      d25, d22, d3[0], d3[1], q8, q9, neg=1 @ d25 = t25a, d22 = t22a
1449         idct32_end
1450 endfunc
1451
1452 function idct32_odd_half
1453         movrel          r12, idct_coeffs
1454
1455         vmovl.s16       q0,  d12
1456         vmovl.s16       q1,  d13
1457         vmovl.s16       q2,  d14
1458         vmovl.s16       q3,  d15
1459
1460         mbutterfly_h1   d16, d31, d0[0], d0[1], q4, q5 @ d16 = t16a, d31 = t31a
1461         mbutterfly_h2   d24, d23, d1[0], d1[1], q4, q5 @ d24 = t17a, d23 = t30a
1462         mbutterfly_h1   d20, d27, d2[0], d2[1], q4, q5 @ d20 = t18a, d27 = t29a
1463         mbutterfly_h2   d28, d19, d3[0], d3[1], q4, q5 @ d28 = t19a, d19 = t28a
1464         mbutterfly_h1   d18, d29, d4[0], d4[1], q4, q5 @ d18 = t20a, d29 = t27a
1465         mbutterfly_h2   d26, d21, d5[0], d5[1], q4, q5 @ d26 = t21a, d21 = t26a
1466         mbutterfly_h1   d22, d25, d6[0], d6[1], q4, q5 @ d22 = t22a, d25 = t25a
1467         mbutterfly_h2   d30, d17, d7[0], d7[1], q4, q5 @ d30 = t23a, d17 = t24a
1468
1469         vld1.16         {q0-q1}, [r12,:128]
1470
1471         butterfly       d8,  d24, d16, d24 @ d8  = t16, d24 = t17
1472         butterfly       d9,  d20, d28, d20 @ d9  = t19, d20 = t18
1473         butterfly       d10, d26, d18, d26 @ d10 = t20, d26 = t21
1474         butterfly       d11, d22, d30, d22 @ d11 = t23, d22 = t22
1475         vmovl.s16       q2,  d2
1476         vmovl.s16       q3,  d3
1477         vmovl.s16       q1,  d1
1478         vmovl.s16       q0,  d0
1479         butterfly       d28, d25, d17, d25 @ d28 = t24, d25 = t25
1480         butterfly       d30, d21, d29, d21 @ d30 = t27, d21 = t26
1481         butterfly       d29, d23, d31, d23 @ d29 = t31, d23 = t30
1482         butterfly       d31, d27, d19, d27 @ d31 = t28, d27 = t29
1483
1484         mbutterfly      d23, d24, d2[0], d2[1], q8, q9        @ d23 = t17a, d24 = t30a
1485         mbutterfly      d27, d20, d2[0], d2[1], q8, q9, neg=1 @ d27 = t29a, d20 = t18a
1486         mbutterfly      d21, d26, d3[0], d3[1], q8, q9        @ d21 = t21a, d26 = t26a
1487         mbutterfly      d25, d22, d3[0], d3[1], q8, q9, neg=1 @ d25 = t25a, d22 = t22a
1488         idct32_end
1489 endfunc
1490
1491 function idct32_odd_quarter
1492         movrel          r12, idct_coeffs
1493
1494         vmovl.s16       q0,  d12
1495         vmovl.s16       q1,  d13
1496         vmovl.s16       q2,  d14
1497         vmovl.s16       q3,  d15
1498
1499         vmov.s64        q14, #0
1500         vmov.s64        q5,  #0
1501
1502         vmull.s32       q4,  d16, d0[0]
1503         vmlsl.s32       q14, d19, d3[1]
1504         vmull.s32       q15, d16, d0[1]
1505         vmull.s32       q11, d17, d7[0]
1506         vmlsl.s32       q5,  d17, d7[1]
1507         vmull.s32       q13, d19, d3[0]
1508         vmull.s32       q10, d18, d4[0]
1509         vmull.s32       q12, d18, d4[1]
1510
1511         vld1.16         {q0-q1}, [r12,:128]
1512
1513         vrshrn.s64      d8,  q4,  #14
1514         vrshrn.s64      d9,  q14, #14
1515         vrshrn.s64      d29, q15, #14
1516         vrshrn.s64      d28, q11, #14
1517
1518         vmovl.s16       q2,  d2
1519         vmovl.s16       q3,  d3
1520         vmovl.s16       q1,  d1
1521         vmovl.s16       q0,  d0
1522
1523         vrshrn.s64      d11, q5,  #14
1524         vrshrn.s64      d31, q13, #14
1525         vrshrn.s64      d10, q10, #14
1526         vrshrn.s64      d30, q12, #14
1527
1528         mbutterfly_l    q8,  q9,  d29, d8,  d2[0], d2[1]
1529         mbutterfly_l    q13, q10, d31, d9,  d2[0], d2[1], neg=1
1530         vrshrn.s64      d23, q8,  #14
1531         vrshrn.s64      d24, q9,  #14
1532         vrshrn.s64      d27, q13, #14
1533         vrshrn.s64      d20, q10, #14
1534         mbutterfly_l    q8,  q9,  d30, d10, d3[0], d3[1]
1535         vrshrn.s64      d21, q8,  #14
1536         vrshrn.s64      d26, q9,  #14
1537         mbutterfly_l    q8,  q9,  d28, d11, d3[0], d3[1], neg=1
1538         vrshrn.s64      d25, q8,  #14
1539         vrshrn.s64      d22, q9,  #14
1540
1541         idct32_end
1542 endfunc
1543
1544 .macro idct32_funcs suffix
1545 @ Do an 32-point IDCT of a 2x32 slice out of a 32x32 matrix.
1546 @ We don't have register space to do a single pass IDCT of 2x32 though,
1547 @ but the 32-point IDCT can be decomposed into two 16-point IDCTs;
1548 @ a normal IDCT16 with every other input component (the even ones, with
1549 @ each output written twice), followed by a separate 16-point IDCT
1550 @ of the odd inputs, added/subtracted onto the outputs of the first idct16.
1551 @ r0 = dst (temp buffer)
1552 @ r1 = unused
1553 @ r2 = src
1554 function idct32_1d_2x32_pass1\suffix\()_neon
1555         push            {lr}
1556
1557         @ Double stride of the input, since we only read every other line
1558         mov             r12, #256
1559         vmov.s32        d8,  #0
1560
1561         @ d16 = IN(0), d17 = IN(2) ... d31 = IN(30)
1562 .ifb \suffix
1563 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1564         vld1.32         {d\i}, [r2,:64]
1565         vst1.32         {d8},  [r2,:64], r12
1566 .endr
1567 .endif
1568 .ifc \suffix,_quarter
1569 .irp i, 16, 17, 18, 19
1570         vld1.32         {d\i}, [r2,:64]
1571         vst1.32         {d8},  [r2,:64], r12
1572 .endr
1573 .endif
1574 .ifc \suffix,_half
1575 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1576         vld1.32         {d\i}, [r2,:64]
1577         vst1.32         {d8},  [r2,:64], r12
1578 .endr
1579 .endif
1580
1581         bl              idct16\suffix
1582
1583         @ Do eight 2x2 transposes. Originally, d16-d31 contain the
1584         @ 16 rows. Afterwards, d16-d17, d18-d19 etc contain the eight
1585         @ transposed 2x2 blocks.
1586         transpose32_8x_2x2 d16, d17, d18, d19, d20, d21, d22, d23, d24, d25, d26, d27, d28, d29, d30, d31
1587
1588         @ Store the registers a, b, c, d, e, f, g, h horizontally, followed
1589         @ by the same registers h, g, f, e, d, c, b, a mirrored.
1590 .macro store_rev a, b, c, d, e, f, g, h
1591 .irp i, \a, \b, \c, \d, \e, \f, \g, \h
1592         vst1.32         {d\i}, [r0,:64]!
1593         vrev64.32       d\i, d\i
1594 .endr
1595 .irp i, \h, \g, \f, \e, \d, \c, \b, \a
1596         vst1.32         {d\i}, [r0,:64]!
1597 .endr
1598 .endm
1599         store_rev       16, 18, 20, 22, 24, 26, 28, 30
1600         store_rev       17, 19, 21, 23, 25, 27, 29, 31
1601         sub             r0,  r0,  #256
1602 .purgem store_rev
1603
1604         @ Move r2 back to the start of the input, and move
1605         @ to the first odd row
1606 .ifb \suffix
1607         sub             r2,  r2,  r12, lsl #4
1608 .endif
1609 .ifc \suffix,_quarter
1610         sub             r2,  r2,  r12, lsl #2
1611 .endif
1612 .ifc \suffix,_half
1613         sub             r2,  r2,  r12, lsl #3
1614 .endif
1615         add             r2,  r2,  #128
1616
1617         vmov.s32        d8,  #0
1618         @ d16 = IN(1), d17 = IN(3) ... d31 = IN(31)
1619 .ifb \suffix
1620 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1621         vld1.16         {d\i}, [r2,:64]
1622         vst1.16         {d8},  [r2,:64], r12
1623 .endr
1624 .endif
1625 .ifc \suffix,_quarter
1626 .irp i, 16, 17, 18, 19
1627         vld1.16         {d\i}, [r2,:64]
1628         vst1.16         {d8},  [r2,:64], r12
1629 .endr
1630 .endif
1631 .ifc \suffix,_half
1632 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1633         vld1.16         {d\i}, [r2,:64]
1634         vst1.16         {d8},  [r2,:64], r12
1635 .endr
1636 .endif
1637
1638         bl              idct32_odd\suffix
1639
1640         transpose32_8x_2x2 d31, d30, d29, d28, d27, d26, d25, d24, d23, d22, d21, d20, d19, d18, d17, d16
1641
1642         @ Store the registers a, b, c, d, e, f, g, h horizontally,
1643         @ adding into the output first, and then mirrored, subtracted
1644         @ from the output.
1645 .macro store_rev a, b, c, d, e, f, g, h
1646 .irp i, \a, \b, \c, \d, \e, \f, \g, \h
1647         vld1.32         {d8},  [r0,:64]
1648         vadd.s32        d8, d8, d\i
1649         vst1.32         {d8},  [r0,:64]!
1650         vrev64.32       d\i, d\i
1651 .endr
1652 .irp i, \h, \g, \f, \e, \d, \c, \b, \a
1653         vld1.32         {d8},  [r0,:64]
1654         vsub.s32        d8, d8, d\i
1655         vst1.32         {d8},  [r0,:64]!
1656 .endr
1657 .endm
1658
1659         store_rev       31, 29, 27, 25, 23, 21, 19, 17
1660         store_rev       30, 28, 26, 24, 22, 20, 18, 16
1661 .purgem store_rev
1662         pop             {pc}
1663 endfunc
1664 .ltorg
1665
1666 @ This is mostly the same as 2x32_pass1, but without the transpose,
1667 @ and use the source as temp buffer between the two idct passes, and
1668 @ add into the destination.
1669 @ r0 = dst
1670 @ r1 = dst stride
1671 @ r2 = src (temp buffer)
1672 function idct32_1d_2x32_pass2\suffix\()_neon
1673         push            {lr}
1674
1675         mov             r12, #256
1676         @ d16 = IN(0), d17 = IN(2) ... d31 = IN(30)
1677 .ifb \suffix
1678 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1679         vld1.32         {d\i}, [r2,:64], r12
1680 .endr
1681         sub             r2,  r2,  r12, lsl #4
1682 .endif
1683 .ifc \suffix,_quarter
1684 .irp i, 16, 17, 18, 19
1685         vld1.32         {d\i}, [r2,:64], r12
1686 .endr
1687         sub             r2,  r2,  r12, lsl #2
1688 .endif
1689 .ifc \suffix,_half
1690 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1691         vld1.32         {d\i}, [r2,:64], r12
1692 .endr
1693         sub             r2,  r2,  r12, lsl #3
1694 .endif
1695
1696         bl              idct16\suffix
1697
1698 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1699         vst1.32         {d\i}, [r2,:64], r12
1700 .endr
1701
1702         sub             r2,  r2,  r12, lsl #4
1703         add             r2,  r2,  #128
1704
1705         @ d16 = IN(1), d17 = IN(3) ... d31 = IN(31)
1706 .ifb \suffix
1707 .irp i, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31
1708         vld1.32         {d\i}, [r2,:64], r12
1709 .endr
1710         sub             r2,  r2,  r12, lsl #4
1711 .endif
1712 .ifc \suffix,_quarter
1713 .irp i, 16, 17, 18, 19
1714         vld1.32         {d\i}, [r2,:64], r12
1715 .endr
1716         sub             r2,  r2,  r12, lsl #2
1717 .endif
1718 .ifc \suffix,_half
1719 .irp i, 16, 17, 18, 19, 20, 21, 22, 23
1720         vld1.32         {d\i}, [r2,:64], r12
1721 .endr
1722         sub             r2,  r2,  r12, lsl #3
1723 .endif
1724         sub             r2,  r2,  #128
1725
1726         bl              idct32_odd\suffix
1727
1728         @ Narrow the ict16 coefficients in q0-q3 into q0-q1, to
1729         @ allow clobbering q2-q3 below.
1730         vmovn.s32       d0,  q0
1731         vmovn.s32       d1,  q1
1732         vmovn.s32       d2,  q2
1733         vmovn.s32       d3,  q3
1734
1735         mov             r12, #256
1736         vdup.s16        q4,  r9
1737 .macro load_acc_store a, b, c, d, neg=0
1738         vld1.32         {d4},  [r2,:64], r12
1739         vld1.32         {d5},  [r2,:64], r12
1740 .if \neg == 0
1741         vadd.s32        d4,  d4,  d\a
1742         vld1.32         {d6},  [r2,:64], r12
1743         vadd.s32        d5,  d5,  d\b
1744         vld1.32         {d7},  [r2,:64], r12
1745         vadd.s32        d6,  d6,  d\c
1746         vadd.s32        d7,  d7,  d\d
1747 .else
1748         vsub.s32        d4,  d4,  d\a
1749         vld1.32         {d6},  [r2,:64], r12
1750         vsub.s32        d5,  d5,  d\b
1751         vld1.32         {d7},  [r2,:64], r12
1752         vsub.s32        d6,  d6,  d\c
1753         vsub.s32        d7,  d7,  d\d
1754 .endif
1755         vld1.32         {d10[]},  [r0,:32], r1
1756         vld1.32         {d10[1]}, [r0,:32], r1
1757         vrshr.s32       q2,  q2,  #6
1758         vld1.32         {d11[]},  [r0,:32], r1
1759         vrshr.s32       q3,  q3,  #6
1760         vld1.32         {d11[1]}, [r0,:32], r1
1761         sub             r0,  r0,  r1, lsl #2
1762         vaddw.u16       q2,  q2,  d10
1763         vaddw.u16       q3,  q3,  d11
1764         vqmovun.s32     d4,  q2
1765         vqmovun.s32     d5,  q3
1766         vmin.u16        q2,  q2,  q4
1767         vst1.32         {d4[0]},  [r0,:32], r1
1768         vst1.32         {d4[1]},  [r0,:32], r1
1769         vst1.32         {d5[0]},  [r0,:32], r1
1770         vst1.32         {d5[1]},  [r0,:32], r1
1771 .endm
1772         load_acc_store  31, 30, 29, 28
1773         load_acc_store  27, 26, 25, 24
1774         load_acc_store  23, 22, 21, 20
1775         load_acc_store  19, 18, 17, 16
1776         sub             r2,  r2,  r12
1777         neg             r12, r12
1778         load_acc_store  16, 17, 18, 19, 1
1779         load_acc_store  20, 21, 22, 23, 1
1780         load_acc_store  24, 25, 26, 27, 1
1781         load_acc_store  28, 29, 30, 31, 1
1782 .purgem load_acc_store
1783         @ Lengthen the idct16 coeffs back into 32 bit form
1784         vmovl.s16       q2,  d2
1785         vmovl.s16       q3,  d3
1786         vmovl.s16       q1,  d1
1787         vmovl.s16       q0,  d0
1788         pop             {pc}
1789 endfunc
1790 .endm
1791
1792 idct32_funcs
1793 idct32_funcs _quarter
1794 idct32_funcs _half
1795
1796 const min_eob_idct_idct_32, align=4
1797         .short  0, 3, 9, 21, 34, 51, 70, 98, 135, 176, 240, 258, 336, 357, 448, 472
1798 endconst
1799
1800 function vp9_idct_idct_32x32_add_16_neon
1801         cmp             r3,  #1
1802         beq             idct32x32_dc_add_neon
1803         vpush           {q4-q7}
1804         movrel          r8,  min_eob_idct_idct_32 + 2
1805
1806         @ Align the stack, allocate a temp buffer
1807 T       mov             r7,  sp
1808 T       and             r7,  r7,  #15
1809 A       and             r7,  sp,  #15
1810         add             r7,  r7,  #4096
1811         sub             sp,  sp,  r7
1812
1813         mov             r4,  r0
1814         mov             r5,  r1
1815         mov             r6,  r2
1816
1817         movrel          r12, idct_coeffs
1818         vld1.16         {q0-q1}, [r12,:128]!
1819         vld1.16         {q6-q7}, [r12,:128]
1820         vmovl.s16       q2,  d2
1821         vmovl.s16       q3,  d3
1822         vmovl.s16       q1,  d1
1823         vmovl.s16       q0,  d0
1824
1825         cmp             r3,  #34
1826         ble             idct32x32_quarter_add_16_neon
1827         cmp             r3,  #135
1828         ble             idct32x32_half_add_16_neon
1829
1830 .irp i, 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30
1831         add             r0,  sp,  #(\i*128)
1832 .if \i > 0
1833         ldrh_post       r1,  r8,  #2
1834         cmp             r3,  r1
1835         it              le
1836         movle           r1,  #(32 - \i)/2
1837         ble             1f
1838 .endif
1839         add             r2,  r6,  #(\i*4)
1840         bl              idct32_1d_2x32_pass1_neon
1841 .endr
1842         b               3f
1843
1844 1:
1845         @ Write zeros to the temp buffer for pass 2
1846         vmov.i16        q14, #0
1847         vmov.i16        q15, #0
1848 2:
1849         subs            r1,  r1,  #1
1850 .rept 2
1851         @ Fill one line with zeros
1852         vst1.16         {q14-q15}, [r0,:128]!
1853         vst1.16         {q14-q15}, [r0,:128]!
1854         vst1.16         {q14-q15}, [r0,:128]!
1855         vst1.16         {q14-q15}, [r0,:128]!
1856 .endr
1857         bne             2b
1858 3:
1859 .irp i, 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30
1860         add             r0,  r4,  #(\i*2)
1861         mov             r1,  r5
1862         add             r2,  sp,  #(\i*4)
1863         bl              idct32_1d_2x32_pass2_neon
1864 .endr
1865
1866         add             sp,  sp,  r7
1867         vpop            {q4-q7}
1868         pop             {r4-r9,pc}
1869 endfunc
1870
1871 function ff_vp9_idct_idct_32x32_add_10_neon, export=1
1872         push            {r4-r9,lr}
1873         movw            r9,  #0x03ff
1874         b               vp9_idct_idct_32x32_add_16_neon
1875 endfunc
1876
1877 function ff_vp9_idct_idct_32x32_add_12_neon, export=1
1878         push            {r4-r9,lr}
1879         movw            r9,  #0x0fff
1880         b               vp9_idct_idct_32x32_add_16_neon
1881 endfunc
1882
1883 .macro idct32_partial size, rows
1884 function idct32x32_\size\()_add_16_neon
1885 .irp i, 0, 2, 4, 6
1886         add             r0,  sp,  #(\i*128)
1887 .ifc \size,quarter
1888 .if \i > 0
1889         ldrh_post       r1,  r8,  #2
1890         cmp             r3,  r1
1891         it              le
1892         movle           r1,  #(\rows - \i)/2
1893         ble             1f
1894 .endif
1895 .endif
1896         add             r2,  r6,  #(\i*4)
1897         bl              idct32_1d_2x32_pass1_\size\()_neon
1898 .endr
1899 .ifc \size,half
1900         add             r8,  r8,  #8
1901 .irp i, 8, 10, 12, 14
1902         add             r0,  sp,  #(\i*128)
1903 .if \i > 8
1904         ldrh_post       r1,  r8,  #2
1905         cmp             r3,  r1
1906         it              le
1907         movle           r1,  #(\rows - \i)/2
1908         ble             1f
1909 .endif
1910         add             r2,  r6,  #(\i*4)
1911         bl              idct32_1d_2x32_pass1_\size\()_neon
1912 .endr
1913 .endif
1914         b               3f
1915
1916 1:
1917         @ Write zeros to the temp buffer for pass 2
1918         vmov.i16        q14, #0
1919         vmov.i16        q15, #0
1920 2:
1921         subs            r1,  r1,  #1
1922 .rept 2
1923         @ Fill one line with zeros
1924         vst1.16         {q14-q15}, [r0,:128]!
1925         vst1.16         {q14-q15}, [r0,:128]!
1926         vst1.16         {q14-q15}, [r0,:128]!
1927         vst1.16         {q14-q15}, [r0,:128]!
1928 .endr
1929         bne             2b
1930 3:
1931 .irp i, 0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30
1932         add             r0,  r4,  #(\i*2)
1933         mov             r1,  r5
1934         add             r2,  sp,  #(\i*4)
1935         bl              idct32_1d_2x32_pass2_\size\()_neon
1936 .endr
1937
1938         add             sp,  sp,  r7
1939         vpop            {q4-q7}
1940         pop             {r4-r9,pc}
1941 endfunc
1942 .endm
1943
1944 idct32_partial quarter, 8
1945 idct32_partial half, 16