]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/xvididct.asm
avcodec/avcodec: Free frame_thread_encoder on avcodec_open2() error
[ffmpeg] / libavcodec / x86 / xvididct.asm
1 ; XVID MPEG-4 VIDEO CODEC
2 ;
3 ; Conversion from gcc syntax to x264asm syntax with modifications
4 ; by Christophe Gisquet <christophe.gisquet@gmail.com>
5 ;
6 ; ===========     SSE2 inverse discrete cosine transform     ===========
7 ;
8 ; Copyright(C) 2003 Pascal Massimino <skal@planet-d.net>
9 ;
10 ; Conversion to gcc syntax with modifications
11 ; by Alexander Strange <astrange@ithinksw.com>
12 ;
13 ; Originally from dct/x86_asm/fdct_sse2_skal.asm in Xvid.
14 ;
15 ; Vertical pass is an implementation of the scheme:
16 ;  Loeffler C., Ligtenberg A., and Moschytz C.S.:
17 ;  Practical Fast 1D DCT Algorithm with Eleven Multiplications,
18 ;  Proc. ICASSP 1989, 988-991.
19 ;
20 ; Horizontal pass is a double 4x4 vector/matrix multiplication,
21 ; (see also Intel's Application Note 922:
22 ;  http://developer.intel.com/vtune/cbts/strmsimd/922down.htm
23 ;  Copyright (C) 1999 Intel Corporation)
24 ;
25 ; More details at http://skal.planet-d.net/coding/dct.html
26 ;
27 ; =======     MMX and XMM forward discrete cosine transform     =======
28 ;
29 ; Copyright(C) 2001 Peter Ross <pross@xvid.org>
30 ;
31 ; Originally provided by Intel at AP-922
32 ; http://developer.intel.com/vtune/cbts/strmsimd/922down.htm
33 ; (See more app notes at http://developer.intel.com/vtune/cbts/strmsimd/appnotes.htm)
34 ; but in a limited edition.
35 ; New macro implements a column part for precise iDCT
36 ; The routine precision now satisfies IEEE standard 1180-1990.
37 ;
38 ; Copyright(C) 2000-2001 Peter Gubanov <peter@elecard.net.ru>
39 ; Rounding trick Copyright(C) 2000 Michel Lespinasse <walken@zoy.org>
40 ;
41 ; http://www.elecard.com/peter/idct.html
42 ; http://www.linuxvideo.org/mpeg2dec/
43 ;
44 ; These examples contain code fragments for first stage iDCT 8x8
45 ; (for rows) and first stage DCT 8x8 (for columns)
46 ;
47 ; conversion to gcc syntax by Michael Niedermayer
48 ;
49 ; ======================================================================
50 ;
51 ; This file is part of FFmpeg.
52 ;
53 ; FFmpeg is free software; you can redistribute it and/or
54 ; modify it under the terms of the GNU Lesser General Public
55 ; License as published by the Free Software Foundation; either
56 ; version 2.1 of the License, or (at your option) any later version.
57 ;
58 ; FFmpeg is distributed in the hope that it will be useful,
59 ; but WITHOUT ANY WARRANTY; without even the implied warranty of
60 ; MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
61 ; Lesser General Public License for more details.
62 ;
63 ; You should have received a copy of the GNU Lesser General Public License
64 ; along with FFmpeg; if not, write to the Free Software Foundation,
65 ; Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
66
67 %include "libavutil/x86/x86util.asm"
68
69 SECTION_RODATA
70 ; Similar to tg_1_16 in MMX code
71 tan1:   times 8 dw 13036
72 tan2:   times 8 dw 27146
73 tan3:   times 8 dw 43790
74 sqrt2:  times 8 dw 23170
75
76 ; SSE2 tables
77 iTab1:  dw 0x4000, 0x539f, 0xc000, 0xac61, 0x4000, 0xdd5d, 0x4000, 0xdd5d
78         dw 0x4000, 0x22a3, 0x4000, 0x22a3, 0xc000, 0x539f, 0x4000, 0xac61
79         dw 0x3249, 0x11a8, 0x4b42, 0xee58, 0x11a8, 0x4b42, 0x11a8, 0xcdb7
80         dw 0x58c5, 0x4b42, 0xa73b, 0xcdb7, 0x3249, 0xa73b, 0x4b42, 0xa73b
81 iTab2:  dw 0x58c5, 0x73fc, 0xa73b, 0x8c04, 0x58c5, 0xcff5, 0x58c5, 0xcff5
82         dw 0x58c5, 0x300b, 0x58c5, 0x300b, 0xa73b, 0x73fc, 0x58c5, 0x8c04
83         dw 0x45bf, 0x187e, 0x6862, 0xe782, 0x187e, 0x6862, 0x187e, 0xba41
84         dw 0x7b21, 0x6862, 0x84df, 0xba41, 0x45bf, 0x84df, 0x6862, 0x84df
85 iTab3:  dw 0x539f, 0x6d41, 0xac61, 0x92bf, 0x539f, 0xd2bf, 0x539f, 0xd2bf
86         dw 0x539f, 0x2d41, 0x539f, 0x2d41, 0xac61, 0x6d41, 0x539f, 0x92bf
87         dw 0x41b3, 0x1712, 0x6254, 0xe8ee, 0x1712, 0x6254, 0x1712, 0xbe4d
88         dw 0x73fc, 0x6254, 0x8c04, 0xbe4d, 0x41b3, 0x8c04, 0x6254, 0x8c04
89 iTab4:  dw 0x4b42, 0x6254, 0xb4be, 0x9dac, 0x4b42, 0xd746, 0x4b42, 0xd746
90         dw 0x4b42, 0x28ba, 0x4b42, 0x28ba, 0xb4be, 0x6254, 0x4b42, 0x9dac
91         dw 0x3b21, 0x14c3, 0x587e, 0xeb3d, 0x14c3, 0x587e, 0x14c3, 0xc4df
92         dw 0x6862, 0x587e, 0x979e, 0xc4df, 0x3b21, 0x979e, 0x587e, 0x979e
93
94 %if ARCH_X86_32
95 ; -----------------------------------------------------------------------------
96 ;
97 ; The first stage iDCT 8x8 - inverse DCTs of rows
98 ;
99 ; -----------------------------------------------------------------------------
100 ; The 8-point inverse DCT direct algorithm
101 ; -----------------------------------------------------------------------------
102 ;
103 ; static const short w[32] = {
104 ;     FIX(cos_4_16),  FIX(cos_2_16),  FIX(cos_4_16),  FIX(cos_6_16),
105 ;     FIX(cos_4_16),  FIX(cos_6_16), -FIX(cos_4_16), -FIX(cos_2_16),
106 ;     FIX(cos_4_16), -FIX(cos_6_16), -FIX(cos_4_16),  FIX(cos_2_16),
107 ;     FIX(cos_4_16), -FIX(cos_2_16),  FIX(cos_4_16), -FIX(cos_6_16),
108 ;     FIX(cos_1_16),  FIX(cos_3_16),  FIX(cos_5_16),  FIX(cos_7_16),
109 ;     FIX(cos_3_16), -FIX(cos_7_16), -FIX(cos_1_16), -FIX(cos_5_16),
110 ;     FIX(cos_5_16), -FIX(cos_1_16),  FIX(cos_7_16),  FIX(cos_3_16),
111 ;     FIX(cos_7_16), -FIX(cos_5_16),  FIX(cos_3_16), -FIX(cos_1_16) };
112 ;
113 ; #define DCT_8_INV_ROW(x, y)
114 ; {
115 ;     int a0, a1, a2, a3, b0, b1, b2, b3;
116 ;
117 ;     a0 = x[0] * w[0]  + x[2] * w[1]  + x[4] * w[2]  + x[6] * w[3];
118 ;     a1 = x[0] * w[4]  + x[2] * w[5]  + x[4] * w[6]  + x[6] * w[7];
119 ;     a2 = x[0] * w[8]  + x[2] * w[9]  + x[4] * w[10] + x[6] * w[11];
120 ;     a3 = x[0] * w[12] + x[2] * w[13] + x[4] * w[14] + x[6] * w[15];
121 ;     b0 = x[1] * w[16] + x[3] * w[17] + x[5] * w[18] + x[7] * w[19];
122 ;     b1 = x[1] * w[20] + x[3] * w[21] + x[5] * w[22] + x[7] * w[23];
123 ;     b2 = x[1] * w[24] + x[3] * w[25] + x[5] * w[26] + x[7] * w[27];
124 ;     b3 = x[1] * w[28] + x[3] * w[29] + x[5] * w[30] + x[7] * w[31];
125 ;
126 ;     y[0] = SHIFT_ROUND(a0 + b0);
127 ;     y[1] = SHIFT_ROUND(a1 + b1);
128 ;     y[2] = SHIFT_ROUND(a2 + b2);
129 ;     y[3] = SHIFT_ROUND(a3 + b3);
130 ;     y[4] = SHIFT_ROUND(a3 - b3);
131 ;     y[5] = SHIFT_ROUND(a2 - b2);
132 ;     y[6] = SHIFT_ROUND(a1 - b1);
133 ;     y[7] = SHIFT_ROUND(a0 - b0);
134 ; }
135 ;
136 ; -----------------------------------------------------------------------------
137 ;
138 ; In this implementation the outputs of the iDCT-1D are multiplied
139 ;     for rows 0,4 - by cos_4_16,
140 ;     for rows 1,7 - by cos_1_16,
141 ;     for rows 2,6 - by cos_2_16,
142 ;     for rows 3,5 - by cos_3_16
143 ; and are shifted to the left for better accuracy.
144 ;
145 ; For the constants used,
146 ;     FIX(float_const) = (short) (float_const * (1 << 15) + 0.5)
147 ;
148 ; -----------------------------------------------------------------------------
149
150 ; -----------------------------------------------------------------------------
151 ; Tables for mmx processors
152 ; -----------------------------------------------------------------------------
153
154 ; Table for rows 0,4 - constants are multiplied by cos_4_16
155 tab_i_04_mmx: dw  16384,  16384,  16384, -16384
156               dw  21407,   8867,   8867, -21407 ; w07 w05 w03 w01
157               dw  16384, -16384,  16384,  16384 ; w14 w12 w10 w08
158               dw  -8867,  21407, -21407,  -8867 ; w15 w13 w11 w09
159               dw  22725,  12873,  19266, -22725 ; w22 w20 w18 w16
160               dw  19266,   4520,  -4520, -12873 ; w23 w21 w19 w17
161               dw  12873,   4520,   4520,  19266 ; w30 w28 w26 w24
162               dw -22725,  19266, -12873, -22725 ; w31 w29 w27 w25
163 ; Table for rows 1,7 - constants are multiplied by cos_1_16
164               dw  22725,  22725,  22725, -22725 ; movq-> w06 w04 w02 w00
165               dw  29692,  12299,  12299, -29692 ; w07 w05 w03 w01
166               dw  22725, -22725,  22725,  22725 ; w14 w12 w10 w08
167               dw -12299,  29692, -29692, -12299 ; w15 w13 w11 w09
168               dw  31521,  17855,  26722, -31521 ; w22 w20 w18 w16
169               dw  26722,   6270,  -6270, -17855 ; w23 w21 w19 w17
170               dw  17855,   6270,   6270,  26722 ; w30 w28 w26 w24
171               dw -31521,  26722, -17855, -31521 ; w31 w29 w27 w25
172 ; Table for rows 2,6 - constants are multiplied by cos_2_16
173               dw  21407,  21407,  21407, -21407 ; movq-> w06 w04 w02 w00
174               dw  27969,  11585,  11585, -27969 ; w07 w05 w03 w01
175               dw  21407, -21407,  21407,  21407 ; w14 w12 w10 w08
176               dw -11585,  27969, -27969, -11585 ; w15 w13 w11 w09
177               dw  29692,  16819,  25172, -29692 ; w22 w20 w18 w16
178               dw  25172,   5906,  -5906, -16819 ; w23 w21 w19 w17
179               dw  16819,   5906,   5906,  25172 ; w30 w28 w26 w24
180               dw -29692,  25172, -16819, -29692 ; w31 w29 w27 w25
181 ; Table for rows 3,5 - constants are multiplied by cos_3_16
182               dw  19266,  19266,  19266, -19266 ; movq-> w06 w04 w02 w00
183               dw  25172,  10426,  10426, -25172 ; w07 w05 w03 w01
184               dw  19266, -19266,  19266,  19266 ; w14 w12 w10 w08
185               dw -10426,  25172, -25172, -10426 ; w15 w13 w11 w09
186               dw  26722,  15137,  22654, -26722 ; w22 w20 w18 w16
187               dw  22654,   5315,  -5315, -15137 ; w23 w21 w19 w17
188               dw  15137,   5315,   5315,  22654 ; w30 w28 w26 w24
189               dw -26722,  22654, -15137, -26722 ; w31 w29 w27 w25
190
191 ; -----------------------------------------------------------------------------
192 ; Tables for xmm processors
193 ; -----------------------------------------------------------------------------
194
195 ; %3 for rows 0,4 - constants are multiplied by cos_4_16
196 tab_i_04_xmm: dw  16384,  21407,  16384,   8867 ; movq-> w05 w04 w01 w00
197               dw  16384,   8867, -16384, -21407 ; w07 w06 w03 w02
198               dw  16384,  -8867,  16384, -21407 ; w13 w12 w09 w08
199               dw -16384,  21407,  16384,  -8867 ; w15 w14 w11 w10
200               dw  22725,  19266,  19266,  -4520 ; w21 w20 w17 w16
201               dw  12873,   4520, -22725, -12873 ; w23 w22 w19 w18
202               dw  12873, -22725,   4520, -12873 ; w29 w28 w25 w24
203               dw   4520,  19266,  19266, -22725 ; w31 w30 w27 w26
204 ; %3 for rows 1,7 - constants are multiplied by cos_1_16
205               dw  22725,  29692,  22725,  12299 ; movq-> w05 w04 w01 w00
206               dw  22725,  12299, -22725, -29692 ; w07 w06 w03 w02
207               dw  22725, -12299,  22725, -29692 ; w13 w12 w09 w08
208               dw -22725,  29692,  22725, -12299 ; w15 w14 w11 w10
209               dw  31521,  26722,  26722,  -6270 ; w21 w20 w17 w16
210               dw  17855,   6270, -31521, -17855 ; w23 w22 w19 w18
211               dw  17855, -31521,   6270, -17855 ; w29 w28 w25 w24
212               dw   6270,  26722,  26722, -31521 ; w31 w30 w27 w26
213 ; %3 for rows 2,6 - constants are multiplied by cos_2_16
214               dw  21407,  27969,  21407,  11585 ; movq-> w05 w04 w01 w00
215               dw  21407,  11585, -21407, -27969 ; w07 w06 w03 w02
216               dw  21407, -11585,  21407, -27969 ; w13 w12 w09 w08
217               dw -21407,  27969,  21407, -11585 ; w15 w14 w11 w10
218               dw  29692,  25172,  25172,  -5906 ; w21 w20 w17 w16
219               dw  16819,   5906, -29692, -16819 ; w23 w22 w19 w18
220               dw  16819, -29692,   5906, -16819 ; w29 w28 w25 w24
221               dw   5906,  25172,  25172, -29692 ; w31 w30 w27 w26
222 ; %3 for rows 3,5 - constants are multiplied by cos_3_16
223               dw  19266,  25172,  19266,  10426 ; movq-> w05 w04 w01 w00
224               dw  19266,  10426, -19266, -25172 ; w07 w06 w03 w02
225               dw  19266, -10426,  19266, -25172 ; w13 w12 w09 w08
226               dw -19266,  25172,  19266, -10426 ; w15 w14 w11 w10
227               dw  26722,  22654,  22654,  -5315 ; w21 w20 w17 w16
228               dw  15137,   5315, -26722, -15137 ; w23 w22 w19 w18
229               dw  15137, -26722,   5315, -15137 ; w29 w28 w25 w24
230               dw   5315,  22654,  22654, -26722 ; w31 w30 w27 w26
231 %endif ; ~ARCH_X86_32
232
233 ; Similar to rounder_0 in MMX code
234 ; 4 first similar, then: 4*8->6*16  5*8->4*16  6/7*8->5*16
235 walkenIdctRounders: times 4 dd 65536
236                     times 4 dd  3597
237                     times 4 dd  2260
238                     times 4 dd  1203
239                     times 4 dd   120
240                     times 4 dd   512
241                     times 2 dd     0
242
243 pb_127: times 8 db 127
244
245 SECTION .text
246
247 ; Temporary storage before the column pass
248 %define ROW1 xmm6
249 %define ROW3 xmm4
250 %define ROW5 xmm5
251 %define ROW7 xmm7
252
253 %macro CLEAR_ODD 1
254     pxor      %1, %1
255 %endmacro
256 %macro PUT_ODD 1
257     pshufhw   %1, xmm2, 0x1B
258 %endmacro
259
260 %macro MOV32 2
261 %if ARCH_X86_32
262     movdqa    %2, %1
263 %endif
264 %endmacro
265
266 %macro CLEAR_EVEN 1
267 %if ARCH_X86_64
268     CLEAR_ODD %1
269 %endif
270 %endmacro
271
272 %macro PUT_EVEN 1
273 %if ARCH_X86_64
274     PUT_ODD   %1
275 %else
276     pshufhw xmm2, xmm2, 0x1B
277     movdqa    %1, xmm2
278 %endif
279 %endmacro
280
281 %if ARCH_X86_64
282 %define ROW0  xmm8
283 %define REG0  ROW0
284 %define ROW2  xmm9
285 %define REG2  ROW2
286 %define ROW4  xmm10
287 %define REG4  ROW4
288 %define ROW6  xmm11
289 %define REG6  ROW6
290 %define XMMS  xmm12
291 %define SREG2 REG2
292 %define TAN3  xmm13
293 %define TAN1  xmm14
294 %else
295 %define ROW0  [BLOCK + 0*16]
296 %define REG0  xmm4
297 %define ROW2  [BLOCK + 2*16]
298 %define REG2  xmm4
299 %define ROW4  [BLOCK + 4*16]
300 %define REG4  xmm6
301 %define ROW6  [BLOCK + 6*16]
302 %define REG6  xmm6
303 %define XMMS  xmm2
304 %define SREG2 xmm7
305 %define TAN3  xmm0
306 %define TAN1  xmm2
307 %endif
308
309 %macro JZ  2
310     test      %1, %1
311     jz       .%2
312 %endmacro
313
314 %macro JNZ  2
315     test      %1, %1
316     jnz      .%2
317 %endmacro
318
319 %macro TEST_ONE_ROW 4 ; src, reg, clear, arg
320     %3        %4
321     movq     mm1, [%1]
322     por      mm1, [%1 + 8]
323     paddusb  mm1, mm0
324     pmovmskb  %2, mm1
325 %endmacro
326
327 ;row1, row2, reg1, reg2, clear1, arg1, clear2, arg2
328 %macro  TEST_TWO_ROWS  8
329     %5         %6
330     %7         %8
331     movq      mm1, [%1 + 0]
332     por       mm1, [%1 + 8]
333     movq      mm2, [%2 + 0]
334     por       mm2, [%2 + 8]
335     paddusb   mm1, mm0
336     paddusb   mm2, mm0
337     pmovmskb   %3, mm1
338     pmovmskb   %4, mm2
339 %endmacro
340
341 ; IDCT pass on rows.
342 %macro iMTX_MULT   4-5 ; src, table, put, arg, rounder
343     movdqa       xmm3, [%1]
344     movdqa       xmm0, xmm3
345     pshufd       xmm1, xmm3, 0x11 ; 4602
346     punpcklqdq   xmm0, xmm0       ; 0246
347     pmaddwd      xmm0, [%2]
348     pmaddwd      xmm1, [%2+16]
349     pshufd       xmm2, xmm3, 0xBB ; 5713
350     punpckhqdq   xmm3, xmm3       ; 1357
351     pmaddwd      xmm2, [%2+32]
352     pmaddwd      xmm3, [%2+48]
353     paddd        xmm0, xmm1
354     paddd        xmm2, xmm3
355 %if %0 == 5
356     paddd        xmm0, [walkenIdctRounders+%5]
357 %endif
358     movdqa       xmm3, xmm2
359     paddd        xmm2, xmm0
360     psubd        xmm0, xmm3
361     psrad        xmm2, 11
362     psrad        xmm0, 11
363     packssdw     xmm2, xmm0
364     %3           %4
365 %endmacro
366
367 %macro iLLM_HEAD 0
368     movdqa   TAN3, [tan3]
369     movdqa   TAN1, [tan1]
370 %endmacro
371
372 %macro FIRST_HALF 2  ; %1=dct  %2=type(normal,add,put)
373     psraw    xmm5, 6
374     psraw    REG0, 6
375     psraw    TAN3, 6
376     psraw    xmm3, 6
377     ; dct coeffs must still be written for AC prediction
378 %if %2 == 0
379     movdqa   [%1+1*16], TAN3
380     movdqa   [%1+2*16], xmm3
381     movdqa   [%1+5*16], REG0
382     movdqa   [%1+6*16], xmm5
383 %else
384     ; Must now load args as gprs are no longer used for masks
385     ; DEST is set to where address of dest was loaded
386     %if ARCH_X86_32
387         %if %2 == 2 ; Not enough xmms, store
388     movdqa   [%1+1*16], TAN3
389     movdqa   [%1+2*16], xmm3
390     movdqa   [%1+5*16], REG0
391     movdqa   [%1+6*16], xmm5
392         %endif
393     %xdefine DEST r2q ; BLOCK is r0, stride r1
394     movifnidn DEST, destm
395     movifnidn strideq, stridem
396     %else
397     %xdefine DEST r0q
398     %endif
399     lea      r3q, [3*strideq]
400     %if %2 == 1
401     packuswb TAN3, xmm3
402     packuswb xmm5, REG0
403     movq     [DEST + strideq], TAN3
404     movhps   [DEST + 2*strideq], TAN3
405     ; REG0 and TAN3 are now available (and likely used in second half)
406     %endif
407 %endif
408 %endmacro
409
410 %macro SECOND_HALF 6 ; %1=dct  %2=type(normal,add,put) 3-6: xmms
411     psraw    %3, 6
412     psraw    %4, 6
413     psraw    %5, 6
414     psraw    %6, 6
415     ; dct coeffs must still be written for AC prediction
416 %if %2 == 0
417     movdqa   [%1+0*16], %3
418     movdqa   [%1+3*16], %5
419     movdqa   [%1+4*16], %6
420     movdqa   [%1+7*16], %4
421 %elif %2 == 1
422     packuswb %3, %5
423     packuswb %6, %4
424     ; address of dest may have been loaded
425     movq     [DEST], %3
426     movhps   [DEST + r3q], %3
427     lea      DEST, [DEST + 4*strideq]
428     movq     [DEST], %6
429     movhps   [DEST + r3q], %6
430     ; and now write remainder of first half
431     movq     [DEST + 2*strideq], xmm5
432     movhps   [DEST + strideq], xmm5
433 %elif %2 == 2
434     pxor        xmm0, xmm0
435     %if ARCH_X86_32
436     ; free: m3 REG0=m4 m5
437     ; input: m1, m7, m2, m6
438     movq        xmm3, [DEST+0*strideq]
439     movq        xmm4, [DEST+1*strideq]
440     punpcklbw   xmm3, xmm0
441     punpcklbw   xmm4, xmm0
442     paddsw      xmm3, %3
443     paddsw      xmm4, [%1 + 1*16]
444     movq          %3, [DEST+2*strideq]
445     movq        xmm5, [DEST+      r3q]
446     punpcklbw     %3, xmm0
447     punpcklbw   xmm5, xmm0
448     paddsw        %3, [%1 + 2*16]
449     paddsw      xmm5, %5
450     packuswb    xmm3, xmm4
451     packuswb      %3, xmm5
452     movq    [DEST+0*strideq], xmm3
453     movhps  [DEST+1*strideq], xmm3
454     movq    [DEST+2*strideq], %3
455     movhps  [DEST+      r3q], %3
456     lea         DEST, [DEST+4*strideq]
457     movq        xmm3, [DEST+0*strideq]
458     movq        xmm4, [DEST+1*strideq]
459     movq          %3, [DEST+2*strideq]
460     movq        xmm5, [DEST+      r3q]
461     punpcklbw   xmm3, xmm0
462     punpcklbw   xmm4, xmm0
463     punpcklbw     %3, xmm0
464     punpcklbw   xmm5, xmm0
465     paddsw      xmm3, %6
466     paddsw      xmm4, [%1 + 5*16]
467     paddsw        %3, [%1 + 6*16]
468     paddsw      xmm5, %4
469     packuswb    xmm3, xmm4
470     packuswb      %3, xmm5
471     movq    [DEST+0*strideq], xmm3
472     movhps  [DEST+1*strideq], xmm3
473     movq    [DEST+2*strideq], %3
474     movhps  [DEST+      r3q], %3
475     %else
476     ; l1:TAN3=m13  l2:m3  l5:REG0=m8 l6=m5
477     ; input: m1, m7/SREG2=m9, TAN1=m14, REG4=m10
478     movq        xmm2, [DEST+0*strideq]
479     movq        xmm4, [DEST+1*strideq]
480     movq       xmm12, [DEST+2*strideq]
481     movq       xmm11, [DEST+      r3q]
482     punpcklbw   xmm2, xmm0
483     punpcklbw   xmm4, xmm0
484     punpcklbw  xmm12, xmm0
485     punpcklbw  xmm11, xmm0
486     paddsw      xmm2, %3
487     paddsw      xmm4, TAN3
488     paddsw     xmm12, xmm3
489     paddsw     xmm11, %5
490     packuswb    xmm2, xmm4
491     packuswb   xmm12, xmm11
492     movq    [DEST+0*strideq], xmm2
493     movhps  [DEST+1*strideq], xmm2
494     movq    [DEST+2*strideq], xmm12
495     movhps  [DEST+      r3q], xmm12
496     lea         DEST, [DEST+4*strideq]
497     movq        xmm2, [DEST+0*strideq]
498     movq        xmm4, [DEST+1*strideq]
499     movq       xmm12, [DEST+2*strideq]
500     movq       xmm11, [DEST+      r3q]
501     punpcklbw   xmm2, xmm0
502     punpcklbw   xmm4, xmm0
503     punpcklbw  xmm12, xmm0
504     punpcklbw  xmm11, xmm0
505     paddsw      xmm2, %6
506     paddsw      xmm4, REG0
507     paddsw     xmm12, xmm5
508     paddsw     xmm11, %4
509     packuswb    xmm2, xmm4
510     packuswb   xmm12, xmm11
511     movq    [DEST+0*strideq], xmm2
512     movhps  [DEST+1*strideq], xmm2
513     movq    [DEST+2*strideq], xmm12
514     movhps  [DEST+      r3q], xmm12
515     %endif
516 %endif
517 %endmacro
518
519
520 ; IDCT pass on columns.
521 %macro iLLM_PASS  2  ; %1=dct  %2=type(normal,add,put)
522     movdqa   xmm1, TAN3
523     movdqa   xmm3, TAN1
524     pmulhw   TAN3, xmm4
525     pmulhw   xmm1, xmm5
526     paddsw   TAN3, xmm4
527     paddsw   xmm1, xmm5
528     psubsw   TAN3, xmm5
529     paddsw   xmm1, xmm4
530     pmulhw   xmm3, xmm7
531     pmulhw   TAN1, xmm6
532     paddsw   xmm3, xmm6
533     psubsw   TAN1, xmm7
534     movdqa   xmm7, xmm3
535     movdqa   xmm6, TAN1
536     psubsw   xmm3, xmm1
537     psubsw   TAN1, TAN3
538     paddsw   xmm1, xmm7
539     paddsw   TAN3, xmm6
540     movdqa   xmm6, xmm3
541     psubsw   xmm3, TAN3
542     paddsw   TAN3, xmm6
543     movdqa   xmm4, [sqrt2]
544     pmulhw   xmm3, xmm4
545     pmulhw   TAN3, xmm4
546     paddsw   TAN3, TAN3
547     paddsw   xmm3, xmm3
548     movdqa   xmm7, [tan2]
549     MOV32    ROW2, REG2
550     MOV32    ROW6, REG6
551     movdqa   xmm5, xmm7
552     pmulhw   xmm7, REG6
553     pmulhw   xmm5, REG2
554     paddsw   xmm7, REG2
555     psubsw   xmm5, REG6
556     MOV32    ROW0, REG0
557     MOV32    ROW4, REG4
558     MOV32    TAN1, [BLOCK]
559     movdqa   XMMS, REG0
560     psubsw   REG0, REG4
561     paddsw   REG4, XMMS
562     movdqa   XMMS, REG4
563     psubsw   REG4, xmm7
564     paddsw   xmm7, XMMS
565     movdqa   XMMS, REG0
566     psubsw   REG0, xmm5
567     paddsw   xmm5, XMMS
568     movdqa   XMMS, xmm5
569     psubsw   xmm5, TAN3
570     paddsw   TAN3, XMMS
571     movdqa   XMMS, REG0
572     psubsw   REG0, xmm3
573     paddsw   xmm3, XMMS
574     MOV32    [BLOCK], TAN1
575
576     FIRST_HALF %1, %2
577
578     movdqa   xmm0, xmm7
579     movdqa   xmm4, REG4
580     psubsw   xmm7, xmm1
581     psubsw   REG4, TAN1
582     paddsw   xmm1, xmm0
583     paddsw   TAN1, xmm4
584
585     SECOND_HALF %1, %2, xmm1, xmm7, TAN1, REG4
586 %endmacro
587
588 ; IDCT pass on columns, assuming rows 4-7 are zero
589 %macro iLLM_PASS_SPARSE   2 ; %1=dct   %2=type(normal,put,add)
590     pmulhw   TAN3, xmm4
591     paddsw   TAN3, xmm4
592     movdqa   xmm3, xmm6
593     pmulhw   TAN1, xmm6
594     movdqa   xmm1, xmm4
595     psubsw   xmm3, xmm1
596     paddsw   xmm1, xmm6
597     movdqa   xmm6, TAN1
598     psubsw   TAN1, TAN3
599     paddsw   TAN3, xmm6
600     movdqa   xmm6, xmm3
601     psubsw   xmm3, TAN3
602     paddsw   TAN3, xmm6
603     movdqa   xmm4, [sqrt2]
604     pmulhw   xmm3, xmm4
605     pmulhw   TAN3, xmm4
606     paddsw   TAN3, TAN3
607     paddsw   xmm3, xmm3
608     movdqa   xmm5, [tan2]
609     MOV32    ROW2, SREG2
610     pmulhw   xmm5, SREG2
611     MOV32    ROW0, REG0
612     movdqa   xmm6, REG0
613     psubsw   xmm6, SREG2
614     paddsw  SREG2, REG0
615     MOV32    TAN1, [BLOCK]
616     movdqa   XMMS, REG0
617     psubsw   REG0, xmm5
618     paddsw   xmm5, XMMS
619     movdqa   XMMS, xmm5
620     psubsw   xmm5, TAN3
621     paddsw   TAN3, XMMS
622     movdqa   XMMS, REG0
623     psubsw   REG0, xmm3
624     paddsw   xmm3, XMMS
625     MOV32    [BLOCK], TAN1
626
627     FIRST_HALF %1, %2
628
629     movdqa   xmm0, SREG2
630     movdqa   xmm4, xmm6
631     psubsw  SREG2, xmm1
632     psubsw   xmm6, TAN1
633     paddsw   xmm1, xmm0
634     paddsw   TAN1, xmm4
635
636     SECOND_HALF %1, %2, xmm1, SREG2, TAN1, xmm6
637 %endmacro
638
639 %macro IDCT_SSE2 1 ; 0=normal  1=put  2=add
640 %if %1 == 0 || ARCH_X86_32
641     %define GPR0  r1d
642     %define GPR1  r2d
643     %define GPR2  r3d
644     %define GPR3  r4d
645     %define NUM_GPRS 5
646 %else
647     %define GPR0  r3d
648     %define GPR1  r4d
649     %define GPR2  r5d
650     %define GPR3  r6d
651     %define NUM_GPRS 7
652 %endif
653 %if %1 == 0
654 cglobal xvid_idct, 1, NUM_GPRS, 8+7*ARCH_X86_64, block
655 %xdefine BLOCK blockq
656 %else
657     %if %1 == 1
658 cglobal xvid_idct_put, 0, NUM_GPRS, 8+7*ARCH_X86_64, dest, stride, block
659     %else
660 cglobal xvid_idct_add, 0, NUM_GPRS, 8+7*ARCH_X86_64, dest, stride, block
661     %endif
662     %if ARCH_X86_64
663     %xdefine BLOCK blockq
664     %else
665     mov    r0q, blockm
666     %xdefine BLOCK r0q
667     %endif
668 %endif
669     movq           mm0, [pb_127]
670     iMTX_MULT      BLOCK + 0*16, iTab1, PUT_EVEN, ROW0, 0*16
671     iMTX_MULT      BLOCK + 1*16, iTab2, PUT_ODD, ROW1,  1*16
672     iMTX_MULT      BLOCK + 2*16, iTab3, PUT_EVEN, ROW2, 2*16
673
674     TEST_TWO_ROWS  BLOCK + 3*16, BLOCK + 4*16, GPR0, GPR1, CLEAR_ODD, ROW3, CLEAR_EVEN, ROW4 ; a, c
675     JZ   GPR0, col1
676     iMTX_MULT      BLOCK + 3*16, iTab4, PUT_ODD, ROW3,  3*16
677 .col1:
678     TEST_TWO_ROWS  BLOCK + 5*16, BLOCK + 6*16, GPR0, GPR2, CLEAR_ODD, ROW5, CLEAR_EVEN, ROW6 ; a, d
679     TEST_ONE_ROW   BLOCK + 7*16, GPR3, CLEAR_ODD, ROW7 ; esi
680
681     iLLM_HEAD
682     JNZ  GPR1, 2
683     JNZ  GPR0, 3
684     JNZ  GPR2, 4
685     JNZ  GPR3, 5
686     iLLM_PASS_SPARSE BLOCK, %1
687     jmp .6
688 .2:
689     iMTX_MULT     BLOCK + 4*16, iTab1, PUT_EVEN, ROW4
690 .3:
691     iMTX_MULT     BLOCK + 5*16, iTab4, PUT_ODD, ROW5,  4*16
692     JZ   GPR2, col2
693 .4:
694     iMTX_MULT     BLOCK + 6*16, iTab3, PUT_EVEN, ROW6, 5*16
695 .col2:
696     JZ   GPR3, col3
697 .5:
698     iMTX_MULT     BLOCK + 7*16, iTab2, PUT_ODD, ROW7,  5*16
699 .col3:
700 %if ARCH_X86_32
701     iLLM_HEAD
702 %endif
703     iLLM_PASS     BLOCK, %1
704 .6:
705     RET
706 %endmacro
707
708 INIT_XMM sse2
709 IDCT_SSE2 0
710 IDCT_SSE2 1
711 IDCT_SSE2 2
712
713 %if ARCH_X86_32
714
715 ; %1=offset  %2=tab_offset
716 ; %3=rnd_offset where 4*8->6*16  5*8->4*16  6/7*8->5*16
717 %macro DCT_8_INV_ROW  3
718     movq       mm0, [r0+16*%1+0]  ; 0 ; x3 x2 x1 x0
719     movq       mm1, [r0+16*%1+8]  ; 1 ; x7 x6 x5 x4
720     movq       mm2, mm0       ; 2 ; x3 x2 x1 x0
721     movq       mm3, [%2+ 0]   ; 3 ; w06 w04 w02 w00
722 %if cpuflag(mmxext)
723     pshufw     mm0, mm0, 0x88 ; x2 x0 x2 x0
724     movq       mm4, [%2+ 8]   ; 4 ; w07 w06 w03 w02
725     movq       mm5, mm1       ; 5 ; x7 x6 x5 x4
726     pmaddwd    mm3, mm0       ; x2*w05+x0*w04 x2*w01+x0*w00
727     movq       mm6, [%2+32]   ; 6 ; w21 w20 w17 w16
728     pshufw     mm1, mm1, 0x88 ; x6 x4 x6 x4
729     pmaddwd    mm4, mm1       ; x6*w07+x4*w06 x6*w03+x4*w02
730     movq       mm7, [%2+40]   ; 7; w23 w22 w19 w18
731     pshufw     mm2, mm2, 0xdd ; x3 x1 x3 x1
732     pmaddwd    mm6, mm2       ; x3*w21+x1*w20 x3*w17+x1*w16
733     pshufw     mm5, mm5, 0xdd ; x7 x5 x7 x5
734     pmaddwd    mm7, mm5       ; x7*w23+x5*w22 x7*w19+x5*w18
735     paddd      mm3, [walkenIdctRounders + %3]      ; +%3
736     pmaddwd    mm0, [%2+16]   ; x2*w13+x0*w12 x2*w09+x0*w08
737     paddd      mm3, mm4       ; 4 ; a1=sum(even1) a0=sum(even0)
738     pmaddwd    mm1, [%2+24]   ; x6*w15+x4*w14 x6*w11+x4*w10
739     movq       mm4, mm3       ; 4 ; a1 a0
740     pmaddwd    mm2, [%2+48]   ; x3*w29+x1*w28 x3*w25+x1*w24
741     paddd      mm6, mm7       ; 7 ; b1=sum(odd1) b0=sum(odd0)
742     pmaddwd    mm5, [%2+56]   ; x7*w31+x5*w30 x7*w27+x5*w26
743     paddd      mm3, mm6       ; a1+b1 a0+b0
744     paddd      mm0, [walkenIdctRounders + %3]      ; +%3
745     psrad      mm3, 11        ; y1=a1+b1 y0=a0+b0
746     paddd      mm0, mm1       ; 1 ; a3=sum(even3) a2=sum(even2)
747     psubd      mm4, mm6       ; 6 ; a1-b1 a0-b0
748     movq       mm7, mm0       ; 7 ; a3 a2
749     paddd      mm2, mm5       ; 5 ; b3=sum(odd3) b2=sum(odd2)
750     paddd      mm0, mm2       ; a3+b3 a2+b2
751     psrad      mm4, 11        ; y6=a1-b1 y7=a0-b0
752     psubd      mm7, mm2       ; 2 ; a3-b3 a2-b2
753     psrad      mm0, 11        ; y3=a3+b3 y2=a2+b2
754     psrad      mm7, 11        ; y4=a3-b3 y5=a2-b2
755     packssdw   mm3, mm0       ; 0 ; y3 y2 y1 y0
756     packssdw   mm7, mm4       ; 4 ; y6 y7 y4 y5
757     movq  [r0+16*%1+0], mm3       ; 3 ; save y3 y2 y1 y0
758     pshufw     mm7, mm7, 0xb1 ; y7 y6 y5 y4
759 %else
760     punpcklwd  mm0, mm1       ; x5 x1 x4 x0
761     movq       mm5, mm0       ; 5 ; x5 x1 x4 x0
762     punpckldq  mm0, mm0       ; x4 x0 x4 x0
763     movq       mm4, [%2+ 8]   ; 4 ; w07 w05 w03 w01
764     punpckhwd  mm2, mm1       ; 1 ; x7 x3 x6 x2
765     pmaddwd    mm3, mm0       ; x4*w06+x0*w04 x4*w02+x0*w00
766     movq       mm6, mm2       ; 6 ; x7 x3 x6 x2
767     movq       mm1, [%2+32]   ; 1 ; w22 w20 w18 w16
768     punpckldq  mm2, mm2       ; x6 x2 x6 x2
769     pmaddwd    mm4, mm2       ; x6*w07+x2*w05 x6*w03+x2*w01
770     punpckhdq  mm5, mm5       ; x5 x1 x5 x1
771     pmaddwd    mm0, [%2+16]   ; x4*w14+x0*w12 x4*w10+x0*w08
772     punpckhdq  mm6, mm6       ; x7 x3 x7 x3
773     movq       mm7, [%2+40]   ; 7 ; w23 w21 w19 w17
774     pmaddwd    mm1, mm5       ; x5*w22+x1*w20 x5*w18+x1*w16
775     paddd      mm3, [walkenIdctRounders + %3]     ; +%3
776     pmaddwd    mm7, mm6       ; x7*w23+x3*w21 x7*w19+x3*w17
777     pmaddwd    mm2, [%2+24]   ; x6*w15+x2*w13 x6*w11+x2*w09
778     paddd      mm3, mm4       ; 4 ; a1=sum(even1) a0=sum(even0)
779     pmaddwd    mm5, [%2+48]   ; x5*w30+x1*w28 x5*w26+x1*w24
780     movq       mm4, mm3       ; 4 ; a1 a0
781     pmaddwd    mm6, [%2+56]   ; x7*w31+x3*w29 x7*w27+x3*w25
782     paddd      mm1, mm7       ; 7 ; b1=sum(odd1) b0=sum(odd0)
783     paddd      mm0, [walkenIdctRounders + %3]     ; +%3
784     psubd      mm3, mm1       ; a1-b1 a0-b0
785     psrad      mm3, 11        ; y6=a1-b1 y7=a0-b0
786     paddd      mm1, mm4       ; 4 ; a1+b1 a0+b0
787     paddd      mm0, mm2       ; 2 ; a3=sum(even3) a2=sum(even2)
788     psrad      mm1, 11        ; y1=a1+b1 y0=a0+b0
789     paddd      mm5, mm6       ; 6 ; b3=sum(odd3) b2=sum(odd2)
790     movq       mm4, mm0       ; 4 ; a3 a2
791     paddd      mm0, mm5       ; a3+b3 a2+b2
792     psubd      mm4, mm5       ; 5 ; a3-b3 a2-b2
793     psrad      mm0, 11        ; y3=a3+b3 y2=a2+b2
794     psrad      mm4, 11        ; y4=a3-b3 y5=a2-b2
795     packssdw   mm1, mm0       ; 0 ; y3 y2 y1 y0
796     packssdw   mm4, mm3       ; 3 ; y6 y7 y4 y5
797     movq       mm7, mm4       ; 7 ; y6 y7 y4 y5
798     psrld      mm4, 16        ; 0 y6 0 y4
799     pslld      mm7, 16        ; y7 0 y5 0
800     movq  [r0+16*%1+0], mm1   ; 1 ; save y3 y2 y1 y0
801     por        mm7, mm4       ; 4 ; y7 y6 y5 y4
802 %endif
803     movq  [r0+16*%1+8], mm7   ; 7 ; save y7 y6 y5 y4
804 %endmacro
805
806 ; -----------------------------------------------------------------------------
807 ;
808 ; The first stage DCT 8x8 - forward DCTs of columns
809 ;
810 ; The %2puts are multiplied
811 ; for rows 0,4 - on cos_4_16,
812 ; for rows 1,7 - on cos_1_16,
813 ; for rows 2,6 - on cos_2_16,
814 ; for rows 3,5 - on cos_3_16
815 ; and are shifted to the left for rise of accuracy
816 ;
817 ; -----------------------------------------------------------------------------
818 ;
819 ; The 8-point scaled forward DCT algorithm (26a8m)
820 ;
821 ; -----------------------------------------------------------------------------
822 ;
823 ;#define DCT_8_FRW_COL(x, y)
824 ; {
825 ;     short t0, t1, t2, t3, t4, t5, t6, t7;
826 ;     short tp03, tm03, tp12, tm12, tp65, tm65;
827 ;     short tp465, tm465, tp765, tm765;
828 ;
829 ;     t0 = LEFT_SHIFT(x[0] + x[7]);
830 ;     t1 = LEFT_SHIFT(x[1] + x[6]);
831 ;     t2 = LEFT_SHIFT(x[2] + x[5]);
832 ;     t3 = LEFT_SHIFT(x[3] + x[4]);
833 ;     t4 = LEFT_SHIFT(x[3] - x[4]);
834 ;     t5 = LEFT_SHIFT(x[2] - x[5]);
835 ;     t6 = LEFT_SHIFT(x[1] - x[6]);
836 ;     t7 = LEFT_SHIFT(x[0] - x[7]);
837 ;
838 ;     tp03 = t0 + t3;
839 ;     tm03 = t0 - t3;
840 ;     tp12 = t1 + t2;
841 ;     tm12 = t1 - t2;
842 ;
843 ;     y[0] = tp03 + tp12;
844 ;     y[4] = tp03 - tp12;
845 ;
846 ;     y[2] = tm03 + tm12 * tg_2_16;
847 ;     y[6] = tm03 * tg_2_16 - tm12;
848 ;
849 ;     tp65 = (t6 + t5) * cos_4_16;
850 ;     tm65 = (t6 - t5) * cos_4_16;
851 ;
852 ;     tp765 = t7 + tp65;
853 ;     tm765 = t7 - tp65;
854 ;     tp465 = t4 + tm65;
855 ;     tm465 = t4 - tm65;
856 ;
857 ;     y[1] = tp765 + tp465 * tg_1_16;
858 ;     y[7] = tp765 * tg_1_16 - tp465;
859 ;     y[5] = tm765 * tg_3_16 + tm465;
860 ;     y[3] = tm765 - tm465 * tg_3_16;
861 ; }
862 ;
863 ; -----------------------------------------------------------------------------
864
865 ; -----------------------------------------------------------------------------
866 ; DCT_8_INV_COL_4  INP,OUT
867 ; -----------------------------------------------------------------------------
868 %macro DCT_8_INV_COL 1
869     movq        mm0, [tan3]
870     movq        mm3, [%1+16*3]
871     movq        mm1, mm0 ; tg_3_16
872     movq        mm5, [%1+16*5]
873     pmulhw      mm0, mm3 ; x3*(tg_3_16-1)
874     movq        mm4, [tan1]
875     pmulhw      mm1, mm5 ; x5*(tg_3_16-1)
876     movq        mm7, [%1+16*7]
877     movq        mm2, mm4 ; tg_1_16
878     movq        mm6, [%1+16*1]
879     pmulhw      mm4, mm7 ; x7*tg_1_16
880     paddsw      mm0, mm3 ; x3*tg_3_16
881     pmulhw      mm2, mm6 ; x1*tg_1_16
882     paddsw      mm1, mm3 ; x3+x5*(tg_3_16-1)
883     psubsw      mm0, mm5 ; x3*tg_3_16-x5 = tm35
884     movq        mm3, [sqrt2]
885     paddsw      mm1, mm5 ; x3+x5*tg_3_16 = tp35
886     paddsw      mm4, mm6 ; x1+tg_1_16*x7 = tp17
887     psubsw      mm2, mm7 ; x1*tg_1_16-x7 = tm17
888     movq        mm5, mm4 ; tp17
889     movq        mm6, mm2 ; tm17
890     paddsw      mm5, mm1 ; tp17+tp35 = b0
891     psubsw      mm6, mm0 ; tm17-tm35 = b3
892     psubsw      mm4, mm1 ; tp17-tp35 = t1
893     paddsw      mm2, mm0 ; tm17+tm35 = t2
894     movq        mm7, [tan2]
895     movq        mm1, mm4 ; t1
896     movq  [%1+3*16], mm5 ; save b0
897     paddsw      mm1, mm2 ; t1+t2
898     movq  [%1+5*16], mm6 ; save b3
899     psubsw      mm4, mm2 ; t1-t2
900     movq        mm5, [%1+2*16]
901     movq        mm0, mm7 ; tg_2_16
902     movq        mm6, [%1+6*16]
903     pmulhw      mm0, mm5 ; x2*tg_2_16
904     pmulhw      mm7, mm6 ; x6*tg_2_16
905     pmulhw      mm1, mm3 ; ocos_4_16*(t1+t2) = b1/2
906     movq        mm2, [%1+0*16]
907     pmulhw      mm4, mm3 ; ocos_4_16*(t1-t2) = b2/2
908     psubsw      mm0, mm6 ; t2*tg_2_16-x6 = tm26
909     movq        mm3, mm2 ; x0
910     movq        mm6, [%1+4*16]
911     paddsw      mm7, mm5 ; x2+x6*tg_2_16 = tp26
912     paddsw      mm2, mm6 ; x0+x4 = tp04
913     psubsw      mm3, mm6 ; x0-x4 = tm04
914     movq        mm5, mm2 ; tp04
915     movq        mm6, mm3 ; tm04
916     psubsw      mm2, mm7 ; tp04-tp26 = a3
917     paddsw      mm3, mm0 ; tm04+tm26 = a1
918     paddsw      mm1, mm1 ; b1
919     paddsw      mm4, mm4 ; b2
920     paddsw      mm5, mm7 ; tp04+tp26 = a0
921     psubsw      mm6, mm0 ; tm04-tm26 = a2
922     movq        mm7, mm3 ; a1
923     movq        mm0, mm6 ; a2
924     paddsw      mm3, mm1 ; a1+b1
925     paddsw      mm6, mm4 ; a2+b2
926     psraw       mm3, 6   ; dst1
927     psubsw      mm7, mm1 ; a1-b1
928     psraw       mm6, 6   ; dst2
929     psubsw      mm0, mm4 ; a2-b2
930     movq        mm1, [%1+3*16] ; load b0
931     psraw       mm7, 6   ; dst6
932     movq        mm4, mm5 ; a0
933     psraw       mm0, 6   ; dst5
934     movq  [%1+1*16], mm3
935     paddsw      mm5, mm1 ; a0+b0
936     movq  [%1+2*16], mm6
937     psubsw      mm4, mm1 ; a0-b0
938     movq        mm3, [%1+5*16] ; load b3
939     psraw       mm5, 6   ; dst0
940     movq        mm6, mm2 ; a3
941     psraw       mm4, 6   ; dst7
942     movq  [%1+5*16], mm0
943     paddsw      mm2, mm3 ; a3+b3
944     movq  [%1+6*16], mm7
945     psubsw      mm6, mm3 ; a3-b3
946     movq  [%1+0*16], mm5
947     psraw       mm2, 6   ; dst3
948     movq  [%1+7*16], mm4
949     psraw       mm6, 6   ; dst4
950     movq  [%1+3*16], mm2
951     movq  [%1+4*16], mm6
952 %endmacro
953
954 %macro XVID_IDCT_MMX 0
955 cglobal xvid_idct, 1, 1, 0, block
956 %if cpuflag(mmxext)
957 %define TAB tab_i_04_xmm
958 %else
959 %define TAB tab_i_04_mmx
960 %endif
961     ; Process each row - beware of rounder offset
962     DCT_8_INV_ROW  0, TAB + 64 * 0, 0*16
963     DCT_8_INV_ROW  1, TAB + 64 * 1, 1*16
964     DCT_8_INV_ROW  2, TAB + 64 * 2, 2*16
965     DCT_8_INV_ROW  3, TAB + 64 * 3, 3*16
966     DCT_8_INV_ROW  4, TAB + 64 * 0, 6*16
967     DCT_8_INV_ROW  5, TAB + 64 * 3, 4*16
968     DCT_8_INV_ROW  6, TAB + 64 * 2, 5*16
969     DCT_8_INV_ROW  7, TAB + 64 * 1, 5*16
970
971     ; Process the columns (4 at a time)
972     DCT_8_INV_COL  r0+0
973     DCT_8_INV_COL  r0+8
974
975     RET
976 %endmacro
977
978 INIT_MMX mmx
979 XVID_IDCT_MMX
980 INIT_MMX mmxext
981 XVID_IDCT_MMX
982
983 %endif ; ~ARCH_X86_32