]> git.sesse.net Git - vlc/blob - plugins/imdct/ac3_imdct_3dn.c
* Fixed the BeOS compile typo.
[vlc] / plugins / imdct / ac3_imdct_3dn.c
1 /*****************************************************************************
2  * ac3_imdct_3dn.c: accelerated 3D Now! ac3 DCT
3  *****************************************************************************
4  * Copyright (C) 1999, 2000 VideoLAN
5  * $Id: ac3_imdct_3dn.c,v 1.2 2001/05/28 02:38:48 sam Exp $
6  *
7  * Authors: Renaud Dartus <reno@videolan.org>
8  *
9  * This program is free software; you can redistribute it and/or modify
10  * it under the terms of the GNU General Public License as published by
11  * the Free Software Foundation; either version 2 of the License, or
12  * (at your option) any later version.
13  * 
14  * This program is distributed in the hope that it will be useful,
15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
17  * GNU General Public License for more details.
18  *
19  * You should have received a copy of the GNU General Public License
20  * along with this program; if not, write to the Free Software
21  * Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA  02111, USA.
22  *****************************************************************************/
23
24 #define MODULE_NAME imdct3dn
25 #include "modules_inner.h"
26
27 /*****************************************************************************
28  * Preamble
29  *****************************************************************************/
30 #include "defs.h"
31
32 #include <math.h>
33 #include <stdio.h>
34
35 #include "config.h"
36 #include "common.h"
37 #include "threads.h"
38 #include "mtime.h"
39
40 #include "ac3_imdct.h"
41 #include "ac3_imdct_common.h"
42 #include "ac3_retables.h"
43
44 #ifndef M_PI
45 #   define M_PI 3.14159265358979323846
46 #endif
47
48 void _M( fft_64p )  ( complex_t *x );
49 void _M( fft_128p ) ( complex_t *a );
50
51 static void imdct512_pre_ifft_twiddle_3dn (const int *pmt, complex_t *buf, float *data, float *xcos_sin_sse);
52 static void imdct512_post_ifft_twiddle_3dn (complex_t *buf, float *xcos_sin_sse);
53 static void imdct512_window_delay_3dn (complex_t *buf, float *data_ptr, float *window_prt, float *delay_prt);
54 static void imdct512_window_delay_nol_3dn (complex_t *buf, float *data_ptr, float *window_prt, float *delay_prt);
55
56
57 void _M( imdct_init ) (imdct_t * p_imdct)
58 {
59         int i;
60         float scale = 181.019;
61
62     fprintf(stderr,"imct_init\n");
63         for (i=0; i < 128; i++)
64         {
65                 float xcos_i = cos(2.0f * M_PI * (8*i+1)/(8*N)) * scale;
66                 float xsin_i = sin(2.0f * M_PI * (8*i+1)/(8*N)) * scale;
67                 p_imdct->xcos_sin_sse[i * 4]     = xcos_i;
68                 p_imdct->xcos_sin_sse[i * 4 + 1] = -xsin_i;
69                 p_imdct->xcos_sin_sse[i * 4 + 2] = -xsin_i;
70                 p_imdct->xcos_sin_sse[i * 4 + 3] = -xcos_i;
71         }
72     fprintf(stderr,"done imct_init\n");
73 }
74
75 void _M( imdct_do_512 ) (imdct_t * p_imdct, float data[], float delay[])
76 {
77         imdct512_pre_ifft_twiddle_3dn (pm128, p_imdct->buf, data, p_imdct->xcos_sin_sse);
78         _M( fft_128p ) (p_imdct->buf);
79         imdct512_post_ifft_twiddle_3dn (p_imdct->buf, p_imdct->xcos_sin_sse);
80     imdct512_window_delay_3dn (p_imdct->buf, data, window, delay);
81 }
82
83 void _M( imdct_do_512_nol ) (imdct_t * p_imdct, float data[], float delay[])
84 {
85         imdct512_pre_ifft_twiddle_3dn (pm128, p_imdct->buf, data, p_imdct->xcos_sin_sse);  
86         _M( fft_128p ) (p_imdct->buf);
87         imdct512_post_ifft_twiddle_3dn (p_imdct->buf, p_imdct->xcos_sin_sse);
88     imdct512_window_delay_nol_3dn (p_imdct->buf, data, window, delay);
89 }
90
91 static void imdct512_pre_ifft_twiddle_3dn (const int *pmt, complex_t *buf, float *data, float *xcos_sin_sse)
92 {
93     __asm__ __volatile__ (      
94         "pushl %%ebp\n"
95         "movl  %%esp, %%ebp\n"
96         "addl  $-4, %%esp\n" /* local variable, loop counter */
97         
98         "pushl %%eax\n"
99         "pushl %%ebx\n"
100         "pushl %%ecx\n"
101         "pushl %%edx\n"
102         "pushl %%edi\n"
103         "pushl %%esi\n"
104
105         "movl  8(%%ebp), %%eax\n"       /* pmt */
106         "movl 12(%%ebp), %%ebx\n"       /* buf */
107         "movl 16(%%ebp), %%ecx\n"       /* data */
108         "movl 20(%%ebp), %%edx\n"       /* xcos_sin_sse */
109         "movl $128, -4(%%ebp)\n"
110         
111 ".loop:\n"
112         "movl  (%%eax), %%esi\n"
113         "movd (%%ecx, %%esi, 8), %%mm1\n"   /* 2j */
114     "punpckldq %%mm1, %%mm1\n"          /* 2j | 2j */
115
116         "shll $1, %%esi\n"
117
118         "movq (%%edx, %%esi, 8), %%mm0\n"   /* -s_j | c_j */
119         "movq 8(%%edx, %%esi, 8), %%mm2\n"  /* -c_j | -s_j */
120
121         "negl %%esi\n"
122
123         "movd 1020(%%ecx, %%esi, 4), %%mm4\n" /* 255-2j */
124     "punpckldq %%mm4, %%mm4\n"  /* 255-2j | 255-2j */
125         "addl $4, %%eax\n"
126
127         "pfmul   %%mm4, %%mm0\n"    /* 255-2j * -s_j | 255-2j  * c_j */
128         "pfmul   %%mm1, %%mm2\n"    /* 2j * -c_j | 2j * -s_j */
129         "addl    $8, %%ebx\n"
130         "pfadd   %%mm2, %%mm0\n"    /* 2j * -c_j + 255-2j * -s_j | 2j * -s_j + 255-2j * c_j */
131     
132         "movq  %%mm0, -8(%%ebx)\n"
133         "decl -4(%%ebp)\n"
134         "jnz .loop\n"
135
136         "popl %%esi\n"
137         "popl %%edi\n"
138         "popl %%edx\n"
139         "popl %%ecx\n"
140         "popl %%ebx\n"
141         "popl %%eax\n"
142
143         "addl $4, %%esp\n"
144         "popl %%ebp\n"
145         "femms\n"
146     ::);
147 }
148
149 static void imdct512_post_ifft_twiddle_3dn (complex_t *buf, float *xcos_sin_sse)
150 {
151     __asm__ __volatile__ ( 
152         "pushl %%ebx\n"
153         "movl $64, %%ebx\n"         /* loop counter */
154
155 ".loop1:\n"
156         "movq   (%%eax), %%mm0\n"   /* im0 | re0 */
157         "movq     %%mm0, %%mm1\n"   /* im0 | re0 */
158     "punpckldq %%mm0, %%mm0\n"  /* re0 | re0 */
159     "punpckhdq %%mm1, %%mm1\n"  /* im0 | im0 */
160     
161         "movq  (%%ecx), %%mm2\n"    /* -s | c */
162         "movq 8(%%ecx), %%mm3\n"    /* -c | -s */
163     "movq    %%mm3, %%mm4\n"
164
165     "punpckhdq %%mm2,%%mm3\n"   /* -s | -c */
166     "punpckldq %%mm2,%%mm4\n"   /*  c | -s */
167     
168         "movq  8(%%eax), %%mm2\n"   /* im1 | re1 */
169         "movq   %%mm2, %%mm5\n"     /* im1 | re1 */
170     "punpckldq %%mm2, %%mm2\n"  /* re1 | re1 */
171     "punpckhdq %%mm5, %%mm5\n"  /* im1 | im1 */
172
173         "pfmul %%mm3, %%mm0\n"      /* -s * re0 | -c * re0 */
174         "pfmul %%mm4, %%mm1\n"      /* c * im0 | -s * im0 */
175
176         "movq  16(%%ecx), %%mm6\n"  /* -s1 | c1 */
177         "movq  24(%%ecx), %%mm7\n"  /* -c1 | -s1 */
178     "movq   %%mm7, %%mm4\n"
179     
180     "punpckhdq %%mm6,%%mm7\n"   /* -s1 | -c1 */
181     "punpckldq %%mm6,%%mm4\n"   /*  c1 | -s1 */
182     
183         "pfmul %%mm7, %%mm2\n"      /* -s1*re1 | -c1*re1 */
184         "pfmul %%mm4, %%mm5\n"      /* c1*im1 | -s1*im1 */
185
186         "pfadd %%mm1, %%mm0\n"      /* -s * re0 + c * im0 | -c * re0 - s * im0 */
187         "pfadd %%mm5, %%mm2\n"      /* -s1 * re1 + c1 * im1 | -c1 * re1 - s1 * im1 */
188
189         "movq %%mm0, (%%eax)\n"
190         "movq %%mm2, 8(%%eax)\n"
191         "addl $32, %%ecx\n"
192         "addl $16, %%eax\n"
193         "decl %%ebx\n"
194         "jnz .loop1\n"
195
196         "popl %%ebx\n"
197         "femms\n"
198     : "=a" (buf)
199     : "a" (buf), "c" (xcos_sin_sse) );
200 }
201
202 static void imdct512_window_delay_3dn (complex_t *buf, float *data_ptr, float *window_prt, float *delay_prt)
203 {
204     __asm__ __volatile__ (
205         "pushl %%ebp\n"
206         "movl  %%esp, %%ebp\n"
207
208         "pushl %%eax\n"
209         "pushl %%ebx\n"
210         "pushl %%ecx\n"
211         "pushl %%edx\n"
212         "pushl %%esi\n"
213         "pushl %%edi\n"
214
215         "movl 20(%%ebp), %%ebx\n"   /* delay */
216         "movl 16(%%ebp), %%edx\n"   /* window */
217
218         "movl 8(%%ebp), %%eax\n"    /* buf */
219         "movl $32, %%ecx\n"         /* loop count */
220         "leal 516(%%eax), %%esi\n"  /* buf[64].im */
221         "leal 504(%%eax), %%edi\n"  /* buf[63].re */
222         "movl  12(%%ebp), %%eax\n"  /* data */
223
224 ".first_128_samples:\n"
225         "movd   (%%esi), %%mm0\n" /* im0 */
226         "movd  8(%%esi), %%mm2\n" /* im1 */
227         "movd   (%%edi), %%mm1\n" /* re0 */
228         "movd -8(%%edi), %%mm3\n" /* re1 */
229
230     "pxor   %%mm4, %%mm4\n"
231     "pxor   %%mm5, %%mm5\n"
232     "pfsub  %%mm0, %%mm4\n" /* -im0 */
233     "pfsub  %%mm2, %%mm5\n" /* -im1 */
234     
235         "punpckldq %%mm1, %%mm4\n"      /* re0 | -im0 */
236         "punpckldq %%mm3, %%mm5\n"      /* re1 | -im1 */
237
238         "movq  (%%edx), %%mm0\n"      /* w1 | w0 */
239         "movq 8(%%edx), %%mm1\n"      /* w3 | w2 */
240         "movq  (%%ebx), %%mm2\n"      /* d1 | d0 */
241         "movq 8(%%ebx), %%mm3\n"      /* d3 | d2 */
242
243     "pfmul     %%mm4, %%mm0\n"      /* w1*re0 | -w0*im0 */
244         "pfmul     %%mm5, %%mm1\n"      /* w3*re1 | -w2*im1 */
245
246     "pfadd     %%mm2, %%mm0\n"      /* w1*re0+d1 | -w0*im0+d0 */
247     "pfadd     %%mm3, %%mm1\n"      /* w3*re1+d3 | -w2*im1+d2 */
248
249         "addl $16, %%edx\n"
250         "movq %%mm0,  (%%eax)\n"
251         "movq %%mm1, 8(%%eax)\n"
252         "addl $16, %%ebx\n"
253         "addl $16, %%esi\n"
254         "addl $16, %%eax\n"
255     "addl $-16, %%edi\n"
256         "decl %%ecx\n"
257         "jnz .first_128_samples\n"
258
259         "movl 8(%%ebp), %%esi\n"    /* buf[0].re */
260         "leal 1020(%%esi), %%edi\n" /* buf[127].im */
261         "movl $32, %%ecx\n"         /* loop count */
262     
263 ".second_128_samples:\n"
264         "movd   (%%esi), %%mm0\n" /* buf[i].re */
265         "movd  8(%%esi), %%mm2\n" /* re1 */
266         "movd   (%%edi), %%mm1\n" /* buf[127-i].im */
267         "movd -8(%%edi), %%mm3\n" /* im1 */
268
269     "pxor   %%mm4, %%mm4\n"
270     "pxor   %%mm5, %%mm5\n"
271     "pfsub  %%mm0, %%mm4\n" /* -re0 */
272     "pfsub  %%mm2, %%mm5\n" /* -re1 */
273     
274         "punpckldq %%mm1, %%mm4\n"     /* im0 | -re0 */
275         "punpckldq %%mm3, %%mm5\n"     /* im1 | -re1 */
276
277         "movq (%%edx), %%mm0\n"  /* w1 | w0 */
278         "movq 8(%%edx), %%mm1\n"  /* w3 | w2 */
279         "movq (%%ebx), %%mm2\n"  /* d1 | d0 */
280         "movq 8(%%ebx), %%mm3\n"  /* d3 | d2 */
281
282         "addl $16, %%esi\n"
283     
284     "pfmul     %%mm4, %%mm0\n"      /* w1*im0 | -w0*re0 */
285         "pfmul     %%mm5, %%mm1\n"      /* w3*im1 | -w2*re1 */
286     
287         "pfadd %%mm2, %%mm0\n"      /* w1*im0+d1 | -w0*re0+d0 */
288         "pfadd %%mm3, %%mm1\n"      /* w3*im1+d3 | -w2*re1+d2 */
289     
290         "addl $-16, %%edi\n"
291         
292     "movq %%mm0, (%%eax)\n"
293     "movq %%mm1, 8(%%eax)\n"
294     
295     "addl $16, %%edx\n"
296         "addl $16, %%eax\n"
297         "addl $16, %%ebx\n"
298         "decl %%ecx\n"
299         "jnz .second_128_samples\n"
300
301         "movl   8(%%ebp), %%eax\n"
302         "leal 512(%%eax), %%esi\n"  /* buf[64].re */
303         "leal 508(%%eax), %%edi\n"  /* buf[63].im */
304         "movl $32, %%ecx\n"         /* loop count */
305         "movl  20(%%ebp), %%eax\n"  /* delay */
306
307 ".first_128_delay:\n"
308         "movd   (%%esi), %%mm0\n" /* re0 */
309         "movd  8(%%esi), %%mm2\n" /* re1 */
310         "movd   (%%edi), %%mm1\n" /* im0 */
311         "movd -8(%%edi), %%mm3\n" /* im1 */
312
313     "pxor   %%mm4, %%mm4\n"
314     "pxor   %%mm5, %%mm5\n"
315     "pfsub  %%mm0, %%mm4\n" /* -re0 */
316     "pfsub  %%mm2, %%mm5\n" /* -re1 */
317     
318         "punpckldq %%mm1, %%mm4\n"     /* im0 | -re0 */
319         "punpckldq %%mm3, %%mm5\n"     /* im1 | -re1 */
320
321     
322         "movq -16(%%edx), %%mm1\n"   /* w3 | w2 */
323         "movq  -8(%%edx), %%mm0\n"   /* w1 | w0 */
324     
325         "addl $-16, %%edx\n"
326
327     "pfmul     %%mm4, %%mm0\n"      /* w1*im0 | -w0*re0 */
328         "pfmul     %%mm5, %%mm1\n"      /* w3*im1 | -w2*re1 */
329
330     
331         "movq %%mm0, (%%eax)\n"
332         "movq %%mm1, 8(%%eax)\n"
333         "addl  $16, %%esi\n"
334         "addl $-16, %%edi\n"
335         "addl  $16, %%eax\n"
336         "decl %%ecx\n"
337         "jnz .first_128_delay\n"
338
339         "movl    8(%%ebp), %%ebx\n"
340         "leal    4(%%ebx), %%esi\n" /* buf[0].im */
341         "leal 1016(%%ebx), %%edi\n" /* buf[127].re */
342         "movl $32, %%ecx\n"         /* loop count */
343     
344 ".second_128_delay:\n"
345         "movd   (%%esi), %%mm0\n" /* im0 */
346         "movd  8(%%esi), %%mm2\n" /* im1 */
347         "movd   (%%edi), %%mm1\n" /* re0 */
348         "movd -8(%%edi), %%mm3\n" /* re1 */
349
350     "pxor   %%mm4, %%mm4\n"
351     "pxor   %%mm5, %%mm5\n"
352     "pfsub  %%mm1, %%mm4\n" /* -re0 */
353     "pfsub  %%mm3, %%mm5\n" /* -re1 */
354     
355         "punpckldq %%mm4, %%mm0\n"     /* -re0 | im0 */
356         "punpckldq %%mm5, %%mm2\n"     /* -re1 | im1 */
357
358     
359         "movq -16(%%edx), %%mm1\n"   /* w3 | w2 */
360         "movq  -8(%%edx), %%mm3\n"   /* w1 | w0 */
361     
362         "addl $-16, %%edx\n"
363
364     "pfmul     %%mm0, %%mm1\n"      /* -w1*re0 | w0*im0 */
365         "pfmul     %%mm2, %%mm3\n"      /* -w3*re1 | w2*im1 */
366
367     
368         "movq %%mm1, (%%eax)\n"
369         "movq %%mm3, 8(%%eax)\n"
370         "addl  $16, %%esi\n"
371         "addl $-16, %%edi\n"
372         "addl  $16, %%eax\n"
373         "decl %%ecx\n"
374     "jnz .second_128_delay\n"
375
376         "popl %%edi\n"
377         "popl %%esi\n"
378         "popl %%edx\n"
379         "popl %%ecx\n"
380         "popl %%ebx\n"
381         "popl %%eax\n"
382         
383         "leave\n"
384         "femms\n"
385     ::);
386 }
387
388 static void imdct512_window_delay_nol_3dn (complex_t *buf, float *data_ptr, float *window_prt, float *delay_prt)
389 {
390     __asm__ __volatile__ (
391         "pushl %%ebp\n"
392         "movl  %%esp, %%ebp\n"
393         
394         "pushl %%eax\n"
395         "pushl %%ebx\n"
396         "pushl %%ecx\n"
397         "pushl %%edx\n"
398         "pushl %%esi\n"
399         "pushl %%edi\n"
400
401         "movl 20(%%ebp), %%ebx\n"   /* delay */
402         "movl 16(%%ebp), %%edx\n"   /* window */
403
404         "movl 8(%%ebp), %%eax\n"    /* buf */
405         "movl $32, %%ecx\n"         /* loop count */
406         "leal 516(%%eax), %%esi\n"  /* buf[64].im */
407         "leal 504(%%eax), %%edi\n"  /* buf[63].re */
408         "movl  12(%%ebp), %%eax\n"  /* data */
409
410 ".first_128_samples2:\n"
411         "movd   (%%esi), %%mm0\n" /* im0 */
412         "movd  8(%%esi), %%mm2\n" /* im1 */
413         "movd   (%%edi), %%mm1\n" /* re0 */
414         "movd -8(%%edi), %%mm3\n" /* re1 */
415
416     "pxor   %%mm4, %%mm4\n"
417     "pxor   %%mm5, %%mm5\n"
418     "pfsub  %%mm0, %%mm4\n" /* -im0 */
419     "pfsub  %%mm2, %%mm5\n" /* -im1 */
420     
421         "punpckldq %%mm1, %%mm4\n"      /* re0 | -im0 */
422         "punpckldq %%mm3, %%mm5\n"      /* re1 | -im1 */
423
424         "movq (%%edx), %%mm0\n"      /* w1 | w0 */
425         "movq 8(%%edx), %%mm1\n"     /* w3 | w2 */
426
427     "pfmul     %%mm4, %%mm0\n"      /* w1*re0 | -w0*im0 */
428         "pfmul     %%mm5, %%mm1\n"      /* w3*re1 | -w2*im1 */
429
430         "addl $16, %%edx\n"
431         "movq %%mm0, (%%eax)\n"
432         "movq %%mm1, 8(%%eax)\n"
433         "addl $16, %%ebx\n"
434         "addl $16, %%esi\n"
435         "addl $16, %%eax\n"
436     "addl $-16, %%edi\n"
437         "decl %%ecx\n"
438         "jnz .first_128_samples2\n"
439
440         "movl 8(%%ebp), %%esi\n"    /* buf[0].re */
441         "leal 1020(%%esi), %%edi\n" /* buf[127].im */
442         "movl $32, %%ecx\n"         /* loop count */
443     
444 ".second_128_samples2:\n"
445         "movd   (%%esi), %%mm0\n" /* buf[i].re */
446         "movd  8(%%esi), %%mm2\n" /* re1 */
447         "movd   (%%edi), %%mm1\n" /* buf[127-i].im */
448         "movd -8(%%edi), %%mm3\n" /* im1 */
449
450     "pxor   %%mm4, %%mm4\n"
451     "pxor   %%mm5, %%mm5\n"
452     "pfsub  %%mm0, %%mm4\n" /* -re0 */
453     "pfsub  %%mm2, %%mm5\n" /* -re1 */
454     
455         "punpckldq %%mm1, %%mm4\n"     /* im0 | -re0 */
456         "punpckldq %%mm3, %%mm5\n"     /* im1 | -re1 */
457
458         "movq (%%edx), %%mm0\n"  /* w1 | w0 */
459         "movq 8(%%edx), %%mm1\n"  /* w3 | w2 */
460
461         "addl $16, %%esi\n"
462     
463     "pfmul     %%mm4, %%mm0\n"      /* w1*im0 | -w0*re0 */
464         "pfmul     %%mm5, %%mm1\n"      /* w3*im1 | -w2*re1 */
465     
466         "addl $-16, %%edi\n"
467         
468     "movq %%mm0, (%%eax)\n"
469     "movq %%mm1, 8(%%eax)\n"
470     
471     "addl $16, %%edx\n"
472         "addl $16, %%eax\n"
473         "addl $16, %%ebx\n"
474         "decl %%ecx\n"
475         "jnz .second_128_samples2\n"
476
477         "movl   8(%%ebp), %%eax\n"
478         "leal 512(%%eax), %%esi\n"  /* buf[64].re */
479         "leal 508(%%eax), %%edi\n"  /* buf[63].im */
480         "movl $32, %%ecx\n"         /* loop count */
481         "movl  20(%%ebp), %%eax\n"  /* delay */
482
483 ".first_128_delays:\n"
484         "movd   (%%esi), %%mm0\n" /* re0 */
485         "movd  8(%%esi), %%mm2\n" /* re1 */
486         "movd   (%%edi), %%mm1\n" /* im0 */
487         "movd -8(%%edi), %%mm3\n" /* im1 */
488
489     "pxor   %%mm4, %%mm4\n"
490     "pxor   %%mm5, %%mm5\n"
491     "pfsub  %%mm0, %%mm4\n" /* -re0 */
492     "pfsub  %%mm2, %%mm5\n" /* -re1 */
493     
494         "punpckldq %%mm1, %%mm4\n"     /* im0 | -re0 */
495         "punpckldq %%mm3, %%mm5\n"     /* im1 | -re1 */
496
497     
498         "movq -16(%%edx), %%mm1\n"   /* w3 | w2 */
499         "movq  -8(%%edx), %%mm0\n"   /* w1 | w0 */
500     
501         "addl $-16, %%edx\n"
502
503     "pfmul     %%mm4, %%mm0\n"      /* w1*im0 | -w0*re0 */
504         "pfmul     %%mm5, %%mm1\n"      /* w3*im1 | -w2*re1 */
505
506     
507         "movq %%mm0, (%%eax)\n"
508         "movq %%mm1, 8(%%eax)\n"
509         "addl  $16, %%esi\n"
510         "addl $-16, %%edi\n"
511         "addl  $16, %%eax\n"
512         "decl %%ecx\n"
513         "jnz .first_128_delays\n"
514
515         "movl    8(%%ebp), %%ebx\n"
516         "leal    4(%%ebx), %%esi\n" /* buf[0].im */
517         "leal 1016(%%ebx), %%edi\n" /* buf[127].re */
518         "movl $32, %%ecx\n"         /* loop count */
519     
520 ".second_128_delays:\n"
521         "movd   (%%esi), %%mm0\n" /* im0 */
522         "movd  8(%%esi), %%mm2\n" /* im1 */
523         "movd   (%%edi), %%mm1\n" /* re0 */
524         "movd -8(%%edi), %%mm3\n" /* re1 */
525
526     "pxor   %%mm4, %%mm4\n"
527     "pxor   %%mm5, %%mm5\n"
528     "pfsub  %%mm1, %%mm4\n" /* -re0 */
529     "pfsub  %%mm3, %%mm5\n" /* -re1 */
530     
531         "punpckldq %%mm4, %%mm0\n"     /* -re0 | im0 */
532         "punpckldq %%mm5, %%mm2\n"     /* -re1 | im1 */
533
534     
535         "movq -16(%%edx), %%mm1\n"   /* w3 | w2 */
536         "movq  -8(%%edx), %%mm3\n"   /* w1 | w0 */
537     
538         "addl $-16, %%edx\n"
539
540     "pfmul     %%mm0, %%mm1\n"      /* -w1*re0 | w0*im0 */
541         "pfmul     %%mm2, %%mm3\n"      /* -w3*re1 | w2*im1 */
542
543     
544         "movq %%mm1, (%%eax)\n"
545         "movq %%mm3, 8(%%eax)\n"
546         "addl  $16, %%esi\n"
547         "addl $-16, %%edi\n"
548         "addl  $16, %%eax\n"
549         "decl %%ecx\n"
550     "jnz .second_128_delays\n"
551
552         "popl %%edi\n"
553         "popl %%esi\n"
554         "popl %%edx\n"
555         "popl %%ecx\n"
556         "popl %%ebx\n"
557         "popl %%eax\n"
558         
559         "leave\n"
560         "femms\n"
561     ::);
562 }
563