]> git.sesse.net Git - x264/blob - common/x86/predict-a.asm
remove x264_mc_clip1.
[x264] / common / x86 / predict-a.asm
1 ;*****************************************************************************
2 ;* predict-a.asm: h264 encoder library
3 ;*****************************************************************************
4 ;* Copyright (C) 2005-2008 x264 project
5 ;*
6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
7 ;*
8 ;* This program is free software; you can redistribute it and/or modify
9 ;* it under the terms of the GNU General Public License as published by
10 ;* the Free Software Foundation; either version 2 of the License, or
11 ;* (at your option) any later version.
12 ;*
13 ;* This program is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
16 ;* GNU General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU General Public License
19 ;* along with this program; if not, write to the Free Software
20 ;* Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA  02111, USA.
21 ;*****************************************************************************
22
23 %include "x86inc.asm"
24
25 %macro STORE8x8 2
26     movq        [r0 + 0*FDEC_STRIDE], %1
27     movq        [r0 + 1*FDEC_STRIDE], %1
28     movq        [r0 + 2*FDEC_STRIDE], %1
29     movq        [r0 + 3*FDEC_STRIDE], %1
30     movq        [r0 + 4*FDEC_STRIDE], %2
31     movq        [r0 + 5*FDEC_STRIDE], %2
32     movq        [r0 + 6*FDEC_STRIDE], %2
33     movq        [r0 + 7*FDEC_STRIDE], %2
34 %endmacro
35
36 %macro STORE16x16 2
37     mov         r1d, 4
38 .loop:
39     movq        [r0 + 0*FDEC_STRIDE], %1
40     movq        [r0 + 1*FDEC_STRIDE], %1
41     movq        [r0 + 2*FDEC_STRIDE], %1
42     movq        [r0 + 3*FDEC_STRIDE], %1
43     movq        [r0 + 0*FDEC_STRIDE + 8], %2
44     movq        [r0 + 1*FDEC_STRIDE + 8], %2
45     movq        [r0 + 2*FDEC_STRIDE + 8], %2
46     movq        [r0 + 3*FDEC_STRIDE + 8], %2
47     add         r0, 4*FDEC_STRIDE
48     dec         r1d
49     jg          .loop
50 %endmacro
51
52 %macro STORE16x16_SSE2 1
53     mov         r1d, 4
54 .loop:
55     movdqa      [r0 + 0*FDEC_STRIDE], %1
56     movdqa      [r0 + 1*FDEC_STRIDE], %1
57     movdqa      [r0 + 2*FDEC_STRIDE], %1
58     movdqa      [r0 + 3*FDEC_STRIDE], %1
59     add         r0, 4*FDEC_STRIDE
60     dec         r1d
61     jg          .loop
62 %endmacro
63
64 SECTION_RODATA
65
66 ALIGN 16
67 pb_1:       times 16 db 1
68 pw_2:       times 4 dw 2
69 pw_4:       times 4 dw 4
70 pw_8:       times 8 dw 8
71 pw_76543210:
72 pw_3210:    dw 0, 1, 2, 3, 4, 5, 6, 7
73 pb_00s_ff:  times 8 db 0
74 pb_0s_ff:   times 7 db 0 
75             db 0xff
76
77 SECTION .text
78
79 ; dest, left, right, src, tmp
80 ; output: %1 = (t[n-1] + t[n]*2 + t[n+1] + 2) >> 2
81 %macro PRED8x8_LOWPASS0 6
82     mov%6       %5, %2
83     pavgb       %2, %3
84     pxor        %3, %5
85     mov%6       %1, %4
86     pand        %3, [pb_1 GLOBAL]
87     psubusb     %2, %3
88     pavgb       %1, %2
89 %endmacro
90 %macro PRED8x8_LOWPASS 5
91     PRED8x8_LOWPASS0 %1, %2, %3, %4, %5, q
92 %endmacro
93 %macro PRED8x8_LOWPASS_XMM 5
94     PRED8x8_LOWPASS0 %1, %2, %3, %4, %5, dqa
95 %endmacro
96
97
98 ;-----------------------------------------------------------------------------
99 ; void predict_4x4_ddl_mmxext( uint8_t *src )
100 ;-----------------------------------------------------------------------------
101 cglobal predict_4x4_ddl_mmxext, 1,1,1
102     sub         r0, FDEC_STRIDE
103     movq        mm3, [r0]
104     movq        mm1, [r0-1]
105     movq        mm2, mm3
106     movq        mm4, [pb_0s_ff GLOBAL]
107     psrlq       mm2, 8
108     pand        mm4, mm3
109     por         mm2, mm4
110
111     PRED8x8_LOWPASS mm0, mm1, mm2, mm3, mm5
112
113 %assign Y 1
114 %rep 4
115     psrlq       mm0, 8
116     movd        [r0+Y*FDEC_STRIDE], mm0
117 %assign Y (Y+1)
118 %endrep
119
120     RET
121
122 ;-----------------------------------------------------------------------------
123 ; void predict_4x4_vl_mmxext( uint8_t *src )
124 ;-----------------------------------------------------------------------------
125 cglobal predict_4x4_vl_mmxext, 1,1,1
126     movq        mm1, [r0-FDEC_STRIDE]
127     movq        mm3, mm1
128     movq        mm2, mm1
129     psrlq       mm3, 8
130     psrlq       mm2, 16
131     movq        mm4, mm3
132     pavgb       mm4, mm1
133
134     PRED8x8_LOWPASS mm0, mm1, mm2, mm3, mm5
135
136     movd        [r0+0*FDEC_STRIDE], mm4
137     movd        [r0+1*FDEC_STRIDE], mm0
138     psrlq       mm4, 8
139     psrlq       mm0, 8
140     movd        [r0+2*FDEC_STRIDE], mm4
141     movd        [r0+3*FDEC_STRIDE], mm0
142
143     RET
144
145 ;-----------------------------------------------------------------------------
146 ; void predict_8x8_v_mmxext( uint8_t *src, uint8_t *edge )
147 ;-----------------------------------------------------------------------------
148 cglobal predict_8x8_v_mmxext, 2,2
149     movq        mm0, [r1+16]
150     STORE8x8    mm0, mm0
151     RET
152
153 ;-----------------------------------------------------------------------------
154 ; void predict_8x8_dc_mmxext( uint8_t *src, uint8_t *edge );
155 ;-----------------------------------------------------------------------------
156 cglobal predict_8x8_dc_mmxext, 2,2,1
157     pxor        mm0, mm0
158     pxor        mm1, mm1
159     psadbw      mm0, [r1+7]
160     psadbw      mm1, [r1+16]
161     paddw       mm0, [pw_8 GLOBAL]
162     paddw       mm0, mm1
163     psrlw       mm0, 4
164     pshufw      mm0, mm0, 0
165     packuswb    mm0, mm0
166     STORE8x8    mm0, mm0
167     RET
168
169 ;-----------------------------------------------------------------------------
170 ; void predict_8x8_dc_top_mmxext( uint8_t *src, uint8_t *edge );
171 ;-----------------------------------------------------------------------------
172 %macro PRED8x8_DC 2
173 cglobal %1, 2,2,1
174     pxor        mm0, mm0
175     psadbw      mm0, [r1+%2]
176     paddw       mm0, [pw_4 GLOBAL]
177     psrlw       mm0, 3
178     pshufw      mm0, mm0, 0
179     packuswb    mm0, mm0
180     STORE8x8    mm0, mm0
181     RET
182 %endmacro
183
184 PRED8x8_DC predict_8x8_dc_top_mmxext, 16
185 PRED8x8_DC predict_8x8_dc_left_mmxext, 7
186
187 %ifndef ARCH_X86_64
188 ; sse2 is faster even on amd, so there's no sense in spending exe size on these
189 ; functions if we know sse2 is available.
190
191 ;-----------------------------------------------------------------------------
192 ; void predict_8x8_ddl_mmxext( uint8_t *src, uint8_t *edge )
193 ;-----------------------------------------------------------------------------
194 cglobal predict_8x8_ddl_mmxext, 2,2,1
195     movq        mm5, [r1+16]
196     movq        mm2, [r1+17]
197     movq        mm3, [r1+23]
198     movq        mm4, [r1+25]
199     movq        mm1, mm5
200     psllq       mm1, 8
201     PRED8x8_LOWPASS mm0, mm1, mm2, mm5, mm7
202     PRED8x8_LOWPASS mm1, mm3, mm4, [r1+24], mm6
203
204 %assign Y 7
205 %rep 6
206     movq        [r0+Y*FDEC_STRIDE], mm1
207     movq        mm2, mm0
208     psllq       mm1, 8
209     psrlq       mm2, 56
210     psllq       mm0, 8
211     por         mm1, mm2
212 %assign Y (Y-1)
213 %endrep
214     movq        [r0+Y*FDEC_STRIDE], mm1
215     psllq       mm1, 8
216     psrlq       mm0, 56
217     por         mm1, mm0
218 %assign Y (Y-1)
219     movq        [r0+Y*FDEC_STRIDE], mm1
220     RET
221
222 ;-----------------------------------------------------------------------------
223 ; void predict_8x8_ddr_mmxext( uint8_t *src, uint8_t *edge )
224 ;-----------------------------------------------------------------------------
225 cglobal predict_8x8_ddr_mmxext, 2,2,1
226     movq        mm1, [r1+7]
227     movq        mm2, [r1+9]
228     movq        mm3, [r1+15]
229     movq        mm4, [r1+17]
230     PRED8x8_LOWPASS mm0, mm1, mm2, [r1+8], mm7
231     PRED8x8_LOWPASS mm1, mm3, mm4, [r1+16], mm6
232
233 %assign Y 7
234 %rep 6
235     movq        [r0+Y*FDEC_STRIDE], mm0
236     movq        mm2, mm1
237     psrlq       mm0, 8
238     psllq       mm2, 56
239     psrlq       mm1, 8
240     por         mm0, mm2
241 %assign Y (Y-1)
242 %endrep
243     movq        [r0+Y*FDEC_STRIDE], mm0
244     psrlq       mm0, 8
245     psllq       mm1, 56
246     por         mm0, mm1
247 %assign Y (Y-1)
248     movq        [r0+Y*FDEC_STRIDE], mm0
249     RET
250
251 %endif ; !ARCH_X86_64
252
253 ;-----------------------------------------------------------------------------
254 ; void predict_8x8_ddl_sse2( uint8_t *src, uint8_t *edge )
255 ;-----------------------------------------------------------------------------
256 cglobal predict_8x8_ddl_sse2, 2,2,1
257     movdqa      xmm3, [r1+16]
258     movdqu      xmm2, [r1+17]
259     movdqa      xmm1, xmm3
260     pslldq      xmm1, 1
261     PRED8x8_LOWPASS_XMM xmm0, xmm1, xmm2, xmm3, xmm4
262
263 %assign Y 0
264 %rep 8
265     psrldq      xmm0, 1
266     movq        [r0+Y*FDEC_STRIDE], xmm0
267 %assign Y (Y+1)
268 %endrep
269     RET
270
271 ;-----------------------------------------------------------------------------
272 ; void predict_8x8_ddr_sse2( uint8_t *src, uint8_t *edge )
273 ;-----------------------------------------------------------------------------
274 cglobal predict_8x8_ddr_sse2, 2,2,1
275     movdqu      xmm3, [r1+8]
276     movdqu      xmm1, [r1+7]
277     movdqa      xmm2, xmm3
278     psrldq      xmm2, 1
279     PRED8x8_LOWPASS_XMM xmm0, xmm1, xmm2, xmm3, xmm4
280
281     movdqa      xmm1, xmm0
282     psrldq      xmm1, 1
283 %assign Y 7
284 %rep 3
285     movq        [r0+Y*FDEC_STRIDE], xmm0
286     movq        [r0+(Y-1)*FDEC_STRIDE], xmm1
287     psrldq      xmm0, 2
288     psrldq      xmm1, 2
289 %assign Y (Y-2)
290 %endrep
291     movq        [r0+1*FDEC_STRIDE], xmm0
292     movq        [r0+0*FDEC_STRIDE], xmm1
293
294     RET
295
296 ;-----------------------------------------------------------------------------
297 ; void predict_8x8_vl_sse2( uint8_t *src, uint8_t *edge )
298 ;-----------------------------------------------------------------------------
299 cglobal predict_8x8_vl_sse2, 2,2,1
300     movdqa      xmm4, [r1+16]
301     movdqa      xmm2, xmm4
302     movdqa      xmm1, xmm4
303     movdqa      xmm3, xmm4
304     psrldq      xmm2, 1
305     pslldq      xmm1, 1
306     pavgb       xmm3, xmm2
307     PRED8x8_LOWPASS_XMM xmm0, xmm1, xmm2, xmm4, xmm5
308 ; xmm0: (t0 + 2*t1 + t2 + 2) >> 2
309 ; xmm3: (t0 + t1 + 1) >> 1
310
311 %assign Y 0
312 %rep 3
313     psrldq      xmm0, 1
314     movq        [r0+ Y   *FDEC_STRIDE], xmm3
315     movq        [r0+(Y+1)*FDEC_STRIDE], xmm0
316     psrldq      xmm3, 1
317 %assign Y (Y+2)
318 %endrep
319     psrldq      xmm0, 1
320     movq        [r0+ Y   *FDEC_STRIDE], xmm3
321     movq        [r0+(Y+1)*FDEC_STRIDE], xmm0
322
323     RET
324
325 ;-----------------------------------------------------------------------------
326 ; void predict_8x8_vr_core_mmxext( uint8_t *src, uint8_t *edge )
327 ;-----------------------------------------------------------------------------
328
329 ; fills only some pixels:
330 ; f01234567
331 ; 0........
332 ; 1,,,,,,,,
333 ; 2 .......
334 ; 3 ,,,,,,,
335 ; 4  ......
336 ; 5  ,,,,,,
337 ; 6   .....
338 ; 7   ,,,,,
339
340 cglobal predict_8x8_vr_core_mmxext, 2,2,1
341     movq        mm2, [r1+16]
342     movq        mm3, [r1+15]
343     movq        mm1, [r1+14]
344     movq        mm4, mm3
345     pavgb       mm3, mm2
346     PRED8x8_LOWPASS mm0, mm1, mm2, mm4, mm7
347
348 %assign Y 0
349 %rep 3
350     movq        [r0+ Y   *FDEC_STRIDE], mm3
351     movq        [r0+(Y+1)*FDEC_STRIDE], mm0
352     psllq       mm3, 8
353     psllq       mm0, 8
354 %assign Y (Y+2)
355 %endrep
356     movq        [r0+ Y   *FDEC_STRIDE], mm3
357     movq        [r0+(Y+1)*FDEC_STRIDE], mm0
358
359     RET
360
361 ;-----------------------------------------------------------------------------
362 ; void predict_8x8c_v_mmx( uint8_t *src )
363 ;-----------------------------------------------------------------------------
364 cglobal predict_8x8c_v_mmx, 1,1
365     movq        mm0, [r0 - FDEC_STRIDE]
366     STORE8x8    mm0, mm0
367     RET
368
369 ;-----------------------------------------------------------------------------
370 ; void predict_8x8c_dc_core_mmxext( uint8_t *src, int s2, int s3 )
371 ;-----------------------------------------------------------------------------
372 cglobal predict_8x8c_dc_core_mmxext, 1,1,1
373     movq        mm0, [r0 - FDEC_STRIDE]
374     pxor        mm1, mm1
375     pxor        mm2, mm2
376     punpckhbw   mm1, mm0
377     punpcklbw   mm0, mm2
378     psadbw      mm1, mm2        ; s1
379     psadbw      mm0, mm2        ; s0
380
381 %ifdef ARCH_X86_64
382     movd        mm4, r1d
383     movd        mm5, r2d
384     paddw       mm0, mm4
385     pshufw      mm2, mm5, 0
386 %else
387     paddw       mm0, r1m
388     pshufw      mm2, r2m, 0
389 %endif
390     psrlw       mm0, 3
391     paddw       mm1, [pw_2 GLOBAL]
392     movq        mm3, mm2
393     pshufw      mm1, mm1, 0
394     pshufw      mm0, mm0, 0     ; dc0 (w)
395     paddw       mm3, mm1
396     psrlw       mm3, 3          ; dc3 (w)
397     psrlw       mm2, 2          ; dc2 (w)
398     psrlw       mm1, 2          ; dc1 (w)
399
400     packuswb    mm0, mm1        ; dc0,dc1 (b)
401     packuswb    mm2, mm3        ; dc2,dc3 (b)
402
403     STORE8x8    mm0, mm2
404     RET
405
406 %macro LOAD_PLANE_ARGS 0
407 %ifdef ARCH_X86_64
408     movd        mm0, r1d
409     movd        mm2, r2d
410     movd        mm4, r3d
411     pshufw      mm0, mm0, 0
412     pshufw      mm2, mm2, 0
413     pshufw      mm4, mm4, 0
414 %else
415     pshufw      mm0, r1m, 0
416     pshufw      mm2, r2m, 0
417     pshufw      mm4, r3m, 0
418 %endif
419 %endmacro
420
421 ;-----------------------------------------------------------------------------
422 ; void predict_8x8c_p_core_mmxext( uint8_t *src, int i00, int b, int c )
423 ;-----------------------------------------------------------------------------
424 cglobal predict_8x8c_p_core_mmxext, 1,2,1
425     LOAD_PLANE_ARGS
426     movq        mm1, mm2
427     pmullw      mm2, [pw_3210 GLOBAL]
428     psllw       mm1, 2
429     paddsw      mm0, mm2        ; mm0 = {i+0*b, i+1*b, i+2*b, i+3*b}
430     paddsw      mm1, mm0        ; mm1 = {i+4*b, i+5*b, i+6*b, i+7*b}
431
432     mov         r1d, 8
433 ALIGN 4
434 .loop:
435     movq        mm5, mm0
436     movq        mm6, mm1
437     psraw       mm5, 5
438     psraw       mm6, 5
439     packuswb    mm5, mm6
440     movq        [r0], mm5
441
442     paddsw      mm0, mm4
443     paddsw      mm1, mm4
444     add         r0, FDEC_STRIDE
445     dec         r1d
446     jg          .loop
447     REP_RET
448
449 ;-----------------------------------------------------------------------------
450 ; void predict_16x16_p_core_mmxext( uint8_t *src, int i00, int b, int c )
451 ;-----------------------------------------------------------------------------
452 cglobal predict_16x16_p_core_mmxext, 1,2,1
453     LOAD_PLANE_ARGS
454     movq        mm5, mm2
455     movq        mm1, mm2
456     pmullw      mm5, [pw_3210 GLOBAL]
457     psllw       mm2, 3
458     psllw       mm1, 2
459     movq        mm3, mm2
460     paddsw      mm0, mm5        ; mm0 = {i+ 0*b, i+ 1*b, i+ 2*b, i+ 3*b}
461     paddsw      mm1, mm0        ; mm1 = {i+ 4*b, i+ 5*b, i+ 6*b, i+ 7*b}
462     paddsw      mm2, mm0        ; mm2 = {i+ 8*b, i+ 9*b, i+10*b, i+11*b}
463     paddsw      mm3, mm1        ; mm3 = {i+12*b, i+13*b, i+14*b, i+15*b}
464
465     mov         r1d, 16
466 ALIGN 4
467 .loop:
468     movq        mm5, mm0
469     movq        mm6, mm1
470     psraw       mm5, 5
471     psraw       mm6, 5
472     packuswb    mm5, mm6
473     movq        [r0], mm5
474
475     movq        mm5, mm2
476     movq        mm6, mm3
477     psraw       mm5, 5
478     psraw       mm6, 5
479     packuswb    mm5, mm6
480     movq        [r0+8], mm5
481
482     paddsw      mm0, mm4
483     paddsw      mm1, mm4
484     paddsw      mm2, mm4
485     paddsw      mm3, mm4
486     add         r0, FDEC_STRIDE
487     dec         r1d
488     jg          .loop
489     REP_RET
490
491 ;-----------------------------------------------------------------------------
492 ; void predict_16x16_p_core_sse2( uint8_t *src, int i00, int b, int c )
493 ;-----------------------------------------------------------------------------
494 cglobal predict_16x16_p_core_sse2, 1,2,1
495     movd        xmm0, r1m
496     movd        xmm1, r2m
497     movd        xmm2, r3m
498     pshuflw     xmm0, xmm0, 0
499     pshuflw     xmm1, xmm1, 0
500     pshuflw     xmm2, xmm2, 0
501     punpcklqdq  xmm0, xmm0
502     punpcklqdq  xmm1, xmm1
503     punpcklqdq  xmm2, xmm2
504     movdqa      xmm3, xmm1
505     pmullw      xmm3, [pw_76543210 GLOBAL]
506     psllw       xmm1, 3
507     paddsw      xmm0, xmm3  ; xmm0 = {i+ 0*b, i+ 1*b, i+ 2*b, i+ 3*b, i+ 4*b, i+ 5*b, i+ 6*b, i+ 7*b}
508     paddsw      xmm1, xmm0  ; xmm1 = {i+ 8*b, i+ 9*b, i+10*b, i+11*b, i+12*b, i+13*b, i+14*b, i+15*b}
509
510     mov         r1d, 16
511 ALIGN 4
512 .loop:
513     movdqa      xmm3, xmm0
514     movdqa      xmm4, xmm1
515     psraw       xmm3, 5
516     psraw       xmm4, 5
517     packuswb    xmm3, xmm4
518     movdqa      [r0], xmm3
519
520     paddsw      xmm0, xmm2
521     paddsw      xmm1, xmm2
522     add         r0, FDEC_STRIDE
523     dec         r1d
524     jg          .loop
525     REP_RET
526
527 ;-----------------------------------------------------------------------------
528 ; void predict_16x16_v_mmx( uint8_t *src )
529 ;-----------------------------------------------------------------------------
530 cglobal predict_16x16_v_mmx, 1,2
531     movq        mm0, [r0 - FDEC_STRIDE]
532     movq        mm1, [r0 - FDEC_STRIDE + 8]
533     STORE16x16  mm0, mm1
534     REP_RET
535
536 ;-----------------------------------------------------------------------------
537 ; void predict_16x16_v_sse2( uint8_t *src )
538 ;-----------------------------------------------------------------------------
539 cglobal predict_16x16_v_sse2, 1,2
540     movdqa      xmm0, [r0 - FDEC_STRIDE]
541     STORE16x16_SSE2 xmm0
542     REP_RET
543
544 ;-----------------------------------------------------------------------------
545 ; void predict_16x16_dc_core_mmxext( uint8_t *src, int i_dc_left )
546 ;-----------------------------------------------------------------------------
547
548 %macro PRED16x16_DC 2
549     pxor        mm0, mm0
550     pxor        mm1, mm1
551     psadbw      mm0, [r0 - FDEC_STRIDE]
552     psadbw      mm1, [r0 - FDEC_STRIDE + 8]
553     paddusw     mm0, mm1
554     paddusw     mm0, %1
555     psrlw       mm0, %2                       ; dc
556     pshufw      mm0, mm0, 0
557     packuswb    mm0, mm0                      ; dc in bytes
558     STORE16x16  mm0, mm0
559 %endmacro
560
561 cglobal predict_16x16_dc_core_mmxext, 1,2
562 %ifdef ARCH_X86_64
563     movd         mm2, r1d
564     PRED16x16_DC mm2, 5
565 %else
566     PRED16x16_DC r1m, 5
567 %endif
568     REP_RET
569
570 cglobal predict_16x16_dc_top_mmxext, 1,2,1
571     PRED16x16_DC [pw_8 GLOBAL], 4
572     REP_RET
573
574 ;-----------------------------------------------------------------------------
575 ; void predict_16x16_dc_core_sse2( uint8_t *src, int i_dc_left )
576 ;-----------------------------------------------------------------------------
577
578 %macro PRED16x16_DC_SSE2 2
579     pxor        xmm0, xmm0
580     psadbw      xmm0, [r0 - FDEC_STRIDE]
581     movhlps     xmm1, xmm0
582     paddw       xmm0, xmm1
583     paddusw     xmm0, %1
584     psrlw       xmm0, %2                ; dc
585     pshuflw     xmm0, xmm0, 0
586     punpcklqdq  xmm0, xmm0
587     packuswb    xmm0, xmm0              ; dc in bytes
588     STORE16x16_SSE2 xmm0
589 %endmacro
590
591 cglobal predict_16x16_dc_core_sse2, 1,2
592     movd xmm2, r1m
593     PRED16x16_DC_SSE2 xmm2, 5
594     REP_RET
595
596 cglobal predict_16x16_dc_top_sse2, 1,2,1
597     PRED16x16_DC_SSE2 [pw_8 GLOBAL], 4
598     REP_RET
599