]> git.sesse.net Git - x264/blob - common/x86/sad16-a.asm
Solaris: use sysconf to get processor count
[x264] / common / x86 / sad16-a.asm
1 ;*****************************************************************************
2 ;* sad16-a.asm: x86 high depth sad functions
3 ;*****************************************************************************
4 ;* Copyright (C) 2010-2012 x264 project
5 ;*
6 ;* Authors: Oskar Arvidsson <oskar@irock.se>
7 ;*
8 ;* This program is free software; you can redistribute it and/or modify
9 ;* it under the terms of the GNU General Public License as published by
10 ;* the Free Software Foundation; either version 2 of the License, or
11 ;* (at your option) any later version.
12 ;*
13 ;* This program is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
16 ;* GNU General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU General Public License
19 ;* along with this program; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
21 ;*
22 ;* This program is also available under a commercial proprietary license.
23 ;* For more information, contact us at licensing@x264.com.
24 ;*****************************************************************************
25
26 %include "x86inc.asm"
27 %include "x86util.asm"
28
29 SECTION .text
30
31 cextern pw_1
32 cextern pw_4
33 cextern pw_8
34
35 ;=============================================================================
36 ; SAD MMX
37 ;=============================================================================
38
39 %macro SAD_INC_1x16P_MMX 0
40     movu    m1, [r0+ 0]
41     movu    m2, [r0+ 8]
42     movu    m3, [r0+16]
43     movu    m4, [r0+24]
44     psubw   m1, [r2+ 0]
45     psubw   m2, [r2+ 8]
46     psubw   m3, [r2+16]
47     psubw   m4, [r2+24]
48     ABSW2   m1, m2, m1, m2, m5, m6
49     ABSW2   m3, m4, m3, m4, m7, m5
50     lea     r0, [r0+2*r1]
51     lea     r2, [r2+2*r3]
52     paddw   m1, m2
53     paddw   m3, m4
54     paddw   m0, m1
55     paddw   m0, m3
56 %endmacro
57
58 %macro SAD_INC_2x8P_MMX 0
59     movu    m1, [r0+0]
60     movu    m2, [r0+8]
61     movu    m3, [r0+2*r1+0]
62     movu    m4, [r0+2*r1+8]
63     psubw   m1, [r2+0]
64     psubw   m2, [r2+8]
65     psubw   m3, [r2+2*r3+0]
66     psubw   m4, [r2+2*r3+8]
67     ABSW2   m1, m2, m1, m2, m5, m6
68     ABSW2   m3, m4, m3, m4, m7, m5
69     lea     r0, [r0+4*r1]
70     lea     r2, [r2+4*r3]
71     paddw   m1, m2
72     paddw   m3, m4
73     paddw   m0, m1
74     paddw   m0, m3
75 %endmacro
76
77 %macro SAD_INC_2x4P_MMX 0
78     movu    m1, [r0]
79     movu    m2, [r0+2*r1]
80     psubw   m1, [r2]
81     psubw   m2, [r2+2*r3]
82     ABSW2   m1, m2, m1, m2, m3, m4
83     lea     r0, [r0+4*r1]
84     lea     r2, [r2+4*r3]
85     paddw   m0, m1
86     paddw   m0, m2
87 %endmacro
88
89 ;-----------------------------------------------------------------------------
90 ; int pixel_sad_NxM( uint16_t *, intptr_t, uint16_t *, intptr_t )
91 ;-----------------------------------------------------------------------------
92 %macro SAD_MMX 3
93 cglobal pixel_sad_%1x%2, 4,4
94     pxor    m0, m0
95 %rep %2/%3
96     SAD_INC_%3x%1P_MMX
97 %endrep
98 %if %1*%2 == 256
99     HADDUW  m0, m1
100 %else
101     HADDW   m0, m1
102 %endif
103     movd   eax, m0
104     RET
105 %endmacro
106
107 INIT_MMX mmx2
108 SAD_MMX 16, 16, 1
109 SAD_MMX 16,  8, 1
110 SAD_MMX  8, 16, 2
111 SAD_MMX  8,  8, 2
112 SAD_MMX  8,  4, 2
113 SAD_MMX  4,  8, 2
114 SAD_MMX  4,  4, 2
115 INIT_MMX ssse3
116 SAD_MMX  4,  8, 2
117 SAD_MMX  4,  4, 2
118
119 ;=============================================================================
120 ; SAD XMM
121 ;=============================================================================
122
123 %macro SAD_INC_2x16P_XMM 0
124     movu    m1, [r2+ 0]
125     movu    m2, [r2+16]
126     movu    m3, [r2+2*r3+ 0]
127     movu    m4, [r2+2*r3+16]
128     psubw   m1, [r0+ 0]
129     psubw   m2, [r0+16]
130     psubw   m3, [r0+2*r1+ 0]
131     psubw   m4, [r0+2*r1+16]
132     ABSW2   m1, m2, m1, m2, m5, m6
133     lea     r0, [r0+4*r1]
134     lea     r2, [r2+4*r3]
135     ABSW2   m3, m4, m3, m4, m7, m5
136     paddw   m1, m2
137     paddw   m3, m4
138     paddw   m0, m1
139     paddw   m0, m3
140 %endmacro
141
142 %macro SAD_INC_2x8P_XMM 0
143     movu    m1, [r2]
144     movu    m2, [r2+2*r3]
145     psubw   m1, [r0]
146     psubw   m2, [r0+2*r1]
147     ABSW2   m1, m2, m1, m2, m3, m4
148     lea     r0, [r0+4*r1]
149     lea     r2, [r2+4*r3]
150     paddw   m0, m1
151     paddw   m0, m2
152 %endmacro
153
154 ;-----------------------------------------------------------------------------
155 ; int pixel_sad_NxM( uint16_t *, intptr_t, uint16_t *, intptr_t )
156 ;-----------------------------------------------------------------------------
157 %macro SAD_XMM 2
158 cglobal pixel_sad_%1x%2, 4,4,8
159     pxor    m0, m0
160 %rep %2/2
161     SAD_INC_2x%1P_XMM
162 %endrep
163     HADDW   m0, m1
164     movd   eax, m0
165     RET
166 %endmacro
167
168 INIT_XMM sse2
169 SAD_XMM 16, 16
170 SAD_XMM 16,  8
171 SAD_XMM  8, 16
172 SAD_XMM  8,  8
173 SAD_XMM  8,  4
174 INIT_XMM sse2, aligned
175 SAD_XMM 16, 16
176 SAD_XMM 16,  8
177 SAD_XMM  8, 16
178 SAD_XMM  8,  8
179 INIT_XMM ssse3
180 SAD_XMM 16, 16
181 SAD_XMM 16,  8
182 SAD_XMM  8, 16
183 SAD_XMM  8,  8
184 SAD_XMM  8,  4
185 INIT_XMM ssse3, aligned
186 SAD_XMM 16, 16
187 SAD_XMM 16,  8
188 SAD_XMM  8, 16
189 SAD_XMM  8,  8
190
191 ;=============================================================================
192 ; SAD x3/x4
193 ;=============================================================================
194
195 %macro SAD_X3_INC_P 0
196     add     r0, 4*FENC_STRIDE
197     lea     r1, [r1+4*r4]
198     lea     r2, [r2+4*r4]
199     lea     r3, [r3+4*r4]
200 %endmacro
201
202 %macro SAD_X3_ONE_START 0
203     mova    m3, [r0]
204     movu    m0, [r1]
205     movu    m1, [r2]
206     movu    m2, [r3]
207     psubw   m0, m3
208     psubw   m1, m3
209     psubw   m2, m3
210     ABSW2   m0, m1, m0, m1, m4, m5
211     ABSW    m2, m2, m6
212 %endmacro
213
214 %macro SAD_X3_ONE 2
215     mova    m6, [r0+%1]
216     movu    m3, [r1+%2]
217     movu    m4, [r2+%2]
218     movu    m5, [r3+%2]
219     psubw   m3, m6
220     psubw   m4, m6
221     psubw   m5, m6
222     ABSW2   m3, m4, m3, m4, m7, m6
223     ABSW    m5, m5, m6
224     paddw   m0, m3
225     paddw   m1, m4
226     paddw   m2, m5
227 %endmacro
228
229 %macro SAD_X3_END 2
230 %if mmsize == 8 && %1*%2 == 256
231     HADDUW   m0, m3
232     HADDUW   m1, m4
233     HADDUW   m2, m5
234 %else
235     HADDW    m0, m3
236     HADDW    m1, m4
237     HADDW    m2, m5
238 %endif
239 %if UNIX64
240     movd [r5+0], m0
241     movd [r5+4], m1
242     movd [r5+8], m2
243 %else
244     mov      r0, r5mp
245     movd [r0+0], m0
246     movd [r0+4], m1
247     movd [r0+8], m2
248 %endif
249     RET
250 %endmacro
251
252 %macro SAD_X4_INC_P 0
253     add     r0, 4*FENC_STRIDE
254     lea     r1, [r1+4*r5]
255     lea     r2, [r2+4*r5]
256     lea     r3, [r3+4*r5]
257     lea     r4, [r4+4*r5]
258 %endmacro
259
260 %macro SAD_X4_ONE_START 0
261     mova    m4, [r0]
262     movu    m0, [r1]
263     movu    m1, [r2]
264     movu    m2, [r3]
265     movu    m3, [r4]
266     psubw   m0, m4
267     psubw   m1, m4
268     psubw   m2, m4
269     psubw   m3, m4
270     ABSW2   m0, m1, m0, m1, m5, m6
271     ABSW2   m2, m3, m2, m3, m4, m7
272 %endmacro
273
274 %macro SAD_X4_ONE 2
275     mova    m4, [r0+%1]
276     movu    m5, [r1+%2]
277     movu    m6, [r2+%2]
278 %if num_mmregs > 8
279     movu    m7, [r3+%2]
280     movu    m8, [r4+%2]
281     psubw   m5, m4
282     psubw   m6, m4
283     psubw   m7, m4
284     psubw   m8, m4
285     ABSW2   m5, m6, m5, m6, m9, m10
286     ABSW2   m7, m8, m7, m8, m9, m10
287     paddw   m0, m5
288     paddw   m1, m6
289     paddw   m2, m7
290     paddw   m3, m8
291 %elif cpuflag(ssse3)
292     movu    m7, [r3+%2]
293     psubw   m5, m4
294     psubw   m6, m4
295     psubw   m7, m4
296     movu    m4, [r4+%2]
297     pabsw   m5, m5
298     psubw   m4, [r0+%1]
299     pabsw   m6, m6
300     pabsw   m7, m7
301     pabsw   m4, m4
302     paddw   m0, m5
303     paddw   m1, m6
304     paddw   m2, m7
305     paddw   m3, m4
306 %else ; num_mmregs == 8 && !ssse3
307     psubw   m5, m4
308     psubw   m6, m4
309     ABSW    m5, m5, m7
310     ABSW    m6, m6, m7
311     paddw   m0, m5
312     paddw   m1, m6
313     movu    m5, [r3+%2]
314     movu    m6, [r4+%2]
315     psubw   m5, m4
316     psubw   m6, m4
317     ABSW2   m5, m6, m5, m6, m7, m4
318     paddw   m2, m5
319     paddw   m3, m6
320 %endif
321 %endmacro
322
323 %macro SAD_X4_END 2
324 %if mmsize == 8 && %1*%2 == 256
325     HADDUW    m0, m4
326     HADDUW    m1, m5
327     HADDUW    m2, m6
328     HADDUW    m3, m7
329 %else
330     HADDW     m0, m4
331     HADDW     m1, m5
332     HADDW     m2, m6
333     HADDW     m3, m7
334 %endif
335     mov       r0, r6mp
336     movd [r0+ 0], m0
337     movd [r0+ 4], m1
338     movd [r0+ 8], m2
339     movd [r0+12], m3
340     RET
341 %endmacro
342
343 %macro SAD_X_2xNP 4
344     %assign x %3
345 %rep %4
346     SAD_X%1_ONE x*mmsize, x*mmsize
347     SAD_X%1_ONE 2*FENC_STRIDE+x*mmsize, 2*%2+x*mmsize
348     %assign x x+1
349 %endrep
350 %endmacro
351
352 %macro PIXEL_VSAD 0
353 cglobal pixel_vsad, 3,3,8
354     mova      m0, [r0]
355     mova      m1, [r0+16]
356     mova      m2, [r0+2*r1]
357     mova      m3, [r0+2*r1+16]
358     lea       r0, [r0+4*r1]
359     psubw     m0, m2
360     psubw     m1, m3
361     ABSW2     m0, m1, m0, m1, m4, m5
362     paddw     m0, m1
363     sub      r2d, 2
364     je .end
365 .loop:
366     mova      m4, [r0]
367     mova      m5, [r0+16]
368     mova      m6, [r0+2*r1]
369     mova      m7, [r0+2*r1+16]
370     lea       r0, [r0+4*r1]
371     psubw     m2, m4
372     psubw     m3, m5
373     psubw     m4, m6
374     psubw     m5, m7
375     ABSW      m2, m2, m1
376     ABSW      m3, m3, m1
377     ABSW      m4, m4, m1
378     ABSW      m5, m5, m1
379     paddw     m0, m2
380     paddw     m0, m3
381     paddw     m0, m4
382     paddw     m0, m5
383     mova      m2, m6
384     mova      m3, m7
385     sub r2d, 2
386     jg .loop
387 .end:
388 %if BIT_DEPTH == 9
389     HADDW     m0, m1 ; max sum: 62(pixel diffs)*511(pixel_max)=31682
390 %else
391     HADDUW    m0, m1 ; max sum: 62(pixel diffs)*1023(pixel_max)=63426
392 %endif
393     movd     eax, m0
394     RET
395 %endmacro
396 INIT_XMM sse2
397 PIXEL_VSAD
398 INIT_XMM ssse3
399 PIXEL_VSAD
400 INIT_XMM xop
401 PIXEL_VSAD
402
403 ;-----------------------------------------------------------------------------
404 ; void pixel_sad_xK_MxN( uint16_t *fenc, uint16_t *pix0, uint16_t *pix1,
405 ;                        uint16_t *pix2, intptr_t i_stride, int scores[3] )
406 ;-----------------------------------------------------------------------------
407 %macro SAD_X 3
408 cglobal pixel_sad_x%1_%2x%3, 6,7,XMM_REGS
409     %assign regnum %1+1
410     %xdefine STRIDE r %+ regnum
411     mov     r6, %3/2-1
412     SAD_X%1_ONE_START
413     SAD_X%1_ONE 2*FENC_STRIDE, 2*STRIDE
414     SAD_X_2xNP %1, STRIDE, 1, %2/(mmsize/2)-1
415 .loop:
416     SAD_X%1_INC_P
417     SAD_X_2xNP %1, STRIDE, 0, %2/(mmsize/2)
418     dec     r6
419     jg .loop
420 %if %1 == 4
421     mov     r6, r6m
422 %endif
423     SAD_X%1_END %2, %3
424 %endmacro
425
426 INIT_MMX mmx2
427 %define XMM_REGS 0
428 SAD_X 3, 16, 16
429 SAD_X 3, 16,  8
430 SAD_X 3,  8, 16
431 SAD_X 3,  8,  8
432 SAD_X 3,  8,  4
433 SAD_X 3,  4,  8
434 SAD_X 3,  4,  4
435 SAD_X 4, 16, 16
436 SAD_X 4, 16,  8
437 SAD_X 4,  8, 16
438 SAD_X 4,  8,  8
439 SAD_X 4,  8,  4
440 SAD_X 4,  4,  8
441 SAD_X 4,  4,  4
442 INIT_MMX ssse3
443 SAD_X 3,  4,  8
444 SAD_X 3,  4,  4
445 SAD_X 4,  4,  8
446 SAD_X 4,  4,  4
447 INIT_XMM ssse3
448 %define XMM_REGS 9
449 SAD_X 3, 16, 16
450 SAD_X 3, 16,  8
451 SAD_X 3,  8, 16
452 SAD_X 3,  8,  8
453 SAD_X 3,  8,  4
454 SAD_X 4, 16, 16
455 SAD_X 4, 16,  8
456 SAD_X 4,  8, 16
457 SAD_X 4,  8,  8
458 SAD_X 4,  8,  4
459 INIT_XMM sse2
460 %define XMM_REGS 11
461 SAD_X 3, 16, 16
462 SAD_X 3, 16,  8
463 SAD_X 3,  8, 16
464 SAD_X 3,  8,  8
465 SAD_X 3,  8,  4
466 SAD_X 4, 16, 16
467 SAD_X 4, 16,  8
468 SAD_X 4,  8, 16
469 SAD_X 4,  8,  8
470 SAD_X 4,  8,  4
471
472 ;-----------------------------------------------------------------------------
473 ; void intra_sad_x3_4x4( uint16_t *fenc, uint16_t *fdec, int res[3] );
474 ;-----------------------------------------------------------------------------
475
476 %macro INTRA_SAD_X3_4x4 0
477 cglobal intra_sad_x3_4x4, 3,3,7
478     movq      m0, [r1-1*FDEC_STRIDEB]
479     movq      m1, [r0+0*FENC_STRIDEB]
480     movq      m2, [r0+2*FENC_STRIDEB]
481     pshuflw   m6, m0, q1032
482     paddw     m6, m0
483     pshuflw   m5, m6, q2301
484     paddw     m6, m5
485     punpcklqdq m6, m6       ;A+B+C+D 8 times
486     punpcklqdq m0, m0
487     movhps    m1, [r0+1*FENC_STRIDEB]
488     movhps    m2, [r0+3*FENC_STRIDEB]
489     psubw     m3, m1, m0
490     psubw     m0, m2
491     ABSW      m3, m3, m5
492     ABSW      m0, m0, m5
493     paddw     m0, m3
494     HADDW     m0, m5
495     movd    [r2], m0 ;V prediction cost
496     movd      m3, [r1+0*FDEC_STRIDEB-4]
497     movhps    m3, [r1+1*FDEC_STRIDEB-8]
498     movd      m4, [r1+2*FDEC_STRIDEB-4]
499     movhps    m4, [r1+3*FDEC_STRIDEB-8]
500     pshufhw   m3, m3, q3333
501     pshufhw   m4, m4, q3333
502     pshuflw   m3, m3, q1111 ; FF FF EE EE
503     pshuflw   m4, m4, q1111 ; HH HH GG GG
504     paddw     m5, m3, m4
505     pshufd    m0, m5, q1032
506     paddw     m5, m6
507     paddw     m5, m0
508     paddw     m5, [pw_4]
509     psrlw     m5, 3
510     psubw     m6, m5, m2
511     psubw     m5, m1
512     psubw     m1, m3
513     psubw     m2, m4
514     ABSW      m5, m5, m0
515     ABSW      m6, m6, m0
516     ABSW      m1, m1, m0
517     ABSW      m2, m2, m0
518     paddw     m5, m6
519     paddw     m1, m2
520     HADDW     m5, m0
521     HADDW     m1, m2
522     movd  [r2+8], m5        ;DC prediction cost
523     movd  [r2+4], m1        ;H prediction cost
524     RET
525 %endmacro
526
527 INIT_XMM sse2
528 INTRA_SAD_X3_4x4
529 INIT_XMM ssse3
530 INTRA_SAD_X3_4x4
531 INIT_XMM avx
532 INTRA_SAD_X3_4x4
533
534 ;-----------------------------------------------------------------------------
535 ; void intra_sad_x3_8x8( pixel *fenc, pixel edge[36], int res[3] );
536 ;-----------------------------------------------------------------------------
537
538 ;m0 = DC
539 ;m6 = V
540 ;m7 = H
541 ;m1 = DC score
542 ;m2 = V score
543 ;m3 = H score
544 ;m5 = temp
545 ;m4 = pixel row
546
547 %macro INTRA_SAD_HVDC_ITER 2
548     mova        m4, [r0+(%1-4)*FENC_STRIDEB]
549     psubw       m4, m0
550     ABSW        m4, m4, m5
551     ACCUM    paddw, 1, 4, %1
552     mova        m4, [r0+(%1-4)*FENC_STRIDEB]
553     psubw       m4, m6
554     ABSW        m4, m4, m5
555     ACCUM    paddw, 2, 4, %1
556     pshufd      m5, m7, %2
557     psubw       m5, [r0+(%1-4)*FENC_STRIDEB]
558     ABSW        m5, m5, m4
559     ACCUM    paddw, 3, 5, %1
560 %endmacro
561
562 %macro INTRA_SAD_X3_8x8 0
563 cglobal intra_sad_x3_8x8, 3,3,8
564     add         r0, 4*FENC_STRIDEB
565     movu        m0, [r1+7*SIZEOF_PIXEL]
566     mova        m6, [r1+16*SIZEOF_PIXEL] ;V prediction
567     mova        m7, m0
568     paddw       m0, m6
569     punpckhwd   m7, m7
570     HADDW       m0, m4
571     paddw       m0, [pw_8]
572     psrlw       m0, 4
573     SPLATW      m0, m0
574     INTRA_SAD_HVDC_ITER 0, q3333
575     INTRA_SAD_HVDC_ITER 1, q2222
576     INTRA_SAD_HVDC_ITER 2, q1111
577     INTRA_SAD_HVDC_ITER 3, q0000
578     movq        m7, [r1+7*SIZEOF_PIXEL]
579     punpcklwd   m7, m7
580     INTRA_SAD_HVDC_ITER 4, q3333
581     INTRA_SAD_HVDC_ITER 5, q2222
582     INTRA_SAD_HVDC_ITER 6, q1111
583     INTRA_SAD_HVDC_ITER 7, q0000
584     HADDW       m2, m4
585     HADDW       m3, m4
586     HADDW       m1, m4
587     movd    [r2+0], m2
588     movd    [r2+4], m3
589     movd    [r2+8], m1
590     RET
591 %endmacro
592
593 INIT_XMM sse2
594 INTRA_SAD_X3_8x8
595 INIT_XMM ssse3
596 INTRA_SAD_X3_8x8