git.sesse.net Git - x264/blob - common/x86/pixel-a.asm

   1 ;*****************************************************************************
   2 ;* pixel.asm: x86 pixel metrics
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2003-2016 x264 project
   5 ;*
   6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
   7 ;*          Holger Lubitz <holger@lubitz.org>
   8 ;*          Laurent Aimar <fenrir@via.ecp.fr>
   9 ;*          Alex Izvorski <aizvorksi@gmail.com>
  10 ;*          Fiona Glaser <fiona@x264.com>
  11 ;*          Oskar Arvidsson <oskar@irock.se>
  12 ;*
  13 ;* This program is free software; you can redistribute it and/or modify
  14 ;* it under the terms of the GNU General Public License as published by
  15 ;* the Free Software Foundation; either version 2 of the License, or
  16 ;* (at your option) any later version.
  17 ;*
  18 ;* This program is distributed in the hope that it will be useful,
  19 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  20 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  21 ;* GNU General Public License for more details.
  22 ;*
  23 ;* You should have received a copy of the GNU General Public License
  24 ;* along with this program; if not, write to the Free Software
  25 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  26 ;*
  27 ;* This program is also available under a commercial proprietary license.
  28 ;* For more information, contact us at licensing@x264.com.
  29 ;*****************************************************************************
  30
  31 %include "x86inc.asm"
  32 %include "x86util.asm"
  33
  34 SECTION_RODATA 32
  35 hmul_16p:  times 16 db 1
  36            times 8 db 1, -1
  37 hmul_8p:   times 8 db 1
  38            times 4 db 1, -1
  39            times 8 db 1
  40            times 4 db 1, -1
  41 mask_ff:   times 16 db 0xff
  42            times 16 db 0
  43 mask_ac4:  times 2 dw 0, -1, -1, -1, 0, -1, -1, -1
  44 mask_ac4b: times 2 dw 0, -1, 0, -1, -1, -1, -1, -1
  45 mask_ac8:  times 2 dw 0, -1, -1, -1, -1, -1, -1, -1
  46 %if BIT_DEPTH == 10
  47 ssim_c1:   times 4 dd 6697.7856    ; .01*.01*1023*1023*64
  48 ssim_c2:   times 4 dd 3797644.4352 ; .03*.03*1023*1023*64*63
  49 pf_64:     times 4 dd 64.0
  50 pf_128:    times 4 dd 128.0
  51 %elif BIT_DEPTH == 9
  52 ssim_c1:   times 4 dd 1671         ; .01*.01*511*511*64
  53 ssim_c2:   times 4 dd 947556       ; .03*.03*511*511*64*63
  54 %else ; 8-bit
  55 ssim_c1:   times 4 dd 416          ; .01*.01*255*255*64
  56 ssim_c2:   times 4 dd 235963       ; .03*.03*255*255*64*63
  57 %endif
  58 hmul_4p:   times 2 db 1, 1, 1, 1, 1, -1, 1, -1
  59 mask_10:   times 4 dw 0, -1
  60 mask_1100: times 2 dd 0, -1
  61 pb_pppm:   times 4 db 1,1,1,-1
  62 deinterleave_shuf: db 0, 2, 4, 6, 8, 10, 12, 14, 1, 3, 5, 7, 9, 11, 13, 15
  63 intrax3_shuf: db 7,6,7,6,5,4,5,4,3,2,3,2,1,0,1,0
  64
  65 intrax9a_ddlr1: db  6, 7, 8, 9, 7, 8, 9,10, 4, 5, 6, 7, 3, 4, 5, 6
  66 intrax9a_ddlr2: db  8, 9,10,11, 9,10,11,12, 2, 3, 4, 5, 1, 2, 3, 4
  67 intrax9a_hdu1:  db 15, 4, 5, 6,14, 3,15, 4,14, 2,13, 1,13, 1,12, 0
  68 intrax9a_hdu2:  db 13, 2,14, 3,12, 1,13, 2,12, 0,11,11,11,11,11,11
  69 intrax9a_vrl1:  db 10,11,12,13, 3, 4, 5, 6,11,12,13,14, 5, 6, 7, 8
  70 intrax9a_vrl2:  db  2,10,11,12, 1, 3, 4, 5,12,13,14,15, 6, 7, 8, 9
  71 intrax9a_vh1:   db  6, 7, 8, 9, 6, 7, 8, 9, 4, 4, 4, 4, 3, 3, 3, 3
  72 intrax9a_vh2:   db  6, 7, 8, 9, 6, 7, 8, 9, 2, 2, 2, 2, 1, 1, 1, 1
  73 intrax9a_dc:    db  1, 2, 3, 4, 6, 7, 8, 9,-1,-1,-1,-1,-1,-1,-1,-1
  74 intrax9a_lut:   db 0x60,0x68,0x80,0x00,0x08,0x20,0x40,0x28,0x48,0,0,0,0,0,0,0
  75 pw_s01234567:   dw 0x8000,0x8001,0x8002,0x8003,0x8004,0x8005,0x8006,0x8007
  76 pw_s01234657:   dw 0x8000,0x8001,0x8002,0x8003,0x8004,0x8006,0x8005,0x8007
  77 intrax9_edge:   db  0, 0, 1, 2, 3, 7, 8, 9,10,11,12,13,14,15,15,15
  78
  79 intrax9b_ddlr1: db  6, 7, 8, 9, 4, 5, 6, 7, 7, 8, 9,10, 3, 4, 5, 6
  80 intrax9b_ddlr2: db  8, 9,10,11, 2, 3, 4, 5, 9,10,11,12, 1, 2, 3, 4
  81 intrax9b_hdu1:  db 15, 4, 5, 6,14, 2,13, 1,14, 3,15, 4,13, 1,12, 0
  82 intrax9b_hdu2:  db 13, 2,14, 3,12, 0,11,11,12, 1,13, 2,11,11,11,11
  83 intrax9b_vrl1:  db 10,11,12,13,11,12,13,14, 3, 4, 5, 6, 5, 6, 7, 8
  84 intrax9b_vrl2:  db  2,10,11,12,12,13,14,15, 1, 3, 4, 5, 6, 7, 8, 9
  85 intrax9b_vh1:   db  6, 7, 8, 9, 4, 4, 4, 4, 6, 7, 8, 9, 3, 3, 3, 3
  86 intrax9b_vh2:   db  6, 7, 8, 9, 2, 2, 2, 2, 6, 7, 8, 9, 1, 1, 1, 1
  87 intrax9b_edge2: db  6, 7, 8, 9, 6, 7, 8, 9, 4, 3, 2, 1, 4, 3, 2, 1
  88 intrax9b_v1:    db  0, 1,-1,-1,-1,-1,-1,-1, 4, 5,-1,-1,-1,-1,-1,-1
  89 intrax9b_v2:    db  2, 3,-1,-1,-1,-1,-1,-1, 6, 7,-1,-1,-1,-1,-1,-1
  90 intrax9b_lut:   db 0x60,0x64,0x80,0x00,0x04,0x20,0x40,0x24,0x44,0,0,0,0,0,0,0
  91
  92 ALIGN 32
  93 intra8x9_h1:   db  7, 7, 7, 7, 7, 7, 7, 7, 5, 5, 5, 5, 5, 5, 5, 5
  94 intra8x9_h2:   db  6, 6, 6, 6, 6, 6, 6, 6, 4, 4, 4, 4, 4, 4, 4, 4
  95 intra8x9_h3:   db  3, 3, 3, 3, 3, 3, 3, 3, 1, 1, 1, 1, 1, 1, 1, 1
  96 intra8x9_h4:   db  2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0
  97 intra8x9_ddl1: db  1, 2, 3, 4, 5, 6, 7, 8, 3, 4, 5, 6, 7, 8, 9,10
  98 intra8x9_ddl2: db  2, 3, 4, 5, 6, 7, 8, 9, 4, 5, 6, 7, 8, 9,10,11
  99 intra8x9_ddl3: db  5, 6, 7, 8, 9,10,11,12, 7, 8, 9,10,11,12,13,14
 100 intra8x9_ddl4: db  6, 7, 8, 9,10,11,12,13, 8, 9,10,11,12,13,14,15
 101 intra8x9_vl1:  db  0, 1, 2, 3, 4, 5, 6, 7, 1, 2, 3, 4, 5, 6, 7, 8
 102 intra8x9_vl2:  db  1, 2, 3, 4, 5, 6, 7, 8, 2, 3, 4, 5, 6, 7, 8, 9
 103 intra8x9_vl3:  db  2, 3, 4, 5, 6, 7, 8, 9, 3, 4, 5, 6, 7, 8, 9,10
 104 intra8x9_vl4:  db  3, 4, 5, 6, 7, 8, 9,10, 4, 5, 6, 7, 8, 9,10,11
 105 intra8x9_ddr1: db  8, 9,10,11,12,13,14,15, 6, 7, 8, 9,10,11,12,13
 106 intra8x9_ddr2: db  7, 8, 9,10,11,12,13,14, 5, 6, 7, 8, 9,10,11,12
 107 intra8x9_ddr3: db  4, 5, 6, 7, 8, 9,10,11, 2, 3, 4, 5, 6, 7, 8, 9
 108 intra8x9_ddr4: db  3, 4, 5, 6, 7, 8, 9,10, 1, 2, 3, 4, 5, 6, 7, 8
 109 intra8x9_vr1:  db  8, 9,10,11,12,13,14,15, 7, 8, 9,10,11,12,13,14
 110 intra8x9_vr2:  db  8, 9,10,11,12,13,14,15, 6, 8, 9,10,11,12,13,14
 111 intra8x9_vr3:  db  5, 7, 8, 9,10,11,12,13, 3, 5, 7, 8, 9,10,11,12
 112 intra8x9_vr4:  db  4, 6, 8, 9,10,11,12,13, 2, 4, 6, 8, 9,10,11,12
 113 intra8x9_hd1:  db  3, 8, 9,10,11,12,13,14, 1, 6, 2, 7, 3, 8, 9,10
 114 intra8x9_hd2:  db  2, 7, 3, 8, 9,10,11,12, 0, 5, 1, 6, 2, 7, 3, 8
 115 intra8x9_hd3:  db  7, 8, 9,10,11,12,13,14, 3, 4, 5, 6, 7, 8, 9,10
 116 intra8x9_hd4:  db  5, 6, 7, 8, 9,10,11,12, 1, 2, 3, 4, 5, 6, 7, 8
 117 intra8x9_hu1:  db 13,12,11,10, 9, 8, 7, 6, 9, 8, 7, 6, 5, 4, 3, 2
 118 intra8x9_hu2:  db 11,10, 9, 8, 7, 6, 5, 4, 7, 6, 5, 4, 3, 2, 1, 0
 119 intra8x9_hu3:  db  5, 4, 3, 2, 1, 0,15,15, 1, 0,15,15,15,15,15,15
 120 intra8x9_hu4:  db  3, 2, 1, 0,15,15,15,15,15,15,15,15,15,15,15,15
 121 pw_s00112233:  dw 0x8000,0x8000,0x8001,0x8001,0x8002,0x8002,0x8003,0x8003
 122 pw_s00001111:  dw 0x8000,0x8000,0x8000,0x8000,0x8001,0x8001,0x8001,0x8001
 123
 124 transd_shuf1: SHUFFLE_MASK_W 0, 8, 2, 10, 4, 12, 6, 14
 125 transd_shuf2: SHUFFLE_MASK_W 1, 9, 3, 11, 5, 13, 7, 15
 126
 127 sw_f0:     dq 0xfff0, 0
 128 pd_f0:     times 4 dd 0xffff0000
 129
 130 pw_76543210: dw 0, 1, 2, 3, 4, 5, 6, 7
 131
 132 ads_mvs_shuffle:
 133 %macro ADS_MVS_SHUFFLE 8
 134     %assign y x
 135     %rep 8
 136         %rep 7
 137             %rotate (~y)&1
 138             %assign y y>>((~y)&1)
 139         %endrep
 140         db %1*2, %1*2+1
 141         %rotate 1
 142         %assign y y>>1
 143     %endrep
 144 %endmacro
 145 %assign x 0
 146 %rep 256
 147     ADS_MVS_SHUFFLE 0, 1, 2, 3, 4, 5, 6, 7
 148 %assign x x+1
 149 %endrep
 150
 151 SECTION .text
 152
 153 cextern pb_0
 154 cextern pb_1
 155 cextern pw_1
 156 cextern pw_8
 157 cextern pw_16
 158 cextern pw_32
 159 cextern pw_00ff
 160 cextern pw_ppppmmmm
 161 cextern pw_ppmmppmm
 162 cextern pw_pmpmpmpm
 163 cextern pw_pmmpzzzz
 164 cextern pd_1
 165 cextern hsub_mul
 166 cextern popcnt_table
 167
 168 ;=============================================================================
 169 ; SSD
 170 ;=============================================================================
 171
 172 %if HIGH_BIT_DEPTH
 173 ;-----------------------------------------------------------------------------
 174 ; int pixel_ssd_WxH( uint16_t *, intptr_t, uint16_t *, intptr_t )
 175 ;-----------------------------------------------------------------------------
 176 %macro SSD_ONE 2
 177 cglobal pixel_ssd_%1x%2, 4,7,6
 178     FIX_STRIDES r1, r3
 179 %if mmsize == %1*2
 180     %define offset0_1 r1
 181     %define offset0_2 r1*2
 182     %define offset0_3 r5
 183     %define offset1_1 r3
 184     %define offset1_2 r3*2
 185     %define offset1_3 r6
 186     lea     r5, [3*r1]
 187     lea     r6, [3*r3]
 188 %elif mmsize == %1
 189     %define offset0_1 mmsize
 190     %define offset0_2 r1
 191     %define offset0_3 r1+mmsize
 192     %define offset1_1 mmsize
 193     %define offset1_2 r3
 194     %define offset1_3 r3+mmsize
 195 %elif mmsize == %1/2
 196     %define offset0_1 mmsize
 197     %define offset0_2 mmsize*2
 198     %define offset0_3 mmsize*3
 199     %define offset1_1 mmsize
 200     %define offset1_2 mmsize*2
 201     %define offset1_3 mmsize*3
 202 %endif
 203     %assign %%n %2/(2*mmsize/%1)
 204 %if %%n > 1
 205     mov    r4d, %%n
 206 %endif
 207     pxor    m0, m0
 208 .loop:
 209     mova    m1, [r0]
 210     mova    m2, [r0+offset0_1]
 211     mova    m3, [r0+offset0_2]
 212     mova    m4, [r0+offset0_3]
 213     psubw   m1, [r2]
 214     psubw   m2, [r2+offset1_1]
 215     psubw   m3, [r2+offset1_2]
 216     psubw   m4, [r2+offset1_3]
 217 %if %%n > 1
 218     lea     r0, [r0+r1*(%2/%%n)]
 219     lea     r2, [r2+r3*(%2/%%n)]
 220 %endif
 221     pmaddwd m1, m1
 222     pmaddwd m2, m2
 223     pmaddwd m3, m3
 224     pmaddwd m4, m4
 225     paddd   m1, m2
 226     paddd   m3, m4
 227     paddd   m0, m1
 228     paddd   m0, m3
 229 %if %%n > 1
 230     dec    r4d
 231     jg .loop
 232 %endif
 233     HADDD   m0, m5
 234     movd   eax, xm0
 235     RET
 236 %endmacro
 237
 238 INIT_MMX mmx2
 239 SSD_ONE     4,  4
 240 SSD_ONE     4,  8
 241 SSD_ONE     4, 16
 242 SSD_ONE     8,  4
 243 SSD_ONE     8,  8
 244 SSD_ONE     8, 16
 245 SSD_ONE    16,  8
 246 SSD_ONE    16, 16
 247 INIT_XMM sse2
 248 SSD_ONE     8,  4
 249 SSD_ONE     8,  8
 250 SSD_ONE     8, 16
 251 SSD_ONE    16,  8
 252 SSD_ONE    16, 16
 253 INIT_YMM avx2
 254 SSD_ONE    16,  8
 255 SSD_ONE    16, 16
 256 %endif ; HIGH_BIT_DEPTH
 257
 258 %if HIGH_BIT_DEPTH == 0
 259 %macro SSD_LOAD_FULL 5
 260     mova      m1, [t0+%1]
 261     mova      m2, [t2+%2]
 262     mova      m3, [t0+%3]
 263     mova      m4, [t2+%4]
 264 %if %5==1
 265     add       t0, t1
 266     add       t2, t3
 267 %elif %5==2
 268     lea       t0, [t0+2*t1]
 269     lea       t2, [t2+2*t3]
 270 %endif
 271 %endmacro
 272
 273 %macro LOAD 5
 274     movh      m%1, %3
 275     movh      m%2, %4
 276 %if %5
 277     lea       t0, [t0+2*t1]
 278 %endif
 279 %endmacro
 280
 281 %macro JOIN 7
 282     movh      m%3, %5
 283     movh      m%4, %6
 284 %if %7
 285     lea       t2, [t2+2*t3]
 286 %endif
 287     punpcklbw m%1, m7
 288     punpcklbw m%3, m7
 289     psubw     m%1, m%3
 290     punpcklbw m%2, m7
 291     punpcklbw m%4, m7
 292     psubw     m%2, m%4
 293 %endmacro
 294
 295 %macro JOIN_SSE2 7
 296     movh      m%3, %5
 297     movh      m%4, %6
 298 %if %7
 299     lea       t2, [t2+2*t3]
 300 %endif
 301     punpcklqdq m%1, m%2
 302     punpcklqdq m%3, m%4
 303     DEINTB %2, %1, %4, %3, 7
 304     psubw m%2, m%4
 305     psubw m%1, m%3
 306 %endmacro
 307
 308 %macro JOIN_SSSE3 7
 309     movh      m%3, %5
 310     movh      m%4, %6
 311 %if %7
 312     lea       t2, [t2+2*t3]
 313 %endif
 314     punpcklbw m%1, m%3
 315     punpcklbw m%2, m%4
 316 %endmacro
 317
 318 %macro LOAD_AVX2 5
 319     mova     xm%1, %3
 320     vinserti128 m%1, m%1, %4, 1
 321 %if %5
 322     lea       t0, [t0+2*t1]
 323 %endif
 324 %endmacro
 325
 326 %macro JOIN_AVX2 7
 327     mova     xm%2, %5
 328     vinserti128 m%2, m%2, %6, 1
 329 %if %7
 330     lea       t2, [t2+2*t3]
 331 %endif
 332     SBUTTERFLY bw, %1, %2, %3
 333 %endmacro
 334
 335 %macro SSD_LOAD_HALF 5
 336     LOAD      1, 2, [t0+%1], [t0+%3], 1
 337     JOIN      1, 2, 3, 4, [t2+%2], [t2+%4], 1
 338     LOAD      3, 4, [t0+%1], [t0+%3], %5
 339     JOIN      3, 4, 5, 6, [t2+%2], [t2+%4], %5
 340 %endmacro
 341
 342 %macro SSD_CORE 7-8
 343 %ifidn %8, FULL
 344     mova      m%6, m%2
 345     mova      m%7, m%4
 346     psubusb   m%2, m%1
 347     psubusb   m%4, m%3
 348     psubusb   m%1, m%6
 349     psubusb   m%3, m%7
 350     por       m%1, m%2
 351     por       m%3, m%4
 352     punpcklbw m%2, m%1, m%5
 353     punpckhbw m%1, m%5
 354     punpcklbw m%4, m%3, m%5
 355     punpckhbw m%3, m%5
 356 %endif
 357     pmaddwd   m%1, m%1
 358     pmaddwd   m%2, m%2
 359     pmaddwd   m%3, m%3
 360     pmaddwd   m%4, m%4
 361 %endmacro
 362
 363 %macro SSD_CORE_SSE2 7-8
 364 %ifidn %8, FULL
 365     DEINTB %6, %1, %7, %2, %5
 366     psubw m%6, m%7
 367     psubw m%1, m%2
 368     SWAP %6, %2, %1
 369     DEINTB %6, %3, %7, %4, %5
 370     psubw m%6, m%7
 371     psubw m%3, m%4
 372     SWAP %6, %4, %3
 373 %endif
 374     pmaddwd   m%1, m%1
 375     pmaddwd   m%2, m%2
 376     pmaddwd   m%3, m%3
 377     pmaddwd   m%4, m%4
 378 %endmacro
 379
 380 %macro SSD_CORE_SSSE3 7-8
 381 %ifidn %8, FULL
 382     punpckhbw m%6, m%1, m%2
 383     punpckhbw m%7, m%3, m%4
 384     punpcklbw m%1, m%2
 385     punpcklbw m%3, m%4
 386     SWAP %6, %2, %3
 387     SWAP %7, %4
 388 %endif
 389     pmaddubsw m%1, m%5
 390     pmaddubsw m%2, m%5
 391     pmaddubsw m%3, m%5
 392     pmaddubsw m%4, m%5
 393     pmaddwd   m%1, m%1
 394     pmaddwd   m%2, m%2
 395     pmaddwd   m%3, m%3
 396     pmaddwd   m%4, m%4
 397 %endmacro
 398
 399 %macro SSD_ITER 6
 400     SSD_LOAD_%1 %2,%3,%4,%5,%6
 401     SSD_CORE  1, 2, 3, 4, 7, 5, 6, %1
 402     paddd     m1, m2
 403     paddd     m3, m4
 404     paddd     m0, m1
 405     paddd     m0, m3
 406 %endmacro
 407
 408 ;-----------------------------------------------------------------------------
 409 ; int pixel_ssd_16x16( uint8_t *, intptr_t, uint8_t *, intptr_t )
 410 ;-----------------------------------------------------------------------------
 411 %macro SSD 2
 412 %if %1 != %2
 413     %assign function_align 8
 414 %else
 415     %assign function_align 16
 416 %endif
 417 cglobal pixel_ssd_%1x%2, 0,0,0
 418     mov     al, %1*%2/mmsize/2
 419
 420 %if %1 != %2
 421     jmp mangle(x264_pixel_ssd_%1x%1 %+ SUFFIX %+ .startloop)
 422 %else
 423
 424 .startloop:
 425 %if ARCH_X86_64
 426     DECLARE_REG_TMP 0,1,2,3
 427     PROLOGUE 0,0,8
 428 %else
 429     PROLOGUE 0,5
 430     DECLARE_REG_TMP 1,2,3,4
 431     mov t0, r0m
 432     mov t1, r1m
 433     mov t2, r2m
 434     mov t3, r3m
 435 %endif
 436
 437 %if cpuflag(ssse3)
 438     mova    m7, [hsub_mul]
 439 %elifidn cpuname, sse2
 440     mova    m7, [pw_00ff]
 441 %elif %1 >= mmsize
 442     pxor    m7, m7
 443 %endif
 444     pxor    m0, m0
 445
 446 ALIGN 16
 447 .loop:
 448 %if %1 > mmsize
 449     SSD_ITER FULL, 0, 0, mmsize, mmsize, 1
 450 %elif %1 == mmsize
 451     SSD_ITER FULL, 0, 0, t1, t3, 2
 452 %else
 453     SSD_ITER HALF, 0, 0, t1, t3, 2
 454 %endif
 455     dec     al
 456     jg .loop
 457 %if mmsize==32
 458     vextracti128 xm1, m0, 1
 459     paddd  xm0, xm1
 460     HADDD  xm0, xm1
 461     movd   eax, xm0
 462 %else
 463     HADDD   m0, m1
 464     movd   eax, m0
 465 %endif
 466     RET
 467 %endif
 468 %endmacro
 469
 470 INIT_MMX mmx
 471 SSD 16, 16
 472 SSD 16,  8
 473 SSD  8,  8
 474 SSD  8, 16
 475 SSD  4,  4
 476 SSD  8,  4
 477 SSD  4,  8
 478 SSD  4, 16
 479 INIT_XMM sse2slow
 480 SSD 16, 16
 481 SSD  8,  8
 482 SSD 16,  8
 483 SSD  8, 16
 484 SSD  8,  4
 485 INIT_XMM sse2
 486 %define SSD_CORE SSD_CORE_SSE2
 487 %define JOIN JOIN_SSE2
 488 SSD 16, 16
 489 SSD  8,  8
 490 SSD 16,  8
 491 SSD  8, 16
 492 SSD  8,  4
 493 INIT_XMM ssse3
 494 %define SSD_CORE SSD_CORE_SSSE3
 495 %define JOIN JOIN_SSSE3
 496 SSD 16, 16
 497 SSD  8,  8
 498 SSD 16,  8
 499 SSD  8, 16
 500 SSD  8,  4
 501 INIT_XMM avx
 502 SSD 16, 16
 503 SSD  8,  8
 504 SSD 16,  8
 505 SSD  8, 16
 506 SSD  8,  4
 507 INIT_MMX ssse3
 508 SSD  4,  4
 509 SSD  4,  8
 510 SSD  4, 16
 511 INIT_XMM xop
 512 SSD 16, 16
 513 SSD  8,  8
 514 SSD 16,  8
 515 SSD  8, 16
 516 SSD  8,  4
 517 %define LOAD LOAD_AVX2
 518 %define JOIN JOIN_AVX2
 519 INIT_YMM avx2
 520 SSD 16, 16
 521 SSD 16,  8
 522 %assign function_align 16
 523 %endif ; !HIGH_BIT_DEPTH
 524
 525 ;-----------------------------------------------------------------------------
 526 ; void pixel_ssd_nv12_core( uint16_t *pixuv1, intptr_t stride1, uint16_t *pixuv2, intptr_t stride2,
 527 ;                           int width, int height, uint64_t *ssd_u, uint64_t *ssd_v )
 528 ;
 529 ; The maximum width this function can handle without risk of overflow is given
 530 ; in the following equation: (mmsize in bits)
 531 ;
 532 ;   2 * mmsize/32 * (2^32 - 1) / (2^BIT_DEPTH - 1)^2
 533 ;
 534 ; For 10-bit MMX this means width >= 16416 and for XMM >= 32832. At sane
 535 ; distortion levels it will take much more than that though.
 536 ;-----------------------------------------------------------------------------
 537 %if HIGH_BIT_DEPTH
 538 %macro SSD_NV12 0
 539 cglobal pixel_ssd_nv12_core, 6,7,7
 540     shl        r4d, 2
 541     FIX_STRIDES r1, r3
 542     add         r0, r4
 543     add         r2, r4
 544     xor         r6, r6
 545     pxor        m4, m4
 546     pxor        m5, m5
 547     pxor        m6, m6
 548 .loopy:
 549     mov         r6, r4
 550     neg         r6
 551     pxor        m2, m2
 552     pxor        m3, m3
 553 .loopx:
 554     mova        m0, [r0+r6]
 555     mova        m1, [r0+r6+mmsize]
 556     psubw       m0, [r2+r6]
 557     psubw       m1, [r2+r6+mmsize]
 558     PSHUFLW     m0, m0, q3120
 559     PSHUFLW     m1, m1, q3120
 560 %if mmsize >= 16
 561     pshufhw     m0, m0, q3120
 562     pshufhw     m1, m1, q3120
 563 %endif
 564 %if cpuflag(xop)
 565     pmadcswd    m2, m0, m0, m2
 566     pmadcswd    m3, m1, m1, m3
 567 %else
 568     pmaddwd     m0, m0
 569     pmaddwd     m1, m1
 570     paddd       m2, m0
 571     paddd       m3, m1
 572 %endif
 573     add         r6, 2*mmsize
 574     jl .loopx
 575 %if mmsize == 32 ; avx2 may overread by 32 bytes, that has to be handled
 576     jz .no_overread
 577     psubd       m3, m1
 578 .no_overread:
 579 %endif
 580 %if mmsize >= 16 ; using HADDD would remove the mmsize/32 part from the
 581                  ; equation above, putting the width limit at 8208
 582     punpckhdq   m0, m2, m6
 583     punpckhdq   m1, m3, m6
 584     punpckldq   m2, m6
 585     punpckldq   m3, m6
 586     paddq       m3, m2
 587     paddq       m1, m0
 588     paddq       m4, m3
 589     paddq       m4, m1
 590 %else ; unfortunately paddq is sse2
 591       ; emulate 48 bit precision for mmx2 instead
 592     mova        m0, m2
 593     mova        m1, m3
 594     punpcklwd   m2, m6
 595     punpcklwd   m3, m6
 596     punpckhwd   m0, m6
 597     punpckhwd   m1, m6
 598     paddd       m3, m2
 599     paddd       m1, m0
 600     paddd       m4, m3
 601     paddd       m5, m1
 602 %endif
 603     add         r0, r1
 604     add         r2, r3
 605     dec        r5d
 606     jg .loopy
 607     mov         r3, r6m
 608     mov         r4, r7m
 609 %if mmsize == 32
 610     vextracti128 xm0, m4, 1
 611     paddq      xm4, xm0
 612 %endif
 613 %if mmsize >= 16
 614     movq      [r3], xm4
 615     movhps    [r4], xm4
 616 %else ; fixup for mmx2
 617     SBUTTERFLY dq, 4, 5, 0
 618     mova        m0, m4
 619     psrld       m4, 16
 620     paddd       m5, m4
 621     pslld       m0, 16
 622     SBUTTERFLY dq, 0, 5, 4
 623     psrlq       m0, 16
 624     psrlq       m5, 16
 625     movq      [r3], m0
 626     movq      [r4], m5
 627 %endif
 628     RET
 629 %endmacro ; SSD_NV12
 630 %endif ; HIGH_BIT_DEPTH
 631
 632 %if HIGH_BIT_DEPTH == 0
 633 ;-----------------------------------------------------------------------------
 634 ; void pixel_ssd_nv12_core( uint8_t *pixuv1, intptr_t stride1, uint8_t *pixuv2, intptr_t stride2,
 635 ;                           int width, int height, uint64_t *ssd_u, uint64_t *ssd_v )
 636 ;
 637 ; This implementation can potentially overflow on image widths >= 11008 (or
 638 ; 6604 if interlaced), since it is called on blocks of height up to 12 (resp
 639 ; 20). At sane distortion levels it will take much more than that though.
 640 ;-----------------------------------------------------------------------------
 641 %macro SSD_NV12 0
 642 cglobal pixel_ssd_nv12_core, 6,7
 643     add    r4d, r4d
 644     add     r0, r4
 645     add     r2, r4
 646     pxor    m3, m3
 647     pxor    m4, m4
 648     mova    m5, [pw_00ff]
 649 .loopy:
 650     mov     r6, r4
 651     neg     r6
 652 .loopx:
 653 %if mmsize == 32 ; only 16-byte alignment is guaranteed
 654     movu    m2, [r0+r6]
 655     movu    m1, [r2+r6]
 656 %else
 657     mova    m2, [r0+r6]
 658     mova    m1, [r2+r6]
 659 %endif
 660     psubusb m0, m2, m1
 661     psubusb m1, m2
 662     por     m0, m1
 663     psrlw   m2, m0, 8
 664     pand    m0, m5
 665 %if cpuflag(xop)
 666     pmadcswd m4, m2, m2, m4
 667     pmadcswd m3, m0, m0, m3
 668 %else
 669     pmaddwd m2, m2
 670     pmaddwd m0, m0
 671     paddd   m4, m2
 672     paddd   m3, m0
 673 %endif
 674     add     r6, mmsize
 675     jl .loopx
 676 %if mmsize == 32 ; avx2 may overread by 16 bytes, that has to be handled
 677     jz .no_overread
 678     pcmpeqb xm1, xm1
 679     pandn   m0, m1, m0 ; zero the lower half
 680     pandn   m2, m1, m2
 681     psubd   m3, m0
 682     psubd   m4, m2
 683 .no_overread:
 684 %endif
 685     add     r0, r1
 686     add     r2, r3
 687     dec    r5d
 688     jg .loopy
 689     mov     r3, r6m
 690     mov     r4, r7m
 691     HADDD   m3, m0
 692     HADDD   m4, m0
 693     pxor   xm0, xm0
 694     punpckldq xm3, xm0
 695     punpckldq xm4, xm0
 696     movq  [r3], xm3
 697     movq  [r4], xm4
 698     RET
 699 %endmacro ; SSD_NV12
 700 %endif ; !HIGH_BIT_DEPTH
 701
 702 INIT_MMX mmx2
 703 SSD_NV12
 704 INIT_XMM sse2
 705 SSD_NV12
 706 INIT_XMM avx
 707 SSD_NV12
 708 INIT_XMM xop
 709 SSD_NV12
 710 INIT_YMM avx2
 711 SSD_NV12
 712
 713 ;=============================================================================
 714 ; variance
 715 ;=============================================================================
 716
 717 %macro VAR_START 1
 718     pxor  m5, m5    ; sum
 719     pxor  m6, m6    ; sum squared
 720 %if HIGH_BIT_DEPTH == 0
 721 %if %1
 722     mova  m7, [pw_00ff]
 723 %elif mmsize < 32
 724     pxor  m7, m7    ; zero
 725 %endif
 726 %endif ; !HIGH_BIT_DEPTH
 727 %endmacro
 728
 729 %macro VAR_END 2
 730 %if HIGH_BIT_DEPTH && mmsize == 8 && %1*%2 == 256
 731     HADDUW  m5, m2
 732 %else
 733     HADDW   m5, m2
 734 %endif
 735     HADDD   m6, m1
 736 %if ARCH_X86_64
 737     punpckldq m5, m6
 738     movq   rax, m5
 739 %else
 740     movd   eax, m5
 741     movd   edx, m6
 742 %endif
 743     RET
 744 %endmacro
 745
 746 %macro VAR_CORE 0
 747     paddw     m5, m0
 748     paddw     m5, m3
 749     paddw     m5, m1
 750     paddw     m5, m4
 751     pmaddwd   m0, m0
 752     pmaddwd   m3, m3
 753     pmaddwd   m1, m1
 754     pmaddwd   m4, m4
 755     paddd     m6, m0
 756     paddd     m6, m3
 757     paddd     m6, m1
 758     paddd     m6, m4
 759 %endmacro
 760
 761 %macro VAR_2ROW 2
 762     mov      r2d, %2
 763 .loop:
 764 %if HIGH_BIT_DEPTH
 765     mova      m0, [r0]
 766     mova      m1, [r0+mmsize]
 767     mova      m3, [r0+%1]
 768     mova      m4, [r0+%1+mmsize]
 769 %else ; !HIGH_BIT_DEPTH
 770     mova      m0, [r0]
 771     mova      m3, [r0+%1]
 772     punpckhbw m1, m0, m7
 773     punpcklbw m0, m7
 774     punpckhbw m4, m3, m7
 775     punpcklbw m3, m7
 776 %endif ; HIGH_BIT_DEPTH
 777 %ifidn %1, r1
 778     lea       r0, [r0+%1*2]
 779 %else
 780     add       r0, r1
 781 %endif
 782     VAR_CORE
 783     dec r2d
 784     jg .loop
 785 %endmacro
 786
 787 ;-----------------------------------------------------------------------------
 788 ; int pixel_var_wxh( uint8_t *, intptr_t )
 789 ;-----------------------------------------------------------------------------
 790 INIT_MMX mmx2
 791 cglobal pixel_var_16x16, 2,3
 792     FIX_STRIDES r1
 793     VAR_START 0
 794     VAR_2ROW 8*SIZEOF_PIXEL, 16
 795     VAR_END 16, 16
 796
 797 cglobal pixel_var_8x16, 2,3
 798     FIX_STRIDES r1
 799     VAR_START 0
 800     VAR_2ROW r1, 8
 801     VAR_END 8, 16
 802
 803 cglobal pixel_var_8x8, 2,3
 804     FIX_STRIDES r1
 805     VAR_START 0
 806     VAR_2ROW r1, 4
 807     VAR_END 8, 8
 808
 809 %if HIGH_BIT_DEPTH
 810 %macro VAR 0
 811 cglobal pixel_var_16x16, 2,3,8
 812     FIX_STRIDES r1
 813     VAR_START 0
 814     VAR_2ROW r1, 8
 815     VAR_END 16, 16
 816
 817 cglobal pixel_var_8x8, 2,3,8
 818     lea       r2, [r1*3]
 819     VAR_START 0
 820     mova      m0, [r0]
 821     mova      m1, [r0+r1*2]
 822     mova      m3, [r0+r1*4]
 823     mova      m4, [r0+r2*2]
 824     lea       r0, [r0+r1*8]
 825     VAR_CORE
 826     mova      m0, [r0]
 827     mova      m1, [r0+r1*2]
 828     mova      m3, [r0+r1*4]
 829     mova      m4, [r0+r2*2]
 830     VAR_CORE
 831     VAR_END 8, 8
 832 %endmacro ; VAR
 833
 834 INIT_XMM sse2
 835 VAR
 836 INIT_XMM avx
 837 VAR
 838 INIT_XMM xop
 839 VAR
 840 %endif ; HIGH_BIT_DEPTH
 841
 842 %if HIGH_BIT_DEPTH == 0
 843 %macro VAR 0
 844 cglobal pixel_var_16x16, 2,3,8
 845     VAR_START 1
 846     mov      r2d, 8
 847 .loop:
 848     mova      m0, [r0]
 849     mova      m3, [r0+r1]
 850     DEINTB    1, 0, 4, 3, 7
 851     lea       r0, [r0+r1*2]
 852     VAR_CORE
 853     dec r2d
 854     jg .loop
 855     VAR_END 16, 16
 856
 857 cglobal pixel_var_8x8, 2,4,8
 858     VAR_START 1
 859     mov      r2d, 2
 860     lea       r3, [r1*3]
 861 .loop:
 862     movh      m0, [r0]
 863     movh      m3, [r0+r1]
 864     movhps    m0, [r0+r1*2]
 865     movhps    m3, [r0+r3]
 866     DEINTB    1, 0, 4, 3, 7
 867     lea       r0, [r0+r1*4]
 868     VAR_CORE
 869     dec r2d
 870     jg .loop
 871     VAR_END 8, 8
 872
 873 cglobal pixel_var_8x16, 2,4,8
 874     VAR_START 1
 875     mov      r2d, 4
 876     lea       r3, [r1*3]
 877 .loop:
 878     movh      m0, [r0]
 879     movh      m3, [r0+r1]
 880     movhps    m0, [r0+r1*2]
 881     movhps    m3, [r0+r3]
 882     DEINTB    1, 0, 4, 3, 7
 883     lea       r0, [r0+r1*4]
 884     VAR_CORE
 885     dec r2d
 886     jg .loop
 887     VAR_END 8, 16
 888 %endmacro ; VAR
 889
 890 INIT_XMM sse2
 891 VAR
 892 INIT_XMM avx
 893 VAR
 894 INIT_XMM xop
 895 VAR
 896 %endif ; !HIGH_BIT_DEPTH
 897
 898 INIT_YMM avx2
 899 cglobal pixel_var_16x16, 2,4,7
 900     FIX_STRIDES r1
 901     VAR_START 0
 902     mov      r2d, 4
 903     lea       r3, [r1*3]
 904 .loop:
 905 %if HIGH_BIT_DEPTH
 906     mova      m0, [r0]
 907     mova      m3, [r0+r1]
 908     mova      m1, [r0+r1*2]
 909     mova      m4, [r0+r3]
 910 %else
 911     pmovzxbw  m0, [r0]
 912     pmovzxbw  m3, [r0+r1]
 913     pmovzxbw  m1, [r0+r1*2]
 914     pmovzxbw  m4, [r0+r3]
 915 %endif
 916     lea       r0, [r0+r1*4]
 917     VAR_CORE
 918     dec r2d
 919     jg .loop
 920     vextracti128 xm0, m5, 1
 921     vextracti128 xm1, m6, 1
 922     paddw  xm5, xm0
 923     paddd  xm6, xm1
 924     HADDW  xm5, xm2
 925     HADDD  xm6, xm1
 926 %if ARCH_X86_64
 927     punpckldq xm5, xm6
 928     movq   rax, xm5
 929 %else
 930     movd   eax, xm5
 931     movd   edx, xm6
 932 %endif
 933     RET
 934
 935 %macro VAR2_END 3
 936     HADDW   %2, xm1
 937     movd   r1d, %2
 938     imul   r1d, r1d
 939     HADDD   %3, xm1
 940     shr    r1d, %1
 941     movd   eax, %3
 942     movd  [r4], %3
 943     sub    eax, r1d  ; sqr - (sum * sum >> shift)
 944     RET
 945 %endmacro
 946
 947 ;-----------------------------------------------------------------------------
 948 ; int pixel_var2_8x8( pixel *, intptr_t, pixel *, intptr_t, int * )
 949 ;-----------------------------------------------------------------------------
 950 %macro VAR2_8x8_MMX 2
 951 cglobal pixel_var2_8x%1, 5,6
 952     FIX_STRIDES r1, r3
 953     VAR_START 0
 954     mov      r5d, %1
 955 .loop:
 956 %if HIGH_BIT_DEPTH
 957     mova      m0, [r0]
 958     mova      m1, [r0+mmsize]
 959     psubw     m0, [r2]
 960     psubw     m1, [r2+mmsize]
 961 %else ; !HIGH_BIT_DEPTH
 962     movq      m0, [r0]
 963     movq      m1, m0
 964     movq      m2, [r2]
 965     movq      m3, m2
 966     punpcklbw m0, m7
 967     punpckhbw m1, m7
 968     punpcklbw m2, m7
 969     punpckhbw m3, m7
 970     psubw     m0, m2
 971     psubw     m1, m3
 972 %endif ; HIGH_BIT_DEPTH
 973     paddw     m5, m0
 974     paddw     m5, m1
 975     pmaddwd   m0, m0
 976     pmaddwd   m1, m1
 977     paddd     m6, m0
 978     paddd     m6, m1
 979     add       r0, r1
 980     add       r2, r3
 981     dec       r5d
 982     jg .loop
 983     VAR2_END %2, m5, m6
 984 %endmacro
 985
 986 %if ARCH_X86_64 == 0
 987 INIT_MMX mmx2
 988 VAR2_8x8_MMX  8, 6
 989 VAR2_8x8_MMX 16, 7
 990 %endif
 991
 992 %macro VAR2_8x8_SSE2 2
 993 cglobal pixel_var2_8x%1, 5,6,8
 994     VAR_START 1
 995     mov      r5d, %1/2
 996 .loop:
 997 %if HIGH_BIT_DEPTH
 998     mova      m0, [r0]
 999     mova      m1, [r0+r1*2]
1000     mova      m2, [r2]
1001     mova      m3, [r2+r3*2]
1002 %else ; !HIGH_BIT_DEPTH
1003     movq      m1, [r0]
1004     movhps    m1, [r0+r1]
1005     movq      m3, [r2]
1006     movhps    m3, [r2+r3]
1007     DEINTB    0, 1, 2, 3, 7
1008 %endif ; HIGH_BIT_DEPTH
1009     psubw     m0, m2
1010     psubw     m1, m3
1011     paddw     m5, m0
1012     paddw     m5, m1
1013     pmaddwd   m0, m0
1014     pmaddwd   m1, m1
1015     paddd     m6, m0
1016     paddd     m6, m1
1017     lea       r0, [r0+r1*2*SIZEOF_PIXEL]
1018     lea       r2, [r2+r3*2*SIZEOF_PIXEL]
1019     dec      r5d
1020     jg .loop
1021     VAR2_END %2, m5, m6
1022 %endmacro
1023
1024 INIT_XMM sse2
1025 VAR2_8x8_SSE2  8, 6
1026 VAR2_8x8_SSE2 16, 7
1027
1028 %if HIGH_BIT_DEPTH == 0
1029 %macro VAR2_8x8_SSSE3 2
1030 cglobal pixel_var2_8x%1, 5,6,8
1031     pxor      m5, m5    ; sum
1032     pxor      m6, m6    ; sum squared
1033     mova      m7, [hsub_mul]
1034     mov      r5d, %1/4
1035 .loop:
1036     movq      m0, [r0]
1037     movq      m2, [r2]
1038     movq      m1, [r0+r1]
1039     movq      m3, [r2+r3]
1040     lea       r0, [r0+r1*2]
1041     lea       r2, [r2+r3*2]
1042     punpcklbw m0, m2
1043     punpcklbw m1, m3
1044     movq      m2, [r0]
1045     movq      m3, [r2]
1046     punpcklbw m2, m3
1047     movq      m3, [r0+r1]
1048     movq      m4, [r2+r3]
1049     punpcklbw m3, m4
1050     pmaddubsw m0, m7
1051     pmaddubsw m1, m7
1052     pmaddubsw m2, m7
1053     pmaddubsw m3, m7
1054     paddw     m5, m0
1055     paddw     m5, m1
1056     paddw     m5, m2
1057     paddw     m5, m3
1058     pmaddwd   m0, m0
1059     pmaddwd   m1, m1
1060     pmaddwd   m2, m2
1061     pmaddwd   m3, m3
1062     paddd     m6, m0
1063     paddd     m6, m1
1064     paddd     m6, m2
1065     paddd     m6, m3
1066     lea       r0, [r0+r1*2]
1067     lea       r2, [r2+r3*2]
1068     dec      r5d
1069     jg .loop
1070     VAR2_END %2, m5, m6
1071 %endmacro
1072
1073 INIT_XMM ssse3
1074 VAR2_8x8_SSSE3  8, 6
1075 VAR2_8x8_SSSE3 16, 7
1076 INIT_XMM xop
1077 VAR2_8x8_SSSE3  8, 6
1078 VAR2_8x8_SSSE3 16, 7
1079
1080 %macro VAR2_8x8_AVX2 2
1081 cglobal pixel_var2_8x%1, 5,6,6
1082     pxor      m3, m3    ; sum
1083     pxor      m4, m4    ; sum squared
1084     mova      m5, [hsub_mul]
1085     mov      r5d, %1/4
1086 .loop:
1087     movq     xm0, [r0]
1088     movq     xm1, [r2]
1089     vinserti128 m0, m0, [r0+r1], 1
1090     vinserti128 m1, m1, [r2+r3], 1
1091     lea       r0, [r0+r1*2]
1092     lea       r2, [r2+r3*2]
1093     punpcklbw m0, m1
1094     movq     xm1, [r0]
1095     movq     xm2, [r2]
1096     vinserti128 m1, m1, [r0+r1], 1
1097     vinserti128 m2, m2, [r2+r3], 1
1098     lea       r0, [r0+r1*2]
1099     lea       r2, [r2+r3*2]
1100     punpcklbw m1, m2
1101     pmaddubsw m0, m5
1102     pmaddubsw m1, m5
1103     paddw     m3, m0
1104     paddw     m3, m1
1105     pmaddwd   m0, m0
1106     pmaddwd   m1, m1
1107     paddd     m4, m0
1108     paddd     m4, m1
1109     dec      r5d
1110     jg .loop
1111     vextracti128 xm0, m3, 1
1112     vextracti128 xm1, m4, 1
1113     paddw    xm3, xm0
1114     paddd    xm4, xm1
1115     VAR2_END %2, xm3, xm4
1116 %endmacro
1117
1118 INIT_YMM avx2
1119 VAR2_8x8_AVX2  8, 6
1120 VAR2_8x8_AVX2 16, 7
1121
1122 %endif ; !HIGH_BIT_DEPTH
1123
1124 ;=============================================================================
1125 ; SATD
1126 ;=============================================================================
1127
1128 %macro JDUP 2
1129 %if cpuflag(sse4)
1130     ; just use shufps on anything post conroe
1131     shufps %1, %2, 0
1132 %elif cpuflag(ssse3) && notcpuflag(atom)
1133     ; join 2x 32 bit and duplicate them
1134     ; emulating shufps is faster on conroe
1135     punpcklqdq %1, %2
1136     movsldup %1, %1
1137 %else
1138     ; doesn't need to dup. sse2 does things by zero extending to words and full h_2d
1139     punpckldq %1, %2
1140 %endif
1141 %endmacro
1142
1143 %macro HSUMSUB 5
1144     pmaddubsw m%2, m%5
1145     pmaddubsw m%1, m%5
1146     pmaddubsw m%4, m%5
1147     pmaddubsw m%3, m%5
1148 %endmacro
1149
1150 %macro DIFF_UNPACK_SSE2 5
1151     punpcklbw m%1, m%5
1152     punpcklbw m%2, m%5
1153     punpcklbw m%3, m%5
1154     punpcklbw m%4, m%5
1155     psubw m%1, m%2
1156     psubw m%3, m%4
1157 %endmacro
1158
1159 %macro DIFF_SUMSUB_SSSE3 5
1160     HSUMSUB %1, %2, %3, %4, %5
1161     psubw m%1, m%2
1162     psubw m%3, m%4
1163 %endmacro
1164
1165 %macro LOAD_DUP_2x4P 4 ; dst, tmp, 2* pointer
1166     movd %1, %3
1167     movd %2, %4
1168     JDUP %1, %2
1169 %endmacro
1170
1171 %macro LOAD_DUP_4x8P_CONROE 8 ; 4*dst, 4*pointer
1172     movddup m%3, %6
1173     movddup m%4, %8
1174     movddup m%1, %5
1175     movddup m%2, %7
1176 %endmacro
1177
1178 %macro LOAD_DUP_4x8P_PENRYN 8
1179     ; penryn and nehalem run punpcklqdq and movddup in different units
1180     movh m%3, %6
1181     movh m%4, %8
1182     punpcklqdq m%3, m%3
1183     movddup m%1, %5
1184     punpcklqdq m%4, m%4
1185     movddup m%2, %7
1186 %endmacro
1187
1188 %macro LOAD_SUMSUB_8x2P 9
1189     LOAD_DUP_4x8P %1, %2, %3, %4, %6, %7, %8, %9
1190     DIFF_SUMSUB_SSSE3 %1, %3, %2, %4, %5
1191 %endmacro
1192
1193 %macro LOAD_SUMSUB_8x4P_SSSE3 7-11 r0, r2, 0, 0
1194 ; 4x dest, 2x tmp, 1x mul, [2* ptr], [increment?]
1195     LOAD_SUMSUB_8x2P %1, %2, %5, %6, %7, [%8], [%9], [%8+r1], [%9+r3]
1196     LOAD_SUMSUB_8x2P %3, %4, %5, %6, %7, [%8+2*r1], [%9+2*r3], [%8+r4], [%9+r5]
1197 %if %10
1198     lea %8, [%8+4*r1]
1199     lea %9, [%9+4*r3]
1200 %endif
1201 %endmacro
1202
1203 %macro LOAD_SUMSUB_16P_SSSE3 7 ; 2*dst, 2*tmp, mul, 2*ptr
1204     movddup m%1, [%7]
1205     movddup m%2, [%7+8]
1206     mova m%4, [%6]
1207     movddup m%3, m%4
1208     punpckhqdq m%4, m%4
1209     DIFF_SUMSUB_SSSE3 %1, %3, %2, %4, %5
1210 %endmacro
1211
1212 %macro LOAD_SUMSUB_16P_SSE2 7 ; 2*dst, 2*tmp, mask, 2*ptr
1213     movu  m%4, [%7]
1214     mova  m%2, [%6]
1215     DEINTB %1, %2, %3, %4, %5
1216     psubw m%1, m%3
1217     psubw m%2, m%4
1218     SUMSUB_BA w, %1, %2, %3
1219 %endmacro
1220
1221 %macro LOAD_SUMSUB_16x4P 10-13 r0, r2, none
1222 ; 8x dest, 1x tmp, 1x mul, [2* ptr] [2nd tmp]
1223     LOAD_SUMSUB_16P %1, %5, %2, %3, %10, %11, %12
1224     LOAD_SUMSUB_16P %2, %6, %3, %4, %10, %11+r1, %12+r3
1225     LOAD_SUMSUB_16P %3, %7, %4, %9, %10, %11+2*r1, %12+2*r3
1226     LOAD_SUMSUB_16P %4, %8, %13, %9, %10, %11+r4, %12+r5
1227 %endmacro
1228
1229 %macro LOAD_SUMSUB_16x2P_AVX2 9
1230 ; 2*dst, 2*tmp, mul, 4*ptr
1231     vbroadcasti128 m%1, [%6]
1232     vbroadcasti128 m%3, [%7]
1233     vbroadcasti128 m%2, [%8]
1234     vbroadcasti128 m%4, [%9]
1235     DIFF_SUMSUB_SSSE3 %1, %3, %2, %4, %5
1236 %endmacro
1237
1238 %macro LOAD_SUMSUB_16x4P_AVX2 7-11 r0, r2, 0, 0
1239 ; 4x dest, 2x tmp, 1x mul, [2* ptr], [increment?]
1240     LOAD_SUMSUB_16x2P_AVX2 %1, %2, %5, %6, %7, %8, %9, %8+r1, %9+r3
1241     LOAD_SUMSUB_16x2P_AVX2 %3, %4, %5, %6, %7, %8+2*r1, %9+2*r3, %8+r4, %9+r5
1242 %if %10
1243     lea  %8, [%8+4*r1]
1244     lea  %9, [%9+4*r3]
1245 %endif
1246 %endmacro
1247
1248 %macro LOAD_DUP_4x16P_AVX2 8 ; 4*dst, 4*pointer
1249     mova  xm%3, %6
1250     mova  xm%4, %8
1251     mova  xm%1, %5
1252     mova  xm%2, %7
1253     vpermq m%3, m%3, q0011
1254     vpermq m%4, m%4, q0011
1255     vpermq m%1, m%1, q0011
1256     vpermq m%2, m%2, q0011
1257 %endmacro
1258
1259 %macro LOAD_SUMSUB8_16x2P_AVX2 9
1260 ; 2*dst, 2*tmp, mul, 4*ptr
1261     LOAD_DUP_4x16P_AVX2 %1, %2, %3, %4, %6, %7, %8, %9
1262     DIFF_SUMSUB_SSSE3 %1, %3, %2, %4, %5
1263 %endmacro
1264
1265 %macro LOAD_SUMSUB8_16x4P_AVX2 7-11 r0, r2, 0, 0
1266 ; 4x dest, 2x tmp, 1x mul, [2* ptr], [increment?]
1267     LOAD_SUMSUB8_16x2P_AVX2 %1, %2, %5, %6, %7, [%8], [%9], [%8+r1], [%9+r3]
1268     LOAD_SUMSUB8_16x2P_AVX2 %3, %4, %5, %6, %7, [%8+2*r1], [%9+2*r3], [%8+r4], [%9+r5]
1269 %if %10
1270     lea  %8, [%8+4*r1]
1271     lea  %9, [%9+4*r3]
1272 %endif
1273 %endmacro
1274
1275 ; in: r4=3*stride1, r5=3*stride2
1276 ; in: %2 = horizontal offset
1277 ; in: %3 = whether we need to increment pix1 and pix2
1278 ; clobber: m3..m7
1279 ; out: %1 = satd
1280 %macro SATD_4x4_MMX 3
1281     %xdefine %%n nn%1
1282     %assign offset %2*SIZEOF_PIXEL
1283     LOAD_DIFF m4, m3, none, [r0+     offset], [r2+     offset]
1284     LOAD_DIFF m5, m3, none, [r0+  r1+offset], [r2+  r3+offset]
1285     LOAD_DIFF m6, m3, none, [r0+2*r1+offset], [r2+2*r3+offset]
1286     LOAD_DIFF m7, m3, none, [r0+  r4+offset], [r2+  r5+offset]
1287 %if %3
1288     lea  r0, [r0+4*r1]
1289     lea  r2, [r2+4*r3]
1290 %endif
1291     HADAMARD4_2D 4, 5, 6, 7, 3, %%n
1292     paddw m4, m6
1293     SWAP %%n, 4
1294 %endmacro
1295
1296 ; in: %1 = horizontal if 0, vertical if 1
1297 %macro SATD_8x4_SSE 8-9
1298 %if %1
1299     HADAMARD4_2D_SSE %2, %3, %4, %5, %6, amax
1300 %else
1301     HADAMARD4_V %2, %3, %4, %5, %6
1302     ; doing the abs first is a slight advantage
1303     ABSW2 m%2, m%4, m%2, m%4, m%6, m%7
1304     ABSW2 m%3, m%5, m%3, m%5, m%6, m%7
1305     HADAMARD 1, max, %2, %4, %6, %7
1306 %endif
1307 %ifnidn %9, swap
1308     paddw m%8, m%2
1309 %else
1310     SWAP %8, %2
1311 %endif
1312 %if %1
1313     paddw m%8, m%4
1314 %else
1315     HADAMARD 1, max, %3, %5, %6, %7
1316     paddw m%8, m%3
1317 %endif
1318 %endmacro
1319
1320 %macro SATD_START_MMX 0
1321     FIX_STRIDES r1, r3
1322     lea  r4, [3*r1] ; 3*stride1
1323     lea  r5, [3*r3] ; 3*stride2
1324 %endmacro
1325
1326 %macro SATD_END_MMX 0
1327 %if HIGH_BIT_DEPTH
1328     HADDUW      m0, m1
1329     movd       eax, m0
1330 %else ; !HIGH_BIT_DEPTH
1331     pshufw      m1, m0, q1032
1332     paddw       m0, m1
1333     pshufw      m1, m0, q2301
1334     paddw       m0, m1
1335     movd       eax, m0
1336     and        eax, 0xffff
1337 %endif ; HIGH_BIT_DEPTH
1338     RET
1339 %endmacro
1340
1341 ; FIXME avoid the spilling of regs to hold 3*stride.
1342 ; for small blocks on x86_32, modify pixel pointer instead.
1343
1344 ;-----------------------------------------------------------------------------
1345 ; int pixel_satd_16x16( uint8_t *, intptr_t, uint8_t *, intptr_t )
1346 ;-----------------------------------------------------------------------------
1347 INIT_MMX mmx2
1348 cglobal pixel_satd_16x4_internal
1349     SATD_4x4_MMX m2,  0, 0
1350     SATD_4x4_MMX m1,  4, 0
1351     paddw        m0, m2
1352     SATD_4x4_MMX m2,  8, 0
1353     paddw        m0, m1
1354     SATD_4x4_MMX m1, 12, 0
1355     paddw        m0, m2
1356     paddw        m0, m1
1357     ret
1358
1359 cglobal pixel_satd_8x8_internal
1360     SATD_4x4_MMX m2,  0, 0
1361     SATD_4x4_MMX m1,  4, 1
1362     paddw        m0, m2
1363     paddw        m0, m1
1364 pixel_satd_8x4_internal_mmx2:
1365     SATD_4x4_MMX m2,  0, 0
1366     SATD_4x4_MMX m1,  4, 0
1367     paddw        m0, m2
1368     paddw        m0, m1
1369     ret
1370
1371 %if HIGH_BIT_DEPTH
1372 %macro SATD_MxN_MMX 3
1373 cglobal pixel_satd_%1x%2, 4,7
1374     SATD_START_MMX
1375     pxor   m0, m0
1376     call pixel_satd_%1x%3_internal_mmx2
1377     HADDUW m0, m1
1378     movd  r6d, m0
1379 %rep %2/%3-1
1380     pxor   m0, m0
1381     lea    r0, [r0+4*r1]
1382     lea    r2, [r2+4*r3]
1383     call pixel_satd_%1x%3_internal_mmx2
1384     movd   m2, r4
1385     HADDUW m0, m1
1386     movd   r4, m0
1387     add    r6, r4
1388     movd   r4, m2
1389 %endrep
1390     movifnidn eax, r6d
1391     RET
1392 %endmacro
1393
1394 SATD_MxN_MMX 16, 16, 4
1395 SATD_MxN_MMX 16,  8, 4
1396 SATD_MxN_MMX  8, 16, 8
1397 %endif ; HIGH_BIT_DEPTH
1398
1399 %if HIGH_BIT_DEPTH == 0
1400 cglobal pixel_satd_16x16, 4,6
1401     SATD_START_MMX
1402     pxor   m0, m0
1403 %rep 3
1404     call pixel_satd_16x4_internal_mmx2
1405     lea  r0, [r0+4*r1]
1406     lea  r2, [r2+4*r3]
1407 %endrep
1408     call pixel_satd_16x4_internal_mmx2
1409     HADDUW m0, m1
1410     movd  eax, m0
1411     RET
1412
1413 cglobal pixel_satd_16x8, 4,6
1414     SATD_START_MMX
1415     pxor   m0, m0
1416     call pixel_satd_16x4_internal_mmx2
1417     lea  r0, [r0+4*r1]
1418     lea  r2, [r2+4*r3]
1419     call pixel_satd_16x4_internal_mmx2
1420     SATD_END_MMX
1421
1422 cglobal pixel_satd_8x16, 4,6
1423     SATD_START_MMX
1424     pxor   m0, m0
1425     call pixel_satd_8x8_internal_mmx2
1426     lea  r0, [r0+4*r1]
1427     lea  r2, [r2+4*r3]
1428     call pixel_satd_8x8_internal_mmx2
1429     SATD_END_MMX
1430 %endif ; !HIGH_BIT_DEPTH
1431
1432 cglobal pixel_satd_8x8, 4,6
1433     SATD_START_MMX
1434     pxor   m0, m0
1435     call pixel_satd_8x8_internal_mmx2
1436     SATD_END_MMX
1437
1438 cglobal pixel_satd_8x4, 4,6
1439     SATD_START_MMX
1440     pxor   m0, m0
1441     call pixel_satd_8x4_internal_mmx2
1442     SATD_END_MMX
1443
1444 cglobal pixel_satd_4x16, 4,6
1445     SATD_START_MMX
1446     SATD_4x4_MMX m0, 0, 1
1447     SATD_4x4_MMX m1, 0, 1
1448     paddw  m0, m1
1449     SATD_4x4_MMX m1, 0, 1
1450     paddw  m0, m1
1451     SATD_4x4_MMX m1, 0, 0
1452     paddw  m0, m1
1453     SATD_END_MMX
1454
1455 cglobal pixel_satd_4x8, 4,6
1456     SATD_START_MMX
1457     SATD_4x4_MMX m0, 0, 1
1458     SATD_4x4_MMX m1, 0, 0
1459     paddw  m0, m1
1460     SATD_END_MMX
1461
1462 cglobal pixel_satd_4x4, 4,6
1463     SATD_START_MMX
1464     SATD_4x4_MMX m0, 0, 0
1465     SATD_END_MMX
1466
1467 %macro SATD_START_SSE2 2-3 0
1468     FIX_STRIDES r1, r3
1469 %if HIGH_BIT_DEPTH && %3
1470     pxor    %2, %2
1471 %elif cpuflag(ssse3) && notcpuflag(atom)
1472 %if mmsize==32
1473     mova    %2, [hmul_16p]
1474 %else
1475     mova    %2, [hmul_8p]
1476 %endif
1477 %endif
1478     lea     r4, [3*r1]
1479     lea     r5, [3*r3]
1480     pxor    %1, %1
1481 %endmacro
1482
1483 %macro SATD_END_SSE2 1-2
1484 %if HIGH_BIT_DEPTH
1485     HADDUW  %1, xm0
1486 %if %0 == 2
1487     paddd   %1, %2
1488 %endif
1489 %else
1490     HADDW   %1, xm7
1491 %endif
1492     movd   eax, %1
1493     RET
1494 %endmacro
1495
1496 %macro SATD_ACCUM 3
1497 %if HIGH_BIT_DEPTH
1498     HADDUW %1, %2
1499     paddd  %3, %1
1500     pxor   %1, %1
1501 %endif
1502 %endmacro
1503
1504 %macro BACKUP_POINTERS 0
1505 %if ARCH_X86_64
1506 %if WIN64
1507     PUSH r7
1508 %endif
1509     mov     r6, r0
1510     mov     r7, r2
1511 %endif
1512 %endmacro
1513
1514 %macro RESTORE_AND_INC_POINTERS 0
1515 %if ARCH_X86_64
1516     lea     r0, [r6+8*SIZEOF_PIXEL]
1517     lea     r2, [r7+8*SIZEOF_PIXEL]
1518 %if WIN64
1519     POP r7
1520 %endif
1521 %else
1522     mov     r0, r0mp
1523     mov     r2, r2mp
1524     add     r0, 8*SIZEOF_PIXEL
1525     add     r2, 8*SIZEOF_PIXEL
1526 %endif
1527 %endmacro
1528
1529 %macro SATD_4x8_SSE 3
1530 %if HIGH_BIT_DEPTH
1531     movh    m0, [r0+0*r1]
1532     movh    m4, [r2+0*r3]
1533     movh    m1, [r0+1*r1]
1534     movh    m5, [r2+1*r3]
1535     movhps  m0, [r0+4*r1]
1536     movhps  m4, [r2+4*r3]
1537     movh    m2, [r0+2*r1]
1538     movh    m6, [r2+2*r3]
1539     psubw   m0, m4
1540     movh    m3, [r0+r4]
1541     movh    m4, [r2+r5]
1542     lea     r0, [r0+4*r1]
1543     lea     r2, [r2+4*r3]
1544     movhps  m1, [r0+1*r1]
1545     movhps  m5, [r2+1*r3]
1546     movhps  m2, [r0+2*r1]
1547     movhps  m6, [r2+2*r3]
1548     psubw   m1, m5
1549     movhps  m3, [r0+r4]
1550     movhps  m4, [r2+r5]
1551     psubw   m2, m6
1552     psubw   m3, m4
1553 %else ; !HIGH_BIT_DEPTH
1554     movd m4, [r2]
1555     movd m5, [r2+r3]
1556     movd m6, [r2+2*r3]
1557     add r2, r5
1558     movd m0, [r0]
1559     movd m1, [r0+r1]
1560     movd m2, [r0+2*r1]
1561     add r0, r4
1562     movd m3, [r2+r3]
1563     JDUP m4, m3
1564     movd m3, [r0+r1]
1565     JDUP m0, m3
1566     movd m3, [r2+2*r3]
1567     JDUP m5, m3
1568     movd m3, [r0+2*r1]
1569     JDUP m1, m3
1570 %if %1==0 && %2==1
1571     mova m3, [hmul_4p]
1572     DIFFOP 0, 4, 1, 5, 3
1573 %else
1574     DIFFOP 0, 4, 1, 5, 7
1575 %endif
1576     movd m5, [r2]
1577     add r2, r5
1578     movd m3, [r0]
1579     add r0, r4
1580     movd m4, [r2]
1581     JDUP m6, m4
1582     movd m4, [r0]
1583     JDUP m2, m4
1584     movd m4, [r2+r3]
1585     JDUP m5, m4
1586     movd m4, [r0+r1]
1587     JDUP m3, m4
1588 %if %1==0 && %2==1
1589     mova m4, [hmul_4p]
1590     DIFFOP 2, 6, 3, 5, 4
1591 %else
1592     DIFFOP 2, 6, 3, 5, 7
1593 %endif
1594 %endif ; HIGH_BIT_DEPTH
1595     SATD_8x4_SSE %1, 0, 1, 2, 3, 4, 5, 7, %3
1596 %endmacro
1597
1598 ;-----------------------------------------------------------------------------
1599 ; int pixel_satd_8x4( uint8_t *, intptr_t, uint8_t *, intptr_t )
1600 ;-----------------------------------------------------------------------------
1601 %macro SATDS_SSE2 0
1602 %define vertical ((notcpuflag(ssse3) || cpuflag(atom)) || HIGH_BIT_DEPTH)
1603
1604 %if cpuflag(ssse3) && (vertical==0 || HIGH_BIT_DEPTH)
1605 cglobal pixel_satd_4x4, 4, 6, 6
1606     SATD_START_MMX
1607     mova m4, [hmul_4p]
1608     LOAD_DUP_2x4P m2, m5, [r2], [r2+r3]
1609     LOAD_DUP_2x4P m3, m5, [r2+2*r3], [r2+r5]
1610     LOAD_DUP_2x4P m0, m5, [r0], [r0+r1]
1611     LOAD_DUP_2x4P m1, m5, [r0+2*r1], [r0+r4]
1612     DIFF_SUMSUB_SSSE3 0, 2, 1, 3, 4
1613     HADAMARD 0, sumsub, 0, 1, 2, 3
1614     HADAMARD 4, sumsub, 0, 1, 2, 3
1615     HADAMARD 1, amax, 0, 1, 2, 3
1616     HADDW m0, m1
1617     movd eax, m0
1618     RET
1619 %endif
1620
1621 cglobal pixel_satd_4x8, 4, 6, 8
1622     SATD_START_MMX
1623 %if vertical==0
1624     mova m7, [hmul_4p]
1625 %endif
1626     SATD_4x8_SSE vertical, 0, swap
1627     HADDW m7, m1
1628     movd eax, m7
1629     RET
1630
1631 cglobal pixel_satd_4x16, 4, 6, 8
1632     SATD_START_MMX
1633 %if vertical==0
1634     mova m7, [hmul_4p]
1635 %endif
1636     SATD_4x8_SSE vertical, 0, swap
1637     lea r0, [r0+r1*2*SIZEOF_PIXEL]
1638     lea r2, [r2+r3*2*SIZEOF_PIXEL]
1639     SATD_4x8_SSE vertical, 1, add
1640     HADDW m7, m1
1641     movd eax, m7
1642     RET
1643
1644 cglobal pixel_satd_8x8_internal
1645     LOAD_SUMSUB_8x4P 0, 1, 2, 3, 4, 5, 7, r0, r2, 1, 0
1646     SATD_8x4_SSE vertical, 0, 1, 2, 3, 4, 5, 6
1647 %%pixel_satd_8x4_internal:
1648     LOAD_SUMSUB_8x4P 0, 1, 2, 3, 4, 5, 7, r0, r2, 1, 0
1649     SATD_8x4_SSE vertical, 0, 1, 2, 3, 4, 5, 6
1650     ret
1651
1652 ; 16x8 regresses on phenom win64, 16x16 is almost the same (too many spilled registers)
1653 ; These aren't any faster on AVX systems with fast movddup (Bulldozer, Sandy Bridge)
1654 %if HIGH_BIT_DEPTH == 0 && UNIX64 && notcpuflag(avx)
1655 cglobal pixel_satd_16x4_internal
1656     LOAD_SUMSUB_16x4P 0, 1, 2, 3, 4, 8, 5, 9, 6, 7, r0, r2, 11
1657     lea  r2, [r2+4*r3]
1658     lea  r0, [r0+4*r1]
1659     ; always use horizontal mode here
1660     SATD_8x4_SSE 0, 0, 1, 2, 3, 6, 11, 10
1661     SATD_8x4_SSE 0, 4, 8, 5, 9, 6, 3, 10
1662     ret
1663
1664 cglobal pixel_satd_16x8, 4,6,12
1665     SATD_START_SSE2 m10, m7
1666 %if vertical
1667     mova m7, [pw_00ff]
1668 %endif
1669     jmp %%pixel_satd_16x8_internal
1670
1671 cglobal pixel_satd_16x16, 4,6,12
1672     SATD_START_SSE2 m10, m7
1673 %if vertical
1674     mova m7, [pw_00ff]
1675 %endif
1676     call pixel_satd_16x4_internal
1677     call pixel_satd_16x4_internal
1678 %%pixel_satd_16x8_internal:
1679     call pixel_satd_16x4_internal
1680     call pixel_satd_16x4_internal
1681     SATD_END_SSE2 m10
1682 %else
1683 cglobal pixel_satd_16x8, 4,6,8
1684     SATD_START_SSE2 m6, m7
1685     BACKUP_POINTERS
1686     call pixel_satd_8x8_internal
1687     RESTORE_AND_INC_POINTERS
1688     call pixel_satd_8x8_internal
1689     SATD_END_SSE2 m6
1690
1691 cglobal pixel_satd_16x16, 4,6,8
1692     SATD_START_SSE2 m6, m7, 1
1693     BACKUP_POINTERS
1694     call pixel_satd_8x8_internal
1695     call pixel_satd_8x8_internal
1696     SATD_ACCUM m6, m0, m7
1697     RESTORE_AND_INC_POINTERS
1698     call pixel_satd_8x8_internal
1699     call pixel_satd_8x8_internal
1700     SATD_END_SSE2 m6, m7
1701 %endif
1702
1703 cglobal pixel_satd_8x16, 4,6,8
1704     SATD_START_SSE2 m6, m7
1705     call pixel_satd_8x8_internal
1706     call pixel_satd_8x8_internal
1707     SATD_END_SSE2 m6
1708
1709 cglobal pixel_satd_8x8, 4,6,8
1710     SATD_START_SSE2 m6, m7
1711     call pixel_satd_8x8_internal
1712     SATD_END_SSE2 m6
1713
1714 cglobal pixel_satd_8x4, 4,6,8
1715     SATD_START_SSE2 m6, m7
1716     call %%pixel_satd_8x4_internal
1717     SATD_END_SSE2 m6
1718 %endmacro ; SATDS_SSE2
1719
1720 %macro SA8D_INTER 0
1721 %if ARCH_X86_64
1722     %define lh m10
1723     %define rh m0
1724 %else
1725     %define lh m0
1726     %define rh [esp+48]
1727 %endif
1728 %if HIGH_BIT_DEPTH
1729     HADDUW  m0, m1
1730     paddd   lh, rh
1731 %else
1732     paddusw lh, rh
1733 %endif ; HIGH_BIT_DEPTH
1734 %endmacro
1735
1736 %macro SA8D 0
1737 ; sse2 doesn't seem to like the horizontal way of doing things
1738 %define vertical ((notcpuflag(ssse3) || cpuflag(atom)) || HIGH_BIT_DEPTH)
1739
1740 %if ARCH_X86_64
1741 ;-----------------------------------------------------------------------------
1742 ; int pixel_sa8d_8x8( uint8_t *, intptr_t, uint8_t *, intptr_t )
1743 ;-----------------------------------------------------------------------------
1744 cglobal pixel_sa8d_8x8_internal
1745     lea  r6, [r0+4*r1]
1746     lea  r7, [r2+4*r3]
1747     LOAD_SUMSUB_8x4P 0, 1, 2, 8, 5, 6, 7, r0, r2
1748     LOAD_SUMSUB_8x4P 4, 5, 3, 9, 11, 6, 7, r6, r7
1749 %if vertical
1750     HADAMARD8_2D 0, 1, 2, 8, 4, 5, 3, 9, 6, amax
1751 %else ; non-sse2
1752     HADAMARD8_2D_HMUL 0, 1, 2, 8, 4, 5, 3, 9, 6, 11
1753 %endif
1754     paddw m0, m1
1755     paddw m0, m2
1756     paddw m0, m8
1757     SAVE_MM_PERMUTATION
1758     ret
1759
1760 cglobal pixel_sa8d_8x8, 4,8,12
1761     FIX_STRIDES r1, r3
1762     lea  r4, [3*r1]
1763     lea  r5, [3*r3]
1764 %if vertical == 0
1765     mova m7, [hmul_8p]
1766 %endif
1767     call pixel_sa8d_8x8_internal
1768 %if HIGH_BIT_DEPTH
1769     HADDUW m0, m1
1770 %else
1771     HADDW m0, m1
1772 %endif ; HIGH_BIT_DEPTH
1773     movd eax, m0
1774     add eax, 1
1775     shr eax, 1
1776     RET
1777
1778 cglobal pixel_sa8d_16x16, 4,8,12
1779     FIX_STRIDES r1, r3
1780     lea  r4, [3*r1]
1781     lea  r5, [3*r3]
1782 %if vertical == 0
1783     mova m7, [hmul_8p]
1784 %endif
1785     call pixel_sa8d_8x8_internal ; pix[0]
1786     add  r2, 8*SIZEOF_PIXEL
1787     add  r0, 8*SIZEOF_PIXEL
1788 %if HIGH_BIT_DEPTH
1789     HADDUW m0, m1
1790 %endif
1791     mova m10, m0
1792     call pixel_sa8d_8x8_internal ; pix[8]
1793     lea  r2, [r2+8*r3]
1794     lea  r0, [r0+8*r1]
1795     SA8D_INTER
1796     call pixel_sa8d_8x8_internal ; pix[8*stride+8]
1797     sub  r2, 8*SIZEOF_PIXEL
1798     sub  r0, 8*SIZEOF_PIXEL
1799     SA8D_INTER
1800     call pixel_sa8d_8x8_internal ; pix[8*stride]
1801     SA8D_INTER
1802     SWAP 0, 10
1803 %if HIGH_BIT_DEPTH == 0
1804     HADDUW m0, m1
1805 %endif
1806     movd eax, m0
1807     add  eax, 1
1808     shr  eax, 1
1809     RET
1810
1811 %else ; ARCH_X86_32
1812 %if mmsize == 16
1813 cglobal pixel_sa8d_8x8_internal
1814     %define spill0 [esp+4]
1815     %define spill1 [esp+20]
1816     %define spill2 [esp+36]
1817 %if vertical
1818     LOAD_DIFF_8x4P 0, 1, 2, 3, 4, 5, 6, r0, r2, 1
1819     HADAMARD4_2D 0, 1, 2, 3, 4
1820     movdqa spill0, m3
1821     LOAD_DIFF_8x4P 4, 5, 6, 7, 3, 3, 2, r0, r2, 1
1822     HADAMARD4_2D 4, 5, 6, 7, 3
1823     HADAMARD2_2D 0, 4, 1, 5, 3, qdq, amax
1824     movdqa m3, spill0
1825     paddw m0, m1
1826     HADAMARD2_2D 2, 6, 3, 7, 5, qdq, amax
1827 %else ; mmsize == 8
1828     mova m7, [hmul_8p]
1829     LOAD_SUMSUB_8x4P 0, 1, 2, 3, 5, 6, 7, r0, r2, 1
1830     ; could do first HADAMARD4_V here to save spilling later
1831     ; surprisingly, not a win on conroe or even p4
1832     mova spill0, m2
1833     mova spill1, m3
1834     mova spill2, m1
1835     SWAP 1, 7
1836     LOAD_SUMSUB_8x4P 4, 5, 6, 7, 2, 3, 1, r0, r2, 1
1837     HADAMARD4_V 4, 5, 6, 7, 3
1838     mova m1, spill2
1839     mova m2, spill0
1840     mova m3, spill1
1841     mova spill0, m6
1842     mova spill1, m7
1843     HADAMARD4_V 0, 1, 2, 3, 7
1844     SUMSUB_BADC w, 0, 4, 1, 5, 7
1845     HADAMARD 2, sumsub, 0, 4, 7, 6
1846     HADAMARD 2, sumsub, 1, 5, 7, 6
1847     HADAMARD 1, amax, 0, 4, 7, 6
1848     HADAMARD 1, amax, 1, 5, 7, 6
1849     mova m6, spill0
1850     mova m7, spill1
1851     paddw m0, m1
1852     SUMSUB_BADC w, 2, 6, 3, 7, 4
1853     HADAMARD 2, sumsub, 2, 6, 4, 5
1854     HADAMARD 2, sumsub, 3, 7, 4, 5
1855     HADAMARD 1, amax, 2, 6, 4, 5
1856     HADAMARD 1, amax, 3, 7, 4, 5
1857 %endif ; sse2/non-sse2
1858     paddw m0, m2
1859     paddw m0, m3
1860     SAVE_MM_PERMUTATION
1861     ret
1862 %endif ; ifndef mmx2
1863
1864 cglobal pixel_sa8d_8x8, 4,7
1865     FIX_STRIDES r1, r3
1866     mov    r6, esp
1867     and   esp, ~15
1868     sub   esp, 48
1869     lea    r4, [3*r1]
1870     lea    r5, [3*r3]
1871     call pixel_sa8d_8x8_internal
1872 %if HIGH_BIT_DEPTH
1873     HADDUW m0, m1
1874 %else
1875     HADDW  m0, m1
1876 %endif ; HIGH_BIT_DEPTH
1877     movd  eax, m0
1878     add   eax, 1
1879     shr   eax, 1
1880     mov   esp, r6
1881     RET
1882
1883 cglobal pixel_sa8d_16x16, 4,7
1884     FIX_STRIDES r1, r3
1885     mov  r6, esp
1886     and  esp, ~15
1887     sub  esp, 64
1888     lea  r4, [3*r1]
1889     lea  r5, [3*r3]
1890     call pixel_sa8d_8x8_internal
1891 %if mmsize == 8
1892     lea  r0, [r0+4*r1]
1893     lea  r2, [r2+4*r3]
1894 %endif
1895 %if HIGH_BIT_DEPTH
1896     HADDUW m0, m1
1897 %endif
1898     mova [esp+48], m0
1899     call pixel_sa8d_8x8_internal
1900     mov  r0, [r6+20]
1901     mov  r2, [r6+28]
1902     add  r0, 8*SIZEOF_PIXEL
1903     add  r2, 8*SIZEOF_PIXEL
1904     SA8D_INTER
1905     mova [esp+48], m0
1906     call pixel_sa8d_8x8_internal
1907 %if mmsize == 8
1908     lea  r0, [r0+4*r1]
1909     lea  r2, [r2+4*r3]
1910 %else
1911     SA8D_INTER
1912 %endif
1913     mova [esp+64-mmsize], m0
1914     call pixel_sa8d_8x8_internal
1915 %if HIGH_BIT_DEPTH
1916     SA8D_INTER
1917 %else ; !HIGH_BIT_DEPTH
1918     paddusw m0, [esp+64-mmsize]
1919 %if mmsize == 16
1920     HADDUW m0, m1
1921 %else
1922     mova m2, [esp+48]
1923     pxor m7, m7
1924     mova m1, m0
1925     mova m3, m2
1926     punpcklwd m0, m7
1927     punpckhwd m1, m7
1928     punpcklwd m2, m7
1929     punpckhwd m3, m7
1930     paddd m0, m1
1931     paddd m2, m3
1932     paddd m0, m2
1933     HADDD m0, m1
1934 %endif
1935 %endif ; HIGH_BIT_DEPTH
1936     movd eax, m0
1937     add  eax, 1
1938     shr  eax, 1
1939     mov  esp, r6
1940     RET
1941 %endif ; !ARCH_X86_64
1942 %endmacro ; SA8D
1943
1944 ;=============================================================================
1945 ; SA8D_SATD
1946 ;=============================================================================
1947
1948 ; %1: vertical/horizontal mode
1949 ; %2-%5: sa8d output regs (m0,m1,m2,m3,m4,m5,m8,m9)
1950 ; m10: satd result
1951 ; m6, m11-15: tmp regs
1952 %macro SA8D_SATD_8x4 5
1953 %if %1
1954     LOAD_DIFF_8x4P %2, %3, %4, %5, 6, 11, 7, r0, r2, 1
1955     HADAMARD   0, sumsub, %2, %3, 6
1956     HADAMARD   0, sumsub, %4, %5, 6
1957     SBUTTERFLY        wd, %2, %3, 6
1958     SBUTTERFLY        wd, %4, %5, 6
1959     HADAMARD2_2D  %2, %4, %3, %5, 6, dq
1960
1961     mova   m12, m%2
1962     mova   m13, m%3
1963     mova   m14, m%4
1964     mova   m15, m%5
1965     HADAMARD 0, sumsub, %2, %3, 6
1966     HADAMARD 0, sumsub, %4, %5, 6
1967     SBUTTERFLY     qdq, 12, 13, 6
1968     HADAMARD   0, amax, 12, 13, 6
1969     SBUTTERFLY     qdq, 14, 15, 6
1970     paddw m10, m12
1971     HADAMARD   0, amax, 14, 15, 6
1972     paddw m10, m14
1973 %else
1974     LOAD_SUMSUB_8x4P %2, %3, %4, %5, 6, 11, 7, r0, r2, 1
1975     HADAMARD4_V %2, %3, %4, %5, 6
1976
1977     pabsw    m12, m%2 ; doing the abs first is a slight advantage
1978     pabsw    m14, m%4
1979     pabsw    m13, m%3
1980     pabsw    m15, m%5
1981     HADAMARD 1, max, 12, 14, 6, 11
1982     paddw    m10, m12
1983     HADAMARD 1, max, 13, 15, 6, 11
1984     paddw    m10, m13
1985 %endif
1986 %endmacro ; SA8D_SATD_8x4
1987
1988 ; %1: add spilled regs?
1989 ; %2: spill regs?
1990 %macro SA8D_SATD_ACCUM 2
1991 %if HIGH_BIT_DEPTH
1992     pmaddwd m10, [pw_1]
1993     HADDUWD  m0, m1
1994 %if %1
1995     paddd   m10, temp1
1996     paddd    m0, temp0
1997 %endif
1998 %if %2
1999     mova  temp1, m10
2000     pxor    m10, m10
2001 %endif
2002 %elif %1
2003     paddw    m0, temp0
2004 %endif
2005 %if %2
2006     mova  temp0, m0
2007 %endif
2008 %endmacro
2009
2010 %macro SA8D_SATD 0
2011 %define vertical ((notcpuflag(ssse3) || cpuflag(atom)) || HIGH_BIT_DEPTH)
2012 cglobal pixel_sa8d_satd_8x8_internal
2013     SA8D_SATD_8x4 vertical, 0, 1, 2, 3
2014     SA8D_SATD_8x4 vertical, 4, 5, 8, 9
2015
2016 %if vertical ; sse2-style
2017     HADAMARD2_2D 0, 4, 2, 8, 6, qdq, amax
2018     HADAMARD2_2D 1, 5, 3, 9, 6, qdq, amax
2019 %else        ; complete sa8d
2020     SUMSUB_BADC w, 0, 4, 1, 5, 12
2021     HADAMARD 2, sumsub, 0, 4, 12, 11
2022     HADAMARD 2, sumsub, 1, 5, 12, 11
2023     SUMSUB_BADC w, 2, 8, 3, 9, 12
2024     HADAMARD 2, sumsub, 2, 8, 12, 11
2025     HADAMARD 2, sumsub, 3, 9, 12, 11
2026     HADAMARD 1, amax, 0, 4, 12, 11
2027     HADAMARD 1, amax, 1, 5, 12, 4
2028     HADAMARD 1, amax, 2, 8, 12, 4
2029     HADAMARD 1, amax, 3, 9, 12, 4
2030 %endif
2031
2032     ; create sa8d sub results
2033     paddw    m1, m2
2034     paddw    m0, m3
2035     paddw    m0, m1
2036
2037     SAVE_MM_PERMUTATION
2038     ret
2039
2040 ;-------------------------------------------------------------------------------
2041 ; uint64_t pixel_sa8d_satd_16x16( pixel *, intptr_t, pixel *, intptr_t )
2042 ;-------------------------------------------------------------------------------
2043 cglobal pixel_sa8d_satd_16x16, 4,8-(mmsize/32),16,SIZEOF_PIXEL*mmsize
2044     %define temp0 [rsp+0*mmsize]
2045     %define temp1 [rsp+1*mmsize]
2046     FIX_STRIDES r1, r3
2047 %if vertical==0
2048     mova     m7, [hmul_8p]
2049 %endif
2050     lea      r4, [3*r1]
2051     lea      r5, [3*r3]
2052     pxor    m10, m10
2053
2054 %if mmsize==32
2055     call pixel_sa8d_satd_8x8_internal
2056     SA8D_SATD_ACCUM 0, 1
2057     call pixel_sa8d_satd_8x8_internal
2058     SA8D_SATD_ACCUM 1, 0
2059     vextracti128 xm1, m0, 1
2060     vextracti128 xm2, m10, 1
2061     paddw   xm0, xm1
2062     paddw  xm10, xm2
2063 %else
2064     lea      r6, [r2+8*SIZEOF_PIXEL]
2065     lea      r7, [r0+8*SIZEOF_PIXEL]
2066
2067     call pixel_sa8d_satd_8x8_internal
2068     SA8D_SATD_ACCUM 0, 1
2069     call pixel_sa8d_satd_8x8_internal
2070     SA8D_SATD_ACCUM 1, 1
2071
2072     mov      r0, r7
2073     mov      r2, r6
2074
2075     call pixel_sa8d_satd_8x8_internal
2076     SA8D_SATD_ACCUM 1, 1
2077     call pixel_sa8d_satd_8x8_internal
2078     SA8D_SATD_ACCUM 1, 0
2079 %endif
2080
2081 ; xop already has fast horizontal sums
2082 %if cpuflag(sse4) && notcpuflag(xop) && HIGH_BIT_DEPTH==0
2083     pmaddwd xm10, [pw_1]
2084     HADDUWD xm0, xm1
2085     phaddd  xm0, xm10       ;  sa8d1  sa8d2  satd1  satd2
2086     pshufd  xm1, xm0, q2301 ;  sa8d2  sa8d1  satd2  satd1
2087     paddd   xm0, xm1        ;   sa8d   sa8d   satd   satd
2088     movd    r0d, xm0
2089     pextrd  eax, xm0, 2
2090 %else
2091 %if HIGH_BIT_DEPTH
2092     HADDD   xm0, xm1
2093     HADDD  xm10, xm2
2094 %else
2095     HADDUW  xm0, xm1
2096     HADDW  xm10, xm2
2097 %endif
2098     movd    r0d, xm0
2099     movd    eax, xm10
2100 %endif
2101     add     r0d, 1
2102     shl     rax, 32
2103     shr     r0d, 1
2104     or      rax, r0
2105     RET
2106 %endmacro ; SA8D_SATD
2107
2108 ;=============================================================================
2109 ; INTRA SATD
2110 ;=============================================================================
2111
2112 %macro HSUMSUB2 8
2113     pshufd %4, %2, %7
2114     pshufd %5, %3, %7
2115     %1     %2, %8
2116     %1     %6, %8
2117     paddw  %2, %4
2118     paddw  %3, %5
2119 %endmacro
2120
2121 ; intra_sa8d_x3_8x8 and intra_satd_x3_4x4 are obsoleted by x9 on ssse3+,
2122 ; and are only retained for old cpus.
2123 %macro INTRA_SA8D_SSE2 0
2124 %if ARCH_X86_64
2125 ;-----------------------------------------------------------------------------
2126 ; void intra_sa8d_x3_8x8( uint8_t *fenc, uint8_t edge[36], int *res )
2127 ;-----------------------------------------------------------------------------
2128 cglobal intra_sa8d_x3_8x8, 3,3,14
2129     ; 8x8 hadamard
2130     pxor        m8, m8
2131     movq        m0, [r0+0*FENC_STRIDE]
2132     movq        m1, [r0+1*FENC_STRIDE]
2133     movq        m2, [r0+2*FENC_STRIDE]
2134     movq        m3, [r0+3*FENC_STRIDE]
2135     movq        m4, [r0+4*FENC_STRIDE]
2136     movq        m5, [r0+5*FENC_STRIDE]
2137     movq        m6, [r0+6*FENC_STRIDE]
2138     movq        m7, [r0+7*FENC_STRIDE]
2139     punpcklbw   m0, m8
2140     punpcklbw   m1, m8
2141     punpcklbw   m2, m8
2142     punpcklbw   m3, m8
2143     punpcklbw   m4, m8
2144     punpcklbw   m5, m8
2145     punpcklbw   m6, m8
2146     punpcklbw   m7, m8
2147
2148     HADAMARD8_2D 0, 1, 2, 3, 4, 5, 6, 7, 8
2149
2150     ABSW2       m8,  m9,  m2, m3, m2, m3
2151     ABSW2       m10, m11, m4, m5, m4, m5
2152     paddusw     m8,  m10
2153     paddusw     m9,  m11
2154     ABSW2       m10, m11, m6, m7, m6, m7
2155     ABSW        m13, m1,  m1
2156     paddusw     m10, m11
2157     paddusw     m8,  m9
2158     paddusw     m13, m10
2159     paddusw     m13, m8
2160
2161     ; 1D hadamard of edges
2162     movq        m8,  [r1+7]
2163     movq        m9,  [r1+16]
2164     pxor        m10, m10
2165     punpcklbw   m8,  m10
2166     punpcklbw   m9,  m10
2167     HSUMSUB2 pmullw, m8, m9, m10, m11, m11, q1032, [pw_ppppmmmm]
2168     HSUMSUB2 pmullw, m8, m9, m10, m11, m11, q2301, [pw_ppmmppmm]
2169     pshuflw     m10, m8,  q2301
2170     pshuflw     m11, m9,  q2301
2171     pshufhw     m10, m10, q2301
2172     pshufhw     m11, m11, q2301
2173     pmullw      m8,  [pw_pmpmpmpm]
2174     pmullw      m11, [pw_pmpmpmpm]
2175     paddw       m8,  m10
2176     paddw       m9,  m11
2177
2178     ; differences
2179     paddw       m10, m8, m9
2180     paddw       m10, [pw_8]
2181     pand        m10, [sw_f0]
2182     psllw       m10, 2 ; dc
2183
2184     psllw       m8,  3 ; left edge
2185     psubw       m8,  m0
2186     psubw       m10, m0
2187     ABSW2       m8, m10, m8, m10, m11, m12 ; 1x8 sum
2188     paddusw     m8,  m13
2189     paddusw     m13, m10
2190     punpcklwd   m0,  m1
2191     punpcklwd   m2,  m3
2192     punpcklwd   m4,  m5
2193     punpcklwd   m6,  m7
2194     punpckldq   m0,  m2
2195     punpckldq   m4,  m6
2196     punpcklqdq  m0,  m4 ; transpose
2197     psllw       m9,  3 ; top edge
2198     psrldq      m2,  m13, 2 ; 8x7 sum
2199     psubw       m0,  m9  ; 8x1 sum
2200     ABSW        m0,  m0,  m9
2201     paddusw     m2,  m0
2202
2203     ; 3x HADDW
2204     movdqa      m7,  [pw_1]
2205     pmaddwd     m2,  m7
2206     pmaddwd     m8,  m7
2207     pmaddwd     m13, m7
2208     punpckhdq   m3,  m2, m8
2209     punpckldq   m2,  m8
2210     pshufd      m5,  m13, q3311
2211     paddd       m2,  m3
2212     paddd       m5,  m13
2213     punpckhqdq  m0,  m2, m5
2214     punpcklqdq  m2,  m5
2215     pavgw       m0,  m2
2216     pxor        m1,  m1
2217     pavgw       m0,  m1
2218     movq      [r2], m0 ; i8x8_v, i8x8_h
2219     psrldq      m0, 8
2220     movd    [r2+8], m0 ; i8x8_dc
2221     RET
2222 %endif ; ARCH_X86_64
2223 %endmacro ; INTRA_SA8D_SSE2
2224
2225 ; in: r0 = fenc
2226 ; out: m0..m3 = hadamard coefs
2227 INIT_MMX
2228 cglobal hadamard_load
2229 ; not really a global, but otherwise cycles get attributed to the wrong function in profiling
2230 %if HIGH_BIT_DEPTH
2231     mova        m0, [r0+0*FENC_STRIDEB]
2232     mova        m1, [r0+1*FENC_STRIDEB]
2233     mova        m2, [r0+2*FENC_STRIDEB]
2234     mova        m3, [r0+3*FENC_STRIDEB]
2235 %else
2236     pxor        m7, m7
2237     movd        m0, [r0+0*FENC_STRIDE]
2238     movd        m1, [r0+1*FENC_STRIDE]
2239     movd        m2, [r0+2*FENC_STRIDE]
2240     movd        m3, [r0+3*FENC_STRIDE]
2241     punpcklbw   m0, m7
2242     punpcklbw   m1, m7
2243     punpcklbw   m2, m7
2244     punpcklbw   m3, m7
2245 %endif
2246     HADAMARD4_2D 0, 1, 2, 3, 4
2247     SAVE_MM_PERMUTATION
2248     ret
2249
2250 %macro SCALAR_HADAMARD 4-5 ; direction, offset, 3x tmp
2251 %ifidn %1, top
2252 %if HIGH_BIT_DEPTH
2253     mova        %3, [r1+%2*SIZEOF_PIXEL-FDEC_STRIDEB]
2254 %else
2255     movd        %3, [r1+%2*SIZEOF_PIXEL-FDEC_STRIDEB]
2256     pxor        %5, %5
2257     punpcklbw   %3, %5
2258 %endif
2259 %else ; left
2260 %ifnidn %2, 0
2261     shl         %2d, 5 ; log(FDEC_STRIDEB)
2262 %endif
2263     movd        %3, [r1+%2*SIZEOF_PIXEL-4+1*FDEC_STRIDEB]
2264     pinsrw      %3, [r1+%2*SIZEOF_PIXEL-2+0*FDEC_STRIDEB], 0
2265     pinsrw      %3, [r1+%2*SIZEOF_PIXEL-2+2*FDEC_STRIDEB], 2
2266     pinsrw      %3, [r1+%2*SIZEOF_PIXEL-2+3*FDEC_STRIDEB], 3
2267 %if HIGH_BIT_DEPTH == 0
2268     psrlw       %3, 8
2269 %endif
2270 %ifnidn %2, 0
2271     shr         %2d, 5
2272 %endif
2273 %endif ; direction
2274 %if cpuflag(ssse3)
2275     %define %%sign psignw
2276 %else
2277     %define %%sign pmullw
2278 %endif
2279     pshufw      %4, %3, q1032
2280     %%sign      %4, [pw_ppmmppmm]
2281     paddw       %3, %4
2282     pshufw      %4, %3, q2301
2283     %%sign      %4, [pw_pmpmpmpm]
2284     paddw       %3, %4
2285     psllw       %3, 2
2286     mova        [%1_1d+2*%2], %3
2287 %endmacro
2288
2289 %macro SUM_MM_X3 8 ; 3x sum, 4x tmp, op
2290     pxor        %7, %7
2291     pshufw      %4, %1, q1032
2292     pshufw      %5, %2, q1032
2293     pshufw      %6, %3, q1032
2294     paddw       %1, %4
2295     paddw       %2, %5
2296     paddw       %3, %6
2297     punpcklwd   %1, %7
2298     punpcklwd   %2, %7
2299     punpcklwd   %3, %7
2300     pshufw      %4, %1, q1032
2301     pshufw      %5, %2, q1032
2302     pshufw      %6, %3, q1032
2303     %8          %1, %4
2304     %8          %2, %5
2305     %8          %3, %6
2306 %endmacro
2307
2308 ; in: m1..m3
2309 ; out: m7
2310 ; clobber: m4..m6
2311 %macro SUM3x4 0
2312     ABSW2       m4, m5, m1, m2, m1, m2
2313     ABSW        m7, m3, m3
2314     paddw       m4, m5
2315     paddw       m7, m4
2316 %endmacro
2317
2318 ; in: m0..m3 (4x4)
2319 ; out: m0 v, m4 h, m5 dc
2320 ; clobber: m1..m3
2321 %macro SUM4x3 3 ; dc, left, top
2322     movq        m4, %2
2323 %ifnum sizeof%1
2324     movq        m5, %1
2325 %else
2326     movd        m5, %1
2327 %endif
2328     psubw       m4, m0
2329     psubw       m5, m0
2330     punpcklwd   m0, m1
2331     punpcklwd   m2, m3
2332     punpckldq   m0, m2 ; transpose
2333     psubw       m0, %3
2334     ABSW2       m4, m5, m4, m5, m2, m3 ; 1x4 sum
2335     ABSW        m0, m0, m1 ; 4x1 sum
2336 %endmacro
2337
2338 %macro INTRA_X3_MMX 0
2339 ;-----------------------------------------------------------------------------
2340 ; void intra_satd_x3_4x4( uint8_t *fenc, uint8_t *fdec, int *res )
2341 ;-----------------------------------------------------------------------------
2342 cglobal intra_satd_x3_4x4, 3,3
2343 %if UNIX64
2344     ; stack is 16 byte aligned because abi says so
2345     %define  top_1d  rsp-8  ; size 8
2346     %define  left_1d rsp-16 ; size 8
2347 %else
2348     ; WIN64:  stack is 16 byte aligned because abi says so
2349     ; X86_32: stack is 16 byte aligned at least in gcc, and we've pushed 3 regs + return address, so it's still aligned
2350     SUB         rsp, 16
2351     %define  top_1d  rsp+8
2352     %define  left_1d rsp
2353 %endif
2354
2355     call hadamard_load
2356     SCALAR_HADAMARD left, 0, m4, m5
2357     SCALAR_HADAMARD top,  0, m6, m5, m7
2358     paddw       m6, m4
2359     pavgw       m6, [pw_16]
2360     pand        m6, [sw_f0] ; dc
2361
2362     SUM3x4
2363     SUM4x3 m6, [left_1d], [top_1d]
2364     paddw       m4, m7
2365     paddw       m5, m7
2366     movq        m1, m5
2367     psrlq       m1, 16  ; 4x3 sum
2368     paddw       m0, m1
2369
2370     SUM_MM_X3   m0, m4, m5, m1, m2, m3, m6, pavgw
2371     movd        [r2+0], m0 ; i4x4_v satd
2372     movd        [r2+4], m4 ; i4x4_h satd
2373     movd        [r2+8], m5 ; i4x4_dc satd
2374 %if UNIX64 == 0
2375     ADD         rsp, 16
2376 %endif
2377     RET
2378
2379 ;-----------------------------------------------------------------------------
2380 ; void intra_satd_x3_16x16( uint8_t *fenc, uint8_t *fdec, int *res )
2381 ;-----------------------------------------------------------------------------
2382 cglobal intra_satd_x3_16x16, 0,5
2383     %assign  stack_pad  120 + ((stack_offset+120+gprsize)&15)
2384     ; not really needed on x86_64, just shuts up valgrind about storing data below the stack across a function call
2385     SUB         rsp, stack_pad
2386 %define sums    rsp+64 ; size 56
2387 %define top_1d  rsp+32 ; size 32
2388 %define left_1d rsp    ; size 32
2389     movifnidn   r1,  r1mp
2390
2391     pxor        m7, m7
2392     mova [sums+ 0], m7
2393     mova [sums+ 8], m7
2394     mova [sums+16], m7
2395 %if HIGH_BIT_DEPTH
2396     mova [sums+24], m7
2397     mova [sums+32], m7
2398     mova [sums+40], m7
2399     mova [sums+48], m7
2400 %endif
2401
2402     ; 1D hadamards
2403     mov        r3d, 12
2404     movd        m6, [pw_32]
2405 .loop_edge:
2406     SCALAR_HADAMARD left, r3, m0, m1
2407     SCALAR_HADAMARD top,  r3, m1, m2, m3
2408     pavgw       m0, m1
2409     paddw       m6, m0
2410     sub        r3d, 4
2411     jge .loop_edge
2412     psrlw       m6, 2
2413     pand        m6, [sw_f0] ; dc
2414
2415     ; 2D hadamards
2416     movifnidn   r0, r0mp
2417     mov         r3, -4
2418 .loop_y:
2419     mov         r4, -4
2420 .loop_x:
2421     call hadamard_load
2422
2423     SUM3x4
2424     SUM4x3 m6, [left_1d+8*(r3+4)], [top_1d+8*(r4+4)]
2425     pavgw       m4, m7
2426     pavgw       m5, m7
2427     paddw       m0, [sums+ 0] ; i16x16_v satd
2428     paddw       m4, [sums+ 8] ; i16x16_h satd
2429     paddw       m5, [sums+16] ; i16x16_dc satd
2430     mova [sums+ 0], m0
2431     mova [sums+ 8], m4
2432     mova [sums+16], m5
2433
2434     add         r0, 4*SIZEOF_PIXEL
2435     inc         r4
2436     jl  .loop_x
2437 %if HIGH_BIT_DEPTH
2438     psrld       m7, m4, 16
2439     pslld       m4, 16
2440     psrld       m4, 16
2441     paddd       m4, m7
2442     psrld       m7, m0, 16
2443     pslld       m0, 16
2444     psrld       m0, 16
2445     paddd       m0, m7
2446     paddd       m4, [sums+32]
2447     paddd       m0, [sums+24]
2448     mova [sums+32], m4
2449     mova [sums+24], m0
2450     pxor        m7, m7
2451     punpckhwd   m3, m5, m7
2452     punpcklwd   m5, m7
2453     paddd       m3, [sums+48]
2454     paddd       m5, [sums+40]
2455     mova [sums+48], m3
2456     mova [sums+40], m5
2457     mova [sums+ 0], m7
2458     mova [sums+ 8], m7
2459     mova [sums+16], m7
2460 %endif
2461     add         r0, 4*FENC_STRIDEB-16*SIZEOF_PIXEL
2462     inc         r3
2463     jl  .loop_y
2464
2465 ; horizontal sum
2466     movifnidn   r2, r2mp
2467 %if HIGH_BIT_DEPTH
2468     mova        m1, m5
2469     paddd       m5, m3
2470     HADDD       m5, m7 ; DC satd
2471     HADDD       m4, m7 ; H satd
2472     HADDD       m0, m7 ; the part of V satd that doesn't overlap with DC
2473     psrld       m0, 1
2474     psrlq       m1, 32 ; DC[1]
2475     paddd       m0, m3 ; DC[2]
2476     psrlq       m3, 32 ; DC[3]
2477     paddd       m0, m1
2478     paddd       m0, m3
2479 %else
2480     mova        m7, m5
2481     SUM_MM_X3   m0, m4, m5, m3, m1, m2, m6, paddd
2482     psrld       m0, 1
2483     pslld       m7, 16
2484     psrld       m7, 16
2485     paddd       m0, m5
2486     psubd       m0, m7
2487 %endif
2488     movd    [r2+8], m5 ; i16x16_dc satd
2489     movd    [r2+4], m4 ; i16x16_h satd
2490     movd    [r2+0], m0 ; i16x16_v satd
2491     ADD        rsp, stack_pad
2492     RET
2493
2494 %if ARCH_X86_64
2495     %define  t0 r6
2496 %else
2497     %define  t0 r2
2498 %endif
2499
2500 ;-----------------------------------------------------------------------------
2501 ; void intra_satd_x3_8x8c( uint8_t *fenc, uint8_t *fdec, int *res )
2502 ;-----------------------------------------------------------------------------
2503 cglobal intra_satd_x3_8x8c, 0,6
2504     ; not really needed on x86_64, just shuts up valgrind about storing data below the stack across a function call
2505     SUB          rsp, 72
2506 %define  sums    rsp+48 ; size 24
2507 %define  dc_1d   rsp+32 ; size 16
2508 %define  top_1d  rsp+16 ; size 16
2509 %define  left_1d rsp    ; size 16
2510     movifnidn   r1,  r1mp
2511     pxor        m7, m7
2512     mova [sums+ 0], m7
2513     mova [sums+ 8], m7
2514     mova [sums+16], m7
2515
2516     ; 1D hadamards
2517     mov         r3d, 4
2518 .loop_edge:
2519     SCALAR_HADAMARD left, r3, m0, m1
2520     SCALAR_HADAMARD top,  r3, m0, m1, m2
2521     sub         r3d, 4
2522     jge .loop_edge
2523
2524     ; dc
2525     movzx       t0d, word [left_1d+0]
2526     movzx       r3d, word [top_1d+0]
2527     movzx       r4d, word [left_1d+8]
2528     movzx       r5d, word [top_1d+8]
2529     lea         t0d, [t0 + r3 + 16]
2530     lea         r3d, [r4 + r5 + 16]
2531     shr         t0d, 1
2532     shr         r3d, 1
2533     add         r4d, 8
2534     add         r5d, 8
2535     and         t0d, -16 ; tl
2536     and         r3d, -16 ; br
2537     and         r4d, -16 ; bl
2538     and         r5d, -16 ; tr
2539     mov         [dc_1d+ 0], t0d ; tl
2540     mov         [dc_1d+ 4], r5d ; tr
2541     mov         [dc_1d+ 8], r4d ; bl
2542     mov         [dc_1d+12], r3d ; br
2543     lea         r5, [dc_1d]
2544
2545     ; 2D hadamards
2546     movifnidn   r0,  r0mp
2547     movifnidn   r2,  r2mp
2548     mov         r3,  -2
2549 .loop_y:
2550     mov         r4,  -2
2551 .loop_x:
2552     call hadamard_load
2553
2554     SUM3x4
2555     SUM4x3 [r5+4*(r4+2)], [left_1d+8*(r3+2)], [top_1d+8*(r4+2)]
2556     pavgw       m4, m7
2557     pavgw       m5, m7
2558     paddw       m0, [sums+16] ; i4x4_v satd
2559     paddw       m4, [sums+8]  ; i4x4_h satd
2560     paddw       m5, [sums+0]  ; i4x4_dc satd
2561     movq        [sums+16], m0
2562     movq        [sums+8], m4
2563     movq        [sums+0], m5
2564
2565     add         r0, 4*SIZEOF_PIXEL
2566     inc         r4
2567     jl  .loop_x
2568     add         r0, 4*FENC_STRIDEB-8*SIZEOF_PIXEL
2569     add         r5, 8
2570     inc         r3
2571     jl  .loop_y
2572
2573 ; horizontal sum
2574     movq        m0, [sums+0]
2575     movq        m1, [sums+8]
2576     movq        m2, [sums+16]
2577     movq        m7, m0
2578 %if HIGH_BIT_DEPTH
2579     psrlq       m7, 16
2580     HADDW       m7, m3
2581     SUM_MM_X3   m0, m1, m2, m3, m4, m5, m6, paddd
2582     psrld       m2, 1
2583     paddd       m2, m7
2584 %else
2585     psrlq       m7, 15
2586     paddw       m2, m7
2587     SUM_MM_X3   m0, m1, m2, m3, m4, m5, m6, paddd
2588     psrld       m2, 1
2589 %endif
2590     movd        [r2+0], m0 ; i8x8c_dc satd
2591     movd        [r2+4], m1 ; i8x8c_h satd
2592     movd        [r2+8], m2 ; i8x8c_v satd
2593     ADD         rsp, 72
2594     RET
2595 %endmacro ; INTRA_X3_MMX
2596
2597
2598
2599 %macro PRED4x4_LOWPASS 5
2600 %ifnum sizeof%5
2601     pavgb       %5, %2, %3
2602     pxor        %3, %2
2603     pand        %3, [pb_1]
2604     psubusb     %5, %3
2605     pavgb       %1, %4, %5
2606 %else
2607     mova        %5, %2
2608     pavgb       %2, %3
2609     pxor        %3, %5
2610     pand        %3, [pb_1]
2611     psubusb     %2, %3
2612     pavgb       %1, %4, %2
2613 %endif
2614 %endmacro
2615
2616 %macro INTRA_X9_PRED 2
2617 %if cpuflag(sse4)
2618     movu       m1, [r1-1*FDEC_STRIDE-8]
2619     pinsrb     m1, [r1+3*FDEC_STRIDE-1], 0
2620     pinsrb     m1, [r1+2*FDEC_STRIDE-1], 1
2621     pinsrb     m1, [r1+1*FDEC_STRIDE-1], 2
2622     pinsrb     m1, [r1+0*FDEC_STRIDE-1], 3
2623 %else
2624     movd      mm0, [r1+3*FDEC_STRIDE-4]
2625     punpcklbw mm0, [r1+2*FDEC_STRIDE-4]
2626     movd      mm1, [r1+1*FDEC_STRIDE-4]
2627     punpcklbw mm1, [r1+0*FDEC_STRIDE-4]
2628     punpckhwd mm0, mm1
2629     psrlq     mm0, 32
2630     movq2dq    m0, mm0
2631     movu       m1, [r1-1*FDEC_STRIDE-8]
2632     movss      m1, m0                  ; l3 l2 l1 l0 __ __ __ lt t0 t1 t2 t3 t4 t5 t6 t7
2633 %endif ; cpuflag
2634     pshufb     m1, [intrax9_edge]      ; l3 l3 l2 l1 l0 lt t0 t1 t2 t3 t4 t5 t6 t7 t7 __
2635     psrldq     m0, m1, 1               ; l3 l2 l1 l0 lt t0 t1 t2 t3 t4 t5 t6 t7 t7 __ __
2636     psrldq     m2, m1, 2               ; l2 l1 l0 lt t0 t1 t2 t3 t4 t5 t6 t7 t7 __ __ __
2637     pavgb      m5, m0, m1              ; Gl3 Gl2 Gl1 Gl0 Glt Gt0 Gt1 Gt2 Gt3 Gt4 Gt5  __  __ __ __ __
2638     mova       %2, m1
2639     PRED4x4_LOWPASS m0, m1, m2, m0, m4 ; Fl3 Fl2 Fl1 Fl0 Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5 Ft6 Ft7 __ __ __
2640     ; ddl               ddr
2641     ; Ft1 Ft2 Ft3 Ft4   Flt Ft0 Ft1 Ft2
2642     ; Ft2 Ft3 Ft4 Ft5   Fl0 Flt Ft0 Ft1
2643     ; Ft3 Ft4 Ft5 Ft6   Fl1 Fl0 Flt Ft0
2644     ; Ft4 Ft5 Ft6 Ft7   Fl2 Fl1 Fl0 Flt
2645     pshufb     m2, m0, [%1_ddlr1] ; a: ddl row0, ddl row1, ddr row0, ddr row1 / b: ddl row0, ddr row0, ddl row1, ddr row1
2646     pshufb     m3, m0, [%1_ddlr2] ; rows 2,3
2647     ; hd                hu
2648     ; Glt Flt Ft0 Ft1   Gl0 Fl1 Gl1 Fl2
2649     ; Gl0 Fl0 Glt Flt   Gl1 Fl2 Gl2 Fl3
2650     ; Gl1 Fl1 Gl0 Fl0   Gl2 Fl3 Gl3 Gl3
2651     ; Gl2 Fl2 Gl1 Fl1   Gl3 Gl3 Gl3 Gl3
2652     pslldq     m0, 5                   ; ___ ___ ___ ___ ___ Fl3 Fl2 Fl1 Fl0 Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5
2653     palignr    m7, m5, m0, 5           ; Fl3 Fl2 Fl1 Fl0 Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5 Gl3 Gl2 Gl1 Gl0 Glt
2654     pshufb     m6, m7, [%1_hdu1]
2655     pshufb     m7, m7, [%1_hdu2]
2656     ; vr                vl
2657     ; Gt0 Gt1 Gt2 Gt3   Gt1 Gt2 Gt3 Gt4
2658     ; Flt Ft0 Ft1 Ft2   Ft1 Ft2 Ft3 Ft4
2659     ; Fl0 Gt0 Gt1 Gt2   Gt2 Gt3 Gt4 Gt5
2660     ; Fl1 Flt Ft0 Ft1   Ft2 Ft3 Ft4 Ft5
2661     psrldq     m5, 5                   ; Gt0 Gt1 Gt2 Gt3 Gt4 Gt5 ...
2662     palignr    m5, m0, 6               ; ___ Fl1 Fl0 Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5 Gt0 Gt1 Gt2 Gt3 Gt4 Gt5
2663     pshufb     m4, m5, [%1_vrl1]
2664     pshufb     m5, m5, [%1_vrl2]
2665 %endmacro ; INTRA_X9_PRED
2666
2667 %macro INTRA_X9_VHDC 5 ; edge, fenc01, fenc23, tmp, tmp
2668     pshufb     m2, m%1, [intrax9b_vh1]
2669     pshufb     m3, m%1, [intrax9b_vh2]
2670     mova      [pred_buf+0x60], m2
2671     mova      [pred_buf+0x70], m3
2672     pshufb    m%1, [intrax9b_edge2] ; t0 t1 t2 t3 t0 t1 t2 t3 l0 l1 l2 l3 l0 l1 l2 l3
2673     pmaddubsw m%1, [hmul_4p]
2674     pshufhw    m0, m%1, q2301
2675     pshuflw    m0, m0,  q2301
2676     psignw    m%1, [pw_pmpmpmpm]
2677     paddw      m0, m%1
2678     psllw      m0, 2 ; hadamard(top), hadamard(left)
2679     MOVHL      m3, m0
2680     pshufb     m1, m0, [intrax9b_v1]
2681     pshufb     m2, m0, [intrax9b_v2]
2682     paddw      m0, m3
2683     psignw     m3, [pw_pmmpzzzz] ; FIXME could this be eliminated?
2684     pavgw      m0, [pw_16]
2685     pand       m0, [sw_f0] ; dc
2686     ; This (as well as one of the steps in intra_satd_x9_4x4.satd_8x4) could be
2687     ; changed from a wd transpose to a qdq, with appropriate rearrangement of inputs.
2688     ; Which would be faster on conroe, but slower on penryn and sandybridge, and too invasive to ifdef.
2689     HADAMARD 0, sumsub, %2, %3, %4, %5
2690     HADAMARD 1, sumsub, %2, %3, %4, %5
2691     movd      r3d, m0
2692     shr       r3d, 4
2693     imul      r3d, 0x01010101
2694     mov       [pred_buf+0x80], r3d
2695     mov       [pred_buf+0x88], r3d
2696     mov       [pred_buf+0x90], r3d
2697     mov       [pred_buf+0x98], r3d
2698     psubw      m3, m%2
2699     psubw      m0, m%2
2700     psubw      m1, m%2
2701     psubw      m2, m%3
2702     pabsw     m%3, m%3
2703     pabsw      m3, m3
2704     pabsw      m0, m0
2705     pabsw      m1, m1
2706     pabsw      m2, m2
2707     pavgw      m3, m%3
2708     pavgw      m0, m%3
2709     pavgw      m1, m2
2710 %if cpuflag(sse4)
2711     phaddw     m3, m0
2712 %else
2713     SBUTTERFLY qdq, 3, 0, 2
2714     paddw      m3, m0
2715 %endif
2716     MOVHL      m2, m1
2717     paddw      m1, m2
2718 %if cpuflag(xop)
2719     vphaddwq   m3, m3
2720     vphaddwq   m1, m1
2721     packssdw   m1, m3
2722 %else
2723     phaddw     m1, m3
2724     pmaddwd    m1, [pw_1] ; v, _, h, dc
2725 %endif
2726 %endmacro ; INTRA_X9_VHDC
2727
2728 %macro INTRA_X9_END 2
2729 %if cpuflag(sse4)
2730     phminposuw m0, m0 ; h,dc,ddl,ddr,vr,hd,vl,hu
2731     movd      eax, m0
2732     add       eax, 1<<16
2733     cmp        ax, r3w
2734     cmovge    eax, r3d
2735 %else
2736 %if %1
2737     ; 4x4 sad is up to 12 bits; +bitcosts -> 13 bits; pack with 3 bit index
2738     psllw      m0, 3
2739     paddw      m0, [pw_s01234567] ; h,dc,ddl,ddr,vr,hd,vl,hu
2740 %else
2741     ; 4x4 satd is up to 13 bits; +bitcosts and saturate -> 13 bits; pack with 3 bit index
2742     psllw      m0, 2
2743     paddusw    m0, m0
2744     paddw      m0, [pw_s01234657] ; h,dc,ddl,ddr,vr,vl,hd,hu
2745 %endif
2746     movhlps    m1, m0
2747     pminsw     m0, m1
2748     pshuflw    m1, m0, q0032
2749     pminsw     m0, m1
2750     pshuflw    m1, m0, q0001
2751     pminsw     m0, m1
2752     movd      eax, m0
2753     movsx     r2d, ax
2754     and       eax, 7
2755     sar       r2d, 3
2756     shl       eax, 16
2757     ; 1<<16: increment index to match intra4x4_pred_e. couldn't do this before because it had to fit in 3 bits
2758     ; 1<<12: undo sign manipulation
2759     lea       eax, [rax+r2+(1<<16)+(1<<12)]
2760     cmp        ax, r3w
2761     cmovge    eax, r3d
2762 %endif ; cpuflag
2763
2764     ; output the predicted samples
2765     mov       r3d, eax
2766     shr       r3d, 16
2767 %ifdef PIC
2768     lea        r2, [%2_lut]
2769     movzx     r2d, byte [r2+r3]
2770 %else
2771     movzx     r2d, byte [%2_lut+r3]
2772 %endif
2773 %if %1 ; sad
2774     movq      mm0, [pred_buf+r2]
2775     movq      mm1, [pred_buf+r2+16]
2776     movd     [r1+0*FDEC_STRIDE], mm0
2777     movd     [r1+2*FDEC_STRIDE], mm1
2778     psrlq     mm0, 32
2779     psrlq     mm1, 32
2780     movd     [r1+1*FDEC_STRIDE], mm0
2781     movd     [r1+3*FDEC_STRIDE], mm1
2782 %else ; satd
2783 %assign i 0
2784 %rep 4
2785     mov       r3d, [pred_buf+r2+8*i]
2786     mov      [r1+i*FDEC_STRIDE], r3d
2787 %assign i i+1
2788 %endrep
2789 %endif
2790 %endmacro ; INTRA_X9_END
2791
2792 %macro INTRA_X9 0
2793 ;-----------------------------------------------------------------------------
2794 ; int intra_sad_x9_4x4( uint8_t *fenc, uint8_t *fdec, uint16_t *bitcosts )
2795 ;-----------------------------------------------------------------------------
2796 %if notcpuflag(xop)
2797 cglobal intra_sad_x9_4x4, 3,4,9
2798     %assign pad 0xc0-gprsize-(stack_offset&15)
2799     %define pred_buf rsp
2800     sub       rsp, pad
2801 %if ARCH_X86_64
2802     INTRA_X9_PRED intrax9a, m8
2803 %else
2804     INTRA_X9_PRED intrax9a, [rsp+0xa0]
2805 %endif
2806     mova [rsp+0x00], m2
2807     mova [rsp+0x10], m3
2808     mova [rsp+0x20], m4
2809     mova [rsp+0x30], m5
2810     mova [rsp+0x40], m6
2811     mova [rsp+0x50], m7
2812 %if cpuflag(sse4)
2813     movd       m0, [r0+0*FENC_STRIDE]
2814     pinsrd     m0, [r0+1*FENC_STRIDE], 1
2815     movd       m1, [r0+2*FENC_STRIDE]
2816     pinsrd     m1, [r0+3*FENC_STRIDE], 1
2817 %else
2818     movd      mm0, [r0+0*FENC_STRIDE]
2819     punpckldq mm0, [r0+1*FENC_STRIDE]
2820     movd      mm1, [r0+2*FENC_STRIDE]
2821     punpckldq mm1, [r0+3*FENC_STRIDE]
2822     movq2dq    m0, mm0
2823     movq2dq    m1, mm1
2824 %endif
2825     punpcklqdq m0, m0
2826     punpcklqdq m1, m1
2827     psadbw     m2, m0
2828     psadbw     m3, m1
2829     psadbw     m4, m0
2830     psadbw     m5, m1
2831     psadbw     m6, m0
2832     psadbw     m7, m1
2833     paddd      m2, m3
2834     paddd      m4, m5
2835     paddd      m6, m7
2836 %if ARCH_X86_64
2837     SWAP        7, 8
2838     pxor       m8, m8
2839     %define %%zero m8
2840 %else
2841     mova       m7, [rsp+0xa0]
2842     %define %%zero [pb_0]
2843 %endif
2844     pshufb     m3, m7, [intrax9a_vh1]
2845     pshufb     m5, m7, [intrax9a_vh2]
2846     pshufb     m7, [intrax9a_dc]
2847     psadbw     m7, %%zero
2848     psrlw      m7, 2
2849     mova [rsp+0x60], m3
2850     mova [rsp+0x70], m5
2851     psadbw     m3, m0
2852     pavgw      m7, %%zero
2853     pshufb     m7, %%zero
2854     psadbw     m5, m1
2855     movq [rsp+0x80], m7
2856     movq [rsp+0x90], m7
2857     psadbw     m0, m7
2858     paddd      m3, m5
2859     psadbw     m1, m7
2860     paddd      m0, m1
2861     movzx     r3d, word [r2]
2862     movd      r0d, m3 ; v
2863     add       r3d, r0d
2864     punpckhqdq m3, m0 ; h, dc
2865     shufps     m3, m2, q2020
2866     psllq      m6, 32
2867     por        m4, m6
2868     movu       m0, [r2+2]
2869     packssdw   m3, m4
2870     paddw      m0, m3
2871     INTRA_X9_END 1, intrax9a
2872     add       rsp, pad
2873     RET
2874 %endif ; cpuflag
2875
2876 %if ARCH_X86_64
2877 ;-----------------------------------------------------------------------------
2878 ; int intra_satd_x9_4x4( uint8_t *fenc, uint8_t *fdec, uint16_t *bitcosts )
2879 ;-----------------------------------------------------------------------------
2880 cglobal intra_satd_x9_4x4, 3,4,16
2881     %assign pad 0xb0-gprsize-(stack_offset&15)
2882     %define pred_buf rsp
2883     sub       rsp, pad
2884     INTRA_X9_PRED intrax9b, m15
2885     mova [rsp+0x00], m2
2886     mova [rsp+0x10], m3
2887     mova [rsp+0x20], m4
2888     mova [rsp+0x30], m5
2889     mova [rsp+0x40], m6
2890     mova [rsp+0x50], m7
2891     movd       m8, [r0+0*FENC_STRIDE]
2892     movd       m9, [r0+1*FENC_STRIDE]
2893     movd      m10, [r0+2*FENC_STRIDE]
2894     movd      m11, [r0+3*FENC_STRIDE]
2895     mova      m12, [hmul_8p]
2896     pshufd     m8, m8, 0
2897     pshufd     m9, m9, 0
2898     pshufd    m10, m10, 0
2899     pshufd    m11, m11, 0
2900     pmaddubsw  m8, m12
2901     pmaddubsw  m9, m12
2902     pmaddubsw m10, m12
2903     pmaddubsw m11, m12
2904     movddup    m0, m2
2905     pshufd     m1, m2, q3232
2906     movddup    m2, m3
2907     punpckhqdq m3, m3
2908     call .satd_8x4 ; ddr, ddl
2909     movddup    m2, m5
2910     pshufd     m3, m5, q3232
2911     mova       m5, m0
2912     movddup    m0, m4
2913     pshufd     m1, m4, q3232
2914     call .satd_8x4 ; vr, vl
2915     movddup    m2, m7
2916     pshufd     m3, m7, q3232
2917     mova       m4, m0
2918     movddup    m0, m6
2919     pshufd     m1, m6, q3232
2920     call .satd_8x4 ; hd, hu
2921 %if cpuflag(sse4)
2922     punpckldq  m4, m0
2923 %else
2924     punpcklqdq m4, m0 ; conroe dislikes punpckldq, and ssse3 INTRA_X9_END can handle arbitrary orders whereas phminposuw can't
2925 %endif
2926     mova       m1, [pw_ppmmppmm]
2927     psignw     m8, m1
2928     psignw    m10, m1
2929     paddw      m8, m9
2930     paddw     m10, m11
2931     INTRA_X9_VHDC 15, 8, 10, 6, 7
2932     ; find minimum
2933     movu       m0, [r2+2]
2934     movd      r3d, m1
2935     palignr    m5, m1, 8
2936 %if notcpuflag(sse4)
2937     pshufhw    m0, m0, q3120 ; compensate for different order in unpack
2938 %endif
2939     packssdw   m5, m4
2940     paddw      m0, m5
2941     movzx     r0d, word [r2]
2942     add       r3d, r0d
2943     INTRA_X9_END 0, intrax9b
2944     add       rsp, pad
2945     RET
2946 RESET_MM_PERMUTATION
2947 ALIGN 16
2948 .satd_8x4:
2949     pmaddubsw  m0, m12
2950     pmaddubsw  m1, m12
2951     pmaddubsw  m2, m12
2952     pmaddubsw  m3, m12
2953     psubw      m0, m8
2954     psubw      m1, m9
2955     psubw      m2, m10
2956     psubw      m3, m11
2957     SATD_8x4_SSE 0, 0, 1, 2, 3, 13, 14, 0, swap
2958     pmaddwd    m0, [pw_1]
2959     MOVHL      m1, m0
2960     paddd    xmm0, m0, m1 ; consistent location of return value. only the avx version of hadamard permutes m0, so 3arg is free
2961     ret
2962
2963 %else ; !ARCH_X86_64
2964 cglobal intra_satd_x9_4x4, 3,4,8
2965     %assign pad 0x120-gprsize-(stack_offset&15)
2966     %define fenc_buf rsp
2967     %define pred_buf rsp+0x40
2968     %define spill    rsp+0xe0
2969     sub       rsp, pad
2970     INTRA_X9_PRED intrax9b, [spill+0x20]
2971     mova [pred_buf+0x00], m2
2972     mova [pred_buf+0x10], m3
2973     mova [pred_buf+0x20], m4
2974     mova [pred_buf+0x30], m5
2975     mova [pred_buf+0x40], m6
2976     mova [pred_buf+0x50], m7
2977     movd       m4, [r0+0*FENC_STRIDE]
2978     movd       m5, [r0+1*FENC_STRIDE]
2979     movd       m6, [r0+2*FENC_STRIDE]
2980     movd       m0, [r0+3*FENC_STRIDE]
2981     mova       m7, [hmul_8p]
2982     pshufd     m4, m4, 0
2983     pshufd     m5, m5, 0
2984     pshufd     m6, m6, 0
2985     pshufd     m0, m0, 0
2986     pmaddubsw  m4, m7
2987     pmaddubsw  m5, m7
2988     pmaddubsw  m6, m7
2989     pmaddubsw  m0, m7
2990     mova [fenc_buf+0x00], m4
2991     mova [fenc_buf+0x10], m5
2992     mova [fenc_buf+0x20], m6
2993     mova [fenc_buf+0x30], m0
2994     movddup    m0, m2
2995     pshufd     m1, m2, q3232
2996     movddup    m2, m3
2997     punpckhqdq m3, m3
2998     pmaddubsw  m0, m7
2999     pmaddubsw  m1, m7
3000     pmaddubsw  m2, m7
3001     pmaddubsw  m3, m7
3002     psubw      m0, m4
3003     psubw      m1, m5
3004     psubw      m2, m6
3005     call .satd_8x4b ; ddr, ddl
3006     mova       m3, [pred_buf+0x30]
3007     mova       m1, [pred_buf+0x20]
3008     movddup    m2, m3
3009     punpckhqdq m3, m3
3010     movq [spill+0x08], m0
3011     movddup    m0, m1
3012     punpckhqdq m1, m1
3013     call .satd_8x4 ; vr, vl
3014     mova       m3, [pred_buf+0x50]
3015     mova       m1, [pred_buf+0x40]
3016     movddup    m2, m3
3017     punpckhqdq m3, m3
3018     movq [spill+0x10], m0
3019     movddup    m0, m1
3020     punpckhqdq m1, m1
3021     call .satd_8x4 ; hd, hu
3022     movq [spill+0x18], m0
3023     mova       m1, [spill+0x20]
3024     mova       m4, [fenc_buf+0x00]
3025     mova       m5, [fenc_buf+0x20]
3026     mova       m2, [pw_ppmmppmm]
3027     psignw     m4, m2
3028     psignw     m5, m2
3029     paddw      m4, [fenc_buf+0x10]
3030     paddw      m5, [fenc_buf+0x30]
3031     INTRA_X9_VHDC 1, 4, 5, 6, 7
3032     ; find minimum
3033     movu       m0, [r2+2]
3034     movd      r3d, m1
3035     punpckhqdq m1, [spill+0x00]
3036     packssdw   m1, [spill+0x10]
3037 %if cpuflag(sse4)
3038     pshufhw    m1, m1, q3120
3039 %else
3040     pshufhw    m0, m0, q3120
3041 %endif
3042     paddw      m0, m1
3043     movzx     r0d, word [r2]
3044     add       r3d, r0d
3045     INTRA_X9_END 0, intrax9b
3046     add       rsp, pad
3047     RET
3048 RESET_MM_PERMUTATION
3049 ALIGN 16
3050 .satd_8x4:
3051     pmaddubsw  m0, m7
3052     pmaddubsw  m1, m7
3053     pmaddubsw  m2, m7
3054     pmaddubsw  m3, m7
3055     %xdefine fenc_buf fenc_buf+gprsize
3056     psubw      m0, [fenc_buf+0x00]
3057     psubw      m1, [fenc_buf+0x10]
3058     psubw      m2, [fenc_buf+0x20]
3059 .satd_8x4b:
3060     psubw      m3, [fenc_buf+0x30]
3061     SATD_8x4_SSE 0, 0, 1, 2, 3, 4, 5, 0, swap
3062     pmaddwd    m0, [pw_1]
3063     MOVHL      m1, m0
3064     paddd    xmm0, m0, m1
3065     ret
3066 %endif ; ARCH
3067 %endmacro ; INTRA_X9
3068
3069 %macro INTRA8_X9 0
3070 ;-----------------------------------------------------------------------------
3071 ; int intra_sad_x9_8x8( uint8_t *fenc, uint8_t *fdec, uint8_t edge[36], uint16_t *bitcosts, uint16_t *satds )
3072 ;-----------------------------------------------------------------------------
3073 cglobal intra_sad_x9_8x8, 5,6,9
3074     %define fenc02 m4
3075     %define fenc13 m5
3076     %define fenc46 m6
3077     %define fenc57 m7
3078 %if ARCH_X86_64
3079     %define tmp m8
3080     %assign padbase 0x0
3081 %else
3082     %define tmp [rsp]
3083     %assign padbase 0x10
3084 %endif
3085     %assign pad 0x240+0x10+padbase-gprsize-(stack_offset&15)
3086     %define pred(i,j) [rsp+i*0x40+j*0x10+padbase]
3087
3088     SUB        rsp, pad
3089     movq    fenc02, [r0+FENC_STRIDE* 0]
3090     movq    fenc13, [r0+FENC_STRIDE* 1]
3091     movq    fenc46, [r0+FENC_STRIDE* 4]
3092     movq    fenc57, [r0+FENC_STRIDE* 5]
3093     movhps  fenc02, [r0+FENC_STRIDE* 2]
3094     movhps  fenc13, [r0+FENC_STRIDE* 3]
3095     movhps  fenc46, [r0+FENC_STRIDE* 6]
3096     movhps  fenc57, [r0+FENC_STRIDE* 7]
3097
3098     ; save instruction size: avoid 4-byte memory offsets
3099     lea         r0, [intra8x9_h1+128]
3100     %define off(m) (r0+m-(intra8x9_h1+128))
3101
3102 ; v
3103     movddup     m0, [r2+16]
3104     mova pred(0,0), m0
3105     psadbw      m1, m0, fenc02
3106     mova pred(0,1), m0
3107     psadbw      m2, m0, fenc13
3108     mova pred(0,2), m0
3109     psadbw      m3, m0, fenc46
3110     mova pred(0,3), m0
3111     psadbw      m0, m0, fenc57
3112     paddw       m1, m2
3113     paddw       m0, m3
3114     paddw       m0, m1
3115     MOVHL       m1, m0
3116     paddw       m0, m1
3117     movd    [r4+0], m0
3118
3119 ; h
3120     movq        m0, [r2+7]
3121     pshufb      m1, m0, [off(intra8x9_h1)]
3122     pshufb      m2, m0, [off(intra8x9_h2)]
3123     mova pred(1,0), m1
3124     psadbw      m1, fenc02
3125     mova pred(1,1), m2
3126     psadbw      m2, fenc13
3127     paddw       m1, m2
3128     pshufb      m3, m0, [off(intra8x9_h3)]
3129     pshufb      m2, m0, [off(intra8x9_h4)]
3130     mova pred(1,2), m3
3131     psadbw      m3, fenc46
3132     mova pred(1,3), m2
3133     psadbw      m2, fenc57
3134     paddw       m1, m3
3135     paddw       m1, m2
3136     MOVHL       m2, m1
3137     paddw       m1, m2
3138     movd    [r4+2], m1
3139
3140     lea         r5, [rsp+padbase+0x100]
3141     %define pred(i,j) [r5+i*0x40+j*0x10-0x100]
3142
3143 ; dc
3144     movhps      m0, [r2+16]
3145     pxor        m2, m2
3146     psadbw      m0, m2
3147     MOVHL       m1, m0
3148     paddw       m0, m1
3149     psrlw       m0, 3
3150     pavgw       m0, m2
3151     pshufb      m0, m2
3152     mova pred(2,0), m0
3153     psadbw      m1, m0, fenc02
3154     mova pred(2,1), m0
3155     psadbw      m2, m0, fenc13
3156     mova pred(2,2), m0
3157     psadbw      m3, m0, fenc46
3158     mova pred(2,3), m0
3159     psadbw      m0, m0, fenc57
3160     paddw       m1, m2
3161     paddw       m0, m3
3162     paddw       m0, m1
3163     MOVHL       m1, m0
3164     paddw       m0, m1
3165     movd    [r4+4], m0
3166
3167 ; ddl
3168 ; Ft1 Ft2 Ft3 Ft4 Ft5 Ft6 Ft7 Ft8
3169 ; Ft2 Ft3 Ft4 Ft5 Ft6 Ft7 Ft8 Ft9
3170 ; Ft3 Ft4 Ft5 Ft6 Ft7 Ft8 Ft9 FtA
3171 ; Ft4 Ft5 Ft6 Ft7 Ft8 Ft9 FtA FtB
3172 ; Ft5 Ft6 Ft7 Ft8 Ft9 FtA FtB FtC
3173 ; Ft6 Ft7 Ft8 Ft9 FtA FtB FtC FtD
3174 ; Ft7 Ft8 Ft9 FtA FtB FtC FtD FtE
3175 ; Ft8 Ft9 FtA FtB FtC FtD FtE FtF
3176     mova        m0, [r2+16]
3177     movu        m2, [r2+17]
3178     pslldq      m1, m0, 1
3179     pavgb       m3, m0, m2              ; Gt1 Gt2 Gt3 Gt4 Gt5 Gt6 Gt7 Gt8 Gt9 GtA GtB ___ ___ ___ ___ ___
3180     PRED4x4_LOWPASS m0, m1, m2, m0, tmp ; ___ Ft1 Ft2 Ft3 Ft4 Ft5 Ft6 Ft7 Ft8 Ft9 FtA FtB FtC FtD FtE FtF
3181     pshufb      m1, m0, [off(intra8x9_ddl1)]
3182     pshufb      m2, m0, [off(intra8x9_ddl2)]
3183     mova pred(3,0), m1
3184     psadbw      m1, fenc02
3185     mova pred(3,1), m2
3186     psadbw      m2, fenc13
3187     paddw       m1, m2
3188     pshufb      m2, m0, [off(intra8x9_ddl3)]
3189     mova pred(3,2), m2
3190     psadbw      m2, fenc46
3191     paddw       m1, m2
3192     pshufb      m2, m0, [off(intra8x9_ddl4)]
3193     mova pred(3,3), m2
3194     psadbw      m2, fenc57
3195     paddw       m1, m2
3196     MOVHL       m2, m1
3197     paddw       m1, m2
3198     movd    [r4+6], m1
3199
3200 ; vl
3201 ; Gt1 Gt2 Gt3 Gt4 Gt5 Gt6 Gt7 Gt8
3202 ; Ft1 Ft2 Ft3 Ft4 Ft5 Ft6 Ft7 Ft8
3203 ; Gt2 Gt3 Gt4 Gt5 Gt6 Gt7 Gt8 Gt9
3204 ; Ft2 Ft3 Ft4 Ft5 Ft6 Ft7 Ft8 Ft9
3205 ; Gt3 Gt4 Gt5 Gt6 Gt7 Gt8 Gt9 GtA
3206 ; Ft3 Ft4 Ft5 Ft6 Ft7 Ft8 Ft9 FtA
3207 ; Gt4 Gt5 Gt6 Gt7 Gt8 Gt9 GtA GtB
3208 ; Ft4 Ft5 Ft6 Ft7 Ft8 Ft9 FtA FtB
3209     pshufb      m1, m3, [off(intra8x9_vl1)]
3210     pshufb      m2, m0, [off(intra8x9_vl2)]
3211     pshufb      m3, m3, [off(intra8x9_vl3)]
3212     pshufb      m0, m0, [off(intra8x9_vl4)]
3213     mova pred(7,0), m1
3214     psadbw      m1, fenc02
3215     mova pred(7,1), m2
3216     psadbw      m2, fenc13
3217     mova pred(7,2), m3
3218     psadbw      m3, fenc46
3219     mova pred(7,3), m0
3220     psadbw      m0, fenc57
3221     paddw       m1, m2
3222     paddw       m0, m3
3223     paddw       m0, m1
3224     MOVHL       m1, m0
3225     paddw       m0, m1
3226 %if cpuflag(sse4)
3227     pextrw [r4+14], m0, 0
3228 %else
3229     movd       r5d, m0
3230     mov    [r4+14], r5w
3231     lea         r5, [rsp+padbase+0x100]
3232 %endif
3233
3234 ; ddr
3235 ; Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5 Ft6
3236 ; Fl0 Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5
3237 ; Fl1 Fl0 Flt Ft0 Ft1 Ft2 Ft3 Ft4
3238 ; Fl2 Fl1 Fl0 Flt Ft0 Ft1 Ft2 Ft3
3239 ; Fl3 Fl2 Fl1 Fl0 Flt Ft0 Ft1 Ft2
3240 ; Fl4 Fl3 Fl2 Fl1 Fl0 Flt Ft0 Ft1
3241 ; Fl5 Fl4 Fl3 Fl2 Fl1 Fl0 Flt Ft0
3242 ; Fl6 Fl5 Fl4 Fl3 Fl2 Fl1 Fl0 Flt
3243     movu        m2, [r2+8]
3244     movu        m0, [r2+7]
3245     movu        m1, [r2+6]
3246     pavgb       m3, m2, m0              ; Gl6 Gl5 Gl4 Gl3 Gl2 Gl1 Gl0 Glt Gt0 Gt1 Gt2 Gt3 Gt4 Gt5 Gt6 Gt7
3247     PRED4x4_LOWPASS m0, m1, m2, m0, tmp ; Fl7 Fl6 Fl5 Fl4 Fl3 Fl2 Fl1 Fl0 Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5 Ft6
3248     pshufb      m1, m0, [off(intra8x9_ddr1)]
3249     pshufb      m2, m0, [off(intra8x9_ddr2)]
3250     mova pred(4,0), m1
3251     psadbw      m1, fenc02
3252     mova pred(4,1), m2
3253     psadbw      m2, fenc13
3254     paddw       m1, m2
3255     pshufb      m2, m0, [off(intra8x9_ddr3)]
3256     mova pred(4,2), m2
3257     psadbw      m2, fenc46
3258     paddw       m1, m2
3259     pshufb      m2, m0, [off(intra8x9_ddr4)]
3260     mova pred(4,3), m2
3261     psadbw      m2, fenc57
3262     paddw       m1, m2
3263     MOVHL       m2, m1
3264     paddw       m1, m2
3265     movd    [r4+8], m1
3266
3267     add         r0, 256
3268     add         r5, 0xC0
3269     %define off(m) (r0+m-(intra8x9_h1+256+128))
3270     %define pred(i,j) [r5+i*0x40+j*0x10-0x1C0]
3271
3272 ; vr
3273 ; Gt0 Gt1 Gt2 Gt3 Gt4 Gt5 Gt6 Gt7
3274 ; Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5 Ft6
3275 ; Fl0 Gt0 Gt1 Gt2 Gt3 Gt4 Gt5 Gt6
3276 ; Fl1 Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5
3277 ; Fl2 Fl0 Gt0 Gt1 Gt2 Gt3 Gt4 Gt5
3278 ; Fl3 Fl1 Flt Ft0 Ft1 Ft2 Ft3 Ft4
3279 ; Fl4 Fl2 Fl0 Gt0 Gt1 Gt2 Gt3 Gt4
3280 ; Fl5 Fl3 Fl1 Flt Ft0 Ft1 Ft2 Ft3
3281     movsd       m2, m3, m0 ; Fl7 Fl6 Fl5 Fl4 Fl3 Fl2 Fl1 Fl0 Gt0 Gt1 Gt2 Gt3 Gt4 Gt5 Gt6 Gt7
3282     pshufb      m1, m2, [off(intra8x9_vr1)]
3283     pshufb      m2, m2, [off(intra8x9_vr3)]
3284     mova pred(5,0), m1
3285     psadbw      m1, fenc02
3286     mova pred(5,2), m2
3287     psadbw      m2, fenc46
3288     paddw       m1, m2
3289     pshufb      m2, m0, [off(intra8x9_vr2)]
3290     mova pred(5,1), m2
3291     psadbw      m2, fenc13
3292     paddw       m1, m2
3293     pshufb      m2, m0, [off(intra8x9_vr4)]
3294     mova pred(5,3), m2
3295     psadbw      m2, fenc57
3296     paddw       m1, m2
3297     MOVHL       m2, m1
3298     paddw       m1, m2
3299     movd   [r4+10], m1
3300
3301 ; hd
3302 ; Glt Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5
3303 ; Gl0 Fl0 Glt Flt Ft0 Ft1 Ft2 Ft3
3304 ; Gl1 Fl1 Gl0 Fl0 Glt Flt Ft0 Ft1
3305 ; Gl2 Fl2 Gl1 Fl1 Gl0 Fl0 Glt Flt
3306 ; Gl3 Fl3 Gl2 Fl2 Gl1 Fl1 Gl0 Fl0
3307 ; Gl4 Fl4 Gl3 Fl3 Gl2 Fl2 Gl1 Fl1
3308 ; Gl5 Fl5 Gl4 Fl4 Gl3 Fl3 Gl2 Fl2
3309 ; Gl6 Fl6 Gl5 Fl5 Gl4 Fl4 Gl3 Fl3
3310     pshufd      m2, m3, q0001
3311 %if cpuflag(sse4)
3312     pblendw     m2, m0, q3330 ; Gl2 Gl1 Gl0 Glt ___ Fl2 Fl1 Fl0 Flt Ft0 Ft1 Ft2 Ft3 Ft4 Ft5 ___
3313 %else
3314     movss       m1, m0, m2
3315     SWAP        1, 2
3316 %endif
3317     punpcklbw   m0, m3        ; Fl7 Gl6 Fl6 Gl5 Fl5 Gl4 Fl4 Gl3 Fl3 Gl2 Fl2 Gl1 Fl1 Gl0 Fl0 ___
3318     pshufb      m1, m2, [off(intra8x9_hd1)]
3319     pshufb      m2, m2, [off(intra8x9_hd2)]
3320     mova pred(6,0), m1
3321     psadbw      m1, fenc02
3322     mova pred(6,1), m2
3323     psadbw      m2, fenc13
3324     paddw       m1, m2
3325     pshufb      m2, m0, [off(intra8x9_hd3)]
3326     pshufb      m3, m0, [off(intra8x9_hd4)]
3327     mova pred(6,2), m2
3328     psadbw      m2, fenc46
3329     mova pred(6,3), m3
3330     psadbw      m3, fenc57
3331     paddw       m1, m2
3332     paddw       m1, m3
3333     MOVHL       m2, m1
3334     paddw       m1, m2
3335     ; don't just store to [r4+12]. this is too close to the load of dqword [r4] and would cause a forwarding stall
3336     pslldq      m1, 12
3337     SWAP        3, 1
3338
3339 ; hu
3340 ; Gl0 Fl1 Gl1 Fl2 Gl2 Fl3 Gl3 Fl4
3341 ; Gl1 Fl2 Gl2 Fl3 Gl3 Fl4 Gl4 Fl5
3342 ; Gl2 Fl3 Gl3 Gl3 Gl4 Fl5 Gl5 Fl6
3343 ; Gl3 Gl3 Gl4 Fl5 Gl5 Fl6 Gl6 Fl7
3344 ; Gl4 Fl5 Gl5 Fl6 Gl6 Fl7 Gl7 Gl7
3345 ; Gl5 Fl6 Gl6 Fl7 Gl7 Gl7 Gl7 Gl7
3346 ; Gl6 Fl7 Gl7 Gl7 Gl7 Gl7 Gl7 Gl7
3347 ; Gl7 Gl7 Gl7 Gl7 Gl7 Gl7 Gl7 Gl7
3348 %if cpuflag(sse4)
3349     pinsrb      m0, [r2+7], 15 ; Gl7
3350 %else
3351     movd        m1, [r2+7]
3352     pslldq      m0, 1
3353     palignr     m1, m0, 1
3354     SWAP        0, 1
3355 %endif
3356     pshufb      m1, m0, [off(intra8x9_hu1)]
3357     pshufb      m2, m0, [off(intra8x9_hu2)]
3358     mova pred(8,0), m1
3359     psadbw      m1, fenc02
3360     mova pred(8,1), m2
3361     psadbw      m2, fenc13
3362     paddw       m1, m2
3363     pshufb      m2, m0, [off(intra8x9_hu3)]
3364     pshufb      m0, m0, [off(intra8x9_hu4)]
3365     mova pred(8,2), m2
3366     psadbw      m2, fenc46
3367     mova pred(8,3), m0
3368     psadbw      m0, fenc57
3369     paddw       m1, m2
3370     paddw       m1, m0
3371     MOVHL       m2, m1
3372     paddw       m1, m2
3373     movd       r2d, m1
3374
3375     movu        m0, [r3]
3376     por         m3, [r4]
3377     paddw       m0, m3
3378     mova      [r4], m0
3379     movzx      r5d, word [r3+16]
3380     add        r2d, r5d
3381     mov    [r4+16], r2w
3382
3383 %if cpuflag(sse4)
3384     phminposuw m0, m0 ; v,h,dc,ddl,ddr,vr,hd,vl
3385     movd      eax, m0
3386 %else
3387     ; 8x8 sad is up to 14 bits; +bitcosts and saturate -> 14 bits; pack with 2 bit index
3388     paddusw    m0, m0
3389     paddusw    m0, m0
3390     paddw      m0, [off(pw_s00112233)]
3391     MOVHL      m1, m0
3392     pminsw     m0, m1
3393     pshuflw    m1, m0, q0032
3394     pminsw     m0, m1
3395     movd      eax, m0
3396     ; repack with 3 bit index
3397     xor       eax, 0x80008000
3398     movzx     r3d, ax
3399     shr       eax, 15
3400     add       r3d, r3d
3401     or        eax, 1
3402     cmp       eax, r3d
3403     cmovg     eax, r3d
3404     ; reverse to phminposuw order
3405     mov       r3d, eax
3406     and       eax, 7
3407     shr       r3d, 3
3408     shl       eax, 16
3409     or        eax, r3d
3410 %endif
3411     add       r2d, 8<<16
3412     cmp        ax, r2w
3413     cmovg     eax, r2d
3414
3415     mov       r2d, eax
3416     shr       r2d, 16
3417     shl       r2d, 6
3418     add        r1, 4*FDEC_STRIDE
3419     mova       m0, [rsp+padbase+r2+0x00]
3420     mova       m1, [rsp+padbase+r2+0x10]
3421     mova       m2, [rsp+padbase+r2+0x20]
3422     mova       m3, [rsp+padbase+r2+0x30]
3423     movq   [r1+FDEC_STRIDE*-4], m0
3424     movhps [r1+FDEC_STRIDE*-2], m0
3425     movq   [r1+FDEC_STRIDE*-3], m1
3426     movhps [r1+FDEC_STRIDE*-1], m1
3427     movq   [r1+FDEC_STRIDE* 0], m2
3428     movhps [r1+FDEC_STRIDE* 2], m2
3429     movq   [r1+FDEC_STRIDE* 1], m3
3430     movhps [r1+FDEC_STRIDE* 3], m3
3431     ADD       rsp, pad
3432     RET
3433
3434 %if ARCH_X86_64
3435 ;-----------------------------------------------------------------------------
3436 ; int intra_sa8d_x9_8x8( uint8_t *fenc, uint8_t *fdec, uint8_t edge[36], uint16_t *bitcosts, uint16_t *satds )
3437 ;-----------------------------------------------------------------------------
3438 cglobal intra_sa8d_x9_8x8, 5,6,16
3439     %assign pad 0x2c0+0x10-gprsize-(stack_offset&15)
3440     %define fenc_buf rsp
3441     %define pred_buf rsp+0x80
3442     SUB        rsp, pad
3443     mova       m15, [hmul_8p]
3444     pxor        m8, m8
3445 %assign %%i 0
3446 %rep 8
3447     movddup     m %+ %%i, [r0+%%i*FENC_STRIDE]
3448     pmaddubsw   m9, m %+ %%i, m15
3449     punpcklbw   m %+ %%i, m8
3450     mova [fenc_buf+%%i*0x10], m9
3451 %assign %%i %%i+1
3452 %endrep
3453
3454     ; save instruction size: avoid 4-byte memory offsets
3455     lea         r0, [intra8x9_h1+0x80]
3456     %define off(m) (r0+m-(intra8x9_h1+0x80))
3457     lea         r5, [pred_buf+0x80]
3458
3459 ; v, h, dc
3460     HADAMARD8_2D 0, 1, 2, 3, 4, 5, 6, 7, 8
3461     pabsw      m11, m1
3462 %assign %%i 2
3463 %rep 6
3464     pabsw       m8, m %+ %%i
3465     paddw      m11, m8
3466 %assign %%i %%i+1
3467 %endrep
3468
3469     ; 1D hadamard of edges
3470     movq        m8, [r2+7]
3471     movddup     m9, [r2+16]
3472     mova [r5-0x80], m9
3473     mova [r5-0x70], m9
3474     mova [r5-0x60], m9
3475     mova [r5-0x50], m9
3476     punpcklwd   m8, m8
3477     pshufb      m9, [intrax3_shuf]
3478     pmaddubsw   m8, [pb_pppm]
3479     pmaddubsw   m9, [pb_pppm]
3480     HSUMSUB2 psignw, m8, m9, m12, m13, m9, q1032, [pw_ppppmmmm]
3481     HSUMSUB2 psignw, m8, m9, m12, m13, m9, q2301, [pw_ppmmppmm]
3482
3483     ; dc
3484     paddw      m10, m8, m9
3485     paddw      m10, [pw_8]
3486     pand       m10, [sw_f0]
3487     psrlw      m12, m10, 4
3488     psllw      m10, 2
3489     pxor       m13, m13
3490     pshufb     m12, m13
3491     mova [r5+0x00], m12
3492     mova [r5+0x10], m12
3493     mova [r5+0x20], m12
3494     mova [r5+0x30], m12
3495
3496     ; differences
3497     psllw       m8, 3 ; left edge
3498     psubw       m8, m0
3499     psubw      m10, m0
3500     pabsw       m8, m8 ; 1x8 sum
3501     pabsw      m10, m10
3502     paddw       m8, m11
3503     paddw      m11, m10
3504     punpcklwd   m0, m1
3505     punpcklwd   m2, m3
3506     punpcklwd   m4, m5
3507     punpcklwd   m6, m7
3508     punpckldq   m0, m2
3509     punpckldq   m4, m6
3510     punpcklqdq  m0, m4 ; transpose
3511     psllw       m9, 3  ; top edge
3512     psrldq     m10, m11, 2 ; 8x7 sum
3513     psubw       m0, m9 ; 8x1 sum
3514     pabsw       m0, m0
3515     paddw      m10, m0
3516
3517     phaddd     m10, m8 ; logically phaddw, but this is faster and it won't overflow
3518     psrlw      m11, 1
3519     psrlw      m10, 1
3520
3521 ; store h
3522     movq        m3, [r2+7]
3523     pshufb      m0, m3, [off(intra8x9_h1)]
3524     pshufb      m1, m3, [off(intra8x9_h2)]
3525     pshufb      m2, m3, [off(intra8x9_h3)]
3526     pshufb      m3, m3, [off(intra8x9_h4)]
3527     mova [r5-0x40], m0
3528     mova [r5-0x30], m1
3529     mova [r5-0x20], m2
3530     mova [r5-0x10], m3
3531
3532 ; ddl
3533     mova        m8, [r2+16]
3534     movu        m2, [r2+17]
3535     pslldq      m1, m8, 1
3536     pavgb       m9, m8, m2
3537     PRED4x4_LOWPASS m8, m1, m2, m8, m3
3538     pshufb      m0, m8, [off(intra8x9_ddl1)]
3539     pshufb      m1, m8, [off(intra8x9_ddl2)]
3540     pshufb      m2, m8, [off(intra8x9_ddl3)]
3541     pshufb      m3, m8, [off(intra8x9_ddl4)]
3542     add         r5, 0x40
3543     call .sa8d
3544     phaddd     m11, m0
3545
3546 ; vl
3547     pshufb      m0, m9, [off(intra8x9_vl1)]
3548     pshufb      m1, m8, [off(intra8x9_vl2)]
3549     pshufb      m2, m9, [off(intra8x9_vl3)]
3550     pshufb      m3, m8, [off(intra8x9_vl4)]
3551     add         r5, 0x100
3552     call .sa8d
3553     phaddd     m10, m11
3554     mova       m12, m0
3555
3556 ; ddr
3557     movu        m2, [r2+8]
3558     movu        m8, [r2+7]
3559     movu        m1, [r2+6]
3560     pavgb       m9, m2, m8
3561     PRED4x4_LOWPASS m8, m1, m2, m8, m3
3562     pshufb      m0, m8, [off(intra8x9_ddr1)]
3563     pshufb      m1, m8, [off(intra8x9_ddr2)]
3564     pshufb      m2, m8, [off(intra8x9_ddr3)]
3565     pshufb      m3, m8, [off(intra8x9_ddr4)]
3566     sub         r5, 0xc0
3567     call .sa8d
3568     mova       m11, m0
3569
3570     add         r0, 0x100
3571     %define off(m) (r0+m-(intra8x9_h1+0x180))
3572
3573 ; vr
3574     movsd       m2, m9, m8
3575     pshufb      m0, m2, [off(intra8x9_vr1)]
3576     pshufb      m1, m8, [off(intra8x9_vr2)]
3577     pshufb      m2, m2, [off(intra8x9_vr3)]
3578     pshufb      m3, m8, [off(intra8x9_vr4)]
3579     add         r5, 0x40
3580     call .sa8d
3581     phaddd     m11, m0
3582
3583 ; hd
3584 %if cpuflag(sse4)
3585     pshufd      m1, m9, q0001
3586     pblendw     m1, m8, q3330
3587 %else
3588     pshufd      m2, m9, q0001
3589     movss       m1, m8, m2
3590 %endif
3591     punpcklbw   m8, m9
3592     pshufb      m0, m1, [off(intra8x9_hd1)]
3593     pshufb      m1, m1, [off(intra8x9_hd2)]
3594     pshufb      m2, m8, [off(intra8x9_hd3)]
3595     pshufb      m3, m8, [off(intra8x9_hd4)]
3596     add         r5, 0x40
3597     call .sa8d
3598     phaddd      m0, m12
3599     phaddd     m11, m0
3600
3601 ; hu
3602 %if cpuflag(sse4)
3603     pinsrb      m8, [r2+7], 15
3604 %else
3605     movd        m9, [r2+7]
3606     pslldq      m8, 1
3607     palignr     m9, m8, 1
3608     SWAP        8, 9
3609 %endif
3610     pshufb      m0, m8, [off(intra8x9_hu1)]
3611     pshufb      m1, m8, [off(intra8x9_hu2)]
3612     pshufb      m2, m8, [off(intra8x9_hu3)]
3613     pshufb      m3, m8, [off(intra8x9_hu4)]
3614     add         r5, 0x80
3615     call .sa8d
3616
3617     pmaddwd     m0, [pw_1]
3618     phaddw     m10, m11
3619     MOVHL       m1, m0
3620     paddw       m0, m1
3621     pshuflw     m1, m0, q0032
3622     pavgw       m0, m1
3623     pxor        m2, m2
3624     pavgw      m10, m2
3625     movd       r2d, m0
3626
3627     movu        m0, [r3]
3628     paddw       m0, m10
3629     mova      [r4], m0
3630     movzx      r5d, word [r3+16]
3631     add        r2d, r5d
3632     mov    [r4+16], r2w
3633
3634 %if cpuflag(sse4)
3635     phminposuw m0, m0
3636     movd      eax, m0
3637 %else
3638     ; 8x8 sa8d is up to 15 bits; +bitcosts and saturate -> 15 bits; pack with 1 bit index
3639     paddusw    m0, m0
3640     paddw      m0, [off(pw_s00001111)]
3641     MOVHL      m1, m0
3642     pminsw     m0, m1
3643     pshuflw    m1, m0, q0032
3644     mova       m2, m0
3645     pminsw     m0, m1
3646     pcmpgtw    m2, m1 ; 2nd index bit
3647     movd      r3d, m0
3648     movd      r4d, m2
3649     ; repack with 3 bit index
3650     xor       r3d, 0x80008000
3651     and       r4d, 0x00020002
3652     movzx     eax, r3w
3653     movzx     r5d, r4w
3654     shr       r3d, 16
3655     shr       r4d, 16
3656     lea       eax, [rax*4+r5]
3657     lea       r3d, [ r3*4+r4+1]
3658     cmp       eax, r3d
3659     cmovg     eax, r3d
3660     ; reverse to phminposuw order
3661     mov       r3d, eax
3662     and       eax, 7
3663     shr       r3d, 3
3664     shl       eax, 16
3665     or        eax, r3d
3666 %endif
3667     add       r2d, 8<<16
3668     cmp        ax, r2w
3669     cmovg     eax, r2d
3670
3671     mov       r2d, eax
3672     shr       r2d, 16
3673     shl       r2d, 6
3674     add        r1, 4*FDEC_STRIDE
3675     mova       m0, [pred_buf+r2+0x00]
3676     mova       m1, [pred_buf+r2+0x10]
3677     mova       m2, [pred_buf+r2+0x20]
3678     mova       m3, [pred_buf+r2+0x30]
3679     movq   [r1+FDEC_STRIDE*-4], m0
3680     movhps [r1+FDEC_STRIDE*-2], m0
3681     movq   [r1+FDEC_STRIDE*-3], m1
3682     movhps [r1+FDEC_STRIDE*-1], m1
3683     movq   [r1+FDEC_STRIDE* 0], m2
3684     movhps [r1+FDEC_STRIDE* 2], m2
3685     movq   [r1+FDEC_STRIDE* 1], m3
3686     movhps [r1+FDEC_STRIDE* 3], m3
3687     ADD       rsp, pad
3688     RET
3689
3690 ALIGN 16
3691 .sa8d:
3692     %xdefine mret m0
3693     %xdefine fenc_buf fenc_buf+gprsize
3694     mova [r5+0x00], m0
3695     mova [r5+0x10], m1
3696     mova [r5+0x20], m2
3697     mova [r5+0x30], m3
3698     movddup     m4, m0
3699     movddup     m5, m1
3700     movddup     m6, m2
3701     movddup     m7, m3
3702     punpckhqdq  m0, m0
3703     punpckhqdq  m1, m1
3704     punpckhqdq  m2, m2
3705     punpckhqdq  m3, m3
3706     PERMUTE 0,4, 1,5, 2,0, 3,1, 4,6, 5,7, 6,2, 7,3
3707     pmaddubsw   m0, m15
3708     pmaddubsw   m1, m15
3709     psubw       m0, [fenc_buf+0x00]
3710     psubw       m1, [fenc_buf+0x10]
3711     pmaddubsw   m2, m15
3712     pmaddubsw   m3, m15
3713     psubw       m2, [fenc_buf+0x20]
3714     psubw       m3, [fenc_buf+0x30]
3715     pmaddubsw   m4, m15
3716     pmaddubsw   m5, m15
3717     psubw       m4, [fenc_buf+0x40]
3718     psubw       m5, [fenc_buf+0x50]
3719     pmaddubsw   m6, m15
3720     pmaddubsw   m7, m15
3721     psubw       m6, [fenc_buf+0x60]
3722     psubw       m7, [fenc_buf+0x70]
3723     HADAMARD8_2D_HMUL 0, 1, 2, 3, 4, 5, 6, 7, 13, 14
3724     paddw       m0, m1
3725     paddw       m0, m2
3726     paddw mret, m0, m3
3727     ret
3728 %endif ; ARCH_X86_64
3729 %endmacro ; INTRA8_X9
3730
3731 ; in:  r0=pix, r1=stride, r2=stride*3, r3=tmp, m6=mask_ac4, m7=0
3732 ; out: [tmp]=hadamard4, m0=satd
3733 INIT_MMX mmx2
3734 cglobal hadamard_ac_4x4
3735 %if HIGH_BIT_DEPTH
3736     mova      m0, [r0]
3737     mova      m1, [r0+r1]
3738     mova      m2, [r0+r1*2]
3739     mova      m3, [r0+r2]
3740 %else ; !HIGH_BIT_DEPTH
3741     movh      m0, [r0]
3742     movh      m1, [r0+r1]
3743     movh      m2, [r0+r1*2]
3744     movh      m3, [r0+r2]
3745     punpcklbw m0, m7
3746     punpcklbw m1, m7
3747     punpcklbw m2, m7
3748     punpcklbw m3, m7
3749 %endif ; HIGH_BIT_DEPTH
3750     HADAMARD4_2D 0, 1, 2, 3, 4
3751     mova [r3],    m0
3752     mova [r3+8],  m1
3753     mova [r3+16], m2
3754     mova [r3+24], m3
3755     ABSW      m0, m0, m4
3756     ABSW      m1, m1, m4
3757     pand      m0, m6
3758     ABSW      m2, m2, m4
3759     ABSW      m3, m3, m4
3760     paddw     m0, m1
3761     paddw     m2, m3
3762     paddw     m0, m2
3763     SAVE_MM_PERMUTATION
3764     ret
3765
3766 cglobal hadamard_ac_2x2max
3767     mova      m0, [r3+0x00]
3768     mova      m1, [r3+0x20]
3769     mova      m2, [r3+0x40]
3770     mova      m3, [r3+0x60]
3771     sub       r3, 8
3772     SUMSUB_BADC w, 0, 1, 2, 3, 4
3773     ABSW2 m0, m2, m0, m2, m4, m5
3774     ABSW2 m1, m3, m1, m3, m4, m5
3775     HADAMARD 0, max, 0, 2, 4, 5
3776     HADAMARD 0, max, 1, 3, 4, 5
3777 %if HIGH_BIT_DEPTH
3778     pmaddwd   m0, m7
3779     pmaddwd   m1, m7
3780     paddd     m6, m0
3781     paddd     m6, m1
3782 %else ; !HIGH_BIT_DEPTH
3783     paddw     m7, m0
3784     paddw     m7, m1
3785 %endif ; HIGH_BIT_DEPTH
3786     SAVE_MM_PERMUTATION
3787     ret
3788
3789 %macro AC_PREP 2
3790 %if HIGH_BIT_DEPTH
3791     pmaddwd %1, %2
3792 %endif
3793 %endmacro
3794
3795 %macro AC_PADD 3
3796 %if HIGH_BIT_DEPTH
3797     AC_PREP %2, %3
3798     paddd   %1, %2
3799 %else
3800     paddw   %1, %2
3801 %endif ; HIGH_BIT_DEPTH
3802 %endmacro
3803
3804 cglobal hadamard_ac_8x8
3805     mova      m6, [mask_ac4]
3806 %if HIGH_BIT_DEPTH
3807     mova      m7, [pw_1]
3808 %else
3809     pxor      m7, m7
3810 %endif ; HIGH_BIT_DEPTH
3811     call hadamard_ac_4x4_mmx2
3812     add       r0, 4*SIZEOF_PIXEL
3813     add       r3, 32
3814     mova      m5, m0
3815     AC_PREP   m5, m7
3816     call hadamard_ac_4x4_mmx2
3817     lea       r0, [r0+4*r1]
3818     add       r3, 64
3819     AC_PADD   m5, m0, m7
3820     call hadamard_ac_4x4_mmx2
3821     sub       r0, 4*SIZEOF_PIXEL
3822     sub       r3, 32
3823     AC_PADD   m5, m0, m7
3824     call hadamard_ac_4x4_mmx2
3825     AC_PADD   m5, m0, m7
3826     sub       r3, 40
3827     mova [rsp+gprsize+8], m5 ; save satd
3828 %if HIGH_BIT_DEPTH
3829     pxor      m6, m6
3830 %endif
3831 %rep 3
3832     call hadamard_ac_2x2max_mmx2
3833 %endrep
3834     mova      m0, [r3+0x00]
3835     mova      m1, [r3+0x20]
3836     mova      m2, [r3+0x40]
3837     mova      m3, [r3+0x60]
3838     SUMSUB_BADC w, 0, 1, 2, 3, 4
3839     HADAMARD 0, sumsub, 0, 2, 4, 5
3840     ABSW2 m1, m3, m1, m3, m4, m5
3841     ABSW2 m0, m2, m0, m2, m4, m5
3842     HADAMARD 0, max, 1, 3, 4, 5
3843 %if HIGH_BIT_DEPTH
3844     pand      m0, [mask_ac4]
3845     pmaddwd   m1, m7
3846     pmaddwd   m0, m7
3847     pmaddwd   m2, m7
3848     paddd     m6, m1
3849     paddd     m0, m2
3850     paddd     m6, m6
3851     paddd     m0, m6
3852     SWAP       0,  6
3853 %else ; !HIGH_BIT_DEPTH
3854     pand      m6, m0
3855     paddw     m7, m1
3856     paddw     m6, m2
3857     paddw     m7, m7
3858     paddw     m6, m7
3859 %endif ; HIGH_BIT_DEPTH
3860     mova [rsp+gprsize], m6 ; save sa8d
3861     SWAP       0,  6
3862     SAVE_MM_PERMUTATION
3863     ret
3864
3865 %macro HADAMARD_AC_WXH_SUM_MMX 2
3866     mova    m1, [rsp+1*mmsize]
3867 %if HIGH_BIT_DEPTH
3868 %if %1*%2 >= 128
3869     paddd   m0, [rsp+2*mmsize]
3870     paddd   m1, [rsp+3*mmsize]
3871 %endif
3872 %if %1*%2 == 256
3873     mova    m2, [rsp+4*mmsize]
3874     paddd   m1, [rsp+5*mmsize]
3875     paddd   m2, [rsp+6*mmsize]
3876     mova    m3, m0
3877     paddd   m1, [rsp+7*mmsize]
3878     paddd   m0, m2
3879 %endif
3880     psrld   m0, 1
3881     HADDD   m0, m2
3882     psrld   m1, 1
3883     HADDD   m1, m3
3884 %else ; !HIGH_BIT_DEPTH
3885 %if %1*%2 >= 128
3886     paddusw m0, [rsp+2*mmsize]
3887     paddusw m1, [rsp+3*mmsize]
3888 %endif
3889 %if %1*%2 == 256
3890     mova    m2, [rsp+4*mmsize]
3891     paddusw m1, [rsp+5*mmsize]
3892     paddusw m2, [rsp+6*mmsize]
3893     mova    m3, m0
3894     paddusw m1, [rsp+7*mmsize]
3895     pxor    m3, m2
3896     pand    m3, [pw_1]
3897     pavgw   m0, m2
3898     psubusw m0, m3
3899     HADDUW  m0, m2
3900 %else
3901     psrlw   m0, 1
3902     HADDW   m0, m2
3903 %endif
3904     psrlw   m1, 1
3905     HADDW   m1, m3
3906 %endif ; HIGH_BIT_DEPTH
3907 %endmacro
3908
3909 %macro HADAMARD_AC_WXH_MMX 2
3910 cglobal pixel_hadamard_ac_%1x%2, 2,4
3911     %assign pad 16-gprsize-(stack_offset&15)
3912     %define ysub r1
3913     FIX_STRIDES r1
3914     sub  rsp, 16+128+pad
3915     lea  r2, [r1*3]
3916     lea  r3, [rsp+16]
3917     call hadamard_ac_8x8_mmx2
3918 %if %2==16
3919     %define ysub r2
3920     lea  r0, [r0+r1*4]
3921     sub  rsp, 16
3922     call hadamard_ac_8x8_mmx2
3923 %endif
3924 %if %1==16
3925     neg  ysub
3926     sub  rsp, 16
3927     lea  r0, [r0+ysub*4+8*SIZEOF_PIXEL]
3928     neg  ysub
3929     call hadamard_ac_8x8_mmx2
3930 %if %2==16
3931     lea  r0, [r0+r1*4]
3932     sub  rsp, 16
3933     call hadamard_ac_8x8_mmx2
3934 %endif
3935 %endif
3936     HADAMARD_AC_WXH_SUM_MMX %1, %2
3937     movd edx, m0
3938     movd eax, m1
3939     shr  edx, 1
3940 %if ARCH_X86_64
3941     shl  rdx, 32
3942     add  rax, rdx
3943 %endif
3944     add  rsp, 128+%1*%2/4+pad
3945     RET
3946 %endmacro ; HADAMARD_AC_WXH_MMX
3947
3948 HADAMARD_AC_WXH_MMX 16, 16
3949 HADAMARD_AC_WXH_MMX  8, 16
3950 HADAMARD_AC_WXH_MMX 16,  8
3951 HADAMARD_AC_WXH_MMX  8,  8
3952
3953 %macro LOAD_INC_8x4W_SSE2 5
3954 %if HIGH_BIT_DEPTH
3955     movu      m%1, [r0]
3956     movu      m%2, [r0+r1]
3957     movu      m%3, [r0+r1*2]
3958     movu      m%4, [r0+r2]
3959 %ifidn %1, 0
3960     lea       r0, [r0+r1*4]
3961 %endif
3962 %else ; !HIGH_BIT_DEPTH
3963     movh      m%1, [r0]
3964     movh      m%2, [r0+r1]
3965     movh      m%3, [r0+r1*2]
3966     movh      m%4, [r0+r2]
3967 %ifidn %1, 0
3968     lea       r0, [r0+r1*4]
3969 %endif
3970     punpcklbw m%1, m%5
3971     punpcklbw m%2, m%5
3972     punpcklbw m%3, m%5
3973     punpcklbw m%4, m%5
3974 %endif ; HIGH_BIT_DEPTH
3975 %endmacro
3976
3977 %macro LOAD_INC_8x4W_SSSE3 5
3978     LOAD_DUP_4x8P %3, %4, %1, %2, [r0+r1*2], [r0+r2], [r0], [r0+r1]
3979 %ifidn %1, 0
3980     lea       r0, [r0+r1*4]
3981 %endif
3982     HSUMSUB %1, %2, %3, %4, %5
3983 %endmacro
3984
3985 %macro HADAMARD_AC_SSE2 0
3986 ; in:  r0=pix, r1=stride, r2=stride*3
3987 ; out: [esp+16]=sa8d, [esp+32]=satd, r0+=stride*4
3988 cglobal hadamard_ac_8x8
3989 %if ARCH_X86_64
3990     %define spill0 m8
3991     %define spill1 m9
3992     %define spill2 m10
3993 %else
3994     %define spill0 [rsp+gprsize]
3995     %define spill1 [rsp+gprsize+mmsize]
3996     %define spill2 [rsp+gprsize+mmsize*2]
3997 %endif
3998 %if HIGH_BIT_DEPTH
3999     %define vertical 1
4000 %elif cpuflag(ssse3) && notcpuflag(atom)
4001     %define vertical 0
4002     ;LOAD_INC loads sumsubs
4003     mova      m7, [hmul_8p]
4004 %else
4005     %define vertical 1
4006     ;LOAD_INC only unpacks to words
4007     pxor      m7, m7
4008 %endif
4009     LOAD_INC_8x4W 0, 1, 2, 3, 7
4010 %if vertical
4011     HADAMARD4_2D_SSE 0, 1, 2, 3, 4
4012 %else
4013     HADAMARD4_V 0, 1, 2, 3, 4
4014 %endif
4015     mova  spill0, m1
4016     SWAP 1, 7
4017     LOAD_INC_8x4W 4, 5, 6, 7, 1
4018 %if vertical
4019     HADAMARD4_2D_SSE 4, 5, 6, 7, 1
4020 %else
4021     HADAMARD4_V 4, 5, 6, 7, 1
4022     ; FIXME SWAP
4023     mova      m1, spill0
4024     mova      spill0, m6
4025     mova      spill1, m7
4026     HADAMARD 1, sumsub, 0, 1, 6, 7
4027     HADAMARD 1, sumsub, 2, 3, 6, 7
4028     mova      m6, spill0
4029     mova      m7, spill1
4030     mova      spill0, m1
4031     mova      spill1, m0
4032     HADAMARD 1, sumsub, 4, 5, 1, 0
4033     HADAMARD 1, sumsub, 6, 7, 1, 0
4034     mova      m0, spill1
4035 %endif
4036     mova  spill1, m2
4037     mova  spill2, m3
4038     ABSW      m1, m0, m0
4039     ABSW      m2, m4, m4
4040     ABSW      m3, m5, m5
4041     paddw     m1, m2
4042     SUMSUB_BA w, 0, 4
4043 %if vertical
4044     pand      m1, [mask_ac4]
4045 %else
4046     pand      m1, [mask_ac4b]
4047 %endif
4048     AC_PREP   m1, [pw_1]
4049     ABSW      m2, spill0
4050     AC_PADD   m1, m3, [pw_1]
4051     ABSW      m3, spill1
4052     AC_PADD   m1, m2, [pw_1]
4053     ABSW      m2, spill2
4054     AC_PADD   m1, m3, [pw_1]
4055     ABSW      m3, m6, m6
4056     AC_PADD   m1, m2, [pw_1]
4057     ABSW      m2, m7, m7
4058     AC_PADD   m1, m3, [pw_1]
4059     AC_PADD   m1, m2, [pw_1]
4060     paddw     m3, m7, spill2
4061     psubw     m7, spill2
4062     mova  [rsp+gprsize+mmsize*2], m1 ; save satd
4063     paddw     m2, m6, spill1
4064     psubw     m6, spill1
4065     paddw     m1, m5, spill0
4066     psubw     m5, spill0
4067     %assign %%x 2
4068 %if vertical
4069     %assign %%x 4
4070 %endif
4071     mova  spill1, m4
4072     HADAMARD %%x, amax, 3, 7, 4
4073     HADAMARD %%x, amax, 2, 6, 7, 4
4074     mova      m4, spill1
4075     HADAMARD %%x, amax, 1, 5, 6, 7
4076     HADAMARD %%x, sumsub, 0, 4, 5, 6
4077     AC_PREP   m2, [pw_1]
4078     AC_PADD   m2, m3, [pw_1]
4079     AC_PADD   m2, m1, [pw_1]
4080 %if HIGH_BIT_DEPTH
4081     paddd     m2, m2
4082 %else
4083     paddw     m2, m2
4084 %endif ; HIGH_BIT_DEPTH
4085     ABSW      m4, m4, m7
4086     pand      m0, [mask_ac8]
4087     ABSW      m0, m0, m7
4088     AC_PADD   m2, m4, [pw_1]
4089     AC_PADD   m2, m0, [pw_1]
4090     mova [rsp+gprsize+mmsize], m2 ; save sa8d
4091     SWAP       0, 2
4092     SAVE_MM_PERMUTATION
4093     ret
4094
4095 HADAMARD_AC_WXH_SSE2 16, 16
4096 HADAMARD_AC_WXH_SSE2 16,  8
4097 %if mmsize <= 16
4098 HADAMARD_AC_WXH_SSE2  8, 16
4099 HADAMARD_AC_WXH_SSE2  8,  8
4100 %endif
4101 %endmacro ; HADAMARD_AC_SSE2
4102
4103 %macro HADAMARD_AC_WXH_SUM_SSE2 2
4104     mova    m1, [rsp+2*mmsize]
4105 %if HIGH_BIT_DEPTH
4106 %if %1*%2 >= 128
4107     paddd   m0, [rsp+3*mmsize]
4108     paddd   m1, [rsp+4*mmsize]
4109 %endif
4110 %if %1*%2 == 256
4111     paddd   m0, [rsp+5*mmsize]
4112     paddd   m1, [rsp+6*mmsize]
4113     paddd   m0, [rsp+7*mmsize]
4114     paddd   m1, [rsp+8*mmsize]
4115     psrld   m0, 1
4116 %endif
4117     HADDD  xm0, xm2
4118     HADDD  xm1, xm3
4119 %else ; !HIGH_BIT_DEPTH
4120 %if %1*%2*16/mmsize >= 128
4121     paddusw m0, [rsp+3*mmsize]
4122     paddusw m1, [rsp+4*mmsize]
4123 %endif
4124 %if %1*%2*16/mmsize == 256
4125     paddusw m0, [rsp+5*mmsize]
4126     paddusw m1, [rsp+6*mmsize]
4127     paddusw m0, [rsp+7*mmsize]
4128     paddusw m1, [rsp+8*mmsize]
4129     psrlw   m0, 1
4130 %endif
4131 %if mmsize==32
4132     vextracti128 xm2, m0, 1
4133     vextracti128 xm3, m1, 1
4134     paddusw xm0, xm2
4135     paddusw xm1, xm3
4136 %endif
4137     HADDUW xm0, xm2
4138     HADDW  xm1, xm3
4139 %endif ; HIGH_BIT_DEPTH
4140 %endmacro
4141
4142 ; struct { int satd, int sa8d; } pixel_hadamard_ac_16x16( uint8_t *pix, int stride )
4143 %macro HADAMARD_AC_WXH_SSE2 2
4144 cglobal pixel_hadamard_ac_%1x%2, 2,4,11
4145     %define ysub r1
4146     FIX_STRIDES r1
4147     mov   r3, rsp
4148     and  rsp, ~(mmsize-1)
4149     sub  rsp, mmsize*3
4150     lea   r2, [r1*3]
4151     call hadamard_ac_8x8
4152 %if %2==16
4153     %define ysub r2
4154     lea   r0, [r0+r1*4]
4155     sub  rsp, mmsize*2
4156     call hadamard_ac_8x8
4157 %endif
4158 %if %1==16 && mmsize <= 16
4159     neg  ysub
4160     sub  rsp, mmsize*2
4161     lea   r0, [r0+ysub*4+8*SIZEOF_PIXEL]
4162     neg  ysub
4163     call hadamard_ac_8x8
4164 %if %2==16
4165     lea   r0, [r0+r1*4]
4166     sub  rsp, mmsize*2
4167     call hadamard_ac_8x8
4168 %endif
4169 %endif
4170     HADAMARD_AC_WXH_SUM_SSE2 %1, %2
4171     movd edx, xm0
4172     movd eax, xm1
4173     shr  edx, 2 - (%1*%2*16/mmsize >> 8)
4174     shr  eax, 1
4175 %if ARCH_X86_64
4176     shl  rdx, 32
4177     add  rax, rdx
4178 %endif
4179     mov  rsp, r3
4180     RET
4181 %endmacro ; HADAMARD_AC_WXH_SSE2
4182
4183 ; instantiate satds
4184
4185 %if ARCH_X86_64 == 0
4186 cextern pixel_sa8d_8x8_internal_mmx2
4187 INIT_MMX mmx2
4188 SA8D
4189 %endif
4190
4191 %define TRANS TRANS_SSE2
4192 %define DIFFOP DIFF_UNPACK_SSE2
4193 %define LOAD_INC_8x4W LOAD_INC_8x4W_SSE2
4194 %define LOAD_SUMSUB_8x4P LOAD_DIFF_8x4P
4195 %define LOAD_SUMSUB_16P  LOAD_SUMSUB_16P_SSE2
4196 %define movdqa movaps ; doesn't hurt pre-nehalem, might as well save size
4197 %define movdqu movups
4198 %define punpcklqdq movlhps
4199 INIT_XMM sse2
4200 SA8D
4201 SATDS_SSE2
4202 %if ARCH_X86_64
4203 SA8D_SATD
4204 %endif
4205 %if HIGH_BIT_DEPTH == 0
4206 INTRA_SA8D_SSE2
4207 %endif
4208 INIT_MMX mmx2
4209 INTRA_X3_MMX
4210 INIT_XMM sse2
4211 HADAMARD_AC_SSE2
4212
4213 %if HIGH_BIT_DEPTH == 0
4214 INIT_XMM ssse3,atom
4215 SATDS_SSE2
4216 SA8D
4217 HADAMARD_AC_SSE2
4218 %if ARCH_X86_64
4219 SA8D_SATD
4220 %endif
4221 %endif
4222
4223 %define DIFFOP DIFF_SUMSUB_SSSE3
4224 %define LOAD_DUP_4x8P LOAD_DUP_4x8P_CONROE
4225 %if HIGH_BIT_DEPTH == 0
4226 %define LOAD_INC_8x4W LOAD_INC_8x4W_SSSE3
4227 %define LOAD_SUMSUB_8x4P LOAD_SUMSUB_8x4P_SSSE3
4228 %define LOAD_SUMSUB_16P  LOAD_SUMSUB_16P_SSSE3
4229 %endif
4230 INIT_XMM ssse3
4231 SATDS_SSE2
4232 SA8D
4233 HADAMARD_AC_SSE2
4234 %if ARCH_X86_64
4235 SA8D_SATD
4236 %endif
4237 %if HIGH_BIT_DEPTH == 0
4238 INTRA_X9
4239 INTRA8_X9
4240 %endif
4241 %undef movdqa ; nehalem doesn't like movaps
4242 %undef movdqu ; movups
4243 %undef punpcklqdq ; or movlhps
4244 %if HIGH_BIT_DEPTH == 0
4245 INIT_MMX ssse3
4246 INTRA_X3_MMX
4247 %endif
4248
4249 %define TRANS TRANS_SSE4
4250 %define LOAD_DUP_4x8P LOAD_DUP_4x8P_PENRYN
4251 INIT_XMM sse4
4252 SATDS_SSE2
4253 SA8D
4254 HADAMARD_AC_SSE2
4255 %if ARCH_X86_64
4256 SA8D_SATD
4257 %endif
4258 %if HIGH_BIT_DEPTH == 0
4259 INTRA_X9
4260 INTRA8_X9
4261 %endif
4262
4263 ; Sandy/Ivy Bridge and Bulldozer do movddup in the load unit, so
4264 ; it's effectively free.
4265 %define LOAD_DUP_4x8P LOAD_DUP_4x8P_CONROE
4266 INIT_XMM avx
4267 SATDS_SSE2
4268 SA8D
4269 %if ARCH_X86_64
4270 SA8D_SATD
4271 %endif
4272 %if HIGH_BIT_DEPTH == 0
4273 INTRA_X9
4274 INTRA8_X9
4275 %endif
4276 HADAMARD_AC_SSE2
4277
4278 %define TRANS TRANS_XOP
4279 INIT_XMM xop
4280 SATDS_SSE2
4281 SA8D
4282 %if ARCH_X86_64
4283 SA8D_SATD
4284 %endif
4285 %if HIGH_BIT_DEPTH == 0
4286 INTRA_X9
4287 ; no xop INTRA8_X9. it's slower than avx on bulldozer. dunno why.
4288 %endif
4289 HADAMARD_AC_SSE2
4290
4291
4292 %if HIGH_BIT_DEPTH == 0
4293 %define LOAD_SUMSUB_8x4P LOAD_SUMSUB8_16x4P_AVX2
4294 %define LOAD_DUP_4x8P LOAD_DUP_4x16P_AVX2
4295 %define TRANS TRANS_SSE4
4296 INIT_YMM avx2
4297 HADAMARD_AC_SSE2
4298 %if ARCH_X86_64
4299 SA8D_SATD
4300 %endif
4301
4302 %macro LOAD_SUMSUB_8x8P_AVX2 7 ; 4*dst, 2*tmp, mul]
4303     movq   xm%1, [r0]
4304     movq   xm%3, [r2]
4305     movq   xm%2, [r0+r1]
4306     movq   xm%4, [r2+r3]
4307     vinserti128 m%1, m%1, [r0+4*r1], 1
4308     vinserti128 m%3, m%3, [r2+4*r3], 1
4309     vinserti128 m%2, m%2, [r0+r4], 1
4310     vinserti128 m%4, m%4, [r2+r5], 1
4311     punpcklqdq m%1, m%1
4312     punpcklqdq m%3, m%3
4313     punpcklqdq m%2, m%2
4314     punpcklqdq m%4, m%4
4315     DIFF_SUMSUB_SSSE3 %1, %3, %2, %4, %7
4316     lea      r0, [r0+2*r1]
4317     lea      r2, [r2+2*r3]
4318
4319     movq   xm%3, [r0]
4320     movq   xm%5, [r2]
4321     movq   xm%4, [r0+r1]
4322     movq   xm%6, [r2+r3]
4323     vinserti128 m%3, m%3, [r0+4*r1], 1
4324     vinserti128 m%5, m%5, [r2+4*r3], 1
4325     vinserti128 m%4, m%4, [r0+r4], 1
4326     vinserti128 m%6, m%6, [r2+r5], 1
4327     punpcklqdq m%3, m%3
4328     punpcklqdq m%5, m%5
4329     punpcklqdq m%4, m%4
4330     punpcklqdq m%6, m%6
4331     DIFF_SUMSUB_SSSE3 %3, %5, %4, %6, %7
4332 %endmacro
4333
4334 %macro SATD_START_AVX2 2-3 0
4335     FIX_STRIDES r1, r3
4336 %if %3
4337     mova    %2, [hmul_8p]
4338     lea     r4, [5*r1]
4339     lea     r5, [5*r3]
4340 %else
4341     mova    %2, [hmul_16p]
4342     lea     r4, [3*r1]
4343     lea     r5, [3*r3]
4344 %endif
4345     pxor    %1, %1
4346 %endmacro
4347
4348 %define TRANS TRANS_SSE4
4349 INIT_YMM avx2
4350 cglobal pixel_satd_16x8_internal
4351     LOAD_SUMSUB_16x4P_AVX2 0, 1, 2, 3, 4, 5, 7, r0, r2, 1
4352     SATD_8x4_SSE 0, 0, 1, 2, 3, 4, 5, 6
4353     LOAD_SUMSUB_16x4P_AVX2 0, 1, 2, 3, 4, 5, 7, r0, r2, 0
4354     SATD_8x4_SSE 0, 0, 1, 2, 3, 4, 5, 6
4355     ret
4356
4357 cglobal pixel_satd_16x16, 4,6,8
4358     SATD_START_AVX2 m6, m7
4359     call pixel_satd_16x8_internal
4360     lea  r0, [r0+4*r1]
4361     lea  r2, [r2+4*r3]
4362 pixel_satd_16x8_internal:
4363     call pixel_satd_16x8_internal
4364     vextracti128 xm0, m6, 1
4365     paddw        xm0, xm6
4366     SATD_END_SSE2 xm0
4367     RET
4368
4369 cglobal pixel_satd_16x8, 4,6,8
4370     SATD_START_AVX2 m6, m7
4371     jmp pixel_satd_16x8_internal
4372
4373 cglobal pixel_satd_8x8_internal
4374     LOAD_SUMSUB_8x8P_AVX2 0, 1, 2, 3, 4, 5, 7
4375     SATD_8x4_SSE 0, 0, 1, 2, 3, 4, 5, 6
4376     ret
4377
4378 cglobal pixel_satd_8x16, 4,6,8
4379     SATD_START_AVX2 m6, m7, 1
4380     call pixel_satd_8x8_internal
4381     lea  r0, [r0+2*r1]
4382     lea  r2, [r2+2*r3]
4383     lea  r0, [r0+4*r1]
4384     lea  r2, [r2+4*r3]
4385     call pixel_satd_8x8_internal
4386     vextracti128 xm0, m6, 1
4387     paddw        xm0, xm6
4388     SATD_END_SSE2 xm0
4389     RET
4390
4391 cglobal pixel_satd_8x8, 4,6,8
4392     SATD_START_AVX2 m6, m7, 1
4393     call pixel_satd_8x8_internal
4394     vextracti128 xm0, m6, 1
4395     paddw        xm0, xm6
4396     SATD_END_SSE2 xm0
4397     RET
4398
4399 cglobal pixel_sa8d_8x8_internal
4400     LOAD_SUMSUB_8x8P_AVX2 0, 1, 2, 3, 4, 5, 7
4401     HADAMARD4_V 0, 1, 2, 3, 4
4402     HADAMARD 8, sumsub, 0, 1, 4, 5
4403     HADAMARD 8, sumsub, 2, 3, 4, 5
4404     HADAMARD 2, sumsub, 0, 1, 4, 5
4405     HADAMARD 2, sumsub, 2, 3, 4, 5
4406     HADAMARD 1, amax, 0, 1, 4, 5
4407     HADAMARD 1, amax, 2, 3, 4, 5
4408     paddw  m6, m0
4409     paddw  m6, m2
4410     ret
4411
4412 cglobal pixel_sa8d_8x8, 4,6,8
4413     SATD_START_AVX2 m6, m7, 1
4414     call pixel_sa8d_8x8_internal
4415     vextracti128 xm1, m6, 1
4416     paddw xm6, xm1
4417     HADDW xm6, xm1
4418     movd  eax, xm6
4419     add   eax, 1
4420     shr   eax, 1
4421     RET
4422
4423 cglobal intra_sad_x9_8x8, 5,7,8
4424     %define pred(i,j) [rsp+i*0x40+j*0x20]
4425
4426     mov         r6, rsp
4427     and        rsp, ~31
4428     sub        rsp, 0x240
4429     movu        m5, [r0+0*FENC_STRIDE]
4430     movu        m6, [r0+4*FENC_STRIDE]
4431     punpcklqdq  m5, [r0+2*FENC_STRIDE]
4432     punpcklqdq  m6, [r0+6*FENC_STRIDE]
4433
4434     ; save instruction size: avoid 4-byte memory offsets
4435     lea         r0, [intra8x9_h1+128]
4436     %define off(m) (r0+m-(intra8x9_h1+128))
4437
4438     vpbroadcastq m0, [r2+16]
4439     psadbw      m4, m0, m5
4440     psadbw      m2, m0, m6
4441     mova pred(0,0), m0
4442     mova pred(0,1), m0
4443     paddw       m4, m2
4444
4445     vpbroadcastq m1, [r2+7]
4446     pshufb      m3, m1, [off(intra8x9_h1)]
4447     pshufb      m2, m1, [off(intra8x9_h3)]
4448     mova pred(1,0), m3
4449     mova pred(1,1), m2
4450     psadbw      m3, m5
4451     psadbw      m2, m6
4452     paddw       m3, m2
4453
4454     lea         r5, [rsp+0x100]
4455     %define pred(i,j) [r5+i*0x40+j*0x20-0x100]
4456
4457     ; combine the first two
4458     pslldq      m3, 2
4459     por         m4, m3
4460
4461     pxor        m2, m2
4462     psadbw      m0, m2
4463     psadbw      m1, m2
4464     paddw       m0, m1
4465     psrlw       m0, 3
4466     pavgw       m0, m2
4467     pshufb      m0, m2
4468     mova pred(2,0), m0
4469     mova pred(2,1), m0
4470     psadbw      m3, m0, m5
4471     psadbw      m2, m0, m6
4472     paddw       m3, m2
4473
4474     pslldq      m3, 4
4475     por         m4, m3
4476
4477     vbroadcasti128 m0, [r2+16]
4478     vbroadcasti128 m2, [r2+17]
4479     pslldq      m1, m0, 1
4480     pavgb       m3, m0, m2
4481     PRED4x4_LOWPASS m0, m1, m2, m0, m7
4482     pshufb      m1, m0, [off(intra8x9_ddl1)]
4483     pshufb      m2, m0, [off(intra8x9_ddl3)]
4484     mova pred(3,0), m1
4485     mova pred(3,1), m2
4486     psadbw      m1, m5
4487     psadbw      m2, m6
4488     paddw       m1, m2
4489
4490     pslldq      m1, 6
4491     por         m4, m1
4492     vextracti128 xm1, m4, 1
4493     paddw      xm4, xm1
4494     mova      [r4], xm4
4495
4496     ; for later
4497     vinserti128 m7, m3, xm0, 1
4498
4499     vbroadcasti128 m2, [r2+8]
4500     vbroadcasti128 m0, [r2+7]
4501     vbroadcasti128 m1, [r2+6]
4502     pavgb       m3, m2, m0
4503     PRED4x4_LOWPASS m0, m1, m2, m0, m4
4504     pshufb      m1, m0, [off(intra8x9_ddr1)]
4505     pshufb      m2, m0, [off(intra8x9_ddr3)]
4506     mova pred(4,0), m1
4507     mova pred(4,1), m2
4508     psadbw      m4, m1, m5
4509     psadbw      m2, m6
4510     paddw       m4, m2
4511
4512     add         r0, 256
4513     add         r5, 0xC0
4514     %define off(m) (r0+m-(intra8x9_h1+256+128))
4515     %define pred(i,j) [r5+i*0x40+j*0x20-0x1C0]
4516
4517     vpblendd    m2, m3, m0, 11110011b
4518     pshufb      m1, m2, [off(intra8x9_vr1)]
4519     pshufb      m2, m2, [off(intra8x9_vr3)]
4520     mova pred(5,0), m1
4521     mova pred(5,1), m2
4522     psadbw      m1, m5
4523     psadbw      m2, m6
4524     paddw       m1, m2
4525
4526     pslldq      m1, 2
4527     por         m4, m1
4528
4529     psrldq      m2, m3, 4
4530     pblendw     m2, m0, q3330
4531     punpcklbw   m0, m3
4532     pshufb      m1, m2, [off(intra8x9_hd1)]
4533     pshufb      m2, m0, [off(intra8x9_hd3)]
4534     mova pred(6,0), m1
4535     mova pred(6,1), m2
4536     psadbw      m1, m5
4537     psadbw      m2, m6
4538     paddw       m1, m2
4539
4540     pslldq      m1, 4
4541     por         m4, m1
4542
4543     pshufb      m1, m7, [off(intra8x9_vl1)]
4544     pshufb      m2, m7, [off(intra8x9_vl3)]
4545     mova pred(7,0), m1
4546     mova pred(7,1), m2
4547     psadbw      m1, m5
4548     psadbw      m2, m6
4549     paddw       m1, m2
4550
4551     pslldq      m1, 6
4552     por         m4, m1
4553     vextracti128 xm1, m4, 1
4554     paddw      xm4, xm1
4555     mova       xm3, [r4]
4556     SBUTTERFLY qdq, 3, 4, 7
4557     paddw      xm3, xm4
4558
4559     pslldq      m1, m0, 1
4560     vpbroadcastd m0, [r2+7]
4561     palignr     m0, m1, 1
4562     pshufb      m1, m0, [off(intra8x9_hu1)]
4563     pshufb      m2, m0, [off(intra8x9_hu3)]
4564     mova pred(8,0), m1
4565     mova pred(8,1), m2
4566     psadbw      m1, m5
4567     psadbw      m2, m6
4568     paddw       m1, m2
4569     vextracti128 xm2, m1, 1
4570     paddw      xm1, xm2
4571     MOVHL      xm2, xm1
4572     paddw      xm1, xm2
4573     movd       r2d, xm1
4574
4575     paddw      xm3, [r3]
4576     mova      [r4], xm3
4577     add        r2w, word [r3+16]
4578     mov    [r4+16], r2w
4579
4580     phminposuw xm3, xm3
4581     movd       r3d, xm3
4582     add        r2d, 8<<16
4583     cmp        r3w, r2w
4584     cmovg      r3d, r2d
4585
4586     mov        r2d, r3d
4587     shr         r3, 16
4588     shl         r3, 6
4589     add         r1, 4*FDEC_STRIDE
4590     mova       xm0, [rsp+r3+0x00]
4591     mova       xm1, [rsp+r3+0x10]
4592     mova       xm2, [rsp+r3+0x20]
4593     mova       xm3, [rsp+r3+0x30]
4594     movq   [r1+FDEC_STRIDE*-4], xm0
4595     movhps [r1+FDEC_STRIDE*-2], xm0
4596     movq   [r1+FDEC_STRIDE*-3], xm1
4597     movhps [r1+FDEC_STRIDE*-1], xm1
4598     movq   [r1+FDEC_STRIDE* 0], xm2
4599     movhps [r1+FDEC_STRIDE* 2], xm2
4600     movq   [r1+FDEC_STRIDE* 1], xm3
4601     movhps [r1+FDEC_STRIDE* 3], xm3
4602     mov        rsp, r6
4603     mov        eax, r2d
4604     RET
4605 %endif ; HIGH_BIT_DEPTH
4606
4607 ;=============================================================================
4608 ; SSIM
4609 ;=============================================================================
4610
4611 ;-----------------------------------------------------------------------------
4612 ; void pixel_ssim_4x4x2_core( const uint8_t *pix1, intptr_t stride1,
4613 ;                             const uint8_t *pix2, intptr_t stride2, int sums[2][4] )
4614 ;-----------------------------------------------------------------------------
4615 %macro SSIM_ITER 1
4616 %if HIGH_BIT_DEPTH
4617     movdqu    m5, [r0+(%1&1)*r1]
4618     movdqu    m6, [r2+(%1&1)*r3]
4619 %else
4620     movq      m5, [r0+(%1&1)*r1]
4621     movq      m6, [r2+(%1&1)*r3]
4622     punpcklbw m5, m0
4623     punpcklbw m6, m0
4624 %endif
4625 %if %1==1
4626     lea       r0, [r0+r1*2]
4627     lea       r2, [r2+r3*2]
4628 %endif
4629 %if %1==0
4630     movdqa    m1, m5
4631     movdqa    m2, m6
4632 %else
4633     paddw     m1, m5
4634     paddw     m2, m6
4635 %endif
4636     pmaddwd   m7, m5, m6
4637     pmaddwd   m5, m5
4638     pmaddwd   m6, m6
4639     ACCUM  paddd, 3, 5, %1
4640     ACCUM  paddd, 4, 7, %1
4641     paddd     m3, m6
4642 %endmacro
4643
4644 %macro SSIM 0
4645 cglobal pixel_ssim_4x4x2_core, 4,4,8
4646     FIX_STRIDES r1, r3
4647     pxor      m0, m0
4648     SSIM_ITER 0
4649     SSIM_ITER 1
4650     SSIM_ITER 2
4651     SSIM_ITER 3
4652     ; PHADDW m1, m2
4653     ; PHADDD m3, m4
4654     movdqa    m7, [pw_1]
4655     pshufd    m5, m3, q2301
4656     pmaddwd   m1, m7
4657     pmaddwd   m2, m7
4658     pshufd    m6, m4, q2301
4659     packssdw  m1, m2
4660     paddd     m3, m5
4661     pshufd    m1, m1, q3120
4662     paddd     m4, m6
4663     pmaddwd   m1, m7
4664     punpckhdq m5, m3, m4
4665     punpckldq m3, m4
4666
4667 %if UNIX64
4668     %define t0 r4
4669 %else
4670     %define t0 rax
4671     mov t0, r4mp
4672 %endif
4673
4674     movq      [t0+ 0], m1
4675     movq      [t0+ 8], m3
4676     movhps    [t0+16], m1
4677     movq      [t0+24], m5
4678     RET
4679
4680 ;-----------------------------------------------------------------------------
4681 ; float pixel_ssim_end( int sum0[5][4], int sum1[5][4], int width )
4682 ;-----------------------------------------------------------------------------
4683 cglobal pixel_ssim_end4, 2,3
4684     mov      r2d, r2m
4685     mova      m0, [r0+ 0]
4686     mova      m1, [r0+16]
4687     mova      m2, [r0+32]
4688     mova      m3, [r0+48]
4689     mova      m4, [r0+64]
4690     paddd     m0, [r1+ 0]
4691     paddd     m1, [r1+16]
4692     paddd     m2, [r1+32]
4693     paddd     m3, [r1+48]
4694     paddd     m4, [r1+64]
4695     paddd     m0, m1
4696     paddd     m1, m2
4697     paddd     m2, m3
4698     paddd     m3, m4
4699     TRANSPOSE4x4D  0, 1, 2, 3, 4
4700
4701 ;   s1=m0, s2=m1, ss=m2, s12=m3
4702 %if BIT_DEPTH == 10
4703     cvtdq2ps  m0, m0
4704     cvtdq2ps  m1, m1
4705     cvtdq2ps  m2, m2
4706     cvtdq2ps  m3, m3
4707     mulps     m4, m0, m1  ; s1*s2
4708     mulps     m0, m0      ; s1*s1
4709     mulps     m1, m1      ; s2*s2
4710     mulps     m2, [pf_64] ; ss*64
4711     mulps     m3, [pf_128] ; s12*128
4712     addps     m4, m4      ; s1*s2*2
4713     addps     m0, m1      ; s1*s1 + s2*s2
4714     subps     m2, m0      ; vars
4715     subps     m3, m4      ; covar*2
4716     movaps    m1, [ssim_c1]
4717     addps     m4, m1      ; s1*s2*2 + ssim_c1
4718     addps     m0, m1      ; s1*s1 + s2*s2 + ssim_c1
4719     movaps    m1, [ssim_c2]
4720     addps     m2, m1      ; vars + ssim_c2
4721     addps     m3, m1      ; covar*2 + ssim_c2
4722 %else
4723     pmaddwd   m4, m1, m0  ; s1*s2
4724     pslld     m1, 16
4725     por       m0, m1
4726     pmaddwd   m0, m0  ; s1*s1 + s2*s2
4727     pslld     m4, 1
4728     pslld     m3, 7
4729     pslld     m2, 6
4730     psubd     m3, m4  ; covar*2
4731     psubd     m2, m0  ; vars
4732     mova      m1, [ssim_c1]
4733     paddd     m0, m1
4734     paddd     m4, m1
4735     mova      m1, [ssim_c2]
4736     paddd     m3, m1
4737     paddd     m2, m1
4738     cvtdq2ps  m0, m0  ; (float)(s1*s1 + s2*s2 + ssim_c1)
4739     cvtdq2ps  m4, m4  ; (float)(s1*s2*2 + ssim_c1)
4740     cvtdq2ps  m3, m3  ; (float)(covar*2 + ssim_c2)
4741     cvtdq2ps  m2, m2  ; (float)(vars + ssim_c2)
4742 %endif
4743     mulps     m4, m3
4744     mulps     m0, m2
4745     divps     m4, m0  ; ssim
4746
4747     cmp       r2d, 4
4748     je .skip ; faster only if this is the common case; remove branch if we use ssim on a macroblock level
4749     neg       r2
4750
4751 %ifdef PIC
4752     lea       r3, [mask_ff + 16]
4753     %xdefine %%mask r3
4754 %else
4755     %xdefine %%mask mask_ff + 16
4756 %endif
4757 %if cpuflag(avx)
4758     andps     m4, [%%mask + r2*4]
4759 %else
4760     movups    m0, [%%mask + r2*4]
4761     andps     m4, m0
4762 %endif
4763
4764 .skip:
4765     movhlps   m0, m4
4766     addps     m0, m4
4767 %if cpuflag(ssse3)
4768     movshdup  m4, m0
4769 %else
4770     pshuflw   m4, m0, q0032
4771 %endif
4772     addss     m0, m4
4773 %if ARCH_X86_64 == 0
4774     movss    r0m, m0
4775     fld     dword r0m
4776 %endif
4777     RET
4778 %endmacro ; SSIM
4779
4780 INIT_XMM sse2
4781 SSIM
4782 INIT_XMM avx
4783 SSIM
4784
4785 ;-----------------------------------------------------------------------------
4786 ; int pixel_asd8( pixel *pix1, intptr_t stride1, pixel *pix2, intptr_t stride2, int height );
4787 ;-----------------------------------------------------------------------------
4788 %macro ASD8 0
4789 cglobal pixel_asd8, 5,5
4790     pxor     m0, m0
4791     pxor     m1, m1
4792 .loop:
4793 %if HIGH_BIT_DEPTH
4794     paddw    m0, [r0]
4795     paddw    m1, [r2]
4796     paddw    m0, [r0+2*r1]
4797     paddw    m1, [r2+2*r3]
4798     lea      r0, [r0+4*r1]
4799     paddw    m0, [r0]
4800     paddw    m1, [r2+4*r3]
4801     lea      r2, [r2+4*r3]
4802     paddw    m0, [r0+2*r1]
4803     paddw    m1, [r2+2*r3]
4804     lea      r0, [r0+4*r1]
4805     lea      r2, [r2+4*r3]
4806 %else
4807     movq     m2, [r0]
4808     movq     m3, [r2]
4809     movhps   m2, [r0+r1]
4810     movhps   m3, [r2+r3]
4811     lea      r0, [r0+2*r1]
4812     psadbw   m2, m1
4813     psadbw   m3, m1
4814     movq     m4, [r0]
4815     movq     m5, [r2+2*r3]
4816     lea      r2, [r2+2*r3]
4817     movhps   m4, [r0+r1]
4818     movhps   m5, [r2+r3]
4819     lea      r0, [r0+2*r1]
4820     paddw    m0, m2
4821     psubw    m0, m3
4822     psadbw   m4, m1
4823     psadbw   m5, m1
4824     lea      r2, [r2+2*r3]
4825     paddw    m0, m4
4826     psubw    m0, m5
4827 %endif
4828     sub     r4d, 4
4829     jg .loop
4830 %if HIGH_BIT_DEPTH
4831     psubw    m0, m1
4832     HADDW    m0, m1
4833     ABSD     m1, m0
4834 %else
4835     MOVHL    m1, m0
4836     paddw    m0, m1
4837     ABSW     m1, m0
4838 %endif
4839     movd    eax, m1
4840     RET
4841 %endmacro
4842
4843 INIT_XMM sse2
4844 ASD8
4845 INIT_XMM ssse3
4846 ASD8
4847 %if HIGH_BIT_DEPTH
4848 INIT_XMM xop
4849 ASD8
4850 %endif
4851
4852 ;=============================================================================
4853 ; Successive Elimination ADS
4854 ;=============================================================================
4855
4856 %macro ADS_START 0
4857 %if UNIX64
4858     movsxd  r5, r5d
4859 %else
4860     mov    r5d, r5m
4861 %endif
4862     mov    r0d, r5d
4863     lea     r6, [r4+r5+(mmsize-1)]
4864     and     r6, ~(mmsize-1)
4865     shl     r2d,  1
4866 %endmacro
4867
4868 %macro ADS_END 1 ; unroll_size
4869     add     r1, 8*%1
4870     add     r3, 8*%1
4871     add     r6, 4*%1
4872     sub    r0d, 4*%1
4873     jg .loop
4874     WIN64_RESTORE_XMM rsp
4875 %if mmsize==32
4876     vzeroupper
4877 %endif
4878     lea     r6, [r4+r5+(mmsize-1)]
4879     and     r6, ~(mmsize-1)
4880 %if cpuflag(ssse3)
4881     jmp ads_mvs_ssse3
4882 %else
4883     jmp ads_mvs_mmx
4884 %endif
4885 %endmacro
4886
4887 ;-----------------------------------------------------------------------------
4888 ; int pixel_ads4( int enc_dc[4], uint16_t *sums, int delta,
4889 ;                 uint16_t *cost_mvx, int16_t *mvs, int width, int thresh )
4890 ;-----------------------------------------------------------------------------
4891 INIT_MMX mmx2
4892 cglobal pixel_ads4, 5,7
4893     mova    m6, [r0]
4894     mova    m4, [r0+8]
4895     pshufw  m7, m6, 0
4896     pshufw  m6, m6, q2222
4897     pshufw  m5, m4, 0
4898     pshufw  m4, m4, q2222
4899     ADS_START
4900 .loop:
4901     movu      m0, [r1]
4902     movu      m1, [r1+16]
4903     psubw     m0, m7
4904     psubw     m1, m6
4905     ABSW      m0, m0, m2
4906     ABSW      m1, m1, m3
4907     movu      m2, [r1+r2]
4908     movu      m3, [r1+r2+16]
4909     psubw     m2, m5
4910     psubw     m3, m4
4911     paddw     m0, m1
4912     ABSW      m2, m2, m1
4913     ABSW      m3, m3, m1
4914     paddw     m0, m2
4915     paddw     m0, m3
4916     pshufw    m1, r6m, 0
4917     paddusw   m0, [r3]
4918     psubusw   m1, m0
4919     packsswb  m1, m1
4920     movd    [r6], m1
4921     ADS_END 1
4922
4923 cglobal pixel_ads2, 5,7
4924     mova      m6, [r0]
4925     pshufw    m5, r6m, 0
4926     pshufw    m7, m6, 0
4927     pshufw    m6, m6, q2222
4928     ADS_START
4929 .loop:
4930     movu      m0, [r1]
4931     movu      m1, [r1+r2]
4932     psubw     m0, m7
4933     psubw     m1, m6
4934     ABSW      m0, m0, m2
4935     ABSW      m1, m1, m3
4936     paddw     m0, m1
4937     paddusw   m0, [r3]
4938     mova      m4, m5
4939     psubusw   m4, m0
4940     packsswb  m4, m4
4941     movd    [r6], m4
4942     ADS_END 1
4943
4944 cglobal pixel_ads1, 5,7
4945     pshufw    m7, [r0], 0
4946     pshufw    m6, r6m, 0
4947     ADS_START
4948 .loop:
4949     movu      m0, [r1]
4950     movu      m1, [r1+8]
4951     psubw     m0, m7
4952     psubw     m1, m7
4953     ABSW      m0, m0, m2
4954     ABSW      m1, m1, m3
4955     paddusw   m0, [r3]
4956     paddusw   m1, [r3+8]
4957     mova      m4, m6
4958     mova      m5, m6
4959     psubusw   m4, m0
4960     psubusw   m5, m1
4961     packsswb  m4, m5
4962     mova    [r6], m4
4963     ADS_END 2
4964
4965 %macro ADS_XMM 0
4966 %if mmsize==32
4967 cglobal pixel_ads4, 5,7,8
4968     vpbroadcastw m7, [r0+ 0]
4969     vpbroadcastw m6, [r0+ 4]
4970     vpbroadcastw m5, [r0+ 8]
4971     vpbroadcastw m4, [r0+12]
4972 %else
4973 cglobal pixel_ads4, 5,7,12
4974     mova      m4, [r0]
4975     pshuflw   m7, m4, q0000
4976     pshuflw   m6, m4, q2222
4977     pshufhw   m5, m4, q0000
4978     pshufhw   m4, m4, q2222
4979     punpcklqdq m7, m7
4980     punpcklqdq m6, m6
4981     punpckhqdq m5, m5
4982     punpckhqdq m4, m4
4983 %endif
4984 %if ARCH_X86_64 && mmsize == 16
4985     movd      m8, r6m
4986     SPLATW    m8, m8
4987     ADS_START
4988     movu     m10, [r1]
4989     movu     m11, [r1+r2]
4990 .loop:
4991     psubw     m0, m10, m7
4992     movu     m10, [r1+16]
4993     psubw     m1, m10, m6
4994     ABSW      m0, m0, m2
4995     ABSW      m1, m1, m3
4996     psubw     m2, m11, m5
4997     movu     m11, [r1+r2+16]
4998     paddw     m0, m1
4999     psubw     m3, m11, m4
5000     movu      m9, [r3]
5001     ABSW      m2, m2, m1
5002     ABSW      m3, m3, m1
5003     paddw     m0, m2
5004     paddw     m0, m3
5005     paddusw   m0, m9
5006     psubusw   m1, m8, m0
5007 %else
5008     ADS_START
5009 .loop:
5010     movu      m0, [r1]
5011     movu      m1, [r1+16]
5012     psubw     m0, m7
5013     psubw     m1, m6
5014     ABSW      m0, m0, m2
5015     ABSW      m1, m1, m3
5016     movu      m2, [r1+r2]
5017     movu      m3, [r1+r2+16]
5018     psubw     m2, m5
5019     psubw     m3, m4
5020     paddw     m0, m1
5021     ABSW      m2, m2, m1
5022     ABSW      m3, m3, m1
5023     paddw     m0, m2
5024     paddw     m0, m3
5025     movu      m2, [r3]
5026 %if mmsize==32
5027     vpbroadcastw m1, r6m
5028 %else
5029     movd      m1, r6m
5030     pshuflw   m1, m1, 0
5031     punpcklqdq m1, m1
5032 %endif
5033     paddusw   m0, m2
5034     psubusw   m1, m0
5035 %endif ; ARCH
5036     packsswb  m1, m1
5037 %if mmsize==32
5038     vpermq    m1, m1, q3120
5039     mova    [r6], xm1
5040 %else
5041     movh    [r6], m1
5042 %endif
5043     ADS_END mmsize/8
5044
5045 cglobal pixel_ads2, 5,7,8
5046 %if mmsize==32
5047     vpbroadcastw m7, [r0+0]
5048     vpbroadcastw m6, [r0+4]
5049     vpbroadcastw m5, r6m
5050 %else
5051     movq      m6, [r0]
5052     movd      m5, r6m
5053     pshuflw   m7, m6, 0
5054     pshuflw   m6, m6, q2222
5055     pshuflw   m5, m5, 0
5056     punpcklqdq m7, m7
5057     punpcklqdq m6, m6
5058     punpcklqdq m5, m5
5059 %endif
5060     ADS_START
5061 .loop:
5062     movu      m0, [r1]
5063     movu      m1, [r1+r2]
5064     psubw     m0, m7
5065     psubw     m1, m6
5066     movu      m4, [r3]
5067     ABSW      m0, m0, m2
5068     ABSW      m1, m1, m3
5069     paddw     m0, m1
5070     paddusw   m0, m4
5071     psubusw   m1, m5, m0
5072     packsswb  m1, m1
5073 %if mmsize==32
5074     vpermq    m1, m1, q3120
5075     mova    [r6], xm1
5076 %else
5077     movh    [r6], m1
5078 %endif
5079     ADS_END mmsize/8
5080
5081 cglobal pixel_ads1, 5,7,8
5082 %if mmsize==32
5083     vpbroadcastw m7, [r0]
5084     vpbroadcastw m6, r6m
5085 %else
5086     movd      m7, [r0]
5087     movd      m6, r6m
5088     pshuflw   m7, m7, 0
5089     pshuflw   m6, m6, 0
5090     punpcklqdq m7, m7
5091     punpcklqdq m6, m6
5092 %endif
5093     ADS_START
5094 .loop:
5095     movu      m0, [r1]
5096     movu      m1, [r1+mmsize]
5097     psubw     m0, m7
5098     psubw     m1, m7
5099     movu      m2, [r3]
5100     movu      m3, [r3+mmsize]
5101     ABSW      m0, m0, m4
5102     ABSW      m1, m1, m5
5103     paddusw   m0, m2
5104     paddusw   m1, m3
5105     psubusw   m4, m6, m0
5106     psubusw   m5, m6, m1
5107     packsswb  m4, m5
5108 %if mmsize==32
5109     vpermq    m4, m4, q3120
5110 %endif
5111     mova    [r6], m4
5112     ADS_END mmsize/4
5113 %endmacro
5114
5115 INIT_XMM sse2
5116 ADS_XMM
5117 INIT_XMM ssse3
5118 ADS_XMM
5119 INIT_XMM avx
5120 ADS_XMM
5121 INIT_YMM avx2
5122 ADS_XMM
5123
5124 ; int pixel_ads_mvs( int16_t *mvs, uint8_t *masks, int width )
5125 ; {
5126 ;     int nmv=0, i, j;
5127 ;     *(uint32_t*)(masks+width) = 0;
5128 ;     for( i=0; i<width; i+=8 )
5129 ;     {
5130 ;         uint64_t mask = *(uint64_t*)(masks+i);
5131 ;         if( !mask ) continue;
5132 ;         for( j=0; j<8; j++ )
5133 ;             if( mask & (255<<j*8) )
5134 ;                 mvs[nmv++] = i+j;
5135 ;     }
5136 ;     return nmv;
5137 ; }
5138
5139 %macro TEST 1
5140     mov     [r4+r0*2], r1w
5141     test    r2d, 0xff<<(%1*8)
5142     setne   r3b
5143     add     r0d, r3d
5144     inc     r1d
5145 %endmacro
5146
5147 INIT_MMX mmx
5148 cglobal pixel_ads_mvs, 0,7,0
5149 ads_mvs_mmx:
5150     ; mvs = r4
5151     ; masks = r6
5152     ; width = r5
5153     ; clear last block in case width isn't divisible by 8. (assume divisible by 4, so clearing 4 bytes is enough.)
5154     xor     r0d, r0d
5155     xor     r1d, r1d
5156     mov     [r6+r5], r0d
5157     jmp .loopi
5158 ALIGN 16
5159 .loopi0:
5160     add     r1d, 8
5161     cmp     r1d, r5d
5162     jge .end
5163 .loopi:
5164     mov     r2,  [r6+r1]
5165 %if ARCH_X86_64
5166     test    r2,  r2
5167 %else
5168     mov     r3,  r2
5169     add    r3d, [r6+r1+4]
5170 %endif
5171     jz .loopi0
5172     xor     r3d, r3d
5173     TEST 0
5174     TEST 1
5175     TEST 2
5176     TEST 3
5177 %if ARCH_X86_64
5178     shr     r2,  32
5179 %else
5180     mov     r2d, [r6+r1]
5181 %endif
5182     TEST 0
5183     TEST 1
5184     TEST 2
5185     TEST 3
5186     cmp     r1d, r5d
5187     jl .loopi
5188 .end:
5189     movifnidn eax, r0d
5190     RET
5191
5192 INIT_XMM ssse3
5193 cglobal pixel_ads_mvs, 0,7,0
5194 ads_mvs_ssse3:
5195     mova      m3, [pw_8]
5196     mova      m4, [pw_76543210]
5197     pxor      m5, m5
5198     add       r5, r6
5199     xor      r0d, r0d ; nmv
5200     mov     [r5], r0d
5201 %ifdef PIC
5202     lea       r1, [$$]
5203     %define GLOBAL +r1-$$
5204 %else
5205     %define GLOBAL
5206 %endif
5207 .loop:
5208     movh      m0, [r6]
5209     pcmpeqb   m0, m5
5210     pmovmskb r2d, m0
5211     xor      r2d, 0xffff                         ; skipping if r2d is zero is slower (branch mispredictions)
5212     movzx    r3d, byte [r2+popcnt_table GLOBAL]  ; popcnt
5213     add      r2d, r2d
5214     ; shuffle counters based on mv mask
5215     pshufb    m2, m4, [r2*8+ads_mvs_shuffle GLOBAL]
5216     movu [r4+r0*2], m2
5217     add      r0d, r3d
5218     paddw     m4, m3                             ; {i*8+0, i*8+1, i*8+2, i*8+3, i*8+4, i*8+5, i*8+6, i*8+7}
5219     add       r6, 8
5220     cmp       r6, r5
5221     jl .loop
5222     movifnidn eax, r0d
5223     RET