git.sesse.net Git - x264/blob - common/x86/deblock-a.asm

   1 ;*****************************************************************************
   2 ;* deblock-a.asm: x86 deblocking
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2005-2015 x264 project
   5 ;*
   6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
   7 ;*          Fiona Glaser <fiona@x264.com>
   8 ;*          Oskar Arvidsson <oskar@irock.se>
   9 ;*
  10 ;* This program is free software; you can redistribute it and/or modify
  11 ;* it under the terms of the GNU General Public License as published by
  12 ;* the Free Software Foundation; either version 2 of the License, or
  13 ;* (at your option) any later version.
  14 ;*
  15 ;* This program is distributed in the hope that it will be useful,
  16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  18 ;* GNU General Public License for more details.
  19 ;*
  20 ;* You should have received a copy of the GNU General Public License
  21 ;* along with this program; if not, write to the Free Software
  22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  23 ;*
  24 ;* This program is also available under a commercial proprietary license.
  25 ;* For more information, contact us at licensing@x264.com.
  26 ;*****************************************************************************
  27
  28 %include "x86inc.asm"
  29 %include "x86util.asm"
  30
  31 SECTION_RODATA 32
  32
  33 load_bytes_shuf: times 2 db 3,4,5,6,11,12,13,14,4,5,6,7,12,13,14,15
  34 insert_top_shuf: dd 0,1,4,5,7,2,3,6
  35 transpose_shuf: db 0,4,8,12,1,5,9,13,2,6,10,14,3,7,11,15
  36
  37 SECTION .text
  38
  39 cextern pb_0
  40 cextern pb_1
  41 cextern pb_3
  42 cextern pb_a1
  43 cextern pw_2
  44 cextern pw_4
  45 cextern pw_00ff
  46 cextern pw_pixel_max
  47 cextern pb_unpackbd1
  48
  49 %if HIGH_BIT_DEPTH
  50 ; out: %4 = |%1-%2|-%3
  51 ; clobbers: %5
  52 %macro ABS_SUB 5
  53     psubusw %5, %2, %1
  54     psubusw %4, %1, %2
  55     por     %4, %5
  56     psubw   %4, %3
  57 %endmacro
  58
  59 ; out: %4 = |%1-%2|<%3
  60 %macro DIFF_LT   5
  61     psubusw %4, %2, %1
  62     psubusw %5, %1, %2
  63     por     %5, %4 ; |%1-%2|
  64     pxor    %4, %4
  65     psubw   %5, %3 ; |%1-%2|-%3
  66     pcmpgtw %4, %5 ; 0 > |%1-%2|-%3
  67 %endmacro
  68
  69 %macro LOAD_AB 4
  70     movd       %1, %3
  71     movd       %2, %4
  72     SPLATW     %1, %1
  73     SPLATW     %2, %2
  74 %endmacro
  75
  76 ; in:  %2=tc reg
  77 ; out: %1=splatted tc
  78 %macro LOAD_TC 2
  79 %if mmsize == 8
  80     pshufw      %1, [%2-1], 0
  81 %else
  82     movd        %1, [%2]
  83     punpcklbw   %1, %1
  84     pshuflw     %1, %1, q1100
  85     pshufd      %1, %1, q1100
  86 %endif
  87     psraw       %1, 8
  88 %endmacro
  89
  90 ; in: %1=p1, %2=p0, %3=q0, %4=q1
  91 ;     %5=alpha, %6=beta, %7-%9=tmp
  92 ; out: %7=mask
  93 %macro LOAD_MASK 9
  94     ABS_SUB     %2, %3, %5, %8, %7 ; |p0-q0| - alpha
  95     ABS_SUB     %1, %2, %6, %9, %7 ; |p1-p0| - beta
  96     pand        %8, %9
  97     ABS_SUB     %3, %4, %6, %9, %7 ; |q1-q0| - beta
  98     pxor        %7, %7
  99     pand        %8, %9
 100     pcmpgtw     %7, %8
 101 %endmacro
 102
 103 ; in: %1=p0, %2=q0, %3=p1, %4=q1, %5=mask, %6=tmp, %7=tmp
 104 ; out: %1=p0', m2=q0'
 105 %macro DEBLOCK_P0_Q0 7
 106     psubw   %3, %4
 107     pxor    %7, %7
 108     paddw   %3, [pw_4]
 109     psubw   %7, %5
 110     psubw   %6, %2, %1
 111     psllw   %6, 2
 112     paddw   %3, %6
 113     psraw   %3, 3
 114     mova    %6, [pw_pixel_max]
 115     CLIPW   %3, %7, %5
 116     pxor    %7, %7
 117     paddw   %1, %3
 118     psubw   %2, %3
 119     CLIPW   %1, %7, %6
 120     CLIPW   %2, %7, %6
 121 %endmacro
 122
 123 ; in: %1=x2, %2=x1, %3=p0, %4=q0 %5=mask&tc, %6=tmp
 124 %macro LUMA_Q1 6
 125     pavgw       %6, %3, %4      ; (p0+q0+1)>>1
 126     paddw       %1, %6
 127     pxor        %6, %6
 128     psraw       %1, 1
 129     psubw       %6, %5
 130     psubw       %1, %2
 131     CLIPW       %1, %6, %5
 132     paddw       %1, %2
 133 %endmacro
 134
 135 %macro LUMA_DEBLOCK_ONE 3
 136     DIFF_LT     m5, %1, bm, m4, m6
 137     pxor        m6, m6
 138     mova        %3, m4
 139     pcmpgtw     m6, tcm
 140     pand        m4, tcm
 141     pandn       m6, m7
 142     pand        m4, m6
 143     LUMA_Q1 m5, %2, m1, m2, m4, m6
 144 %endmacro
 145
 146 %macro LUMA_H_STORE 2
 147 %if mmsize == 8
 148     movq        [r0-4], m0
 149     movq        [r0+r1-4], m1
 150     movq        [r0+r1*2-4], m2
 151     movq        [r0+%2-4], m3
 152 %else
 153     movq        [r0-4], m0
 154     movhps      [r0+r1-4], m0
 155     movq        [r0+r1*2-4], m1
 156     movhps      [%1-4], m1
 157     movq        [%1+r1-4], m2
 158     movhps      [%1+r1*2-4], m2
 159     movq        [%1+%2-4], m3
 160     movhps      [%1+r1*4-4], m3
 161 %endif
 162 %endmacro
 163
 164 %macro DEBLOCK_LUMA 0
 165 ;-----------------------------------------------------------------------------
 166 ; void deblock_v_luma( uint16_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
 167 ;-----------------------------------------------------------------------------
 168 cglobal deblock_v_luma, 5,5,8,0-5*mmsize
 169     %define tcm [rsp]
 170     %define ms1 [rsp+mmsize]
 171     %define ms2 [rsp+mmsize*2]
 172     %define am  [rsp+mmsize*3]
 173     %define bm  [rsp+mmsize*4]
 174     add         r1, r1
 175     LOAD_AB     m4, m5, r2d, r3d
 176     mov         r3, 32/mmsize
 177     mov         r2, r0
 178     sub         r0, r1
 179     mova        am, m4
 180     sub         r0, r1
 181     mova        bm, m5
 182     sub         r0, r1
 183 .loop:
 184     mova        m0, [r0+r1]
 185     mova        m1, [r0+r1*2]
 186     mova        m2, [r2]
 187     mova        m3, [r2+r1]
 188
 189     LOAD_MASK   m0, m1, m2, m3, am, bm, m7, m4, m6
 190     LOAD_TC     m6, r4
 191     mova       tcm, m6
 192
 193     mova        m5, [r0]
 194     LUMA_DEBLOCK_ONE m1, m0, ms1
 195     mova   [r0+r1], m5
 196
 197     mova        m5, [r2+r1*2]
 198     LUMA_DEBLOCK_ONE m2, m3, ms2
 199     mova   [r2+r1], m5
 200
 201     pxor        m5, m5
 202     mova        m6, tcm
 203     pcmpgtw     m5, tcm
 204     psubw       m6, ms1
 205     pandn       m5, m7
 206     psubw       m6, ms2
 207     pand        m5, m6
 208     DEBLOCK_P0_Q0 m1, m2, m0, m3, m5, m7, m6
 209     mova [r0+r1*2], m1
 210     mova      [r2], m2
 211
 212     add         r0, mmsize
 213     add         r2, mmsize
 214     add         r4, mmsize/8
 215     dec         r3
 216     jg .loop
 217     RET
 218
 219 cglobal deblock_h_luma, 5,6,8,0-7*mmsize
 220     %define tcm [rsp]
 221     %define ms1 [rsp+mmsize]
 222     %define ms2 [rsp+mmsize*2]
 223     %define p1m [rsp+mmsize*3]
 224     %define p2m [rsp+mmsize*4]
 225     %define am  [rsp+mmsize*5]
 226     %define bm  [rsp+mmsize*6]
 227     add         r1, r1
 228     LOAD_AB     m4, m5, r2d, r3d
 229     mov         r3, r1
 230     mova        am, m4
 231     add         r3, r1
 232     mov         r5, 32/mmsize
 233     mova        bm, m5
 234     add         r3, r1
 235 %if mmsize == 16
 236     mov         r2, r0
 237     add         r2, r3
 238 %endif
 239 .loop:
 240 %if mmsize == 8
 241     movq        m2, [r0-8]     ; y q2 q1 q0
 242     movq        m7, [r0+0]
 243     movq        m5, [r0+r1-8]
 244     movq        m3, [r0+r1+0]
 245     movq        m0, [r0+r1*2-8]
 246     movq        m6, [r0+r1*2+0]
 247     movq        m1, [r0+r3-8]
 248     TRANSPOSE4x4W 2, 5, 0, 1, 4
 249     SWAP         2, 7
 250     movq        m7, [r0+r3]
 251     TRANSPOSE4x4W 2, 3, 6, 7, 4
 252 %else
 253     movu        m5, [r0-8]     ; y q2 q1 q0 p0 p1 p2 x
 254     movu        m0, [r0+r1-8]
 255     movu        m2, [r0+r1*2-8]
 256     movu        m3, [r2-8]
 257     TRANSPOSE4x4W 5, 0, 2, 3, 6
 258     mova       tcm, m3
 259
 260     movu        m4, [r2+r1-8]
 261     movu        m1, [r2+r1*2-8]
 262     movu        m3, [r2+r3-8]
 263     movu        m7, [r2+r1*4-8]
 264     TRANSPOSE4x4W 4, 1, 3, 7, 6
 265
 266     mova        m6, tcm
 267     punpcklqdq  m6, m7
 268     punpckhqdq  m5, m4
 269     SBUTTERFLY qdq, 0, 1, 7
 270     SBUTTERFLY qdq, 2, 3, 7
 271 %endif
 272
 273     mova       p2m, m6
 274     LOAD_MASK   m0, m1, m2, m3, am, bm, m7, m4, m6
 275     LOAD_TC     m6, r4
 276     mova       tcm, m6
 277
 278     LUMA_DEBLOCK_ONE m1, m0, ms1
 279     mova       p1m, m5
 280
 281     mova        m5, p2m
 282     LUMA_DEBLOCK_ONE m2, m3, ms2
 283     mova       p2m, m5
 284
 285     pxor        m5, m5
 286     mova        m6, tcm
 287     pcmpgtw     m5, tcm
 288     psubw       m6, ms1
 289     pandn       m5, m7
 290     psubw       m6, ms2
 291     pand        m5, m6
 292     DEBLOCK_P0_Q0 m1, m2, m0, m3, m5, m7, m6
 293     mova        m0, p1m
 294     mova        m3, p2m
 295     TRANSPOSE4x4W 0, 1, 2, 3, 4
 296     LUMA_H_STORE r2, r3
 297
 298     add         r4, mmsize/8
 299     lea         r0, [r0+r1*(mmsize/2)]
 300     lea         r2, [r2+r1*(mmsize/2)]
 301     dec         r5
 302     jg .loop
 303     RET
 304 %endmacro
 305
 306 %if ARCH_X86_64
 307 ; in:  m0=p1, m1=p0, m2=q0, m3=q1, m8=p2, m9=q2
 308 ;      m12=alpha, m13=beta
 309 ; out: m0=p1', m3=q1', m1=p0', m2=q0'
 310 ; clobbers: m4, m5, m6, m7, m10, m11, m14
 311 %macro DEBLOCK_LUMA_INTER_SSE2 0
 312     LOAD_MASK   m0, m1, m2, m3, m12, m13, m7, m4, m6
 313     LOAD_TC     m6, r4
 314     DIFF_LT     m8, m1, m13, m10, m4
 315     DIFF_LT     m9, m2, m13, m11, m4
 316     pand        m6, m7
 317
 318     mova       m14, m6
 319     pxor        m4, m4
 320     pcmpgtw     m6, m4
 321     pand        m6, m14
 322
 323     mova        m5, m10
 324     pand        m5, m6
 325     LUMA_Q1 m8, m0, m1, m2, m5, m4
 326
 327     mova        m5, m11
 328     pand        m5, m6
 329     LUMA_Q1 m9, m3, m1, m2, m5, m4
 330
 331     pxor        m4, m4
 332     psubw       m6, m10
 333     pcmpgtw     m4, m14
 334     pandn       m4, m7
 335     psubw       m6, m11
 336     pand        m4, m6
 337     DEBLOCK_P0_Q0 m1, m2, m0, m3, m4, m5, m6
 338
 339     SWAP         0, 8
 340     SWAP         3, 9
 341 %endmacro
 342
 343 %macro DEBLOCK_LUMA_64 0
 344 cglobal deblock_v_luma, 5,5,15
 345     %define p2 m8
 346     %define p1 m0
 347     %define p0 m1
 348     %define q0 m2
 349     %define q1 m3
 350     %define q2 m9
 351     %define mask0 m7
 352     %define mask1 m10
 353     %define mask2 m11
 354     add         r1, r1
 355     LOAD_AB    m12, m13, r2d, r3d
 356     mov         r2, r0
 357     sub         r0, r1
 358     sub         r0, r1
 359     sub         r0, r1
 360     mov         r3, 2
 361 .loop:
 362     mova        p2, [r0]
 363     mova        p1, [r0+r1]
 364     mova        p0, [r0+r1*2]
 365     mova        q0, [r2]
 366     mova        q1, [r2+r1]
 367     mova        q2, [r2+r1*2]
 368     DEBLOCK_LUMA_INTER_SSE2
 369     mova   [r0+r1], p1
 370     mova [r0+r1*2], p0
 371     mova      [r2], q0
 372     mova   [r2+r1], q1
 373     add         r0, mmsize
 374     add         r2, mmsize
 375     add         r4, 2
 376     dec         r3
 377     jg .loop
 378     RET
 379
 380 cglobal deblock_h_luma, 5,7,15
 381     add         r1, r1
 382     LOAD_AB    m12, m13, r2d, r3d
 383     mov         r2, r1
 384     add         r2, r1
 385     add         r2, r1
 386     mov         r5, r0
 387     add         r5, r2
 388     mov         r6, 2
 389 .loop:
 390     movu        m8, [r0-8]     ; y q2 q1 q0 p0 p1 p2 x
 391     movu        m0, [r0+r1-8]
 392     movu        m2, [r0+r1*2-8]
 393     movu        m9, [r5-8]
 394     movu        m5, [r5+r1-8]
 395     movu        m1, [r5+r1*2-8]
 396     movu        m3, [r5+r2-8]
 397     movu        m7, [r5+r1*4-8]
 398
 399     TRANSPOSE4x4W 8, 0, 2, 9, 10
 400     TRANSPOSE4x4W 5, 1, 3, 7, 10
 401
 402     punpckhqdq  m8, m5
 403     SBUTTERFLY qdq, 0, 1, 10
 404     SBUTTERFLY qdq, 2, 3, 10
 405     punpcklqdq  m9, m7
 406
 407     DEBLOCK_LUMA_INTER_SSE2
 408
 409     TRANSPOSE4x4W 0, 1, 2, 3, 4
 410     LUMA_H_STORE r5, r2
 411     add         r4, 2
 412     lea         r0, [r0+r1*8]
 413     lea         r5, [r5+r1*8]
 414     dec         r6
 415     jg .loop
 416     RET
 417 %endmacro
 418
 419 INIT_XMM sse2
 420 DEBLOCK_LUMA_64
 421 INIT_XMM avx
 422 DEBLOCK_LUMA_64
 423 %endif
 424
 425 %macro SWAPMOVA 2
 426 %ifid %1
 427     SWAP %1, %2
 428 %else
 429     mova %1, %2
 430 %endif
 431 %endmacro
 432
 433 ; in: t0-t2: tmp registers
 434 ;     %1=p0 %2=p1 %3=p2 %4=p3 %5=q0 %6=q1 %7=mask0
 435 ;     %8=mask1p %9=2 %10=p0' %11=p1' %12=p2'
 436 %macro LUMA_INTRA_P012 12 ; p0..p3 in memory
 437 %if ARCH_X86_64
 438     paddw     t0, %3, %2
 439     mova      t2, %4
 440     paddw     t2, %3
 441 %else
 442     mova      t0, %3
 443     mova      t2, %4
 444     paddw     t0, %2
 445     paddw     t2, %3
 446 %endif
 447     paddw     t0, %1
 448     paddw     t2, t2
 449     paddw     t0, %5
 450     paddw     t2, %9
 451     paddw     t0, %9    ; (p2 + p1 + p0 + q0 + 2)
 452     paddw     t2, t0    ; (2*p3 + 3*p2 + p1 + p0 + q0 + 4)
 453
 454     psrlw     t2, 3
 455     psrlw     t1, t0, 2
 456     psubw     t2, %3
 457     psubw     t1, %2
 458     pand      t2, %8
 459     pand      t1, %8
 460     paddw     t2, %3
 461     paddw     t1, %2
 462     SWAPMOVA %11, t1
 463
 464     psubw     t1, t0, %3
 465     paddw     t0, t0
 466     psubw     t1, %5
 467     psubw     t0, %3
 468     paddw     t1, %6
 469     paddw     t1, %2
 470     paddw     t0, %6
 471     psrlw     t1, 2     ; (2*p1 + p0 + q1 + 2)/4
 472     psrlw     t0, 3     ; (p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4)>>3
 473
 474     pxor      t0, t1
 475     pxor      t1, %1
 476     pand      t0, %8
 477     pand      t1, %7
 478     pxor      t0, t1
 479     pxor      t0, %1
 480     SWAPMOVA %10, t0
 481     SWAPMOVA %12, t2
 482 %endmacro
 483
 484 %macro LUMA_INTRA_INIT 1
 485     %define t0 m4
 486     %define t1 m5
 487     %define t2 m6
 488     %define t3 m7
 489     %assign i 4
 490 %rep %1
 491     CAT_XDEFINE t, i, [rsp+mmsize*(i-4)]
 492     %assign i i+1
 493 %endrep
 494     add     r1, r1
 495 %endmacro
 496
 497 ; in: %1-%3=tmp, %4=p2, %5=q2
 498 %macro LUMA_INTRA_INTER 5
 499     LOAD_AB t0, t1, r2d, r3d
 500     mova    %1, t0
 501     LOAD_MASK m0, m1, m2, m3, %1, t1, t0, t2, t3
 502 %if ARCH_X86_64
 503     mova    %2, t0        ; mask0
 504     psrlw   t3, %1, 2
 505 %else
 506     mova    t3, %1
 507     mova    %2, t0        ; mask0
 508     psrlw   t3, 2
 509 %endif
 510     paddw   t3, [pw_2]    ; alpha/4+2
 511     DIFF_LT m1, m2, t3, t2, t0 ; t2 = |p0-q0| < alpha/4+2
 512     pand    t2, %2
 513     mova    t3, %5        ; q2
 514     mova    %1, t2        ; mask1
 515     DIFF_LT t3, m2, t1, t2, t0 ; t2 = |q2-q0| < beta
 516     pand    t2, %1
 517     mova    t3, %4        ; p2
 518     mova    %3, t2        ; mask1q
 519     DIFF_LT t3, m1, t1, t2, t0 ; t2 = |p2-p0| < beta
 520     pand    t2, %1
 521     mova    %1, t2        ; mask1p
 522 %endmacro
 523
 524 %macro LUMA_H_INTRA_LOAD 0
 525 %if mmsize == 8
 526     movu    t0, [r0-8]
 527     movu    t1, [r0+r1-8]
 528     movu    m0, [r0+r1*2-8]
 529     movu    m1, [r0+r4-8]
 530     TRANSPOSE4x4W 4, 5, 0, 1, 2
 531     mova    t4, t0        ; p3
 532     mova    t5, t1        ; p2
 533
 534     movu    m2, [r0]
 535     movu    m3, [r0+r1]
 536     movu    t0, [r0+r1*2]
 537     movu    t1, [r0+r4]
 538     TRANSPOSE4x4W 2, 3, 4, 5, 6
 539     mova    t6, t0        ; q2
 540     mova    t7, t1        ; q3
 541 %else
 542     movu    t0, [r0-8]
 543     movu    t1, [r0+r1-8]
 544     movu    m0, [r0+r1*2-8]
 545     movu    m1, [r0+r5-8]
 546     movu    m2, [r4-8]
 547     movu    m3, [r4+r1-8]
 548     movu    t2, [r4+r1*2-8]
 549     movu    t3, [r4+r5-8]
 550     TRANSPOSE8x8W 4, 5, 0, 1, 2, 3, 6, 7, t4, t5
 551     mova    t4, t0        ; p3
 552     mova    t5, t1        ; p2
 553     mova    t6, t2        ; q2
 554     mova    t7, t3        ; q3
 555 %endif
 556 %endmacro
 557
 558 ; in: %1=q3 %2=q2' %3=q1' %4=q0' %5=p0' %6=p1' %7=p2' %8=p3 %9=tmp
 559 %macro LUMA_H_INTRA_STORE 9
 560 %if mmsize == 8
 561     TRANSPOSE4x4W %1, %2, %3, %4, %9
 562     movq       [r0-8], m%1
 563     movq       [r0+r1-8], m%2
 564     movq       [r0+r1*2-8], m%3
 565     movq       [r0+r4-8], m%4
 566     movq       m%1, %8
 567     TRANSPOSE4x4W %5, %6, %7, %1, %9
 568     movq       [r0], m%5
 569     movq       [r0+r1], m%6
 570     movq       [r0+r1*2], m%7
 571     movq       [r0+r4], m%1
 572 %else
 573     TRANSPOSE2x4x4W %1, %2, %3, %4, %9
 574     movq       [r0-8], m%1
 575     movq       [r0+r1-8], m%2
 576     movq       [r0+r1*2-8], m%3
 577     movq       [r0+r5-8], m%4
 578     movhps     [r4-8], m%1
 579     movhps     [r4+r1-8], m%2
 580     movhps     [r4+r1*2-8], m%3
 581     movhps     [r4+r5-8], m%4
 582 %ifnum %8
 583     SWAP       %1, %8
 584 %else
 585     mova       m%1, %8
 586 %endif
 587     TRANSPOSE2x4x4W %5, %6, %7, %1, %9
 588     movq       [r0], m%5
 589     movq       [r0+r1], m%6
 590     movq       [r0+r1*2], m%7
 591     movq       [r0+r5], m%1
 592     movhps     [r4], m%5
 593     movhps     [r4+r1], m%6
 594     movhps     [r4+r1*2], m%7
 595     movhps     [r4+r5], m%1
 596 %endif
 597 %endmacro
 598
 599 %if ARCH_X86_64
 600 ;-----------------------------------------------------------------------------
 601 ; void deblock_v_luma_intra( uint16_t *pix, intptr_t stride, int alpha, int beta )
 602 ;-----------------------------------------------------------------------------
 603 %macro DEBLOCK_LUMA_INTRA_64 0
 604 cglobal deblock_v_luma_intra, 4,7,16
 605     %define t0 m1
 606     %define t1 m2
 607     %define t2 m4
 608     %define p2 m8
 609     %define p1 m9
 610     %define p0 m10
 611     %define q0 m11
 612     %define q1 m12
 613     %define q2 m13
 614     %define aa m5
 615     %define bb m14
 616     add     r1, r1
 617     lea     r4, [r1*4]
 618     lea     r5, [r1*3] ; 3*stride
 619     neg     r4
 620     add     r4, r0     ; pix-4*stride
 621     mov     r6, 2
 622     mova    m0, [pw_2]
 623     LOAD_AB aa, bb, r2d, r3d
 624 .loop:
 625     mova    p2, [r4+r1]
 626     mova    p1, [r4+2*r1]
 627     mova    p0, [r4+r5]
 628     mova    q0, [r0]
 629     mova    q1, [r0+r1]
 630     mova    q2, [r0+2*r1]
 631
 632     LOAD_MASK p1, p0, q0, q1, aa, bb, m3, t0, t1
 633     mova    t2, aa
 634     psrlw   t2, 2
 635     paddw   t2, m0 ; alpha/4+2
 636     DIFF_LT p0, q0, t2, m6, t0 ; m6 = |p0-q0| < alpha/4+2
 637     DIFF_LT p2, p0, bb, t1, t0 ; m7 = |p2-p0| < beta
 638     DIFF_LT q2, q0, bb, m7, t0 ; t1 = |q2-q0| < beta
 639     pand    m6, m3
 640     pand    m7, m6
 641     pand    m6, t1
 642     LUMA_INTRA_P012 p0, p1, p2, [r4], q0, q1, m3, m6, m0, [r4+r5], [r4+2*r1], [r4+r1]
 643     LUMA_INTRA_P012 q0, q1, q2, [r0+r5], p0, p1, m3, m7, m0, [r0], [r0+r1], [r0+2*r1]
 644     add     r0, mmsize
 645     add     r4, mmsize
 646     dec     r6
 647     jg .loop
 648     RET
 649
 650 ;-----------------------------------------------------------------------------
 651 ; void deblock_h_luma_intra( uint16_t *pix, intptr_t stride, int alpha, int beta )
 652 ;-----------------------------------------------------------------------------
 653 cglobal deblock_h_luma_intra, 4,7,16
 654     %define t0 m15
 655     %define t1 m14
 656     %define t2 m2
 657     %define q3 m5
 658     %define q2 m8
 659     %define q1 m9
 660     %define q0 m10
 661     %define p0 m11
 662     %define p1 m12
 663     %define p2 m13
 664     %define p3 m4
 665     %define spill [rsp]
 666     %assign pad 24-(stack_offset&15)
 667     SUB     rsp, pad
 668     add     r1, r1
 669     lea     r4, [r1*4]
 670     lea     r5, [r1*3] ; 3*stride
 671     add     r4, r0     ; pix+4*stride
 672     mov     r6, 2
 673     mova    m0, [pw_2]
 674 .loop:
 675     movu    q3, [r0-8]
 676     movu    q2, [r0+r1-8]
 677     movu    q1, [r0+r1*2-8]
 678     movu    q0, [r0+r5-8]
 679     movu    p0, [r4-8]
 680     movu    p1, [r4+r1-8]
 681     movu    p2, [r4+r1*2-8]
 682     movu    p3, [r4+r5-8]
 683     TRANSPOSE8x8W 5, 8, 9, 10, 11, 12, 13, 4, 1
 684
 685     LOAD_AB m1, m2, r2d, r3d
 686     LOAD_MASK q1, q0, p0, p1, m1, m2, m3, t0, t1
 687     psrlw   m1, 2
 688     paddw   m1, m0 ; alpha/4+2
 689     DIFF_LT p0, q0, m1, m6, t0 ; m6 = |p0-q0| < alpha/4+2
 690     DIFF_LT q2, q0, m2, t1, t0 ; t1 = |q2-q0| < beta
 691     DIFF_LT p0, p2, m2, m7, t0 ; m7 = |p2-p0| < beta
 692     pand    m6, m3
 693     pand    m7, m6
 694     pand    m6, t1
 695
 696     mova spill, q3
 697     LUMA_INTRA_P012 q0, q1, q2, q3, p0, p1, m3, m6, m0, m5, m1, q2
 698     LUMA_INTRA_P012 p0, p1, p2, p3, q0, q1, m3, m7, m0, p0, m6, p2
 699     mova    m7, spill
 700
 701     LUMA_H_INTRA_STORE 7, 8, 1, 5, 11, 6, 13, 4, 14
 702
 703     lea     r0, [r0+r1*8]
 704     lea     r4, [r4+r1*8]
 705     dec     r6
 706     jg .loop
 707     ADD    rsp, pad
 708     RET
 709 %endmacro
 710
 711 INIT_XMM sse2
 712 DEBLOCK_LUMA_INTRA_64
 713 INIT_XMM avx
 714 DEBLOCK_LUMA_INTRA_64
 715
 716 %endif
 717
 718 %macro DEBLOCK_LUMA_INTRA 0
 719 ;-----------------------------------------------------------------------------
 720 ; void deblock_v_luma_intra( uint16_t *pix, intptr_t stride, int alpha, int beta )
 721 ;-----------------------------------------------------------------------------
 722 cglobal deblock_v_luma_intra, 4,7,8,0-3*mmsize
 723     LUMA_INTRA_INIT 3
 724     lea     r4, [r1*4]
 725     lea     r5, [r1*3]
 726     neg     r4
 727     add     r4, r0
 728     mov     r6, 32/mmsize
 729 .loop:
 730     mova    m0, [r4+r1*2] ; p1
 731     mova    m1, [r4+r5]   ; p0
 732     mova    m2, [r0]      ; q0
 733     mova    m3, [r0+r1]   ; q1
 734     LUMA_INTRA_INTER t4, t5, t6, [r4+r1], [r0+r1*2]
 735     LUMA_INTRA_P012 m1, m0, t3, [r4], m2, m3, t5, t4, [pw_2], [r4+r5], [r4+2*r1], [r4+r1]
 736     mova    t3, [r0+r1*2] ; q2
 737     LUMA_INTRA_P012 m2, m3, t3, [r0+r5], m1, m0, t5, t6, [pw_2], [r0], [r0+r1], [r0+2*r1]
 738     add     r0, mmsize
 739     add     r4, mmsize
 740     dec     r6
 741     jg .loop
 742     RET
 743
 744 ;-----------------------------------------------------------------------------
 745 ; void deblock_h_luma_intra( uint16_t *pix, intptr_t stride, int alpha, int beta )
 746 ;-----------------------------------------------------------------------------
 747 cglobal deblock_h_luma_intra, 4,7,8,0-8*mmsize
 748     LUMA_INTRA_INIT 8
 749 %if mmsize == 8
 750     lea     r4, [r1*3]
 751     mov     r5, 32/mmsize
 752 %else
 753     lea     r4, [r1*4]
 754     lea     r5, [r1*3] ; 3*stride
 755     add     r4, r0     ; pix+4*stride
 756     mov     r6, 32/mmsize
 757 %endif
 758 .loop:
 759     LUMA_H_INTRA_LOAD
 760     LUMA_INTRA_INTER t8, t9, t10, t5, t6
 761
 762     LUMA_INTRA_P012 m1, m0, t3, t4, m2, m3, t9, t8, [pw_2], t8, t5, t11
 763     mova    t3, t6     ; q2
 764     LUMA_INTRA_P012 m2, m3, t3, t7, m1, m0, t9, t10, [pw_2], m4, t6, m5
 765
 766     mova    m2, t4
 767     mova    m0, t11
 768     mova    m1, t5
 769     mova    m3, t8
 770     mova    m6, t6
 771
 772     LUMA_H_INTRA_STORE 2, 0, 1, 3, 4, 6, 5, t7, 7
 773
 774     lea     r0, [r0+r1*(mmsize/2)]
 775 %if mmsize == 8
 776     dec     r5
 777 %else
 778     lea     r4, [r4+r1*(mmsize/2)]
 779     dec     r6
 780 %endif
 781     jg .loop
 782     RET
 783 %endmacro
 784
 785 %if ARCH_X86_64 == 0
 786 INIT_MMX mmx2
 787 DEBLOCK_LUMA
 788 DEBLOCK_LUMA_INTRA
 789 INIT_XMM sse2
 790 DEBLOCK_LUMA
 791 DEBLOCK_LUMA_INTRA
 792 INIT_XMM avx
 793 DEBLOCK_LUMA
 794 DEBLOCK_LUMA_INTRA
 795 %endif
 796 %endif ; HIGH_BIT_DEPTH
 797
 798 %if HIGH_BIT_DEPTH == 0
 799 ; expands to [base],...,[base+7*stride]
 800 %define PASS8ROWS(base, base3, stride, stride3) \
 801     [base], [base+stride], [base+stride*2], [base3], \
 802     [base3+stride], [base3+stride*2], [base3+stride3], [base3+stride*4]
 803
 804 %define PASS8ROWS(base, base3, stride, stride3, offset) \
 805     PASS8ROWS(base+offset, base3+offset, stride, stride3)
 806
 807 ; in: 4 rows of 8 bytes in m0..m3
 808 ; out: 8 rows of 4 bytes in %1..%8
 809 %macro TRANSPOSE8x4B_STORE 8
 810     punpckhdq  m4, m0, m0
 811     punpckhdq  m5, m1, m1
 812     punpckhdq  m6, m2, m2
 813
 814     punpcklbw  m0, m1
 815     punpcklbw  m2, m3
 816     punpcklwd  m1, m0, m2
 817     punpckhwd  m0, m2
 818     movd       %1, m1
 819     punpckhdq  m1, m1
 820     movd       %2, m1
 821     movd       %3, m0
 822     punpckhdq  m0, m0
 823     movd       %4, m0
 824
 825     punpckhdq  m3, m3
 826     punpcklbw  m4, m5
 827     punpcklbw  m6, m3
 828     punpcklwd  m5, m4, m6
 829     punpckhwd  m4, m6
 830     movd       %5, m5
 831     punpckhdq  m5, m5
 832     movd       %6, m5
 833     movd       %7, m4
 834     punpckhdq  m4, m4
 835     movd       %8, m4
 836 %endmacro
 837
 838 ; in: 8 rows of 4 bytes in %9..%10
 839 ; out: 8 rows of 4 bytes in %1..%8
 840 %macro STORE_8x4B 10
 841     movd   %1, %9
 842     pextrd %2, %9, 1
 843     pextrd %3, %9, 2
 844     pextrd %4, %9, 3
 845     movd   %5, %10
 846     pextrd %6, %10, 1
 847     pextrd %7, %10, 2
 848     pextrd %8, %10, 3
 849 %endmacro
 850
 851 ; in: 4 rows of 4 words in %1..%4
 852 ; out: 4 rows of 4 word in m0..m3
 853 ; clobbers: m4
 854 %macro TRANSPOSE4x4W_LOAD 4-8
 855 %if mmsize==8
 856     SWAP  1, 4, 2, 3
 857     movq  m0, %1
 858     movq  m1, %2
 859     movq  m2, %3
 860     movq  m3, %4
 861     TRANSPOSE4x4W 0, 1, 2, 3, 4
 862 %else
 863     movq       m0, %1
 864     movq       m2, %2
 865     movq       m1, %3
 866     movq       m3, %4
 867     punpcklwd  m0, m2
 868     punpcklwd  m1, m3
 869     mova       m2, m0
 870     punpckldq  m0, m1
 871     punpckhdq  m2, m1
 872     MOVHL      m1, m0
 873     MOVHL      m3, m2
 874 %endif
 875 %endmacro
 876
 877 ; in: 2 rows of 4 words in m1..m2
 878 ; out: 4 rows of 2 words in %1..%4
 879 ; clobbers: m0, m1
 880 %macro TRANSPOSE4x2W_STORE 4-8
 881 %if mmsize==8
 882     punpckhwd  m0, m1, m2
 883     punpcklwd  m1, m2
 884 %else
 885     punpcklwd  m1, m2
 886     MOVHL      m0, m1
 887 %endif
 888     movd       %3, m0
 889     movd       %1, m1
 890     psrlq      m1, 32
 891     psrlq      m0, 32
 892     movd       %2, m1
 893     movd       %4, m0
 894 %endmacro
 895
 896 ; in: 4/8 rows of 4 words in %1..%8
 897 ; out: 4 rows of 4/8 word in m0..m3
 898 ; clobbers: m4, m5, m6, m7
 899 %macro TRANSPOSE4x8W_LOAD 8
 900 %if mmsize==8
 901     TRANSPOSE4x4W_LOAD %1, %2, %3, %4
 902 %else
 903     movq       m0, %1
 904     movq       m2, %2
 905     movq       m1, %3
 906     movq       m3, %4
 907     punpcklwd  m0, m2
 908     punpcklwd  m1, m3
 909     mova       m2, m0
 910     punpckldq  m0, m1
 911     punpckhdq  m2, m1
 912
 913     movq       m4, %5
 914     movq       m6, %6
 915     movq       m5, %7
 916     movq       m7, %8
 917     punpcklwd  m4, m6
 918     punpcklwd  m5, m7
 919     mova       m6, m4
 920     punpckldq  m4, m5
 921     punpckhdq  m6, m5
 922
 923     punpckhqdq m1, m0, m4
 924     punpckhqdq m3, m2, m6
 925     punpcklqdq m0, m4
 926     punpcklqdq m2, m6
 927 %endif
 928 %endmacro
 929
 930 ; in: 2 rows of 4/8 words in m1..m2
 931 ; out: 4/8 rows of 2 words in %1..%8
 932 ; clobbers: m0, m1
 933 %macro TRANSPOSE8x2W_STORE 8
 934 %if mmsize==8
 935     TRANSPOSE4x2W_STORE %1, %2, %3, %4
 936 %else
 937     punpckhwd  m0, m1, m2
 938     punpcklwd  m1, m2
 939     movd       %5, m0
 940     movd       %1, m1
 941     psrldq     m1, 4
 942     psrldq     m0, 4
 943     movd       %2, m1
 944     movd       %6, m0
 945     psrldq     m1, 4
 946     psrldq     m0, 4
 947     movd       %3, m1
 948     movd       %7, m0
 949     psrldq     m1, 4
 950     psrldq     m0, 4
 951     movd       %4, m1
 952     movd       %8, m0
 953 %endif
 954 %endmacro
 955
 956 %macro SBUTTERFLY3 4
 957     punpckh%1  %4, %2, %3
 958     punpckl%1  %2, %3
 959 %endmacro
 960
 961 ; in: 8 rows of 8 (only the middle 6 pels are used) in %1..%8
 962 ; out: 6 rows of 8 in [%9+0*16] .. [%9+5*16]
 963 %macro TRANSPOSE6x8_MEM 9
 964     RESET_MM_PERMUTATION
 965 %if cpuflag(avx)
 966     ; input:
 967     ; _ABCDEF_
 968     ; _GHIJKL_
 969     ; _MNOPQR_
 970     ; _STUVWX_
 971     ; _YZabcd_
 972     ; _efghij_
 973     ; _klmnop_
 974     ; _qrstuv_
 975
 976     movh      m0, %1
 977     movh      m2, %2
 978     movh      m1, %3
 979     movh      m3, %4
 980     punpcklbw m0, m2       ; __ AG BH CI DJ EK FL __
 981     punpcklbw m1, m3       ; __ MS NT OU PV QW RX __
 982     movh      m2, %5
 983     movh      m3, %6
 984     punpcklbw m2, m3       ; __ Ye Zf ag bh ci dj __
 985     movh      m3, %7
 986     movh      m4, %8
 987     punpcklbw m3, m4       ; __ kq lr ms nt ou pv __
 988
 989     SBUTTERFLY wd, 0, 1, 4 ; __ __ AG MS BH NT CI OU
 990                            ; DJ PV EK QW FL RX __ __
 991     SBUTTERFLY wd, 2, 3, 4 ; __ __ Ye kq Zf lr ag ms
 992                            ; bh nt ci ou dj pv __ __
 993     SBUTTERFLY dq, 0, 2, 4 ; __ __ __ __ AG MS Ye kq
 994                            ; BH NT Zf lr CI FL OU RX
 995     SBUTTERFLY dq, 1, 3, 4 ; DJ PV bh nt EK QW Zf lr
 996                            ; FL RX dj pv __ __ __ __
 997     movhps [%9+0x00], m0
 998     movh   [%9+0x10], m2
 999     movhps [%9+0x20], m2
1000     movh   [%9+0x30], m1
1001     movhps [%9+0x40], m1
1002     movh   [%9+0x50], m3
1003 %else
1004     movq  m0, %1
1005     movq  m1, %2
1006     movq  m2, %3
1007     movq  m3, %4
1008     movq  m4, %5
1009     movq  m5, %6
1010     movq  m6, %7
1011     SBUTTERFLY bw, 0, 1, 7
1012     SBUTTERFLY bw, 2, 3, 7
1013     SBUTTERFLY bw, 4, 5, 7
1014     movq  [%9+0x10], m3
1015     SBUTTERFLY3 bw, m6, %8, m7
1016     SBUTTERFLY wd, 0, 2, 3
1017     SBUTTERFLY wd, 4, 6, 3
1018     punpckhdq m0, m4
1019     movq  [%9+0x00], m0
1020     SBUTTERFLY3 wd, m1, [%9+0x10], m3
1021     SBUTTERFLY wd, 5, 7, 0
1022     SBUTTERFLY dq, 1, 5, 0
1023     SBUTTERFLY dq, 2, 6, 0
1024     punpckldq m3, m7
1025     movq  [%9+0x10], m2
1026     movq  [%9+0x20], m6
1027     movq  [%9+0x30], m1
1028     movq  [%9+0x40], m5
1029     movq  [%9+0x50], m3
1030 %endif
1031     RESET_MM_PERMUTATION
1032 %endmacro
1033
1034
1035 ; in: 8 rows of 8 in %1..%8
1036 ; out: 8 rows of 8 in %9..%16
1037 %macro TRANSPOSE8x8_MEM 16
1038     RESET_MM_PERMUTATION
1039 %if cpuflag(avx)
1040     movh      m0, %1
1041     movh      m4, %2
1042     movh      m1, %3
1043     movh      m5, %4
1044     movh      m2, %5
1045     movh      m3, %7
1046     punpcklbw m0, m4
1047     punpcklbw m1, m5
1048     movh      m4, %6
1049     movh      m5, %8
1050     punpcklbw m2, m4
1051     punpcklbw m3, m5
1052     SBUTTERFLY wd, 0, 1, 4
1053     SBUTTERFLY wd, 2, 3, 4
1054     SBUTTERFLY dq, 0, 2, 4
1055     SBUTTERFLY dq, 1, 3, 4
1056     movh    %9, m0
1057     movhps %10, m0
1058     movh   %11, m2
1059     movhps %12, m2
1060     movh   %13, m1
1061     movhps %14, m1
1062     movh   %15, m3
1063     movhps %16, m3
1064 %else
1065     movq  m0, %1
1066     movq  m1, %2
1067     movq  m2, %3
1068     movq  m3, %4
1069     movq  m4, %5
1070     movq  m5, %6
1071     movq  m6, %7
1072     SBUTTERFLY bw, 0, 1, 7
1073     SBUTTERFLY bw, 2, 3, 7
1074     SBUTTERFLY bw, 4, 5, 7
1075     SBUTTERFLY3 bw, m6, %8, m7
1076     movq  %9,  m5
1077     SBUTTERFLY wd, 0, 2, 5
1078     SBUTTERFLY wd, 4, 6, 5
1079     SBUTTERFLY wd, 1, 3, 5
1080     movq  %11, m6
1081     movq  m6,  %9
1082     SBUTTERFLY wd, 6, 7, 5
1083     SBUTTERFLY dq, 0, 4, 5
1084     SBUTTERFLY dq, 1, 6, 5
1085     movq  %9,  m0
1086     movq  %10, m4
1087     movq  %13, m1
1088     movq  %14, m6
1089     SBUTTERFLY3 dq, m2, %11, m0
1090     SBUTTERFLY dq, 3, 7, 4
1091     movq  %11, m2
1092     movq  %12, m0
1093     movq  %15, m3
1094     movq  %16, m7
1095 %endif
1096     RESET_MM_PERMUTATION
1097 %endmacro
1098
1099 ; out: %4 = |%1-%2|>%3
1100 ; clobbers: %5
1101 %macro DIFF_GT 5
1102 %if avx_enabled == 0
1103     mova    %5, %2
1104     mova    %4, %1
1105     psubusb %5, %1
1106     psubusb %4, %2
1107 %else
1108     psubusb %5, %2, %1
1109     psubusb %4, %1, %2
1110 %endif
1111     por     %4, %5
1112     psubusb %4, %3
1113 %endmacro
1114
1115 ; out: %4 = |%1-%2|>%3
1116 ; clobbers: %5
1117 %macro DIFF_GT2 5-6
1118 %if %0<6
1119     psubusb %4, %1, %2
1120     psubusb %5, %2, %1
1121 %else
1122     mova    %4, %1
1123     mova    %5, %2
1124     psubusb %4, %2
1125     psubusb %5, %1
1126 %endif
1127     psubusb %5, %3
1128     psubusb %4, %3
1129     pcmpeqb %4, %5
1130 %endmacro
1131
1132 ; in: m0=p1 m1=p0 m2=q0 m3=q1 %1=alpha %2=beta
1133 ; out: m5=beta-1, m7=mask, %3=alpha-1
1134 ; clobbers: m4,m6
1135 %macro LOAD_MASK 2-3
1136 %if cpuflag(ssse3)
1137     movd     m4, %1
1138     movd     m5, %2
1139     pxor     m6, m6
1140     pshufb   m4, m6
1141     pshufb   m5, m6
1142 %else
1143     movd     m4, %1
1144     movd     m5, %2
1145     punpcklbw m4, m4
1146     punpcklbw m5, m5
1147     SPLATW   m4, m4
1148     SPLATW   m5, m5
1149 %endif
1150     mova     m6, [pb_1]
1151     psubusb  m4, m6              ; alpha - 1
1152     psubusb  m5, m6              ; beta - 1
1153 %if %0>2
1154     mova     %3, m4
1155 %endif
1156     DIFF_GT  m1, m2, m4, m7, m6 ; |p0-q0| > alpha-1
1157     DIFF_GT  m0, m1, m5, m4, m6 ; |p1-p0| > beta-1
1158     por      m7, m4
1159     DIFF_GT  m3, m2, m5, m4, m6 ; |q1-q0| > beta-1
1160     por      m7, m4
1161     pxor     m6, m6
1162     pcmpeqb  m7, m6
1163 %endmacro
1164
1165 ; in: m0=p1 m1=p0 m2=q0 m3=q1 m7=(tc&mask)
1166 ; out: m1=p0' m2=q0'
1167 ; clobbers: m0,3-6
1168 %macro DEBLOCK_P0_Q0 0
1169     pxor    m5, m1, m2   ; p0^q0
1170     pand    m5, [pb_1]   ; (p0^q0)&1
1171     pcmpeqb m4, m4
1172     pxor    m3, m4
1173     pavgb   m3, m0       ; (p1 - q1 + 256)>>1
1174     pavgb   m3, [pb_3]   ; (((p1 - q1 + 256)>>1)+4)>>1 = 64+2+(p1-q1)>>2
1175     pxor    m4, m1
1176     pavgb   m4, m2       ; (q0 - p0 + 256)>>1
1177     pavgb   m3, m5
1178     paddusb m3, m4       ; d+128+33
1179     mova    m6, [pb_a1]
1180     psubusb m6, m3
1181     psubusb m3, [pb_a1]
1182     pminub  m6, m7
1183     pminub  m3, m7
1184     psubusb m1, m6
1185     psubusb m2, m3
1186     paddusb m1, m3
1187     paddusb m2, m6
1188 %endmacro
1189
1190 ; in: m1=p0 m2=q0
1191 ;     %1=p1 %2=q2 %3=[q2] %4=[q1] %5=tc0 %6=tmp
1192 ; out: [q1] = clip( (q2+((p0+q0+1)>>1))>>1, q1-tc0, q1+tc0 )
1193 ; clobbers: q2, tmp, tc0
1194 %macro LUMA_Q1 6
1195     pavgb   %6, m1, m2
1196     pavgb   %2, %6       ; avg(p2,avg(p0,q0))
1197     pxor    %6, %3
1198     pand    %6, [pb_1]   ; (p2^avg(p0,q0))&1
1199     psubusb %2, %6       ; (p2+((p0+q0+1)>>1))>>1
1200     psubusb %6, %1, %5
1201     paddusb %5, %1
1202     pmaxub  %2, %6
1203     pminub  %2, %5
1204     mova    %4, %2
1205 %endmacro
1206
1207 %if ARCH_X86_64
1208 ;-----------------------------------------------------------------------------
1209 ; void deblock_v_luma( uint8_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
1210 ;-----------------------------------------------------------------------------
1211 %macro DEBLOCK_LUMA 0
1212 cglobal deblock_v_luma, 5,5,10
1213     movd    m8, [r4] ; tc0
1214     lea     r4, [r1*3]
1215     neg     r4
1216     add     r4, r0     ; pix-3*stride
1217
1218     mova    m0, [r4+r1]   ; p1
1219     mova    m1, [r4+2*r1] ; p0
1220     mova    m2, [r0]      ; q0
1221     mova    m3, [r0+r1]   ; q1
1222     LOAD_MASK r2d, r3d
1223
1224 %if cpuflag(avx)
1225     pshufb   m8, [pb_unpackbd1]
1226     pblendvb m9, m7, m6, m8
1227 %else
1228     punpcklbw m8, m8
1229     punpcklbw m8, m8 ; tc = 4x tc0[3], 4x tc0[2], 4x tc0[1], 4x tc0[0]
1230     pcmpeqb m9, m9
1231     pcmpeqb m9, m8
1232     pandn   m9, m7
1233 %endif
1234     pand    m8, m9
1235
1236     mova    m3, [r4] ; p2
1237     DIFF_GT2 m1, m3, m5, m6, m7 ; |p2-p0| > beta-1
1238     pand    m6, m9
1239     psubb   m7, m8, m6 ; tc++
1240     pand    m6, m8
1241     LUMA_Q1 m0, m3, [r4], [r4+r1], m6, m4
1242
1243     mova    m4, [r0+2*r1] ; q2
1244     DIFF_GT2 m2, m4, m5, m6, m3 ; |q2-q0| > beta-1
1245     pand    m6, m9
1246     pand    m8, m6
1247     psubb   m7, m6
1248     mova    m3, [r0+r1]
1249     LUMA_Q1 m3, m4, [r0+2*r1], [r0+r1], m8, m6
1250
1251     DEBLOCK_P0_Q0
1252     mova    [r4+2*r1], m1
1253     mova    [r0], m2
1254     RET
1255
1256 ;-----------------------------------------------------------------------------
1257 ; void deblock_h_luma( uint8_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
1258 ;-----------------------------------------------------------------------------
1259
1260 %if cpuflag(avx)
1261 INIT_XMM cpuname
1262 %else
1263 INIT_MMX cpuname
1264 %endif
1265 cglobal deblock_h_luma, 5,9,0,0x60+16*WIN64
1266     lea    r8, [r1*3]
1267     lea    r6, [r0-4]
1268     lea    r5, [r0-4+r8]
1269     %xdefine pix_tmp rsp+0x30*WIN64 ; shadow space + r4
1270
1271     ; transpose 6x16 -> tmp space
1272     TRANSPOSE6x8_MEM  PASS8ROWS(r6, r5, r1, r8), pix_tmp
1273     lea    r6, [r6+r1*8]
1274     lea    r5, [r5+r1*8]
1275     TRANSPOSE6x8_MEM  PASS8ROWS(r6, r5, r1, r8), pix_tmp+8
1276
1277     ; vertical filter
1278     ; alpha, beta, tc0 are still in r2d, r3d, r4
1279     ; don't backup r6, r5, r7, r8 because deblock_v_luma_sse2 doesn't use them
1280     mov    r7, r1
1281     lea    r0, [pix_tmp+0x30]
1282     mov    r1d, 0x10
1283 %if WIN64
1284     mov    [rsp+0x20], r4
1285 %endif
1286     call   deblock_v_luma
1287
1288     ; transpose 16x4 -> original space  (only the middle 4 rows were changed by the filter)
1289     add    r6, 2
1290     add    r5, 2
1291 %if cpuflag(sse4)
1292     mova   m0, [pix_tmp+0x10]
1293     mova   m1, [pix_tmp+0x20]
1294     mova   m2, [pix_tmp+0x30]
1295     mova   m3, [pix_tmp+0x40]
1296     SBUTTERFLY bw, 0, 1, 4
1297     SBUTTERFLY bw, 2, 3, 4
1298     SBUTTERFLY wd, 0, 2, 4
1299     SBUTTERFLY wd, 1, 3, 4
1300     STORE_8x4B PASS8ROWS(r6, r5, r7, r8), m1, m3
1301     shl    r7, 3
1302     sub    r6, r7
1303     sub    r5, r7
1304     shr    r7, 3
1305     STORE_8x4B PASS8ROWS(r6, r5, r7, r8), m0, m2
1306 %else
1307     movq   m0, [pix_tmp+0x18]
1308     movq   m1, [pix_tmp+0x28]
1309     movq   m2, [pix_tmp+0x38]
1310     movq   m3, [pix_tmp+0x48]
1311     TRANSPOSE8x4B_STORE  PASS8ROWS(r6, r5, r7, r8)
1312
1313     shl    r7, 3
1314     sub    r6, r7
1315     sub    r5, r7
1316     shr    r7, 3
1317     movq   m0, [pix_tmp+0x10]
1318     movq   m1, [pix_tmp+0x20]
1319     movq   m2, [pix_tmp+0x30]
1320     movq   m3, [pix_tmp+0x40]
1321     TRANSPOSE8x4B_STORE  PASS8ROWS(r6, r5, r7, r8)
1322 %endif
1323
1324     RET
1325 %endmacro
1326
1327 INIT_XMM sse2
1328 DEBLOCK_LUMA
1329 INIT_XMM avx
1330 DEBLOCK_LUMA
1331
1332 %else
1333
1334 %macro DEBLOCK_LUMA 2
1335 ;-----------------------------------------------------------------------------
1336 ; void deblock_v8_luma( uint8_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
1337 ;-----------------------------------------------------------------------------
1338 cglobal deblock_%1_luma, 5,5,8,2*%2
1339     lea     r4, [r1*3]
1340     neg     r4
1341     add     r4, r0 ; pix-3*stride
1342
1343     mova    m0, [r4+r1]   ; p1
1344     mova    m1, [r4+2*r1] ; p0
1345     mova    m2, [r0]      ; q0
1346     mova    m3, [r0+r1]   ; q1
1347     LOAD_MASK r2d, r3d
1348
1349     mov     r3, r4mp
1350     movd    m4, [r3] ; tc0
1351 %if cpuflag(avx)
1352     pshufb   m4, [pb_unpackbd1]
1353     mova   [esp+%2], m4 ; tc
1354     pblendvb m4, m7, m6, m4
1355 %else
1356     punpcklbw m4, m4
1357     punpcklbw m4, m4 ; tc = 4x tc0[3], 4x tc0[2], 4x tc0[1], 4x tc0[0]
1358     mova   [esp+%2], m4 ; tc
1359     pcmpeqb m3, m3
1360     pcmpgtb m4, m3
1361     pand    m4, m7
1362 %endif
1363     mova   [esp], m4 ; mask
1364
1365     mova    m3, [r4] ; p2
1366     DIFF_GT2 m1, m3, m5, m6, m7 ; |p2-p0| > beta-1
1367     pand    m6, m4
1368     pand    m4, [esp+%2] ; tc
1369     psubb   m7, m4, m6
1370     pand    m6, m4
1371     LUMA_Q1 m0, m3, [r4], [r4+r1], m6, m4
1372
1373     mova    m4, [r0+2*r1] ; q2
1374     DIFF_GT2 m2, m4, m5, m6, m3 ; |q2-q0| > beta-1
1375     mova    m5, [esp] ; mask
1376     pand    m6, m5
1377     mova    m5, [esp+%2] ; tc
1378     pand    m5, m6
1379     psubb   m7, m6
1380     mova    m3, [r0+r1]
1381     LUMA_Q1 m3, m4, [r0+2*r1], [r0+r1], m5, m6
1382
1383     DEBLOCK_P0_Q0
1384     mova    [r4+2*r1], m1
1385     mova    [r0], m2
1386     RET
1387
1388 ;-----------------------------------------------------------------------------
1389 ; void deblock_h_luma( uint8_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
1390 ;-----------------------------------------------------------------------------
1391 %if cpuflag(avx)
1392 INIT_XMM cpuname
1393 %else
1394 INIT_MMX cpuname
1395 %endif
1396 cglobal deblock_h_luma, 1,5,8,0x60+12
1397     mov    r3, r1m
1398     lea    r4, [r3*3]
1399     sub    r0, 4
1400     lea    r1, [r0+r4]
1401     %define pix_tmp esp+12
1402     ; esp is intentionally misaligned to make it aligned after pushing the arguments for deblock_%1_luma.
1403
1404     ; transpose 6x16 -> tmp space
1405     TRANSPOSE6x8_MEM  PASS8ROWS(r0, r1, r3, r4), pix_tmp
1406     lea    r0, [r0+r3*8]
1407     lea    r1, [r1+r3*8]
1408     TRANSPOSE6x8_MEM  PASS8ROWS(r0, r1, r3, r4), pix_tmp+8
1409
1410     ; vertical filter
1411     lea    r0, [pix_tmp+0x30]
1412     PUSH   dword r4m
1413     PUSH   dword r3m
1414     PUSH   dword r2m
1415     PUSH   dword 16
1416     PUSH   dword r0
1417     call   deblock_%1_luma
1418 %ifidn %1, v8
1419     add    dword [esp   ], 8 ; pix_tmp+0x38
1420     add    dword [esp+16], 2 ; tc0+2
1421     call   deblock_%1_luma
1422 %endif
1423     ADD    esp, 20
1424
1425     ; transpose 16x4 -> original space  (only the middle 4 rows were changed by the filter)
1426     mov    r0, r0mp
1427     sub    r0, 2
1428     lea    r1, [r0+r4]
1429
1430 %if cpuflag(avx)
1431     mova   m0, [pix_tmp+0x10]
1432     mova   m1, [pix_tmp+0x20]
1433     mova   m2, [pix_tmp+0x30]
1434     mova   m3, [pix_tmp+0x40]
1435     SBUTTERFLY bw, 0, 1, 4
1436     SBUTTERFLY bw, 2, 3, 4
1437     SBUTTERFLY wd, 0, 2, 4
1438     SBUTTERFLY wd, 1, 3, 4
1439     STORE_8x4B PASS8ROWS(r0, r1, r3, r4), m0, m2
1440     lea    r0, [r0+r3*8]
1441     lea    r1, [r1+r3*8]
1442     STORE_8x4B PASS8ROWS(r0, r1, r3, r4), m1, m3
1443 %else
1444     movq   m0, [pix_tmp+0x10]
1445     movq   m1, [pix_tmp+0x20]
1446     movq   m2, [pix_tmp+0x30]
1447     movq   m3, [pix_tmp+0x40]
1448     TRANSPOSE8x4B_STORE  PASS8ROWS(r0, r1, r3, r4)
1449
1450     lea    r0, [r0+r3*8]
1451     lea    r1, [r1+r3*8]
1452     movq   m0, [pix_tmp+0x18]
1453     movq   m1, [pix_tmp+0x28]
1454     movq   m2, [pix_tmp+0x38]
1455     movq   m3, [pix_tmp+0x48]
1456     TRANSPOSE8x4B_STORE  PASS8ROWS(r0, r1, r3, r4)
1457 %endif
1458
1459     RET
1460 %endmacro ; DEBLOCK_LUMA
1461
1462 INIT_MMX mmx2
1463 DEBLOCK_LUMA v8, 8
1464 INIT_XMM sse2
1465 DEBLOCK_LUMA v, 16
1466 INIT_XMM avx
1467 DEBLOCK_LUMA v, 16
1468
1469 %endif ; ARCH
1470
1471
1472
1473 %macro LUMA_INTRA_P012 4 ; p0..p3 in memory
1474 %if ARCH_X86_64
1475     pavgb t0, p2, p1
1476     pavgb t1, p0, q0
1477 %else
1478     mova  t0, p2
1479     mova  t1, p0
1480     pavgb t0, p1
1481     pavgb t1, q0
1482 %endif
1483     pavgb t0, t1 ; ((p2+p1+1)/2 + (p0+q0+1)/2 + 1)/2
1484     mova  t5, t1
1485 %if ARCH_X86_64
1486     paddb t2, p2, p1
1487     paddb t3, p0, q0
1488 %else
1489     mova  t2, p2
1490     mova  t3, p0
1491     paddb t2, p1
1492     paddb t3, q0
1493 %endif
1494     paddb t2, t3
1495     mova  t3, t2
1496     mova  t4, t2
1497     psrlw t2, 1
1498     pavgb t2, mpb_0
1499     pxor  t2, t0
1500     pand  t2, mpb_1
1501     psubb t0, t2 ; p1' = (p2+p1+p0+q0+2)/4;
1502
1503 %if ARCH_X86_64
1504     pavgb t1, p2, q1
1505     psubb t2, p2, q1
1506 %else
1507     mova  t1, p2
1508     mova  t2, p2
1509     pavgb t1, q1
1510     psubb t2, q1
1511 %endif
1512     paddb t3, t3
1513     psubb t3, t2 ; p2+2*p1+2*p0+2*q0+q1
1514     pand  t2, mpb_1
1515     psubb t1, t2
1516     pavgb t1, p1
1517     pavgb t1, t5 ; (((p2+q1)/2 + p1+1)/2 + (p0+q0+1)/2 + 1)/2
1518     psrlw t3, 2
1519     pavgb t3, mpb_0
1520     pxor  t3, t1
1521     pand  t3, mpb_1
1522     psubb t1, t3 ; p0'a = (p2+2*p1+2*p0+2*q0+q1+4)/8
1523
1524     pxor  t3, p0, q1
1525     pavgb t2, p0, q1
1526     pand  t3, mpb_1
1527     psubb t2, t3
1528     pavgb t2, p1 ; p0'b = (2*p1+p0+q0+2)/4
1529
1530     pxor  t1, t2
1531     pxor  t2, p0
1532     pand  t1, mask1p
1533     pand  t2, mask0
1534     pxor  t1, t2
1535     pxor  t1, p0
1536     mova  %1, t1 ; store p0
1537
1538     mova  t1, %4 ; p3
1539     paddb t2, t1, p2
1540     pavgb t1, p2
1541     pavgb t1, t0 ; (p3+p2+1)/2 + (p2+p1+p0+q0+2)/4
1542     paddb t2, t2
1543     paddb t2, t4 ; 2*p3+3*p2+p1+p0+q0
1544     psrlw t2, 2
1545     pavgb t2, mpb_0
1546     pxor  t2, t1
1547     pand  t2, mpb_1
1548     psubb t1, t2 ; p2' = (2*p3+3*p2+p1+p0+q0+4)/8
1549
1550     pxor  t0, p1
1551     pxor  t1, p2
1552     pand  t0, mask1p
1553     pand  t1, mask1p
1554     pxor  t0, p1
1555     pxor  t1, p2
1556     mova  %2, t0 ; store p1
1557     mova  %3, t1 ; store p2
1558 %endmacro
1559
1560 %macro LUMA_INTRA_SWAP_PQ 0
1561     %define q1 m0
1562     %define q0 m1
1563     %define p0 m2
1564     %define p1 m3
1565     %define p2 q2
1566     %define mask1p mask1q
1567 %endmacro
1568
1569 %macro DEBLOCK_LUMA_INTRA 1
1570     %define p1 m0
1571     %define p0 m1
1572     %define q0 m2
1573     %define q1 m3
1574     %define t0 m4
1575     %define t1 m5
1576     %define t2 m6
1577     %define t3 m7
1578 %if ARCH_X86_64
1579     %define p2 m8
1580     %define q2 m9
1581     %define t4 m10
1582     %define t5 m11
1583     %define mask0 m12
1584     %define mask1p m13
1585 %if WIN64
1586     %define mask1q [rsp]
1587 %else
1588     %define mask1q [rsp-24]
1589 %endif
1590     %define mpb_0 m14
1591     %define mpb_1 m15
1592 %else
1593     %define spill(x) [esp+16*x]
1594     %define p2 [r4+r1]
1595     %define q2 [r0+2*r1]
1596     %define t4 spill(0)
1597     %define t5 spill(1)
1598     %define mask0 spill(2)
1599     %define mask1p spill(3)
1600     %define mask1q spill(4)
1601     %define mpb_0 [pb_0]
1602     %define mpb_1 [pb_1]
1603 %endif
1604
1605 ;-----------------------------------------------------------------------------
1606 ; void deblock_v_luma_intra( uint8_t *pix, intptr_t stride, int alpha, int beta )
1607 ;-----------------------------------------------------------------------------
1608 cglobal deblock_%1_luma_intra, 4,6,16,0-(1-ARCH_X86_64)*0x50-WIN64*0x10
1609     lea     r4, [r1*4]
1610     lea     r5, [r1*3] ; 3*stride
1611     neg     r4
1612     add     r4, r0     ; pix-4*stride
1613     mova    p1, [r4+2*r1]
1614     mova    p0, [r4+r5]
1615     mova    q0, [r0]
1616     mova    q1, [r0+r1]
1617 %if ARCH_X86_64
1618     pxor    mpb_0, mpb_0
1619     mova    mpb_1, [pb_1]
1620     LOAD_MASK r2d, r3d, t5 ; m5=beta-1, t5=alpha-1, m7=mask0
1621     SWAP    7, 12 ; m12=mask0
1622     pavgb   t5, mpb_0
1623     pavgb   t5, mpb_1 ; alpha/4+1
1624     movdqa  p2, [r4+r1]
1625     movdqa  q2, [r0+2*r1]
1626     DIFF_GT2 p0, q0, t5, t0, t3    ; t0 = |p0-q0| > alpha/4+1
1627     DIFF_GT2 p0, p2, m5, t2, t5, 1 ; mask1 = |p2-p0| > beta-1
1628     DIFF_GT2 q0, q2, m5, t4, t5, 1 ; t4 = |q2-q0| > beta-1
1629     pand    t0, mask0
1630     pand    t4, t0
1631     pand    t2, t0
1632     mova    mask1q, t4
1633     mova    mask1p, t2
1634 %else
1635     LOAD_MASK r2d, r3d, t5 ; m5=beta-1, t5=alpha-1, m7=mask0
1636     mova    m4, t5
1637     mova    mask0, m7
1638     pavgb   m4, [pb_0]
1639     pavgb   m4, [pb_1] ; alpha/4+1
1640     DIFF_GT2 p0, q0, m4, m6, m7    ; m6 = |p0-q0| > alpha/4+1
1641     pand    m6, mask0
1642     DIFF_GT2 p0, p2, m5, m4, m7, 1 ; m4 = |p2-p0| > beta-1
1643     pand    m4, m6
1644     mova    mask1p, m4
1645     DIFF_GT2 q0, q2, m5, m4, m7, 1 ; m4 = |q2-q0| > beta-1
1646     pand    m4, m6
1647     mova    mask1q, m4
1648 %endif
1649     LUMA_INTRA_P012 [r4+r5], [r4+2*r1], [r4+r1], [r4]
1650     LUMA_INTRA_SWAP_PQ
1651     LUMA_INTRA_P012 [r0], [r0+r1], [r0+2*r1], [r0+r5]
1652 .end:
1653     REP_RET
1654
1655 %if cpuflag(avx)
1656 INIT_XMM cpuname
1657 %else
1658 INIT_MMX cpuname
1659 %endif
1660 %if ARCH_X86_64
1661 ;-----------------------------------------------------------------------------
1662 ; void deblock_h_luma_intra( uint8_t *pix, intptr_t stride, int alpha, int beta )
1663 ;-----------------------------------------------------------------------------
1664 cglobal deblock_h_luma_intra, 4,9,0,0x80
1665     lea    r8, [r1*3]
1666     lea    r6, [r0-4]
1667     lea    r5, [r0-4+r8]
1668 %if WIN64
1669     %define pix_tmp rsp+0x20 ; shadow space
1670 %else
1671     %define pix_tmp rsp
1672 %endif
1673
1674     ; transpose 8x16 -> tmp space
1675     TRANSPOSE8x8_MEM  PASS8ROWS(r6, r5, r1, r8), PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30)
1676     lea    r6, [r6+r1*8]
1677     lea    r5, [r5+r1*8]
1678     TRANSPOSE8x8_MEM  PASS8ROWS(r6, r5, r1, r8), PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30)
1679
1680     mov    r7, r1
1681     lea    r0, [pix_tmp+0x40]
1682     mov    r1, 0x10
1683     call   deblock_v_luma_intra
1684
1685     ; transpose 16x6 -> original space (but we can't write only 6 pixels, so really 16x8)
1686     lea    r5, [r6+r8]
1687     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30), PASS8ROWS(r6, r5, r7, r8)
1688     shl    r7, 3
1689     sub    r6, r7
1690     sub    r5, r7
1691     shr    r7, 3
1692     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30), PASS8ROWS(r6, r5, r7, r8)
1693     RET
1694 %else
1695 cglobal deblock_h_luma_intra, 2,4,8,0x80
1696     lea    r3,  [r1*3]
1697     sub    r0,  4
1698     lea    r2,  [r0+r3]
1699     %define pix_tmp rsp
1700
1701     ; transpose 8x16 -> tmp space
1702     TRANSPOSE8x8_MEM  PASS8ROWS(r0, r2, r1, r3), PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30)
1703     lea    r0,  [r0+r1*8]
1704     lea    r2,  [r2+r1*8]
1705     TRANSPOSE8x8_MEM  PASS8ROWS(r0, r2, r1, r3), PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30)
1706
1707     lea    r0,  [pix_tmp+0x40]
1708     PUSH   dword r3m
1709     PUSH   dword r2m
1710     PUSH   dword 16
1711     PUSH   r0
1712     call   deblock_%1_luma_intra
1713 %ifidn %1, v8
1714     add    dword [rsp], 8 ; pix_tmp+8
1715     call   deblock_%1_luma_intra
1716 %endif
1717     ADD    esp, 16
1718
1719     mov    r1,  r1m
1720     mov    r0,  r0mp
1721     lea    r3,  [r1*3]
1722     sub    r0,  4
1723     lea    r2,  [r0+r3]
1724     ; transpose 16x6 -> original space (but we can't write only 6 pixels, so really 16x8)
1725     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30), PASS8ROWS(r0, r2, r1, r3)
1726     lea    r0,  [r0+r1*8]
1727     lea    r2,  [r2+r1*8]
1728     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30), PASS8ROWS(r0, r2, r1, r3)
1729     RET
1730 %endif ; ARCH_X86_64
1731 %endmacro ; DEBLOCK_LUMA_INTRA
1732
1733 INIT_XMM sse2
1734 DEBLOCK_LUMA_INTRA v
1735 INIT_XMM avx
1736 DEBLOCK_LUMA_INTRA v
1737 %if ARCH_X86_64 == 0
1738 INIT_MMX mmx2
1739 DEBLOCK_LUMA_INTRA v8
1740 %endif
1741 %endif ; !HIGH_BIT_DEPTH
1742
1743 %if HIGH_BIT_DEPTH
1744 ; in: %1=p0, %2=q0, %3=p1, %4=q1, %5=mask, %6=tmp, %7=tmp
1745 ; out: %1=p0', %2=q0'
1746 %macro CHROMA_DEBLOCK_P0_Q0_INTRA 7
1747     mova    %6, [pw_2]
1748     paddw   %6, %3
1749     paddw   %6, %4
1750     paddw   %7, %6, %2
1751     paddw   %6, %1
1752     paddw   %6, %3
1753     paddw   %7, %4
1754     psraw   %6, 2
1755     psraw   %7, 2
1756     psubw   %6, %1
1757     psubw   %7, %2
1758     pand    %6, %5
1759     pand    %7, %5
1760     paddw   %1, %6
1761     paddw   %2, %7
1762 %endmacro
1763
1764 ; out: m0-m3
1765 ; clobbers: m4-m7
1766 %macro CHROMA_H_LOAD 0-1
1767     movq        m0, [r0-8] ; p1 p1 p0 p0
1768     movq        m2, [r0]   ; q0 q0 q1 q1
1769     movq        m5, [r0+r1-8]
1770     movq        m7, [r0+r1]
1771 %if mmsize == 8
1772     mova        m1, m0
1773     mova        m3, m2
1774     punpckldq   m0, m5 ; p1
1775     punpckhdq   m1, m5 ; p0
1776     punpckldq   m2, m7 ; q0
1777     punpckhdq   m3, m7 ; q1
1778 %else
1779     movq        m4, [r0+r1*2-8]
1780     movq        m6, [r0+r1*2]
1781     movq        m1, [r0+%1-8]
1782     movq        m3, [r0+%1]
1783     punpckldq   m0, m5 ; p1 ... p0 ...
1784     punpckldq   m2, m7 ; q0 ... q1 ...
1785     punpckldq   m4, m1
1786     punpckldq   m6, m3
1787     punpckhqdq  m1, m0, m4 ; p0
1788     punpcklqdq  m0, m4 ; p1
1789     punpckhqdq  m3, m2, m6 ; q1
1790     punpcklqdq  m2, m6 ; q0
1791 %endif
1792 %endmacro
1793
1794 %macro CHROMA_V_LOAD 1
1795     mova        m0, [r0]    ; p1
1796     mova        m1, [r0+r1] ; p0
1797     mova        m2, [%1]    ; q0
1798     mova        m3, [%1+r1] ; q1
1799 %endmacro
1800
1801 ; clobbers: m1, m2, m3
1802 %macro CHROMA_H_STORE 0-1
1803     SBUTTERFLY dq, 1, 2, 3
1804 %if mmsize == 8
1805     movq      [r0-4], m1
1806     movq   [r0+r1-4], m2
1807 %else
1808     movq      [r0-4], m1
1809     movq [r0+r1*2-4], m2
1810     movhps [r0+r1-4], m1
1811     movhps [r0+%1-4], m2
1812 %endif
1813 %endmacro
1814
1815 %macro CHROMA_V_STORE 0
1816     mova [r0+1*r1], m1
1817     mova [r0+2*r1], m2
1818 %endmacro
1819
1820 %macro DEBLOCK_CHROMA 0
1821 cglobal deblock_inter_body
1822     LOAD_AB     m4, m5, r2d, r3d
1823     LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
1824     pxor        m4, m4
1825     LOAD_TC     m6, r4
1826     pmaxsw      m6, m4
1827     pand        m7, m6
1828     DEBLOCK_P0_Q0 m1, m2, m0, m3, m7, m5, m6
1829     ret
1830
1831 ;-----------------------------------------------------------------------------
1832 ; void deblock_v_chroma( uint16_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
1833 ;-----------------------------------------------------------------------------
1834 cglobal deblock_v_chroma, 5,7,8
1835     FIX_STRIDES r1
1836     mov         r5, r0
1837     sub         r0, r1
1838     sub         r0, r1
1839     mov         r6, 32/mmsize
1840 .loop:
1841     CHROMA_V_LOAD r5
1842     call        deblock_inter_body
1843     CHROMA_V_STORE
1844     add         r0, mmsize
1845     add         r5, mmsize
1846     add         r4, mmsize/8
1847     dec         r6
1848     jg .loop
1849     RET
1850
1851 ;-----------------------------------------------------------------------------
1852 ; void deblock_h_chroma( uint16_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
1853 ;-----------------------------------------------------------------------------
1854 cglobal deblock_h_chroma, 5,7,8
1855     add         r1, r1
1856     mov         r5, 32/mmsize
1857 %if mmsize == 16
1858     lea         r6, [r1*3]
1859 %endif
1860 .loop:
1861     CHROMA_H_LOAD r6
1862     call        deblock_inter_body
1863     CHROMA_H_STORE r6
1864     lea         r0, [r0+r1*(mmsize/4)]
1865     add         r4, mmsize/8
1866     dec         r5
1867     jg .loop
1868     RET
1869
1870
1871 cglobal deblock_intra_body
1872     LOAD_AB     m4, m5, r2d, r3d
1873     LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
1874     CHROMA_DEBLOCK_P0_Q0_INTRA m1, m2, m0, m3, m7, m5, m6
1875     ret
1876
1877 ;-----------------------------------------------------------------------------
1878 ; void deblock_v_chroma_intra( uint16_t *pix, intptr_t stride, int alpha, int beta )
1879 ;-----------------------------------------------------------------------------
1880 cglobal deblock_v_chroma_intra, 4,6,8
1881     add         r1, r1
1882     mov         r5, 32/mmsize
1883     movd        m5, r3d
1884     mov         r4, r0
1885     sub         r0, r1
1886     sub         r0, r1
1887     SPLATW      m5, m5
1888 .loop:
1889     CHROMA_V_LOAD r4
1890     call        deblock_intra_body
1891     CHROMA_V_STORE
1892     add         r0, mmsize
1893     add         r4, mmsize
1894     dec         r5
1895     jg .loop
1896     RET
1897
1898 ;-----------------------------------------------------------------------------
1899 ; void deblock_h_chroma_intra( uint16_t *pix, intptr_t stride, int alpha, int beta )
1900 ;-----------------------------------------------------------------------------
1901 cglobal deblock_h_chroma_intra, 4,6,8
1902     add         r1, r1
1903     mov         r4, 32/mmsize
1904 %if mmsize == 16
1905     lea         r5, [r1*3]
1906 %endif
1907 .loop:
1908     CHROMA_H_LOAD r5
1909     call        deblock_intra_body
1910     CHROMA_H_STORE r5
1911     lea         r0, [r0+r1*(mmsize/4)]
1912     dec         r4
1913     jg .loop
1914     RET
1915
1916 ;-----------------------------------------------------------------------------
1917 ; void deblock_h_chroma_intra_mbaff( uint16_t *pix, intptr_t stride, int alpha, int beta )
1918 ;-----------------------------------------------------------------------------
1919 cglobal deblock_h_chroma_intra_mbaff, 4,6,8
1920     add         r1, r1
1921 %if mmsize == 8
1922     mov         r4, 16/mmsize
1923 .loop:
1924 %else
1925     lea         r5, [r1*3]
1926 %endif
1927     CHROMA_H_LOAD r5
1928     LOAD_AB     m4, m5, r2d, r3d
1929     LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
1930     CHROMA_DEBLOCK_P0_Q0_INTRA m1, m2, m0, m3, m7, m5, m6
1931     CHROMA_H_STORE r5
1932 %if mmsize == 8
1933     lea         r0, [r0+r1*(mmsize/4)]
1934     dec         r4
1935     jg .loop
1936 %endif
1937     RET
1938
1939 ;-----------------------------------------------------------------------------
1940 ; void deblock_h_chroma_mbaff( uint16_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
1941 ;-----------------------------------------------------------------------------
1942 cglobal deblock_h_chroma_mbaff, 5,7,8
1943     add         r1, r1
1944     lea         r6, [r1*3]
1945 %if mmsize == 8
1946     mov         r5, 16/mmsize
1947 .loop:
1948 %endif
1949     CHROMA_H_LOAD r6
1950     LOAD_AB     m4, m5, r2d, r3d
1951     LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
1952     movd      m6, [r4]
1953     punpcklbw m6, m6
1954     psraw m6, 8
1955     punpcklwd m6, m6
1956     pand m7, m6
1957     DEBLOCK_P0_Q0 m1, m2, m0, m3, m7, m5, m6
1958     CHROMA_H_STORE r6
1959 %if mmsize == 8
1960     lea         r0, [r0+r1*(mmsize/4)]
1961     add         r4, mmsize/4
1962     dec         r5
1963     jg .loop
1964 %endif
1965     RET
1966
1967 ;-----------------------------------------------------------------------------
1968 ; void deblock_h_chroma_422_intra( uint16_t *pix, intptr_t stride, int alpha, int beta )
1969 ;-----------------------------------------------------------------------------
1970 cglobal deblock_h_chroma_422_intra, 4,6,8
1971     add         r1, r1
1972     mov         r4, 64/mmsize
1973 %if mmsize == 16
1974     lea         r5, [r1*3]
1975 %endif
1976 .loop:
1977     CHROMA_H_LOAD r5
1978     call        deblock_intra_body
1979     CHROMA_H_STORE r5
1980     lea         r0, [r0+r1*(mmsize/4)]
1981     dec         r4
1982     jg .loop
1983     RET
1984
1985 ;-----------------------------------------------------------------------------
1986 ; void deblock_h_chroma_422( uint16_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
1987 ;-----------------------------------------------------------------------------
1988 cglobal deblock_h_chroma_422, 5,7,8
1989     add         r1, r1
1990     mov         r5, 64/mmsize
1991     lea         r6, [r1*3]
1992 .loop:
1993     CHROMA_H_LOAD r6
1994     LOAD_AB     m4, m5, r2m, r3d
1995     LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
1996     pxor        m4, m4
1997     movd        m6, [r4-1]
1998     psraw       m6, 8
1999     SPLATW      m6, m6
2000     pmaxsw      m6, m4
2001     pand        m7, m6
2002     DEBLOCK_P0_Q0 m1, m2, m0, m3, m7, m5, m6
2003     CHROMA_H_STORE r6
2004     lea         r0, [r0+r1*(mmsize/4)]
2005 %if mmsize == 16
2006     inc         r4
2007 %else
2008     mov         r2, r5
2009     and         r2, 1
2010     add         r4, r2 ; increment once every 2 iterations
2011 %endif
2012     dec         r5
2013     jg .loop
2014     RET
2015 %endmacro ; DEBLOCK_CHROMA
2016
2017 %if ARCH_X86_64 == 0
2018 INIT_MMX mmx2
2019 DEBLOCK_CHROMA
2020 %endif
2021 INIT_XMM sse2
2022 DEBLOCK_CHROMA
2023 INIT_XMM avx
2024 DEBLOCK_CHROMA
2025 %endif ; HIGH_BIT_DEPTH
2026
2027 %if HIGH_BIT_DEPTH == 0
2028 %macro CHROMA_V_START 0
2029     mov    t5, r0
2030     sub    t5, r1
2031     sub    t5, r1
2032 %if mmsize==8
2033     mov   dword r0m, 2
2034 .loop:
2035 %endif
2036 %endmacro
2037
2038 %macro CHROMA_H_START 0
2039     sub    r0, 4
2040     lea    t6, [r1*3]
2041     mov    t5, r0
2042     add    r0, t6
2043 %endmacro
2044
2045 %macro CHROMA_V_LOOP 1
2046 %if mmsize==8
2047     add   r0, 8
2048     add   t5, 8
2049 %if %1
2050     add   r4, 2
2051 %endif
2052     dec   dword r0m
2053     jg .loop
2054 %endif
2055 %endmacro
2056
2057 %macro CHROMA_H_LOOP 1
2058 %if mmsize==8
2059     lea   r0, [r0+r1*4]
2060     lea   t5, [t5+r1*4]
2061 %if %1
2062     add   r4, 2
2063 %endif
2064     dec   dword r0m
2065     jg .loop
2066 %endif
2067 %endmacro
2068
2069 %define t5 r5
2070 %define t6 r6
2071
2072 %macro DEBLOCK_CHROMA 0
2073 cglobal chroma_inter_body
2074     LOAD_MASK  r2d, r3d
2075     movd       m6, [r4] ; tc0
2076     punpcklbw  m6, m6
2077     punpcklbw  m6, m6
2078     pand       m7, m6
2079     DEBLOCK_P0_Q0
2080     ret
2081
2082 ;-----------------------------------------------------------------------------
2083 ; void deblock_v_chroma( uint8_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
2084 ;-----------------------------------------------------------------------------
2085 cglobal deblock_v_chroma, 5,6,8
2086     CHROMA_V_START
2087     mova  m0, [t5]
2088     mova  m1, [t5+r1]
2089     mova  m2, [r0]
2090     mova  m3, [r0+r1]
2091     call chroma_inter_body
2092     mova  [t5+r1], m1
2093     mova  [r0], m2
2094     CHROMA_V_LOOP 1
2095     RET
2096
2097 ;-----------------------------------------------------------------------------
2098 ; void deblock_h_chroma( uint8_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
2099 ;-----------------------------------------------------------------------------
2100 cglobal deblock_h_chroma, 5,7,8
2101     CHROMA_H_START
2102 %if mmsize==8
2103     mov   dword r0m, 2
2104 .loop:
2105 %endif
2106     TRANSPOSE4x8W_LOAD PASS8ROWS(t5, r0, r1, t6)
2107     call chroma_inter_body
2108     TRANSPOSE8x2W_STORE PASS8ROWS(t5, r0, r1, t6, 2)
2109     CHROMA_H_LOOP 1
2110     RET
2111 %endmacro ; DEBLOCK_CHROMA
2112
2113 INIT_XMM sse2
2114 DEBLOCK_CHROMA
2115 INIT_XMM avx
2116 DEBLOCK_CHROMA
2117 %if ARCH_X86_64 == 0
2118 INIT_MMX mmx2
2119 DEBLOCK_CHROMA
2120 %endif
2121
2122 ;-----------------------------------------------------------------------------
2123 ; void deblock_h_chroma_mbaff( uint8_t *pix, intptr_t stride, int alpha, int beta, int8_t *tc0 )
2124 ;-----------------------------------------------------------------------------
2125 %macro DEBLOCK_H_CHROMA_420_MBAFF 0
2126 cglobal deblock_h_chroma_mbaff, 5,7,8
2127     CHROMA_H_START
2128     TRANSPOSE4x4W_LOAD PASS8ROWS(t5, r0, r1, t6)
2129     LOAD_MASK  r2d, r3d
2130     movd       m6, [r4] ; tc0
2131     punpcklbw  m6, m6
2132     pand       m7, m6
2133     DEBLOCK_P0_Q0
2134     TRANSPOSE4x2W_STORE PASS8ROWS(t5, r0, r1, t6, 2)
2135     RET
2136 %endmacro
2137
2138 INIT_XMM sse2
2139 DEBLOCK_H_CHROMA_420_MBAFF
2140 %if ARCH_X86_64 == 0
2141 INIT_MMX mmx2
2142 DEBLOCK_H_CHROMA_420_MBAFF
2143 %endif
2144
2145 %macro DEBLOCK_H_CHROMA_422 0
2146 cglobal deblock_h_chroma_422, 5,8,8
2147 %if ARCH_X86_64
2148     %define cntr r7
2149 %else
2150     %define cntr dword r0m
2151 %endif
2152     CHROMA_H_START
2153     mov  cntr, 32/mmsize
2154 .loop:
2155     TRANSPOSE4x8W_LOAD PASS8ROWS(t5, r0, r1, t6)
2156     LOAD_MASK  r2d, r3d
2157     movd       m6, [r4] ; tc0
2158     punpcklbw  m6, m6
2159 %if mmsize == 16
2160     punpcklbw  m6, m6
2161     punpcklbw  m6, m6
2162 %else
2163     pshufw     m6, m6, q0000
2164 %endif
2165     pand       m7, m6
2166     DEBLOCK_P0_Q0
2167     TRANSPOSE8x2W_STORE PASS8ROWS(t5, r0, r1, t6, 2)
2168     lea   r0, [r0+r1*(mmsize/2)]
2169     lea   t5, [t5+r1*(mmsize/2)]
2170     add   r4, mmsize/8
2171     dec   cntr
2172     jg .loop
2173     RET
2174 %endmacro
2175
2176 INIT_MMX mmx2
2177 DEBLOCK_H_CHROMA_422
2178 INIT_XMM sse2
2179 DEBLOCK_H_CHROMA_422
2180 INIT_XMM avx
2181 DEBLOCK_H_CHROMA_422
2182
2183 ; in: %1=p0 %2=p1 %3=q1
2184 ; out: p0 = (p0 + q1 + 2*p1 + 2) >> 2
2185 %macro CHROMA_INTRA_P0 3
2186     pxor    m4, %1, %3
2187     pand    m4, [pb_1] ; m4 = (p0^q1)&1
2188     pavgb   %1, %3
2189     psubusb %1, m4
2190     pavgb   %1, %2     ; dst = avg(p1, avg(p0,q1) - ((p0^q1)&1))
2191 %endmacro
2192
2193 %define t5 r4
2194 %define t6 r5
2195
2196 %macro DEBLOCK_CHROMA_INTRA_BODY 0
2197 cglobal chroma_intra_body
2198     LOAD_MASK r2d, r3d
2199     mova   m5, m1
2200     mova   m6, m2
2201     CHROMA_INTRA_P0  m1, m0, m3
2202     CHROMA_INTRA_P0  m2, m3, m0
2203     psubb  m1, m5
2204     psubb  m2, m6
2205     pand   m1, m7
2206     pand   m2, m7
2207     paddb  m1, m5
2208     paddb  m2, m6
2209     ret
2210 %endmacro
2211
2212 %macro DEBLOCK_CHROMA_INTRA 0
2213 ;-----------------------------------------------------------------------------
2214 ; void deblock_v_chroma_intra( uint8_t *pix, intptr_t stride, int alpha, int beta )
2215 ;-----------------------------------------------------------------------------
2216 cglobal deblock_v_chroma_intra, 4,5,8
2217     CHROMA_V_START
2218     mova  m0, [t5]
2219     mova  m1, [t5+r1]
2220     mova  m2, [r0]
2221     mova  m3, [r0+r1]
2222     call chroma_intra_body
2223     mova  [t5+r1], m1
2224     mova  [r0], m2
2225     CHROMA_V_LOOP 0
2226     RET
2227
2228 ;-----------------------------------------------------------------------------
2229 ; void deblock_h_chroma_intra( uint8_t *pix, intptr_t stride, int alpha, int beta )
2230 ;-----------------------------------------------------------------------------
2231 cglobal deblock_h_chroma_intra, 4,6,8
2232     CHROMA_H_START
2233 %if mmsize==8
2234     mov   dword r0m, 2
2235 .loop:
2236 %endif
2237     TRANSPOSE4x8W_LOAD  PASS8ROWS(t5, r0, r1, t6)
2238     call chroma_intra_body
2239     TRANSPOSE8x2W_STORE PASS8ROWS(t5, r0, r1, t6, 2)
2240     CHROMA_H_LOOP 0
2241     RET
2242
2243 cglobal deblock_h_chroma_422_intra, 4,7,8
2244     CHROMA_H_START
2245     mov   r6d, 32/mmsize
2246 .loop:
2247     TRANSPOSE4x8W_LOAD  PASS8ROWS(t5, r0, r1, t6)
2248     call chroma_intra_body
2249     TRANSPOSE8x2W_STORE PASS8ROWS(t5, r0, r1, t6, 2)
2250     lea   r0, [r0+r1*(mmsize/2)]
2251     lea   t5, [t5+r1*(mmsize/2)]
2252     dec  r6d
2253     jg .loop
2254     RET
2255 %endmacro ; DEBLOCK_CHROMA_INTRA
2256
2257 INIT_XMM sse2
2258 DEBLOCK_CHROMA_INTRA_BODY
2259 DEBLOCK_CHROMA_INTRA
2260 INIT_XMM avx
2261 DEBLOCK_CHROMA_INTRA_BODY
2262 DEBLOCK_CHROMA_INTRA
2263 INIT_MMX mmx2
2264 DEBLOCK_CHROMA_INTRA_BODY
2265 %if ARCH_X86_64 == 0
2266 DEBLOCK_CHROMA_INTRA
2267 %endif
2268
2269 ;-----------------------------------------------------------------------------
2270 ; void deblock_h_chroma_intra_mbaff( uint8_t *pix, intptr_t stride, int alpha, int beta )
2271 ;-----------------------------------------------------------------------------
2272 INIT_MMX mmx2
2273 cglobal deblock_h_chroma_intra_mbaff, 4,6,8
2274     CHROMA_H_START
2275     TRANSPOSE4x4W_LOAD  PASS8ROWS(t5, r0, r1, t6)
2276     call chroma_intra_body
2277     TRANSPOSE4x2W_STORE PASS8ROWS(t5, r0, r1, t6, 2)
2278     RET
2279 %endif ; !HIGH_BIT_DEPTH
2280
2281
2282
2283 ;-----------------------------------------------------------------------------
2284 ; static void deblock_strength( uint8_t nnz[48], int8_t ref[2][40], int16_t mv[2][40][2],
2285 ;                               uint8_t bs[2][4][4], int mvy_limit, int bframe )
2286 ;-----------------------------------------------------------------------------
2287
2288 %define scan8start (4+1*8)
2289 %define nnz r0+scan8start
2290 %define ref r1+scan8start
2291 %define mv  r2+scan8start*4
2292 %define bs0 r3
2293 %define bs1 r3+32
2294
2295 %macro LOAD_BYTES_MMX 1
2296     movd      m2, [%1+8*0-1]
2297     movd      m0, [%1+8*0]
2298     movd      m3, [%1+8*2-1]
2299     movd      m1, [%1+8*2]
2300     punpckldq m2, [%1+8*1-1]
2301     punpckldq m0, [%1+8*1]
2302     punpckldq m3, [%1+8*3-1]
2303     punpckldq m1, [%1+8*3]
2304 %endmacro
2305
2306 %macro DEBLOCK_STRENGTH_REFS_MMX 0
2307     LOAD_BYTES_MMX ref
2308     pxor      m2, m0
2309     pxor      m3, m1
2310     por       m2, [bs0+0]
2311     por       m3, [bs0+8]
2312     movq [bs0+0], m2
2313     movq [bs0+8], m3
2314
2315     movd      m2, [ref-8*1]
2316     movd      m3, [ref+8*1]
2317     punpckldq m2, m0  ; row -1, row 0
2318     punpckldq m3, m1  ; row  1, row 2
2319     pxor      m0, m2
2320     pxor      m1, m3
2321     por       m0, [bs1+0]
2322     por       m1, [bs1+8]
2323     movq [bs1+0], m0
2324     movq [bs1+8], m1
2325 %endmacro
2326
2327 %macro DEBLOCK_STRENGTH_MVS_MMX 2
2328     mova      m0, [mv-%2]
2329     mova      m1, [mv-%2+8]
2330     psubw     m0, [mv]
2331     psubw     m1, [mv+8]
2332     packsswb  m0, m1
2333     ABSB      m0, m1
2334     psubusb   m0, m7
2335     packsswb  m0, m0
2336     por       m0, [%1]
2337     movd    [%1], m0
2338 %endmacro
2339
2340 %macro DEBLOCK_STRENGTH_NNZ_MMX 1
2341     por       m2, m0
2342     por       m3, m1
2343     mova      m4, [%1]
2344     mova      m5, [%1+8]
2345     pminub    m2, m6
2346     pminub    m3, m6
2347     pminub    m4, m6 ; mv ? 1 : 0
2348     pminub    m5, m6
2349     paddb     m2, m2 ; nnz ? 2 : 0
2350     paddb     m3, m3
2351     pmaxub    m2, m4
2352     pmaxub    m3, m5
2353 %endmacro
2354
2355 %macro LOAD_BYTES_XMM 1
2356     movu      m2, [%1-4] ; FIXME could be aligned if we changed nnz's allocation
2357     movu      m1, [%1+12]
2358     pslldq    m0, m2, 1
2359     shufps    m2, m1, q3131 ; cur nnz, all rows
2360     pslldq    m1, 1
2361     shufps    m0, m1, q3131 ; left neighbors
2362     pslldq    m1, m2, 4
2363     movd      m3, [%1-8] ; could be palignr if nnz was aligned
2364     por       m1, m3 ; top neighbors
2365 %endmacro
2366
2367 INIT_MMX mmx2
2368 cglobal deblock_strength, 6,6
2369     ; Prepare mv comparison register
2370     shl      r4d, 8
2371     add      r4d, 3 - (1<<8)
2372     movd      m7, r4d
2373     SPLATW    m7, m7
2374     mova      m6, [pb_1]
2375     pxor      m0, m0
2376     mova [bs0+0], m0
2377     mova [bs0+8], m0
2378     mova [bs1+0], m0
2379     mova [bs1+8], m0
2380
2381 .lists:
2382     DEBLOCK_STRENGTH_REFS_MMX
2383     mov      r4d, 4
2384 .mvs:
2385     DEBLOCK_STRENGTH_MVS_MMX bs0, 4
2386     DEBLOCK_STRENGTH_MVS_MMX bs1, 4*8
2387     add       r2, 4*8
2388     add       r3, 4
2389     dec      r4d
2390     jg .mvs
2391     add       r1, 40
2392     add       r2, 4*8
2393     sub       r3, 16
2394     dec      r5d
2395     jge .lists
2396
2397     ; Check nnz
2398     LOAD_BYTES_MMX nnz
2399     DEBLOCK_STRENGTH_NNZ_MMX bs0
2400     ; Transpose column output
2401     SBUTTERFLY bw, 2, 3, 4
2402     SBUTTERFLY bw, 2, 3, 4
2403     mova [bs0+0], m2
2404     mova [bs0+8], m3
2405     movd      m2, [nnz-8*1]
2406     movd      m3, [nnz+8*1]
2407     punpckldq m2, m0  ; row -1, row 0
2408     punpckldq m3, m1  ; row  1, row 2
2409     DEBLOCK_STRENGTH_NNZ_MMX bs1
2410     mova [bs1+0], m2
2411     mova [bs1+8], m3
2412     RET
2413
2414 %macro DEBLOCK_STRENGTH_XMM 0
2415 cglobal deblock_strength, 6,6,7
2416     ; Prepare mv comparison register
2417     shl      r4d, 8
2418     add      r4d, 3 - (1<<8)
2419     movd      m6, r4d
2420     SPLATW    m6, m6
2421     pxor      m4, m4 ; bs0
2422     pxor      m5, m5 ; bs1
2423
2424 .lists:
2425     ; Check refs
2426     LOAD_BYTES_XMM ref
2427     pxor      m0, m2
2428     pxor      m1, m2
2429     por       m4, m0
2430     por       m5, m1
2431
2432     ; Check mvs
2433 %if cpuflag(ssse3)
2434     mova      m0, [mv+4*8*0]
2435     mova      m1, [mv+4*8*1]
2436     palignr   m3, m0, [mv+4*8*0-16], 12
2437     palignr   m2, m1, [mv+4*8*1-16], 12
2438     psubw     m0, m3
2439     psubw     m1, m2
2440     packsswb  m0, m1
2441
2442     mova      m2, [mv+4*8*2]
2443     mova      m1, [mv+4*8*3]
2444     palignr   m3, m2, [mv+4*8*2-16], 12
2445     psubw     m2, m3
2446     palignr   m3, m1, [mv+4*8*3-16], 12
2447     psubw     m1, m3
2448     packsswb  m2, m1
2449 %else
2450     movu      m0, [mv-4+4*8*0]
2451     movu      m1, [mv-4+4*8*1]
2452     movu      m2, [mv-4+4*8*2]
2453     movu      m3, [mv-4+4*8*3]
2454     psubw     m0, [mv+4*8*0]
2455     psubw     m1, [mv+4*8*1]
2456     psubw     m2, [mv+4*8*2]
2457     psubw     m3, [mv+4*8*3]
2458     packsswb  m0, m1
2459     packsswb  m2, m3
2460 %endif
2461     ABSB      m0, m1
2462     ABSB      m2, m3
2463     psubusb   m0, m6
2464     psubusb   m2, m6
2465     packsswb  m0, m2
2466     por       m4, m0
2467
2468     mova      m0, [mv+4*8*-1]
2469     mova      m1, [mv+4*8* 0]
2470     mova      m2, [mv+4*8* 1]
2471     mova      m3, [mv+4*8* 2]
2472     psubw     m0, m1
2473     psubw     m1, m2
2474     psubw     m2, m3
2475     psubw     m3, [mv+4*8* 3]
2476     packsswb  m0, m1
2477     packsswb  m2, m3
2478     ABSB      m0, m1
2479     ABSB      m2, m3
2480     psubusb   m0, m6
2481     psubusb   m2, m6
2482     packsswb  m0, m2
2483     por       m5, m0
2484     add       r1, 40
2485     add       r2, 4*8*5
2486     dec      r5d
2487     jge .lists
2488
2489     ; Check nnz
2490     LOAD_BYTES_XMM nnz
2491     por       m0, m2
2492     por       m1, m2
2493     mova      m6, [pb_1]
2494     pminub    m0, m6
2495     pminub    m1, m6
2496     pminub    m4, m6 ; mv ? 1 : 0
2497     pminub    m5, m6
2498     paddb     m0, m0 ; nnz ? 2 : 0
2499     paddb     m1, m1
2500     pmaxub    m4, m0
2501     pmaxub    m5, m1
2502 %if cpuflag(ssse3)
2503     pshufb    m4, [transpose_shuf]
2504 %else
2505     movhlps   m3, m4
2506     punpcklbw m4, m3
2507     movhlps   m3, m4
2508     punpcklbw m4, m3
2509 %endif
2510     mova   [bs1], m5
2511     mova   [bs0], m4
2512     RET
2513 %endmacro
2514
2515 INIT_XMM sse2
2516 DEBLOCK_STRENGTH_XMM
2517 INIT_XMM ssse3
2518 DEBLOCK_STRENGTH_XMM
2519 INIT_XMM avx
2520 DEBLOCK_STRENGTH_XMM
2521
2522 %macro LOAD_BYTES_YMM 1
2523     movu         m0, [%1-4]             ; ___E FGHI ___J KLMN ___O PQRS ___T UVWX
2524     pshufb       m0, [load_bytes_shuf]  ; EFGH JKLM FGHI KLMN OPQR TUVW PQRS UVWX
2525     mova         m2, [insert_top_shuf]
2526     vpermq       m1, m0, q3131          ; FGHI KLMN PQRS UVWX x2
2527     vpermd       m0, m2, m0             ; EFGH JKLM OPQR TUVW ____ FGHI KLMN PQRS
2528     vpbroadcastd m2, [%1-8]             ; ABCD ....
2529     vpblendd     m0, m0, m2, 00010000b  ; EFGH JKLM OPQR TUVW ABCD FGHI KLMN PQRS
2530 %endmacro
2531
2532 INIT_YMM avx2
2533 cglobal deblock_strength, 6,6,7
2534     ; Prepare mv comparison register
2535     shl      r4d, 8
2536     add      r4d, 3 - (1<<8)
2537     movd     xm6, r4d
2538     vpbroadcastw m6, xm6
2539     pxor      m5, m5 ; bs0,bs1
2540
2541 .lists:
2542     ; Check refs
2543     LOAD_BYTES_YMM ref
2544     pxor      m0, m1
2545     por       m5, m0
2546
2547     ; Check mvs
2548     movu     xm0, [mv-4+4*8*0]
2549     vinserti128 m0, m0, [mv+4*8*-1], 1
2550     vbroadcasti128  m2, [mv+4*8* 0]
2551     vinserti128 m1, m2, [mv-4+4*8*1], 0
2552     vbroadcasti128  m3, [mv+4*8* 1]
2553     psubw     m0, m2
2554     psubw     m1, m3
2555
2556     vinserti128 m2, m3, [mv-4+4*8*2], 0
2557     vbroadcasti128  m4, [mv+4*8* 2]
2558     vinserti128 m3, m4, [mv-4+4*8*3], 0
2559     psubw     m2, m4
2560     vbroadcasti128  m4, [mv+4*8* 3]
2561     psubw     m3, m4
2562     packsswb  m0, m1
2563     packsswb  m2, m3
2564     pabsb     m0, m0
2565     pabsb     m2, m2
2566     psubusb   m0, m6
2567     psubusb   m2, m6
2568     packsswb  m0, m2
2569     por       m5, m0
2570
2571     add       r1, 40
2572     add       r2, 4*8*5
2573     dec      r5d
2574     jge .lists
2575
2576     ; Check nnz
2577     LOAD_BYTES_YMM nnz
2578     por       m0, m1
2579     mova      m6, [pb_1]
2580     pminub    m0, m6
2581     pminub    m5, m6 ; mv ? 1 : 0
2582     paddb     m0, m0 ; nnz ? 2 : 0
2583     pmaxub    m5, m0
2584     vextracti128 [bs1], m5, 1
2585     pshufb   xm5, [transpose_shuf]
2586     mova   [bs0], xm5
2587     RET