git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_deblock_10bit.asm

   1 ;*****************************************************************************
   2 ;* MMX/SSE2/AVX-optimized 10-bit H.264 deblocking code
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2005-2011 x264 project
   5 ;*
   6 ;* Authors: Oskar Arvidsson <oskar@irock.se>
   7 ;*          Loren Merritt <lorenm@u.washington.edu>
   8 ;*          Jason Garrett-Glaser <darkshikari@gmail.com>
   9 ;*
  10 ;* This file is part of Libav.
  11 ;*
  12 ;* Libav is free software; you can redistribute it and/or
  13 ;* modify it under the terms of the GNU Lesser General Public
  14 ;* License as published by the Free Software Foundation; either
  15 ;* version 2.1 of the License, or (at your option) any later version.
  16 ;*
  17 ;* Libav is distributed in the hope that it will be useful,
  18 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  19 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  20 ;* Lesser General Public License for more details.
  21 ;*
  22 ;* You should have received a copy of the GNU Lesser General Public
  23 ;* License along with Libav; if not, write to the Free Software
  24 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  25 ;******************************************************************************
  26
  27 %include "libavutil/x86/x86util.asm"
  28
  29 SECTION_RODATA
  30
  31 pw_pixel_max: times 8 dw ((1 << 10)-1)
  32
  33 SECTION .text
  34
  35 cextern pw_2
  36 cextern pw_3
  37 cextern pw_4
  38
  39 ; out: %4 = |%1-%2|-%3
  40 ; clobbers: %5
  41 %macro ABS_SUB 5
  42     psubusw %5, %2, %1
  43     psubusw %4, %1, %2
  44     por     %4, %5
  45     psubw   %4, %3
  46 %endmacro
  47
  48 ; out: %4 = |%1-%2|<%3
  49 %macro DIFF_LT   5
  50     psubusw %4, %2, %1
  51     psubusw %5, %1, %2
  52     por     %5, %4 ; |%1-%2|
  53     pxor    %4, %4
  54     psubw   %5, %3 ; |%1-%2|-%3
  55     pcmpgtw %4, %5 ; 0 > |%1-%2|-%3
  56 %endmacro
  57
  58 %macro LOAD_AB 4
  59     movd       %1, %3
  60     movd       %2, %4
  61     SPLATW     %1, %1
  62     SPLATW     %2, %2
  63 %endmacro
  64
  65 ; in:  %2=tc reg
  66 ; out: %1=splatted tc
  67 %macro LOAD_TC 2
  68     movd        %1, [%2]
  69     punpcklbw   %1, %1
  70 %if mmsize == 8
  71     pshufw      %1, %1, 0
  72 %else
  73     pshuflw     %1, %1, 01010000b
  74     pshufd      %1, %1, 01010000b
  75 %endif
  76     psraw       %1, 6
  77 %endmacro
  78
  79 ; in: %1=p1, %2=p0, %3=q0, %4=q1
  80 ;     %5=alpha, %6=beta, %7-%9=tmp
  81 ; out: %7=mask
  82 %macro LOAD_MASK 9
  83     ABS_SUB     %2, %3, %5, %8, %7 ; |p0-q0| - alpha
  84     ABS_SUB     %1, %2, %6, %9, %7 ; |p1-p0| - beta
  85     pand        %8, %9
  86     ABS_SUB     %3, %4, %6, %9, %7 ; |q1-q0| - beta
  87     pxor        %7, %7
  88     pand        %8, %9
  89     pcmpgtw     %7, %8
  90 %endmacro
  91
  92 ; in: %1=p0, %2=q0, %3=p1, %4=q1, %5=mask, %6=tmp, %7=tmp
  93 ; out: %1=p0', m2=q0'
  94 %macro DEBLOCK_P0_Q0 7
  95     psubw   %3, %4
  96     pxor    %7, %7
  97     paddw   %3, [pw_4]
  98     psubw   %7, %5
  99     psubw   %6, %2, %1
 100     psllw   %6, 2
 101     paddw   %3, %6
 102     psraw   %3, 3
 103     mova    %6, [pw_pixel_max]
 104     CLIPW   %3, %7, %5
 105     pxor    %7, %7
 106     paddw   %1, %3
 107     psubw   %2, %3
 108     CLIPW   %1, %7, %6
 109     CLIPW   %2, %7, %6
 110 %endmacro
 111
 112 ; in: %1=x2, %2=x1, %3=p0, %4=q0 %5=mask&tc, %6=tmp
 113 %macro LUMA_Q1 6
 114     pavgw       %6, %3, %4      ; (p0+q0+1)>>1
 115     paddw       %1, %6
 116     pxor        %6, %6
 117     psraw       %1, 1
 118     psubw       %6, %5
 119     psubw       %1, %2
 120     CLIPW       %1, %6, %5
 121     paddw       %1, %2
 122 %endmacro
 123
 124 %macro LUMA_DEBLOCK_ONE 3
 125     DIFF_LT     m5, %1, bm, m4, m6
 126     pxor        m6, m6
 127     mova        %3, m4
 128     pcmpgtw     m6, tcm
 129     pand        m4, tcm
 130     pandn       m6, m7
 131     pand        m4, m6
 132     LUMA_Q1 m5, %2, m1, m2, m4, m6
 133 %endmacro
 134
 135 %macro LUMA_H_STORE 2
 136 %if mmsize == 8
 137     movq        [r0-4], m0
 138     movq        [r0+r1-4], m1
 139     movq        [r0+r1*2-4], m2
 140     movq        [r0+%2-4], m3
 141 %else
 142     movq        [r0-4], m0
 143     movhps      [r0+r1-4], m0
 144     movq        [r0+r1*2-4], m1
 145     movhps      [%1-4], m1
 146     movq        [%1+r1-4], m2
 147     movhps      [%1+r1*2-4], m2
 148     movq        [%1+%2-4], m3
 149     movhps      [%1+r1*4-4], m3
 150 %endif
 151 %endmacro
 152
 153 %macro DEBLOCK_LUMA 0
 154 ;-----------------------------------------------------------------------------
 155 ; void deblock_v_luma( uint16_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 156 ;-----------------------------------------------------------------------------
 157 cglobal deblock_v_luma_10, 5,5,8*(mmsize/16)
 158     %assign pad 5*mmsize+12-(stack_offset&15)
 159     %define tcm [rsp]
 160     %define ms1 [rsp+mmsize]
 161     %define ms2 [rsp+mmsize*2]
 162     %define am  [rsp+mmsize*3]
 163     %define bm  [rsp+mmsize*4]
 164     SUB        rsp, pad
 165     shl        r2d, 2
 166     shl        r3d, 2
 167     LOAD_AB     m4, m5, r2d, r3d
 168     mov         r3, 32/mmsize
 169     mov         r2, r0
 170     sub         r0, r1
 171     mova        am, m4
 172     sub         r0, r1
 173     mova        bm, m5
 174     sub         r0, r1
 175 .loop:
 176     mova        m0, [r0+r1]
 177     mova        m1, [r0+r1*2]
 178     mova        m2, [r2]
 179     mova        m3, [r2+r1]
 180
 181     LOAD_MASK   m0, m1, m2, m3, am, bm, m7, m4, m6
 182     LOAD_TC     m6, r4
 183     mova       tcm, m6
 184
 185     mova        m5, [r0]
 186     LUMA_DEBLOCK_ONE m1, m0, ms1
 187     mova   [r0+r1], m5
 188
 189     mova        m5, [r2+r1*2]
 190     LUMA_DEBLOCK_ONE m2, m3, ms2
 191     mova   [r2+r1], m5
 192
 193     pxor        m5, m5
 194     mova        m6, tcm
 195     pcmpgtw     m5, tcm
 196     psubw       m6, ms1
 197     pandn       m5, m7
 198     psubw       m6, ms2
 199     pand        m5, m6
 200     DEBLOCK_P0_Q0 m1, m2, m0, m3, m5, m7, m6
 201     mova [r0+r1*2], m1
 202     mova      [r2], m2
 203
 204     add         r0, mmsize
 205     add         r2, mmsize
 206     add         r4, mmsize/8
 207     dec         r3
 208     jg .loop
 209     ADD         rsp, pad
 210     RET
 211
 212 cglobal deblock_h_luma_10, 5,6,8*(mmsize/16)
 213     %assign pad 7*mmsize+12-(stack_offset&15)
 214     %define tcm [rsp]
 215     %define ms1 [rsp+mmsize]
 216     %define ms2 [rsp+mmsize*2]
 217     %define p1m [rsp+mmsize*3]
 218     %define p2m [rsp+mmsize*4]
 219     %define am  [rsp+mmsize*5]
 220     %define bm  [rsp+mmsize*6]
 221     SUB        rsp, pad
 222     shl        r2d, 2
 223     shl        r3d, 2
 224     LOAD_AB     m4, m5, r2d, r3d
 225     mov         r3, r1
 226     mova        am, m4
 227     add         r3, r1
 228     mov         r5, 32/mmsize
 229     mova        bm, m5
 230     add         r3, r1
 231 %if mmsize == 16
 232     mov         r2, r0
 233     add         r2, r3
 234 %endif
 235 .loop:
 236 %if mmsize == 8
 237     movq        m2, [r0-8]     ; y q2 q1 q0
 238     movq        m7, [r0+0]
 239     movq        m5, [r0+r1-8]
 240     movq        m3, [r0+r1+0]
 241     movq        m0, [r0+r1*2-8]
 242     movq        m6, [r0+r1*2+0]
 243     movq        m1, [r0+r3-8]
 244     TRANSPOSE4x4W 2, 5, 0, 1, 4
 245     SWAP         2, 7
 246     movq        m7, [r0+r3]
 247     TRANSPOSE4x4W 2, 3, 6, 7, 4
 248 %else
 249     movu        m5, [r0-8]     ; y q2 q1 q0 p0 p1 p2 x
 250     movu        m0, [r0+r1-8]
 251     movu        m2, [r0+r1*2-8]
 252     movu        m3, [r2-8]
 253     TRANSPOSE4x4W 5, 0, 2, 3, 6
 254     mova       tcm, m3
 255
 256     movu        m4, [r2+r1-8]
 257     movu        m1, [r2+r1*2-8]
 258     movu        m3, [r2+r3-8]
 259     movu        m7, [r2+r1*4-8]
 260     TRANSPOSE4x4W 4, 1, 3, 7, 6
 261
 262     mova        m6, tcm
 263     punpcklqdq  m6, m7
 264     punpckhqdq  m5, m4
 265     SBUTTERFLY qdq, 0, 1, 7
 266     SBUTTERFLY qdq, 2, 3, 7
 267 %endif
 268
 269     mova       p2m, m6
 270     LOAD_MASK   m0, m1, m2, m3, am, bm, m7, m4, m6
 271     LOAD_TC     m6, r4
 272     mova       tcm, m6
 273
 274     LUMA_DEBLOCK_ONE m1, m0, ms1
 275     mova       p1m, m5
 276
 277     mova        m5, p2m
 278     LUMA_DEBLOCK_ONE m2, m3, ms2
 279     mova       p2m, m5
 280
 281     pxor        m5, m5
 282     mova        m6, tcm
 283     pcmpgtw     m5, tcm
 284     psubw       m6, ms1
 285     pandn       m5, m7
 286     psubw       m6, ms2
 287     pand        m5, m6
 288     DEBLOCK_P0_Q0 m1, m2, m0, m3, m5, m7, m6
 289     mova        m0, p1m
 290     mova        m3, p2m
 291     TRANSPOSE4x4W 0, 1, 2, 3, 4
 292     LUMA_H_STORE r2, r3
 293
 294     add         r4, mmsize/8
 295     lea         r0, [r0+r1*(mmsize/2)]
 296     lea         r2, [r2+r1*(mmsize/2)]
 297     dec         r5
 298     jg .loop
 299     ADD        rsp, pad
 300     RET
 301 %endmacro
 302
 303 %if ARCH_X86_64
 304 ; in:  m0=p1, m1=p0, m2=q0, m3=q1, m8=p2, m9=q2
 305 ;      m12=alpha, m13=beta
 306 ; out: m0=p1', m3=q1', m1=p0', m2=q0'
 307 ; clobbers: m4, m5, m6, m7, m10, m11, m14
 308 %macro DEBLOCK_LUMA_INTER_SSE2 0
 309     LOAD_MASK   m0, m1, m2, m3, m12, m13, m7, m4, m6
 310     LOAD_TC     m6, r4
 311     DIFF_LT     m8, m1, m13, m10, m4
 312     DIFF_LT     m9, m2, m13, m11, m4
 313     pand        m6, m7
 314
 315     mova       m14, m6
 316     pxor        m4, m4
 317     pcmpgtw     m6, m4
 318     pand        m6, m14
 319
 320     mova        m5, m10
 321     pand        m5, m6
 322     LUMA_Q1 m8, m0, m1, m2, m5, m4
 323
 324     mova        m5, m11
 325     pand        m5, m6
 326     LUMA_Q1 m9, m3, m1, m2, m5, m4
 327
 328     pxor        m4, m4
 329     psubw       m6, m10
 330     pcmpgtw     m4, m14
 331     pandn       m4, m7
 332     psubw       m6, m11
 333     pand        m4, m6
 334     DEBLOCK_P0_Q0 m1, m2, m0, m3, m4, m5, m6
 335
 336     SWAP         0, 8
 337     SWAP         3, 9
 338 %endmacro
 339
 340 %macro DEBLOCK_LUMA_64 0
 341 cglobal deblock_v_luma_10, 5,5,15
 342     %define p2 m8
 343     %define p1 m0
 344     %define p0 m1
 345     %define q0 m2
 346     %define q1 m3
 347     %define q2 m9
 348     %define mask0 m7
 349     %define mask1 m10
 350     %define mask2 m11
 351     shl        r2d, 2
 352     shl        r3d, 2
 353     LOAD_AB    m12, m13, r2d, r3d
 354     mov         r2, r0
 355     sub         r0, r1
 356     sub         r0, r1
 357     sub         r0, r1
 358     mov         r3, 2
 359 .loop:
 360     mova        p2, [r0]
 361     mova        p1, [r0+r1]
 362     mova        p0, [r0+r1*2]
 363     mova        q0, [r2]
 364     mova        q1, [r2+r1]
 365     mova        q2, [r2+r1*2]
 366     DEBLOCK_LUMA_INTER_SSE2
 367     mova   [r0+r1], p1
 368     mova [r0+r1*2], p0
 369     mova      [r2], q0
 370     mova   [r2+r1], q1
 371     add         r0, mmsize
 372     add         r2, mmsize
 373     add         r4, 2
 374     dec         r3
 375     jg .loop
 376     REP_RET
 377
 378 cglobal deblock_h_luma_10, 5,7,15
 379     shl        r2d, 2
 380     shl        r3d, 2
 381     LOAD_AB    m12, m13, r2d, r3d
 382     mov         r2, r1
 383     add         r2, r1
 384     add         r2, r1
 385     mov         r5, r0
 386     add         r5, r2
 387     mov         r6, 2
 388 .loop:
 389     movu        m8, [r0-8]     ; y q2 q1 q0 p0 p1 p2 x
 390     movu        m0, [r0+r1-8]
 391     movu        m2, [r0+r1*2-8]
 392     movu        m9, [r5-8]
 393     movu        m5, [r5+r1-8]
 394     movu        m1, [r5+r1*2-8]
 395     movu        m3, [r5+r2-8]
 396     movu        m7, [r5+r1*4-8]
 397
 398     TRANSPOSE4x4W 8, 0, 2, 9, 10
 399     TRANSPOSE4x4W 5, 1, 3, 7, 10
 400
 401     punpckhqdq  m8, m5
 402     SBUTTERFLY qdq, 0, 1, 10
 403     SBUTTERFLY qdq, 2, 3, 10
 404     punpcklqdq  m9, m7
 405
 406     DEBLOCK_LUMA_INTER_SSE2
 407
 408     TRANSPOSE4x4W 0, 1, 2, 3, 4
 409     LUMA_H_STORE r5, r2
 410     add         r4, 2
 411     lea         r0, [r0+r1*8]
 412     lea         r5, [r5+r1*8]
 413     dec         r6
 414     jg .loop
 415     REP_RET
 416 %endmacro
 417
 418 INIT_XMM sse2
 419 DEBLOCK_LUMA_64
 420 %if HAVE_AVX_EXTERNAL
 421 INIT_XMM avx
 422 DEBLOCK_LUMA_64
 423 %endif
 424 %endif
 425
 426 %macro SWAPMOVA 2
 427 %ifid %1
 428     SWAP %1, %2
 429 %else
 430     mova %1, %2
 431 %endif
 432 %endmacro
 433
 434 ; in: t0-t2: tmp registers
 435 ;     %1=p0 %2=p1 %3=p2 %4=p3 %5=q0 %6=q1 %7=mask0
 436 ;     %8=mask1p %9=2 %10=p0' %11=p1' %12=p2'
 437 %macro LUMA_INTRA_P012 12 ; p0..p3 in memory
 438 %if ARCH_X86_64
 439     paddw     t0, %3, %2
 440     mova      t2, %4
 441     paddw     t2, %3
 442 %else
 443     mova      t0, %3
 444     mova      t2, %4
 445     paddw     t0, %2
 446     paddw     t2, %3
 447 %endif
 448     paddw     t0, %1
 449     paddw     t2, t2
 450     paddw     t0, %5
 451     paddw     t2, %9
 452     paddw     t0, %9    ; (p2 + p1 + p0 + q0 + 2)
 453     paddw     t2, t0    ; (2*p3 + 3*p2 + p1 + p0 + q0 + 4)
 454
 455     psrlw     t2, 3
 456     psrlw     t1, t0, 2
 457     psubw     t2, %3
 458     psubw     t1, %2
 459     pand      t2, %8
 460     pand      t1, %8
 461     paddw     t2, %3
 462     paddw     t1, %2
 463     SWAPMOVA %11, t1
 464
 465     psubw     t1, t0, %3
 466     paddw     t0, t0
 467     psubw     t1, %5
 468     psubw     t0, %3
 469     paddw     t1, %6
 470     paddw     t1, %2
 471     paddw     t0, %6
 472     psrlw     t1, 2     ; (2*p1 + p0 + q1 + 2)/4
 473     psrlw     t0, 3     ; (p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4)>>3
 474
 475     pxor      t0, t1
 476     pxor      t1, %1
 477     pand      t0, %8
 478     pand      t1, %7
 479     pxor      t0, t1
 480     pxor      t0, %1
 481     SWAPMOVA %10, t0
 482     SWAPMOVA %12, t2
 483 %endmacro
 484
 485 %macro LUMA_INTRA_INIT 1
 486     %xdefine pad %1*mmsize+((gprsize*3) % mmsize)-(stack_offset&15)
 487     %define t0 m4
 488     %define t1 m5
 489     %define t2 m6
 490     %define t3 m7
 491     %assign i 4
 492 %rep %1
 493     CAT_XDEFINE t, i, [rsp+mmsize*(i-4)]
 494     %assign i i+1
 495 %endrep
 496     SUB    rsp, pad
 497 %endmacro
 498
 499 ; in: %1-%3=tmp, %4=p2, %5=q2
 500 %macro LUMA_INTRA_INTER 5
 501     LOAD_AB t0, t1, r2d, r3d
 502     mova    %1, t0
 503     LOAD_MASK m0, m1, m2, m3, %1, t1, t0, t2, t3
 504 %if ARCH_X86_64
 505     mova    %2, t0        ; mask0
 506     psrlw   t3, %1, 2
 507 %else
 508     mova    t3, %1
 509     mova    %2, t0        ; mask0
 510     psrlw   t3, 2
 511 %endif
 512     paddw   t3, [pw_2]    ; alpha/4+2
 513     DIFF_LT m1, m2, t3, t2, t0 ; t2 = |p0-q0| < alpha/4+2
 514     pand    t2, %2
 515     mova    t3, %5        ; q2
 516     mova    %1, t2        ; mask1
 517     DIFF_LT t3, m2, t1, t2, t0 ; t2 = |q2-q0| < beta
 518     pand    t2, %1
 519     mova    t3, %4        ; p2
 520     mova    %3, t2        ; mask1q
 521     DIFF_LT t3, m1, t1, t2, t0 ; t2 = |p2-p0| < beta
 522     pand    t2, %1
 523     mova    %1, t2        ; mask1p
 524 %endmacro
 525
 526 %macro LUMA_H_INTRA_LOAD 0
 527 %if mmsize == 8
 528     movu    t0, [r0-8]
 529     movu    t1, [r0+r1-8]
 530     movu    m0, [r0+r1*2-8]
 531     movu    m1, [r0+r4-8]
 532     TRANSPOSE4x4W 4, 5, 0, 1, 2
 533     mova    t4, t0        ; p3
 534     mova    t5, t1        ; p2
 535
 536     movu    m2, [r0]
 537     movu    m3, [r0+r1]
 538     movu    t0, [r0+r1*2]
 539     movu    t1, [r0+r4]
 540     TRANSPOSE4x4W 2, 3, 4, 5, 6
 541     mova    t6, t0        ; q2
 542     mova    t7, t1        ; q3
 543 %else
 544     movu    t0, [r0-8]
 545     movu    t1, [r0+r1-8]
 546     movu    m0, [r0+r1*2-8]
 547     movu    m1, [r0+r5-8]
 548     movu    m2, [r4-8]
 549     movu    m3, [r4+r1-8]
 550     movu    t2, [r4+r1*2-8]
 551     movu    t3, [r4+r5-8]
 552     TRANSPOSE8x8W 4, 5, 0, 1, 2, 3, 6, 7, t4, t5
 553     mova    t4, t0        ; p3
 554     mova    t5, t1        ; p2
 555     mova    t6, t2        ; q2
 556     mova    t7, t3        ; q3
 557 %endif
 558 %endmacro
 559
 560 ; in: %1=q3 %2=q2' %3=q1' %4=q0' %5=p0' %6=p1' %7=p2' %8=p3 %9=tmp
 561 %macro LUMA_H_INTRA_STORE 9
 562 %if mmsize == 8
 563     TRANSPOSE4x4W %1, %2, %3, %4, %9
 564     movq       [r0-8], m%1
 565     movq       [r0+r1-8], m%2
 566     movq       [r0+r1*2-8], m%3
 567     movq       [r0+r4-8], m%4
 568     movq       m%1, %8
 569     TRANSPOSE4x4W %5, %6, %7, %1, %9
 570     movq       [r0], m%5
 571     movq       [r0+r1], m%6
 572     movq       [r0+r1*2], m%7
 573     movq       [r0+r4], m%1
 574 %else
 575     TRANSPOSE2x4x4W %1, %2, %3, %4, %9
 576     movq       [r0-8], m%1
 577     movq       [r0+r1-8], m%2
 578     movq       [r0+r1*2-8], m%3
 579     movq       [r0+r5-8], m%4
 580     movhps     [r4-8], m%1
 581     movhps     [r4+r1-8], m%2
 582     movhps     [r4+r1*2-8], m%3
 583     movhps     [r4+r5-8], m%4
 584 %ifnum %8
 585     SWAP       %1, %8
 586 %else
 587     mova       m%1, %8
 588 %endif
 589     TRANSPOSE2x4x4W %5, %6, %7, %1, %9
 590     movq       [r0], m%5
 591     movq       [r0+r1], m%6
 592     movq       [r0+r1*2], m%7
 593     movq       [r0+r5], m%1
 594     movhps     [r4], m%5
 595     movhps     [r4+r1], m%6
 596     movhps     [r4+r1*2], m%7
 597     movhps     [r4+r5], m%1
 598 %endif
 599 %endmacro
 600
 601 %if ARCH_X86_64
 602 ;-----------------------------------------------------------------------------
 603 ; void deblock_v_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
 604 ;-----------------------------------------------------------------------------
 605 %macro DEBLOCK_LUMA_INTRA_64 0
 606 cglobal deblock_v_luma_intra_10, 4,7,16
 607     %define t0 m1
 608     %define t1 m2
 609     %define t2 m4
 610     %define p2 m8
 611     %define p1 m9
 612     %define p0 m10
 613     %define q0 m11
 614     %define q1 m12
 615     %define q2 m13
 616     %define aa m5
 617     %define bb m14
 618     lea     r4, [r1*4]
 619     lea     r5, [r1*3] ; 3*stride
 620     neg     r4
 621     add     r4, r0     ; pix-4*stride
 622     mov     r6, 2
 623     mova    m0, [pw_2]
 624     shl    r2d, 2
 625     shl    r3d, 2
 626     LOAD_AB aa, bb, r2d, r3d
 627 .loop:
 628     mova    p2, [r4+r1]
 629     mova    p1, [r4+2*r1]
 630     mova    p0, [r4+r5]
 631     mova    q0, [r0]
 632     mova    q1, [r0+r1]
 633     mova    q2, [r0+2*r1]
 634
 635     LOAD_MASK p1, p0, q0, q1, aa, bb, m3, t0, t1
 636     mova    t2, aa
 637     psrlw   t2, 2
 638     paddw   t2, m0 ; alpha/4+2
 639     DIFF_LT p0, q0, t2, m6, t0 ; m6 = |p0-q0| < alpha/4+2
 640     DIFF_LT p2, p0, bb, t1, t0 ; m7 = |p2-p0| < beta
 641     DIFF_LT q2, q0, bb, m7, t0 ; t1 = |q2-q0| < beta
 642     pand    m6, m3
 643     pand    m7, m6
 644     pand    m6, t1
 645     LUMA_INTRA_P012 p0, p1, p2, [r4], q0, q1, m3, m6, m0, [r4+r5], [r4+2*r1], [r4+r1]
 646     LUMA_INTRA_P012 q0, q1, q2, [r0+r5], p0, p1, m3, m7, m0, [r0], [r0+r1], [r0+2*r1]
 647     add     r0, mmsize
 648     add     r4, mmsize
 649     dec     r6
 650     jg .loop
 651     REP_RET
 652
 653 ;-----------------------------------------------------------------------------
 654 ; void deblock_h_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
 655 ;-----------------------------------------------------------------------------
 656 cglobal deblock_h_luma_intra_10, 4,7,16
 657     %define t0 m15
 658     %define t1 m14
 659     %define t2 m2
 660     %define q3 m5
 661     %define q2 m8
 662     %define q1 m9
 663     %define q0 m10
 664     %define p0 m11
 665     %define p1 m12
 666     %define p2 m13
 667     %define p3 m4
 668     %define spill [rsp]
 669     %assign pad 24-(stack_offset&15)
 670     SUB     rsp, pad
 671     lea     r4, [r1*4]
 672     lea     r5, [r1*3] ; 3*stride
 673     add     r4, r0     ; pix+4*stride
 674     mov     r6, 2
 675     mova    m0, [pw_2]
 676     shl    r2d, 2
 677     shl    r3d, 2
 678 .loop:
 679     movu    q3, [r0-8]
 680     movu    q2, [r0+r1-8]
 681     movu    q1, [r0+r1*2-8]
 682     movu    q0, [r0+r5-8]
 683     movu    p0, [r4-8]
 684     movu    p1, [r4+r1-8]
 685     movu    p2, [r4+r1*2-8]
 686     movu    p3, [r4+r5-8]
 687     TRANSPOSE8x8W 5, 8, 9, 10, 11, 12, 13, 4, 1
 688
 689     LOAD_AB m1, m2, r2d, r3d
 690     LOAD_MASK q1, q0, p0, p1, m1, m2, m3, t0, t1
 691     psrlw   m1, 2
 692     paddw   m1, m0 ; alpha/4+2
 693     DIFF_LT p0, q0, m1, m6, t0 ; m6 = |p0-q0| < alpha/4+2
 694     DIFF_LT q2, q0, m2, t1, t0 ; t1 = |q2-q0| < beta
 695     DIFF_LT p0, p2, m2, m7, t0 ; m7 = |p2-p0| < beta
 696     pand    m6, m3
 697     pand    m7, m6
 698     pand    m6, t1
 699
 700     mova spill, q3
 701     LUMA_INTRA_P012 q0, q1, q2, q3, p0, p1, m3, m6, m0, m5, m1, q2
 702     LUMA_INTRA_P012 p0, p1, p2, p3, q0, q1, m3, m7, m0, p0, m6, p2
 703     mova    m7, spill
 704
 705     LUMA_H_INTRA_STORE 7, 8, 1, 5, 11, 6, 13, 4, 14
 706
 707     lea     r0, [r0+r1*8]
 708     lea     r4, [r4+r1*8]
 709     dec     r6
 710     jg .loop
 711     ADD    rsp, pad
 712     RET
 713 %endmacro
 714
 715 INIT_XMM sse2
 716 DEBLOCK_LUMA_INTRA_64
 717 %if HAVE_AVX_EXTERNAL
 718 INIT_XMM avx
 719 DEBLOCK_LUMA_INTRA_64
 720 %endif
 721
 722 %endif
 723
 724 %macro DEBLOCK_LUMA_INTRA 0
 725 ;-----------------------------------------------------------------------------
 726 ; void deblock_v_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
 727 ;-----------------------------------------------------------------------------
 728 cglobal deblock_v_luma_intra_10, 4,7,8*(mmsize/16)
 729     LUMA_INTRA_INIT 3
 730     lea     r4, [r1*4]
 731     lea     r5, [r1*3]
 732     neg     r4
 733     add     r4, r0
 734     mov     r6, 32/mmsize
 735     shl    r2d, 2
 736     shl    r3d, 2
 737 .loop:
 738     mova    m0, [r4+r1*2] ; p1
 739     mova    m1, [r4+r5]   ; p0
 740     mova    m2, [r0]      ; q0
 741     mova    m3, [r0+r1]   ; q1
 742     LUMA_INTRA_INTER t4, t5, t6, [r4+r1], [r0+r1*2]
 743     LUMA_INTRA_P012 m1, m0, t3, [r4], m2, m3, t5, t4, [pw_2], [r4+r5], [r4+2*r1], [r4+r1]
 744     mova    t3, [r0+r1*2] ; q2
 745     LUMA_INTRA_P012 m2, m3, t3, [r0+r5], m1, m0, t5, t6, [pw_2], [r0], [r0+r1], [r0+2*r1]
 746     add     r0, mmsize
 747     add     r4, mmsize
 748     dec     r6
 749     jg .loop
 750     ADD    rsp, pad
 751     RET
 752
 753 ;-----------------------------------------------------------------------------
 754 ; void deblock_h_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
 755 ;-----------------------------------------------------------------------------
 756 cglobal deblock_h_luma_intra_10, 4,7,8*(mmsize/16)
 757     LUMA_INTRA_INIT 8
 758 %if mmsize == 8
 759     lea     r4, [r1*3]
 760     mov     r5, 32/mmsize
 761 %else
 762     lea     r4, [r1*4]
 763     lea     r5, [r1*3] ; 3*stride
 764     add     r4, r0     ; pix+4*stride
 765     mov     r6, 32/mmsize
 766 %endif
 767     shl    r2d, 2
 768     shl    r3d, 2
 769 .loop:
 770     LUMA_H_INTRA_LOAD
 771     LUMA_INTRA_INTER t8, t9, t10, t5, t6
 772
 773     LUMA_INTRA_P012 m1, m0, t3, t4, m2, m3, t9, t8, [pw_2], t8, t5, t11
 774     mova    t3, t6     ; q2
 775     LUMA_INTRA_P012 m2, m3, t3, t7, m1, m0, t9, t10, [pw_2], m4, t6, m5
 776
 777     mova    m2, t4
 778     mova    m0, t11
 779     mova    m1, t5
 780     mova    m3, t8
 781     mova    m6, t6
 782
 783     LUMA_H_INTRA_STORE 2, 0, 1, 3, 4, 6, 5, t7, 7
 784
 785     lea     r0, [r0+r1*(mmsize/2)]
 786 %if mmsize == 8
 787     dec     r5
 788 %else
 789     lea     r4, [r4+r1*(mmsize/2)]
 790     dec     r6
 791 %endif
 792     jg .loop
 793     ADD    rsp, pad
 794     RET
 795 %endmacro
 796
 797 %if ARCH_X86_64 == 0
 798 INIT_MMX mmxext
 799 DEBLOCK_LUMA
 800 DEBLOCK_LUMA_INTRA
 801 INIT_XMM sse2
 802 DEBLOCK_LUMA
 803 DEBLOCK_LUMA_INTRA
 804 %if HAVE_AVX_EXTERNAL
 805 INIT_XMM avx
 806 DEBLOCK_LUMA
 807 DEBLOCK_LUMA_INTRA
 808 %endif
 809 %endif
 810
 811 ; in: %1=p0, %2=q0, %3=p1, %4=q1, %5=mask, %6=tmp, %7=tmp
 812 ; out: %1=p0', %2=q0'
 813 %macro CHROMA_DEBLOCK_P0_Q0_INTRA 7
 814     mova    %6, [pw_2]
 815     paddw   %6, %3
 816     paddw   %6, %4
 817     paddw   %7, %6, %2
 818     paddw   %6, %1
 819     paddw   %6, %3
 820     paddw   %7, %4
 821     psraw   %6, 2
 822     psraw   %7, 2
 823     psubw   %6, %1
 824     psubw   %7, %2
 825     pand    %6, %5
 826     pand    %7, %5
 827     paddw   %1, %6
 828     paddw   %2, %7
 829 %endmacro
 830
 831 %macro CHROMA_V_LOAD 1
 832     mova        m0, [r0]    ; p1
 833     mova        m1, [r0+r1] ; p0
 834     mova        m2, [%1]    ; q0
 835     mova        m3, [%1+r1] ; q1
 836 %endmacro
 837
 838 %macro CHROMA_V_STORE 0
 839     mova [r0+1*r1], m1
 840     mova [r0+2*r1], m2
 841 %endmacro
 842
 843 %macro CHROMA_V_LOAD_TC 2
 844     movd        %1, [%2]
 845     punpcklbw   %1, %1
 846     punpcklwd   %1, %1
 847     psraw       %1, 6
 848 %endmacro
 849
 850 %macro DEBLOCK_CHROMA 0
 851 ;-----------------------------------------------------------------------------
 852 ; void deblock_v_chroma( uint16_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 853 ;-----------------------------------------------------------------------------
 854 cglobal deblock_v_chroma_10, 5,7-(mmsize/16),8*(mmsize/16)
 855     mov         r5, r0
 856     sub         r0, r1
 857     sub         r0, r1
 858     shl        r2d, 2
 859     shl        r3d, 2
 860 %if mmsize < 16
 861     mov         r6, 16/mmsize
 862 .loop:
 863 %endif
 864     CHROMA_V_LOAD r5
 865     LOAD_AB     m4, m5, r2d, r3d
 866     LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
 867     pxor        m4, m4
 868     CHROMA_V_LOAD_TC m6, r4
 869     psubw       m6, [pw_3]
 870     pmaxsw      m6, m4
 871     pand        m7, m6
 872     DEBLOCK_P0_Q0 m1, m2, m0, m3, m7, m5, m6
 873     CHROMA_V_STORE
 874 %if mmsize < 16
 875     add         r0, mmsize
 876     add         r5, mmsize
 877     add         r4, mmsize/4
 878     dec         r6
 879     jg .loop
 880     REP_RET
 881 %else
 882     RET
 883 %endif
 884
 885 ;-----------------------------------------------------------------------------
 886 ; void deblock_v_chroma_intra( uint16_t *pix, int stride, int alpha, int beta )
 887 ;-----------------------------------------------------------------------------
 888 cglobal deblock_v_chroma_intra_10, 4,6-(mmsize/16),8*(mmsize/16)
 889     mov         r4, r0
 890     sub         r0, r1
 891     sub         r0, r1
 892     shl        r2d, 2
 893     shl        r3d, 2
 894 %if mmsize < 16
 895     mov         r5, 16/mmsize
 896 .loop:
 897 %endif
 898     CHROMA_V_LOAD r4
 899     LOAD_AB     m4, m5, r2d, r3d
 900     LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
 901     CHROMA_DEBLOCK_P0_Q0_INTRA m1, m2, m0, m3, m7, m5, m6
 902     CHROMA_V_STORE
 903 %if mmsize < 16
 904     add         r0, mmsize
 905     add         r4, mmsize
 906     dec         r5
 907     jg .loop
 908     REP_RET
 909 %else
 910     RET
 911 %endif
 912 %endmacro
 913
 914 %if ARCH_X86_64 == 0
 915 INIT_MMX mmxext
 916 DEBLOCK_CHROMA
 917 %endif
 918 INIT_XMM sse2
 919 DEBLOCK_CHROMA
 920 %if HAVE_AVX_EXTERNAL
 921 INIT_XMM avx
 922 DEBLOCK_CHROMA
 923 %endif