git.sesse.net Git - ffmpeg/blob - libavcodec/x86/h264_deblock.asm

   1 ;*****************************************************************************
   2 ;* MMX/SSE2/AVX-optimized H.264 deblocking code
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2005-2011 x264 project
   5 ;*
   6 ;* Authors: Loren Merritt <lorenm@u.washington.edu>
   7 ;*          Jason Garrett-Glaser <darkshikari@gmail.com>
   8 ;*          Oskar Arvidsson <oskar@irock.se>
   9 ;*
  10 ;* This file is part of FFmpeg.
  11 ;*
  12 ;* FFmpeg is free software; you can redistribute it and/or
  13 ;* modify it under the terms of the GNU Lesser General Public
  14 ;* License as published by the Free Software Foundation; either
  15 ;* version 2.1 of the License, or (at your option) any later version.
  16 ;*
  17 ;* FFmpeg is distributed in the hope that it will be useful,
  18 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  19 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  20 ;* Lesser General Public License for more details.
  21 ;*
  22 ;* You should have received a copy of the GNU Lesser General Public
  23 ;* License along with FFmpeg; if not, write to the Free Software
  24 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  25 ;******************************************************************************
  26
  27 %include "libavutil/x86/x86util.asm"
  28
  29 SECTION_RODATA
  30
  31 pb_3_1: times 4 db 3, 1
  32
  33 SECTION .text
  34
  35 cextern pb_0
  36 cextern pb_1
  37 cextern pb_3
  38 cextern pb_A1
  39
  40 ; expands to [base],...,[base+7*stride]
  41 %define PASS8ROWS(base, base3, stride, stride3) \
  42     [base], [base+stride], [base+stride*2], [base3], \
  43     [base3+stride], [base3+stride*2], [base3+stride3], [base3+stride*4]
  44
  45 %define PASS8ROWS(base, base3, stride, stride3, offset) \
  46     PASS8ROWS(base+offset, base3+offset, stride, stride3)
  47
  48 ; in: 8 rows of 4 bytes in %4..%11
  49 ; out: 4 rows of 8 bytes in m0..m3
  50 %macro TRANSPOSE4x8_LOAD 11
  51     movh       m0, %4
  52     movh       m2, %5
  53     movh       m1, %6
  54     movh       m3, %7
  55     punpckl%1  m0, m2
  56     punpckl%1  m1, m3
  57     mova       m2, m0
  58     punpckl%2  m0, m1
  59     punpckh%2  m2, m1
  60
  61     movh       m4, %8
  62     movh       m6, %9
  63     movh       m5, %10
  64     movh       m7, %11
  65     punpckl%1  m4, m6
  66     punpckl%1  m5, m7
  67     mova       m6, m4
  68     punpckl%2  m4, m5
  69     punpckh%2  m6, m5
  70
  71     punpckh%3  m1, m0, m4
  72     punpckh%3  m3, m2, m6
  73     punpckl%3  m0, m4
  74     punpckl%3  m2, m6
  75 %endmacro
  76
  77 ; in: 4 rows of 8 bytes in m0..m3
  78 ; out: 8 rows of 4 bytes in %1..%8
  79 %macro TRANSPOSE8x4B_STORE 8
  80     punpckhdq  m4, m0, m0
  81     punpckhdq  m5, m1, m1
  82     punpckhdq  m6, m2, m2
  83
  84     punpcklbw  m0, m1
  85     punpcklbw  m2, m3
  86     punpcklwd  m1, m0, m2
  87     punpckhwd  m0, m2
  88     movh       %1, m1
  89     punpckhdq  m1, m1
  90     movh       %2, m1
  91     movh       %3, m0
  92     punpckhdq  m0, m0
  93     movh       %4, m0
  94
  95     punpckhdq  m3, m3
  96     punpcklbw  m4, m5
  97     punpcklbw  m6, m3
  98     punpcklwd  m5, m4, m6
  99     punpckhwd  m4, m6
 100     movh       %5, m5
 101     punpckhdq  m5, m5
 102     movh       %6, m5
 103     movh       %7, m4
 104     punpckhdq  m4, m4
 105     movh       %8, m4
 106 %endmacro
 107
 108 %macro TRANSPOSE4x8B_LOAD 8
 109     TRANSPOSE4x8_LOAD bw, wd, dq, %1, %2, %3, %4, %5, %6, %7, %8
 110 %endmacro
 111
 112 %macro SBUTTERFLY3 4
 113     punpckh%1  %4, %2, %3
 114     punpckl%1  %2, %3
 115 %endmacro
 116
 117 ; in: 8 rows of 8 (only the middle 6 pels are used) in %1..%8
 118 ; out: 6 rows of 8 in [%9+0*16] .. [%9+5*16]
 119 %macro TRANSPOSE6x8_MEM 9
 120     RESET_MM_PERMUTATION
 121     movq  m0, %1
 122     movq  m1, %2
 123     movq  m2, %3
 124     movq  m3, %4
 125     movq  m4, %5
 126     movq  m5, %6
 127     movq  m6, %7
 128     SBUTTERFLY bw, 0, 1, 7
 129     SBUTTERFLY bw, 2, 3, 7
 130     SBUTTERFLY bw, 4, 5, 7
 131     movq  [%9+0x10], m3
 132     SBUTTERFLY3 bw, m6, %8, m7
 133     SBUTTERFLY wd, 0, 2, 3
 134     SBUTTERFLY wd, 4, 6, 3
 135     punpckhdq m0, m4
 136     movq  [%9+0x00], m0
 137     SBUTTERFLY3 wd, m1, [%9+0x10], m3
 138     SBUTTERFLY wd, 5, 7, 0
 139     SBUTTERFLY dq, 1, 5, 0
 140     SBUTTERFLY dq, 2, 6, 0
 141     punpckldq m3, m7
 142     movq  [%9+0x10], m2
 143     movq  [%9+0x20], m6
 144     movq  [%9+0x30], m1
 145     movq  [%9+0x40], m5
 146     movq  [%9+0x50], m3
 147     RESET_MM_PERMUTATION
 148 %endmacro
 149
 150 ; in: 8 rows of 8 in %1..%8
 151 ; out: 8 rows of 8 in %9..%16
 152 %macro TRANSPOSE8x8_MEM 16
 153     RESET_MM_PERMUTATION
 154     movq  m0, %1
 155     movq  m1, %2
 156     movq  m2, %3
 157     movq  m3, %4
 158     movq  m4, %5
 159     movq  m5, %6
 160     movq  m6, %7
 161     SBUTTERFLY bw, 0, 1, 7
 162     SBUTTERFLY bw, 2, 3, 7
 163     SBUTTERFLY bw, 4, 5, 7
 164     SBUTTERFLY3 bw, m6, %8, m7
 165     movq  %9,  m5
 166     SBUTTERFLY wd, 0, 2, 5
 167     SBUTTERFLY wd, 4, 6, 5
 168     SBUTTERFLY wd, 1, 3, 5
 169     movq  %11, m6
 170     movq  m6,  %9
 171     SBUTTERFLY wd, 6, 7, 5
 172     SBUTTERFLY dq, 0, 4, 5
 173     SBUTTERFLY dq, 1, 6, 5
 174     movq  %9,  m0
 175     movq  %10, m4
 176     movq  %13, m1
 177     movq  %14, m6
 178     SBUTTERFLY3 dq, m2, %11, m0
 179     SBUTTERFLY dq, 3, 7, 4
 180     movq  %11, m2
 181     movq  %12, m0
 182     movq  %15, m3
 183     movq  %16, m7
 184     RESET_MM_PERMUTATION
 185 %endmacro
 186
 187 ; out: %4 = |%1-%2|>%3
 188 ; clobbers: %5
 189 %macro DIFF_GT 5
 190 %if avx_enabled == 0
 191     mova    %5, %2
 192     mova    %4, %1
 193     psubusb %5, %1
 194     psubusb %4, %2
 195 %else
 196     psubusb %5, %2, %1
 197     psubusb %4, %1, %2
 198 %endif
 199     por     %4, %5
 200     psubusb %4, %3
 201 %endmacro
 202
 203 ; out: %4 = |%1-%2|>%3
 204 ; clobbers: %5
 205 %macro DIFF_GT2 5
 206 %if ARCH_X86_64
 207     psubusb %5, %2, %1
 208     psubusb %4, %1, %2
 209 %else
 210     mova    %5, %2
 211     mova    %4, %1
 212     psubusb %5, %1
 213     psubusb %4, %2
 214 %endif
 215     psubusb %5, %3
 216     psubusb %4, %3
 217     pcmpeqb %4, %5
 218 %endmacro
 219
 220 ; in: m0=p1 m1=p0 m2=q0 m3=q1 %1=alpha-1 %2=beta-1
 221 ; out: m5=beta-1, m7=mask, %3=alpha-1
 222 ; clobbers: m4,m6
 223 %macro LOAD_MASK 2-3
 224     movd     m4, %1
 225     movd     m5, %2
 226     SPLATW   m4, m4
 227     SPLATW   m5, m5
 228     packuswb m4, m4  ; 16x alpha-1
 229     packuswb m5, m5  ; 16x beta-1
 230 %if %0>2
 231     mova     %3, m4
 232 %endif
 233     DIFF_GT  m1, m2, m4, m7, m6 ; |p0-q0| > alpha-1
 234     DIFF_GT  m0, m1, m5, m4, m6 ; |p1-p0| > beta-1
 235     por      m7, m4
 236     DIFF_GT  m3, m2, m5, m4, m6 ; |q1-q0| > beta-1
 237     por      m7, m4
 238     pxor     m6, m6
 239     pcmpeqb  m7, m6
 240 %endmacro
 241
 242 ; in: m0=p1 m1=p0 m2=q0 m3=q1 m7=(tc&mask)
 243 ; out: m1=p0' m2=q0'
 244 ; clobbers: m0,3-6
 245 %macro DEBLOCK_P0_Q0 0
 246     pcmpeqb m4, m4
 247     pxor    m5, m1, m2   ; p0^q0
 248     pxor    m3, m4
 249     pand    m5, [pb_1]   ; (p0^q0)&1
 250     pavgb   m3, m0       ; (p1 - q1 + 256)>>1
 251     pxor    m4, m1
 252     pavgb   m3, [pb_3]   ; (((p1 - q1 + 256)>>1)+4)>>1 = 64+2+(p1-q1)>>2
 253     pavgb   m4, m2       ; (q0 - p0 + 256)>>1
 254     pavgb   m3, m5
 255     mova    m6, [pb_A1]
 256     paddusb m3, m4       ; d+128+33
 257     psubusb m6, m3
 258     psubusb m3, [pb_A1]
 259     pminub  m6, m7
 260     pminub  m3, m7
 261     psubusb m1, m6
 262     psubusb m2, m3
 263     paddusb m1, m3
 264     paddusb m2, m6
 265 %endmacro
 266
 267 ; in: m1=p0 m2=q0
 268 ;     %1=p1 %2=q2 %3=[q2] %4=[q1] %5=tc0 %6=tmp
 269 ; out: [q1] = clip( (q2+((p0+q0+1)>>1))>>1, q1-tc0, q1+tc0 )
 270 ; clobbers: q2, tmp, tc0
 271 %macro LUMA_Q1 6
 272     pavgb   %6, m1, m2
 273     pavgb   %2, %6       ; avg(p2,avg(p0,q0))
 274     pxor    %6, %3
 275     pand    %6, [pb_1]   ; (p2^avg(p0,q0))&1
 276     psubusb %2, %6       ; (p2+((p0+q0+1)>>1))>>1
 277     psubusb %6, %1, %5
 278     paddusb %5, %1
 279     pmaxub  %2, %6
 280     pminub  %2, %5
 281     mova    %4, %2
 282 %endmacro
 283
 284 %if ARCH_X86_64
 285 ;-----------------------------------------------------------------------------
 286 ; void deblock_v_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 287 ;-----------------------------------------------------------------------------
 288 %macro DEBLOCK_LUMA 0
 289 cglobal deblock_v_luma_8, 5,5,10
 290     movd    m8, [r4] ; tc0
 291     lea     r4, [r1*3]
 292     dec     r2d        ; alpha-1
 293     neg     r4
 294     dec     r3d        ; beta-1
 295     add     r4, r0     ; pix-3*stride
 296
 297     mova    m0, [r4+r1]   ; p1
 298     mova    m1, [r4+2*r1] ; p0
 299     mova    m2, [r0]      ; q0
 300     mova    m3, [r0+r1]   ; q1
 301     LOAD_MASK r2d, r3d
 302
 303     punpcklbw m8, m8
 304     punpcklbw m8, m8 ; tc = 4x tc0[3], 4x tc0[2], 4x tc0[1], 4x tc0[0]
 305     pcmpeqb m9, m9
 306     pcmpeqb m9, m8
 307     pandn   m9, m7
 308     pand    m8, m9
 309
 310     movdqa  m3, [r4] ; p2
 311     DIFF_GT2 m1, m3, m5, m6, m7 ; |p2-p0| > beta-1
 312     pand    m6, m9
 313     psubb   m7, m8, m6
 314     pand    m6, m8
 315     LUMA_Q1 m0, m3, [r4], [r4+r1], m6, m4
 316
 317     movdqa  m4, [r0+2*r1] ; q2
 318     DIFF_GT2 m2, m4, m5, m6, m3 ; |q2-q0| > beta-1
 319     pand    m6, m9
 320     pand    m8, m6
 321     psubb   m7, m6
 322     mova    m3, [r0+r1]
 323     LUMA_Q1 m3, m4, [r0+2*r1], [r0+r1], m8, m6
 324
 325     DEBLOCK_P0_Q0
 326     mova    [r4+2*r1], m1
 327     mova    [r0], m2
 328     RET
 329
 330 ;-----------------------------------------------------------------------------
 331 ; void deblock_h_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 332 ;-----------------------------------------------------------------------------
 333 INIT_MMX cpuname
 334 cglobal deblock_h_luma_8, 5,9
 335     movsxd r7,  r1d
 336     lea    r8,  [r7+r7*2]
 337     lea    r6,  [r0-4]
 338     lea    r5,  [r0-4+r8]
 339 %if WIN64
 340     sub    rsp, 0x98
 341     %define pix_tmp rsp+0x30
 342 %else
 343     sub    rsp, 0x68
 344     %define pix_tmp rsp
 345 %endif
 346
 347     ; transpose 6x16 -> tmp space
 348     TRANSPOSE6x8_MEM  PASS8ROWS(r6, r5, r7, r8), pix_tmp
 349     lea    r6, [r6+r7*8]
 350     lea    r5, [r5+r7*8]
 351     TRANSPOSE6x8_MEM  PASS8ROWS(r6, r5, r7, r8), pix_tmp+8
 352
 353     ; vertical filter
 354     ; alpha, beta, tc0 are still in r2d, r3d, r4
 355     ; don't backup r6, r5, r7, r8 because deblock_v_luma_sse2 doesn't use them
 356     lea    r0, [pix_tmp+0x30]
 357     mov    r1d, 0x10
 358 %if WIN64
 359     mov    [rsp+0x20], r4
 360 %endif
 361     call   deblock_v_luma_8
 362
 363     ; transpose 16x4 -> original space  (only the middle 4 rows were changed by the filter)
 364     add    r6, 2
 365     add    r5, 2
 366     movq   m0, [pix_tmp+0x18]
 367     movq   m1, [pix_tmp+0x28]
 368     movq   m2, [pix_tmp+0x38]
 369     movq   m3, [pix_tmp+0x48]
 370     TRANSPOSE8x4B_STORE  PASS8ROWS(r6, r5, r7, r8)
 371
 372     shl    r7,  3
 373     sub    r6,  r7
 374     sub    r5,  r7
 375     shr    r7,  3
 376     movq   m0, [pix_tmp+0x10]
 377     movq   m1, [pix_tmp+0x20]
 378     movq   m2, [pix_tmp+0x30]
 379     movq   m3, [pix_tmp+0x40]
 380     TRANSPOSE8x4B_STORE  PASS8ROWS(r6, r5, r7, r8)
 381
 382 %if WIN64
 383     add    rsp, 0x98
 384 %else
 385     add    rsp, 0x68
 386 %endif
 387     RET
 388 %endmacro
 389
 390 INIT_XMM sse2
 391 DEBLOCK_LUMA
 392 %if HAVE_AVX_EXTERNAL
 393 INIT_XMM avx
 394 DEBLOCK_LUMA
 395 %endif
 396
 397 %else
 398
 399 %macro DEBLOCK_LUMA 2
 400 ;-----------------------------------------------------------------------------
 401 ; void deblock_v8_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 402 ;-----------------------------------------------------------------------------
 403 cglobal deblock_%1_luma_8, 5,5,8,2*%2
 404     lea     r4, [r1*3]
 405     dec     r2     ; alpha-1
 406     neg     r4
 407     dec     r3     ; beta-1
 408     add     r4, r0 ; pix-3*stride
 409
 410     mova    m0, [r4+r1]   ; p1
 411     mova    m1, [r4+2*r1] ; p0
 412     mova    m2, [r0]      ; q0
 413     mova    m3, [r0+r1]   ; q1
 414     LOAD_MASK r2, r3
 415
 416     mov     r3, r4mp
 417     pcmpeqb m3, m3
 418     movd    m4, [r3] ; tc0
 419     punpcklbw m4, m4
 420     punpcklbw m4, m4 ; tc = 4x tc0[3], 4x tc0[2], 4x tc0[1], 4x tc0[0]
 421     mova   [esp+%2], m4 ; tc
 422     pcmpgtb m4, m3
 423     mova    m3, [r4] ; p2
 424     pand    m4, m7
 425     mova   [esp], m4 ; mask
 426
 427     DIFF_GT2 m1, m3, m5, m6, m7 ; |p2-p0| > beta-1
 428     pand    m6, m4
 429     pand    m4, [esp+%2] ; tc
 430     psubb   m7, m4, m6
 431     pand    m6, m4
 432     LUMA_Q1 m0, m3, [r4], [r4+r1], m6, m4
 433
 434     mova    m4, [r0+2*r1] ; q2
 435     DIFF_GT2 m2, m4, m5, m6, m3 ; |q2-q0| > beta-1
 436     pand    m6, [esp] ; mask
 437     mova    m5, [esp+%2] ; tc
 438     psubb   m7, m6
 439     pand    m5, m6
 440     mova    m3, [r0+r1]
 441     LUMA_Q1 m3, m4, [r0+2*r1], [r0+r1], m5, m6
 442
 443     DEBLOCK_P0_Q0
 444     mova    [r4+2*r1], m1
 445     mova    [r0], m2
 446     RET
 447
 448 ;-----------------------------------------------------------------------------
 449 ; void deblock_h_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 450 ;-----------------------------------------------------------------------------
 451 INIT_MMX cpuname
 452 cglobal deblock_h_luma_8, 0,5,8,0x60+HAVE_ALIGNED_STACK*12
 453     mov    r0, r0mp
 454     mov    r3, r1m
 455     lea    r4, [r3*3]
 456     sub    r0, 4
 457     lea    r1, [r0+r4]
 458 %define pix_tmp esp+12*HAVE_ALIGNED_STACK
 459
 460     ; transpose 6x16 -> tmp space
 461     TRANSPOSE6x8_MEM  PASS8ROWS(r0, r1, r3, r4), pix_tmp
 462     lea    r0, [r0+r3*8]
 463     lea    r1, [r1+r3*8]
 464     TRANSPOSE6x8_MEM  PASS8ROWS(r0, r1, r3, r4), pix_tmp+8
 465
 466     ; vertical filter
 467     lea    r0, [pix_tmp+0x30]
 468     PUSH   dword r4m
 469     PUSH   dword r3m
 470     PUSH   dword r2m
 471     PUSH   dword 16
 472     PUSH   dword r0
 473     call   deblock_%1_luma_8
 474 %ifidn %1, v8
 475     add    dword [esp   ], 8 ; pix_tmp+0x38
 476     add    dword [esp+16], 2 ; tc0+2
 477     call   deblock_%1_luma_8
 478 %endif
 479     ADD    esp, 20
 480
 481     ; transpose 16x4 -> original space  (only the middle 4 rows were changed by the filter)
 482     mov    r0, r0mp
 483     sub    r0, 2
 484
 485     movq   m0, [pix_tmp+0x10]
 486     movq   m1, [pix_tmp+0x20]
 487     lea    r1, [r0+r4]
 488     movq   m2, [pix_tmp+0x30]
 489     movq   m3, [pix_tmp+0x40]
 490     TRANSPOSE8x4B_STORE  PASS8ROWS(r0, r1, r3, r4)
 491
 492     lea    r0, [r0+r3*8]
 493     lea    r1, [r1+r3*8]
 494     movq   m0, [pix_tmp+0x18]
 495     movq   m1, [pix_tmp+0x28]
 496     movq   m2, [pix_tmp+0x38]
 497     movq   m3, [pix_tmp+0x48]
 498     TRANSPOSE8x4B_STORE  PASS8ROWS(r0, r1, r3, r4)
 499
 500     RET
 501 %endmacro ; DEBLOCK_LUMA
 502
 503 INIT_MMX mmxext
 504 DEBLOCK_LUMA v8, 8
 505 INIT_XMM sse2
 506 DEBLOCK_LUMA v, 16
 507 %if HAVE_AVX_EXTERNAL
 508 INIT_XMM avx
 509 DEBLOCK_LUMA v, 16
 510 %endif
 511
 512 %endif ; ARCH
 513
 514
 515
 516 %macro LUMA_INTRA_P012 4 ; p0..p3 in memory
 517 %if ARCH_X86_64
 518     pavgb t0, p2, p1
 519     pavgb t1, p0, q0
 520 %else
 521     mova  t0, p2
 522     mova  t1, p0
 523     pavgb t0, p1
 524     pavgb t1, q0
 525 %endif
 526     pavgb t0, t1 ; ((p2+p1+1)/2 + (p0+q0+1)/2 + 1)/2
 527     mova  t5, t1
 528 %if ARCH_X86_64
 529     paddb t2, p2, p1
 530     paddb t3, p0, q0
 531 %else
 532     mova  t2, p2
 533     mova  t3, p0
 534     paddb t2, p1
 535     paddb t3, q0
 536 %endif
 537     paddb t2, t3
 538     mova  t3, t2
 539     mova  t4, t2
 540     psrlw t2, 1
 541     pavgb t2, mpb_0
 542     pxor  t2, t0
 543     pand  t2, mpb_1
 544     psubb t0, t2 ; p1' = (p2+p1+p0+q0+2)/4;
 545
 546 %if ARCH_X86_64
 547     pavgb t1, p2, q1
 548     psubb t2, p2, q1
 549 %else
 550     mova  t1, p2
 551     mova  t2, p2
 552     pavgb t1, q1
 553     psubb t2, q1
 554 %endif
 555     paddb t3, t3
 556     psubb t3, t2 ; p2+2*p1+2*p0+2*q0+q1
 557     pand  t2, mpb_1
 558     psubb t1, t2
 559     pavgb t1, p1
 560     pavgb t1, t5 ; (((p2+q1)/2 + p1+1)/2 + (p0+q0+1)/2 + 1)/2
 561     psrlw t3, 2
 562     pavgb t3, mpb_0
 563     pxor  t3, t1
 564     pand  t3, mpb_1
 565     psubb t1, t3 ; p0'a = (p2+2*p1+2*p0+2*q0+q1+4)/8
 566
 567     pxor  t3, p0, q1
 568     pavgb t2, p0, q1
 569     pand  t3, mpb_1
 570     psubb t2, t3
 571     pavgb t2, p1 ; p0'b = (2*p1+p0+q0+2)/4
 572
 573     pxor  t1, t2
 574     pxor  t2, p0
 575     pand  t1, mask1p
 576     pand  t2, mask0
 577     pxor  t1, t2
 578     pxor  t1, p0
 579     mova  %1, t1 ; store p0
 580
 581     mova  t1, %4 ; p3
 582     paddb t2, t1, p2
 583     pavgb t1, p2
 584     pavgb t1, t0 ; (p3+p2+1)/2 + (p2+p1+p0+q0+2)/4
 585     paddb t2, t2
 586     paddb t2, t4 ; 2*p3+3*p2+p1+p0+q0
 587     psrlw t2, 2
 588     pavgb t2, mpb_0
 589     pxor  t2, t1
 590     pand  t2, mpb_1
 591     psubb t1, t2 ; p2' = (2*p3+3*p2+p1+p0+q0+4)/8
 592
 593     pxor  t0, p1
 594     pxor  t1, p2
 595     pand  t0, mask1p
 596     pand  t1, mask1p
 597     pxor  t0, p1
 598     pxor  t1, p2
 599     mova  %2, t0 ; store p1
 600     mova  %3, t1 ; store p2
 601 %endmacro
 602
 603 %macro LUMA_INTRA_SWAP_PQ 0
 604     %define q1 m0
 605     %define q0 m1
 606     %define p0 m2
 607     %define p1 m3
 608     %define p2 q2
 609     %define mask1p mask1q
 610 %endmacro
 611
 612 %macro DEBLOCK_LUMA_INTRA 1
 613     %define p1 m0
 614     %define p0 m1
 615     %define q0 m2
 616     %define q1 m3
 617     %define t0 m4
 618     %define t1 m5
 619     %define t2 m6
 620     %define t3 m7
 621 %if ARCH_X86_64
 622     %define p2 m8
 623     %define q2 m9
 624     %define t4 m10
 625     %define t5 m11
 626     %define mask0 m12
 627     %define mask1p m13
 628     %define mask1q [rsp-24]
 629     %define mpb_0 m14
 630     %define mpb_1 m15
 631 %else
 632     %define spill(x) [esp+16*x]
 633     %define p2 [r4+r1]
 634     %define q2 [r0+2*r1]
 635     %define t4 spill(0)
 636     %define t5 spill(1)
 637     %define mask0 spill(2)
 638     %define mask1p spill(3)
 639     %define mask1q spill(4)
 640     %define mpb_0 [pb_0]
 641     %define mpb_1 [pb_1]
 642 %endif
 643
 644 ;-----------------------------------------------------------------------------
 645 ; void deblock_v_luma_intra( uint8_t *pix, int stride, int alpha, int beta )
 646 ;-----------------------------------------------------------------------------
 647 cglobal deblock_%1_luma_intra_8, 4,6,16,ARCH_X86_64*0x50-0x50
 648     lea     r4, [r1*4]
 649     lea     r5, [r1*3] ; 3*stride
 650     dec     r2d        ; alpha-1
 651     jl .end
 652     neg     r4
 653     dec     r3d        ; beta-1
 654     jl .end
 655     add     r4, r0     ; pix-4*stride
 656     mova    p1, [r4+2*r1]
 657     mova    p0, [r4+r5]
 658     mova    q0, [r0]
 659     mova    q1, [r0+r1]
 660 %if ARCH_X86_64
 661     pxor    mpb_0, mpb_0
 662     mova    mpb_1, [pb_1]
 663     LOAD_MASK r2d, r3d, t5 ; m5=beta-1, t5=alpha-1, m7=mask0
 664     SWAP    7, 12 ; m12=mask0
 665     pavgb   t5, mpb_0
 666     pavgb   t5, mpb_1 ; alpha/4+1
 667     movdqa  p2, [r4+r1]
 668     movdqa  q2, [r0+2*r1]
 669     DIFF_GT2 p0, q0, t5, t0, t3 ; t0 = |p0-q0| > alpha/4+1
 670     DIFF_GT2 p0, p2, m5, t2, t5 ; mask1 = |p2-p0| > beta-1
 671     DIFF_GT2 q0, q2, m5, t4, t5 ; t4 = |q2-q0| > beta-1
 672     pand    t0, mask0
 673     pand    t4, t0
 674     pand    t2, t0
 675     mova    mask1q, t4
 676     mova    mask1p, t2
 677 %else
 678     LOAD_MASK r2d, r3d, t5 ; m5=beta-1, t5=alpha-1, m7=mask0
 679     mova    m4, t5
 680     mova    mask0, m7
 681     pavgb   m4, [pb_0]
 682     pavgb   m4, [pb_1] ; alpha/4+1
 683     DIFF_GT2 p0, q0, m4, m6, m7 ; m6 = |p0-q0| > alpha/4+1
 684     pand    m6, mask0
 685     DIFF_GT2 p0, p2, m5, m4, m7 ; m4 = |p2-p0| > beta-1
 686     pand    m4, m6
 687     mova    mask1p, m4
 688     DIFF_GT2 q0, q2, m5, m4, m7 ; m4 = |q2-q0| > beta-1
 689     pand    m4, m6
 690     mova    mask1q, m4
 691 %endif
 692     LUMA_INTRA_P012 [r4+r5], [r4+2*r1], [r4+r1], [r4]
 693     LUMA_INTRA_SWAP_PQ
 694     LUMA_INTRA_P012 [r0], [r0+r1], [r0+2*r1], [r0+r5]
 695 .end:
 696     RET
 697
 698 INIT_MMX cpuname
 699 %if ARCH_X86_64
 700 ;-----------------------------------------------------------------------------
 701 ; void deblock_h_luma_intra( uint8_t *pix, int stride, int alpha, int beta )
 702 ;-----------------------------------------------------------------------------
 703 cglobal deblock_h_luma_intra_8, 4,9
 704     movsxd r7,  r1d
 705     lea    r8,  [r7*3]
 706     lea    r6,  [r0-4]
 707     lea    r5,  [r0-4+r8]
 708     sub    rsp, 0x88
 709     %define pix_tmp rsp
 710
 711     ; transpose 8x16 -> tmp space
 712     TRANSPOSE8x8_MEM  PASS8ROWS(r6, r5, r7, r8), PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30)
 713     lea    r6, [r6+r7*8]
 714     lea    r5, [r5+r7*8]
 715     TRANSPOSE8x8_MEM  PASS8ROWS(r6, r5, r7, r8), PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30)
 716
 717     lea    r0,  [pix_tmp+0x40]
 718     mov    r1,  0x10
 719     call   deblock_v_luma_intra_8
 720
 721     ; transpose 16x6 -> original space (but we can't write only 6 pixels, so really 16x8)
 722     lea    r5, [r6+r8]
 723     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30), PASS8ROWS(r6, r5, r7, r8)
 724     shl    r7,  3
 725     sub    r6,  r7
 726     sub    r5,  r7
 727     shr    r7,  3
 728     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30), PASS8ROWS(r6, r5, r7, r8)
 729     add    rsp, 0x88
 730     RET
 731 %else
 732 cglobal deblock_h_luma_intra_8, 2,4,8,0x80
 733     lea    r3,  [r1*3]
 734     sub    r0,  4
 735     lea    r2,  [r0+r3]
 736     %define pix_tmp rsp
 737
 738     ; transpose 8x16 -> tmp space
 739     TRANSPOSE8x8_MEM  PASS8ROWS(r0, r2, r1, r3), PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30)
 740     lea    r0,  [r0+r1*8]
 741     lea    r2,  [r2+r1*8]
 742     TRANSPOSE8x8_MEM  PASS8ROWS(r0, r2, r1, r3), PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30)
 743
 744     lea    r0,  [pix_tmp+0x40]
 745     PUSH   dword r3m
 746     PUSH   dword r2m
 747     PUSH   dword 16
 748     PUSH   r0
 749     call   deblock_%1_luma_intra_8
 750 %ifidn %1, v8
 751     add    dword [rsp], 8 ; pix_tmp+8
 752     call   deblock_%1_luma_intra_8
 753 %endif
 754     ADD    esp, 16
 755
 756     mov    r1,  r1m
 757     mov    r0,  r0mp
 758     lea    r3,  [r1*3]
 759     sub    r0,  4
 760     lea    r2,  [r0+r3]
 761     ; transpose 16x6 -> original space (but we can't write only 6 pixels, so really 16x8)
 762     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp, pix_tmp+0x30, 0x10, 0x30), PASS8ROWS(r0, r2, r1, r3)
 763     lea    r0,  [r0+r1*8]
 764     lea    r2,  [r2+r1*8]
 765     TRANSPOSE8x8_MEM  PASS8ROWS(pix_tmp+8, pix_tmp+0x38, 0x10, 0x30), PASS8ROWS(r0, r2, r1, r3)
 766     RET
 767 %endif ; ARCH_X86_64
 768 %endmacro ; DEBLOCK_LUMA_INTRA
 769
 770 INIT_XMM sse2
 771 DEBLOCK_LUMA_INTRA v
 772 %if HAVE_AVX_EXTERNAL
 773 INIT_XMM avx
 774 DEBLOCK_LUMA_INTRA v
 775 %endif
 776 %if ARCH_X86_64 == 0
 777 INIT_MMX mmxext
 778 DEBLOCK_LUMA_INTRA v8
 779 %endif
 780
 781 INIT_MMX mmxext
 782
 783 %macro CHROMA_V_START 0
 784     dec    r2d      ; alpha-1
 785     dec    r3d      ; beta-1
 786     mov    t5, r0
 787     sub    t5, r1
 788     sub    t5, r1
 789 %endmacro
 790
 791 %macro CHROMA_H_START 0
 792     dec    r2d
 793     dec    r3d
 794     sub    r0, 2
 795     lea    t6, [r1*3]
 796     mov    t5, r0
 797     add    r0, t6
 798 %endmacro
 799
 800 %define t5 r5
 801 %define t6 r6
 802
 803 ;-----------------------------------------------------------------------------
 804 ; void ff_deblock_v_chroma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 805 ;-----------------------------------------------------------------------------
 806 cglobal deblock_v_chroma_8, 5,6
 807     CHROMA_V_START
 808     movq  m0, [t5]
 809     movq  m1, [t5+r1]
 810     movq  m2, [r0]
 811     movq  m3, [r0+r1]
 812     call ff_chroma_inter_body_mmxext
 813     movq  [t5+r1], m1
 814     movq  [r0], m2
 815     RET
 816
 817 ;-----------------------------------------------------------------------------
 818 ; void ff_deblock_h_chroma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 819 ;-----------------------------------------------------------------------------
 820 cglobal deblock_h_chroma_8, 5,7
 821 %if UNIX64
 822     %define buf0 [rsp-24]
 823     %define buf1 [rsp-16]
 824 %elif WIN64
 825     sub   rsp, 16
 826     %define buf0 [rsp]
 827     %define buf1 [rsp+8]
 828 %else
 829     %define buf0 r0m
 830     %define buf1 r2m
 831 %endif
 832     CHROMA_H_START
 833     TRANSPOSE4x8_LOAD  bw, wd, dq, PASS8ROWS(t5, r0, r1, t6)
 834     movq  buf0, m0
 835     movq  buf1, m3
 836     LOAD_MASK  r2d, r3d
 837     movd       m6, [r4] ; tc0
 838     punpcklbw  m6, m6
 839     pand       m7, m6
 840     DEBLOCK_P0_Q0
 841     movq  m0, buf0
 842     movq  m3, buf1
 843     TRANSPOSE8x4B_STORE PASS8ROWS(t5, r0, r1, t6)
 844 %if WIN64
 845     add   rsp, 16
 846 %endif
 847     RET
 848
 849 ALIGN 16
 850 ff_chroma_inter_body_mmxext:
 851     LOAD_MASK  r2d, r3d
 852     movd       m6, [r4] ; tc0
 853     punpcklbw  m6, m6
 854     pand       m7, m6
 855     DEBLOCK_P0_Q0
 856     ret
 857
 858
 859
 860 ; in: %1=p0 %2=p1 %3=q1
 861 ; out: p0 = (p0 + q1 + 2*p1 + 2) >> 2
 862 %macro CHROMA_INTRA_P0 3
 863     movq    m4, %1
 864     pxor    m4, %3
 865     pand    m4, [pb_1] ; m4 = (p0^q1)&1
 866     pavgb   %1, %3
 867     psubusb %1, m4
 868     pavgb   %1, %2             ; dst = avg(p1, avg(p0,q1) - ((p0^q1)&1))
 869 %endmacro
 870
 871 %define t5 r4
 872 %define t6 r5
 873
 874 ;-----------------------------------------------------------------------------
 875 ; void ff_deblock_v_chroma_intra( uint8_t *pix, int stride, int alpha, int beta )
 876 ;-----------------------------------------------------------------------------
 877 cglobal deblock_v_chroma_intra_8, 4,5
 878     CHROMA_V_START
 879     movq  m0, [t5]
 880     movq  m1, [t5+r1]
 881     movq  m2, [r0]
 882     movq  m3, [r0+r1]
 883     call ff_chroma_intra_body_mmxext
 884     movq  [t5+r1], m1
 885     movq  [r0], m2
 886     RET
 887
 888 ;-----------------------------------------------------------------------------
 889 ; void ff_deblock_h_chroma_intra( uint8_t *pix, int stride, int alpha, int beta )
 890 ;-----------------------------------------------------------------------------
 891 cglobal deblock_h_chroma_intra_8, 4,6
 892     CHROMA_H_START
 893     TRANSPOSE4x8_LOAD  bw, wd, dq, PASS8ROWS(t5, r0, r1, t6)
 894     call ff_chroma_intra_body_mmxext
 895     TRANSPOSE8x4B_STORE PASS8ROWS(t5, r0, r1, t6)
 896     RET
 897
 898 ALIGN 16
 899 ff_chroma_intra_body_mmxext:
 900     LOAD_MASK r2d, r3d
 901     movq   m5, m1
 902     movq   m6, m2
 903     CHROMA_INTRA_P0  m1, m0, m3
 904     CHROMA_INTRA_P0  m2, m3, m0
 905     psubb  m1, m5
 906     psubb  m2, m6
 907     pand   m1, m7
 908     pand   m2, m7
 909     paddb  m1, m5
 910     paddb  m2, m6
 911     ret
 912
 913 ;-----------------------------------------------------------------------------
 914 ; void h264_loop_filter_strength(int16_t bs[2][4][4], uint8_t nnz[40],
 915 ;                                int8_t ref[2][40], int16_t mv[2][40][2],
 916 ;                                int bidir,    int edges,    int step,
 917 ;                                int mask_mv0, int mask_mv1, int field);
 918 ;
 919 ; bidir    is 0 or 1
 920 ; edges    is 1 or 4
 921 ; step     is 1 or 2
 922 ; mask_mv0 is 0 or 3
 923 ; mask_mv1 is 0 or 1
 924 ; field    is 0 or 1
 925 ;-----------------------------------------------------------------------------
 926 %macro loop_filter_strength_iteration 7 ; edges, step, mask_mv,
 927                                         ; dir, d_idx, mask_dir, bidir
 928 %define edgesd    %1
 929 %define stepd     %2
 930 %define mask_mvd  %3
 931 %define dir       %4
 932 %define d_idx     %5
 933 %define mask_dir  %6
 934 %define bidir     %7
 935     xor          b_idxd, b_idxd ; for (b_idx = 0; b_idx < edges; b_idx += step)
 936 %%.b_idx_loop:
 937 %if mask_dir == 0
 938     pxor             m0, m0
 939 %endif
 940     test         b_idxd, dword mask_mvd
 941     jnz %%.skip_loop_iter                       ; if (!(b_idx & mask_mv))
 942 %if bidir == 1
 943     movd             m2, [refq+b_idxq+d_idx+12] ; { ref0[bn] }
 944     punpckldq        m2, [refq+b_idxq+d_idx+52] ; { ref0[bn], ref1[bn] }
 945     pshufw           m0, [refq+b_idxq+12], 0x44 ; { ref0[b],  ref0[b]  }
 946     pshufw           m1, [refq+b_idxq+52], 0x44 ; { ref1[b],  ref1[b]  }
 947     pshufw           m3, m2, 0x4E               ; { ref1[bn], ref0[bn] }
 948     psubb            m0, m2                     ; { ref0[b] != ref0[bn],
 949                                                 ;   ref0[b] != ref1[bn] }
 950     psubb            m1, m3                     ; { ref1[b] != ref1[bn],
 951                                                 ;   ref1[b] != ref0[bn] }
 952
 953     por              m0, m1
 954     mova             m1, [mvq+b_idxq*4+(d_idx+12)*4]
 955     mova             m2, [mvq+b_idxq*4+(d_idx+12)*4+mmsize]
 956     mova             m3, m1
 957     mova             m4, m2
 958     psubw            m1, [mvq+b_idxq*4+12*4]
 959     psubw            m2, [mvq+b_idxq*4+12*4+mmsize]
 960     psubw            m3, [mvq+b_idxq*4+52*4]
 961     psubw            m4, [mvq+b_idxq*4+52*4+mmsize]
 962     packsswb         m1, m2
 963     packsswb         m3, m4
 964     paddb            m1, m6
 965     paddb            m3, m6
 966     psubusb          m1, m5 ; abs(mv[b] - mv[bn]) >= limit
 967     psubusb          m3, m5
 968     packsswb         m1, m3
 969
 970     por              m0, m1
 971     mova             m1, [mvq+b_idxq*4+(d_idx+52)*4]
 972     mova             m2, [mvq+b_idxq*4+(d_idx+52)*4+mmsize]
 973     mova             m3, m1
 974     mova             m4, m2
 975     psubw            m1, [mvq+b_idxq*4+12*4]
 976     psubw            m2, [mvq+b_idxq*4+12*4+mmsize]
 977     psubw            m3, [mvq+b_idxq*4+52*4]
 978     psubw            m4, [mvq+b_idxq*4+52*4+mmsize]
 979     packsswb         m1, m2
 980     packsswb         m3, m4
 981     paddb            m1, m6
 982     paddb            m3, m6
 983     psubusb          m1, m5 ; abs(mv[b] - mv[bn]) >= limit
 984     psubusb          m3, m5
 985     packsswb         m1, m3
 986
 987     pshufw           m1, m1, 0x4E
 988     por              m0, m1
 989     pshufw           m1, m0, 0x4E
 990     pminub           m0, m1
 991 %else ; bidir == 0
 992     movd             m0, [refq+b_idxq+12]
 993     psubb            m0, [refq+b_idxq+d_idx+12] ; ref[b] != ref[bn]
 994
 995     mova             m1, [mvq+b_idxq*4+12*4]
 996     mova             m2, [mvq+b_idxq*4+12*4+mmsize]
 997     psubw            m1, [mvq+b_idxq*4+(d_idx+12)*4]
 998     psubw            m2, [mvq+b_idxq*4+(d_idx+12)*4+mmsize]
 999     packsswb         m1, m2
1000     paddb            m1, m6
1001     psubusb          m1, m5 ; abs(mv[b] - mv[bn]) >= limit
1002     packsswb         m1, m1
1003     por              m0, m1
1004 %endif ; bidir == 1/0
1005
1006 %%.skip_loop_iter:
1007     movd             m1, [nnzq+b_idxq+12]
1008     por              m1, [nnzq+b_idxq+d_idx+12] ; nnz[b] || nnz[bn]
1009
1010     pminub           m1, m7
1011     pminub           m0, m7
1012     psllw            m1, 1
1013     pxor             m2, m2
1014     pmaxub           m1, m0
1015     punpcklbw        m1, m2
1016     movq [bsq+b_idxq+32*dir], m1
1017
1018     add          b_idxd, dword stepd
1019     cmp          b_idxd, dword edgesd
1020     jl %%.b_idx_loop
1021 %endmacro
1022
1023 INIT_MMX mmxext
1024 cglobal h264_loop_filter_strength, 9, 9, 0, bs, nnz, ref, mv, bidir, edges, \
1025                                             step, mask_mv0, mask_mv1, field
1026 %define b_idxq bidirq
1027 %define b_idxd bidird
1028     cmp    dword fieldm, 0
1029     mova             m7, [pb_1]
1030     mova             m5, [pb_3]
1031     je .nofield
1032     mova             m5, [pb_3_1]
1033 .nofield:
1034     mova             m6, m5
1035     paddb            m5, m5
1036
1037     shl     dword stepd, 3
1038     shl    dword edgesd, 3
1039 %if ARCH_X86_32
1040 %define mask_mv0d mask_mv0m
1041 %define mask_mv1d mask_mv1m
1042 %endif
1043     shl dword mask_mv1d, 3
1044     shl dword mask_mv0d, 3
1045
1046     cmp    dword bidird, 0
1047     jne .bidir
1048     loop_filter_strength_iteration edgesd, stepd, mask_mv1d, 1, -8,  0, 0
1049     loop_filter_strength_iteration     32,     8, mask_mv0d, 0, -1, -1, 0
1050
1051     mova             m0, [bsq+mmsize*0]
1052     mova             m1, [bsq+mmsize*1]
1053     mova             m2, [bsq+mmsize*2]
1054     mova             m3, [bsq+mmsize*3]
1055     TRANSPOSE4x4W 0, 1, 2, 3, 4
1056     mova  [bsq+mmsize*0], m0
1057     mova  [bsq+mmsize*1], m1
1058     mova  [bsq+mmsize*2], m2
1059     mova  [bsq+mmsize*3], m3
1060     RET
1061
1062 .bidir:
1063     loop_filter_strength_iteration edgesd, stepd, mask_mv1d, 1, -8,  0, 1
1064     loop_filter_strength_iteration     32,     8, mask_mv0d, 0, -1, -1, 1
1065
1066     mova             m0, [bsq+mmsize*0]
1067     mova             m1, [bsq+mmsize*1]
1068     mova             m2, [bsq+mmsize*2]
1069     mova             m3, [bsq+mmsize*3]
1070     TRANSPOSE4x4W 0, 1, 2, 3, 4
1071     mova  [bsq+mmsize*0], m0
1072     mova  [bsq+mmsize*1], m1
1073     mova  [bsq+mmsize*2], m2
1074     mova  [bsq+mmsize*3], m3
1075     RET