git.sesse.net Git - ffmpeg/blob - libavcodec/x86/hevc_deblock.asm

   1 ;*****************************************************************************
   2 ;* SSE2-optimized HEVC deblocking code
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2013 VTT
   5 ;*
   6 ;* Authors: Seppo Tomperi <seppo.tomperi@vtt.fi>
   7 ;*
   8 ;* This file is part of FFmpeg.
   9 ;*
  10 ;* FFmpeg is free software; you can redistribute it and/or
  11 ;* modify it under the terms of the GNU Lesser General Public
  12 ;* License as published by the Free Software Foundation; either
  13 ;* version 2.1 of the License, or (at your option) any later version.
  14 ;*
  15 ;* FFmpeg is distributed in the hope that it will be useful,
  16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  18 ;* Lesser General Public License for more details.
  19 ;*
  20 ;* You should have received a copy of the GNU Lesser General Public
  21 ;* License along with FFmpeg; if not, write to the Free Software
  22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  23 ;******************************************************************************
  24
  25 %include "libavutil/x86/x86util.asm"
  26
  27 SECTION_RODATA
  28
  29 pw_pixel_max_12: times 8 dw ((1 << 12)-1)
  30 pw_pixel_max_10: times 8 dw ((1 << 10)-1)
  31 pw_m1:           times 8 dw -1
  32 pw_m2:           times 8 dw -2
  33 pd_1 :           times 4 dd  1
  34
  35 cextern pw_4
  36 cextern pw_8
  37
  38 SECTION .text
  39 INIT_XMM sse2
  40
  41 ; expands to [base],...,[base+7*stride]
  42 %define PASS8ROWS(base, base3, stride, stride3) \
  43     [base], [base+stride], [base+stride*2], [base3], \
  44     [base3+stride], [base3+stride*2], [base3+stride3], [base3+stride*4]
  45
  46 ; in: 8 rows of 4 bytes in %4..%11
  47 ; out: 4 rows of 8 words in m0..m3
  48 %macro TRANSPOSE4x8B_LOAD 8
  49     movd             m0, %1
  50     movd             m2, %2
  51     movd             m1, %3
  52     movd             m3, %4
  53
  54     punpcklbw        m0, m2
  55     punpcklbw        m1, m3
  56     punpcklwd        m0, m1
  57
  58     movd             m4, %5
  59     movd             m6, %6
  60     movd             m5, %7
  61     movd             m3, %8
  62
  63     punpcklbw        m4, m6
  64     punpcklbw        m5, m3
  65     punpcklwd        m4, m5
  66
  67     punpckhdq        m2, m0, m4
  68     punpckldq        m0, m4
  69
  70     pxor             m5, m5
  71     punpckhbw        m1, m0, m5
  72     punpcklbw        m0, m5
  73     punpckhbw        m3, m2, m5
  74     punpcklbw        m2, m5
  75 %endmacro
  76
  77 ; in: 4 rows of 8 words in m0..m3
  78 ; out: 8 rows of 4 bytes in %1..%8
  79 %macro TRANSPOSE8x4B_STORE 8
  80     packuswb         m0, m0
  81     packuswb         m1, m1
  82     packuswb         m2, m2
  83     packuswb         m3, m3
  84
  85     punpcklbw        m0, m1
  86     punpcklbw        m2, m3
  87
  88     punpckhwd        m6, m0, m2
  89     punpcklwd        m0, m2
  90
  91     movd             %1, m0
  92     pshufd           m0, m0, 0x39
  93     movd             %2, m0
  94     pshufd           m0, m0, 0x39
  95     movd             %3, m0
  96     pshufd           m0, m0, 0x39
  97     movd             %4, m0
  98
  99     movd             %5, m6
 100     pshufd           m6, m6, 0x39
 101     movd             %6, m6
 102     pshufd           m6, m6, 0x39
 103     movd             %7, m6
 104     pshufd           m6, m6, 0x39
 105     movd             %8, m6
 106 %endmacro
 107
 108 ; in: 8 rows of 4 words in %4..%11
 109 ; out: 4 rows of 8 words in m0..m3
 110 %macro TRANSPOSE4x8W_LOAD 8
 111     movq             m0, %1
 112     movq             m2, %2
 113     movq             m1, %3
 114     movq             m3, %4
 115
 116     punpcklwd        m0, m2
 117     punpcklwd        m1, m3
 118     punpckhdq        m2, m0, m1
 119     punpckldq        m0, m1
 120
 121     movq             m4, %5
 122     movq             m6, %6
 123     movq             m5, %7
 124     movq             m3, %8
 125
 126     punpcklwd        m4, m6
 127     punpcklwd        m5, m3
 128     punpckhdq        m6, m4, m5
 129     punpckldq        m4, m5
 130
 131     punpckhqdq       m1, m0, m4
 132     punpcklqdq       m0, m4
 133     punpckhqdq       m3, m2, m6
 134     punpcklqdq       m2, m6
 135
 136 %endmacro
 137
 138 ; in: 4 rows of 8 words in m0..m3
 139 ; out: 8 rows of 4 words in %1..%8
 140 %macro TRANSPOSE8x4W_STORE 9
 141     pxor             m5, m5; zeros reg
 142     CLIPW            m0, m5, %9
 143     CLIPW            m1, m5, %9
 144     CLIPW            m2, m5, %9
 145     CLIPW            m3, m5, %9
 146
 147     punpckhwd        m4, m0, m1
 148     punpcklwd        m0, m1
 149     punpckhwd        m5, m2, m3
 150     punpcklwd        m2, m3
 151     punpckhdq        m6, m0, m2
 152     punpckldq        m0, m2
 153
 154     movq             %1, m0
 155     movhps           %2, m0
 156     movq             %3, m6
 157     movhps           %4, m6
 158
 159     punpckhdq        m6, m4, m5
 160     punpckldq        m4, m5
 161
 162     movq             %5, m4
 163     movhps           %6, m4
 164     movq             %7, m6
 165     movhps           %8, m6
 166 %endmacro
 167
 168 ; in: 8 rows of 8 bytes in %1..%8
 169 ; out: 8 rows of 8 words in m0..m7
 170 %macro TRANSPOSE8x8B_LOAD 8
 171     movq             m7, %1
 172     movq             m2, %2
 173     movq             m1, %3
 174     movq             m3, %4
 175
 176     punpcklbw        m7, m2
 177     punpcklbw        m1, m3
 178     punpcklwd        m3, m7, m1
 179     punpckhwd        m7, m1
 180
 181     movq             m4, %5
 182     movq             m6, %6
 183     movq             m5, %7
 184     movq            m15, %8
 185
 186     punpcklbw        m4, m6
 187     punpcklbw        m5, m15
 188     punpcklwd        m9, m4, m5
 189     punpckhwd        m4, m5
 190
 191     punpckldq        m1, m3, m9;  0, 1
 192     punpckhdq        m3, m9;  2, 3
 193
 194     punpckldq        m5, m7, m4;  4, 5
 195     punpckhdq        m7, m4;  6, 7
 196
 197     pxor            m13, m13
 198
 199     punpcklbw        m0, m1, m13; 0 in 16 bit
 200     punpckhbw        m1, m13; 1 in 16 bit
 201
 202     punpcklbw        m2, m3, m13; 2
 203     punpckhbw        m3, m13; 3
 204
 205     punpcklbw        m4, m5, m13; 4
 206     punpckhbw        m5, m13; 5
 207
 208     punpcklbw        m6, m7, m13; 6
 209     punpckhbw        m7, m13; 7
 210 %endmacro
 211
 212
 213 ; in: 8 rows of 8 words in m0..m8
 214 ; out: 8 rows of 8 bytes in %1..%8
 215 %macro TRANSPOSE8x8B_STORE 8
 216     packuswb         m0, m0
 217     packuswb         m1, m1
 218     packuswb         m2, m2
 219     packuswb         m3, m3
 220     packuswb         m4, m4
 221     packuswb         m5, m5
 222     packuswb         m6, m6
 223     packuswb         m7, m7
 224
 225     punpcklbw        m0, m1
 226     punpcklbw        m2, m3
 227
 228     punpckhwd        m8, m0, m2
 229     punpcklwd        m0, m2
 230
 231     punpcklbw        m4, m5
 232     punpcklbw        m6, m7
 233
 234     punpckhwd        m9, m4, m6
 235     punpcklwd        m4, m6
 236
 237     punpckhdq       m10, m0, m4; 2, 3
 238     punpckldq        m0, m4;   0, 1
 239
 240     punpckldq       m11, m8, m9;  4, 5
 241     punpckhdq        m8, m9;   6, 7
 242     movq             %1, m0
 243     movhps           %2, m0
 244     movq             %3, m10
 245     movhps           %4, m10
 246     movq             %5, m11
 247     movhps           %6, m11
 248     movq             %7, m8
 249     movhps           %8, m8
 250 %endmacro
 251
 252 ; in: 8 rows of 8 words in %1..%8
 253 ; out: 8 rows of 8 words in m0..m7
 254 %macro TRANSPOSE8x8W_LOAD 8
 255     movdqu           m0, %1
 256     movdqu           m1, %2
 257     movdqu           m2, %3
 258     movdqu           m3, %4
 259     movdqu           m4, %5
 260     movdqu           m5, %6
 261     movdqu           m6, %7
 262     movdqu           m7, %8
 263     TRANSPOSE8x8W     0, 1, 2, 3, 4, 5, 6, 7, 8
 264 %endmacro
 265
 266 ; in: 8 rows of 8 words in m0..m8
 267 ; out: 8 rows of 8 words in %1..%8
 268 %macro TRANSPOSE8x8W_STORE 9
 269     TRANSPOSE8x8W     0, 1, 2, 3, 4, 5, 6, 7, 8
 270
 271     pxor             m8, m8
 272     CLIPW            m0, m8, %9
 273     CLIPW            m1, m8, %9
 274     CLIPW            m2, m8, %9
 275     CLIPW            m3, m8, %9
 276     CLIPW            m4, m8, %9
 277     CLIPW            m5, m8, %9
 278     CLIPW            m6, m8, %9
 279     CLIPW            m7, m8, %9
 280
 281     movdqu           %1, m0
 282     movdqu           %2, m1
 283     movdqu           %3, m2
 284     movdqu           %4, m3
 285     movdqu           %5, m4
 286     movdqu           %6, m5
 287     movdqu           %7, m6
 288     movdqu           %8, m7
 289 %endmacro
 290
 291
 292 ; in: %2 clobbered
 293 ; out: %1
 294 ; mask in m11
 295 ; clobbers m10
 296 %macro MASKED_COPY 2
 297     pand             %2, m11 ; and mask
 298     pandn           m10, m11, %1; and -mask
 299     por              %2, m10
 300     mova             %1, %2
 301 %endmacro
 302
 303 ; in: %2 clobbered
 304 ; out: %1
 305 ; mask in %3, will be clobbered
 306 %macro MASKED_COPY2 3
 307     pand             %2, %3 ; and mask
 308     pandn            %3, %1; and -mask
 309     por              %2, %3
 310     mova             %1, %2
 311 %endmacro
 312
 313 ALIGN 16
 314 ; input in m0 ... m3 and tcs in r2. Output in m1 and m2
 315 %macro CHROMA_DEBLOCK_BODY 1
 316     psubw            m4, m2, m1; q0 - p0
 317     psubw            m5, m0, m3; p1 - q1
 318     psllw            m4, 2; << 2
 319     paddw            m5, m4;
 320
 321     ;tc calculations
 322     movd             m6, [tcq]; tc0
 323     punpcklwd        m6, m6
 324     movd             m4, [tcq+4]; tc1
 325     punpcklwd        m4, m4
 326     shufps           m6, m4, 0; tc0, tc1
 327 %if cpuflag(ssse3)
 328     psignw           m4, m6, [pw_m1]; -tc0, -tc1
 329 %else
 330     pmullw           m4, m6, [pw_m1]; -tc0, -tc1
 331 %endif
 332     ;end tc calculations
 333
 334     paddw            m5, [pw_4]; +4
 335     psraw            m5, 3; >> 3
 336
 337 %if %1 > 8
 338     psllw            m4, %1-8; << (BIT_DEPTH - 8)
 339     psllw            m6, %1-8; << (BIT_DEPTH - 8)
 340 %endif
 341     pmaxsw           m5, m4
 342     pminsw           m5, m6
 343     paddw            m1, m5; p0 + delta0
 344     psubw            m2, m5; q0 - delta0
 345 %endmacro
 346
 347 ; input in m0 ... m7, beta in r2 tcs in r3. Output in m1...m6
 348 %macro LUMA_DEBLOCK_BODY 2
 349     psllw            m9, m2, 1; *2
 350     psubw           m10, m1, m9
 351     paddw           m10, m3
 352     ABS1            m10, m11 ; 0dp0, 0dp3 , 1dp0, 1dp3
 353
 354     psllw            m9, m5, 1; *2
 355     psubw           m11, m6, m9
 356     paddw           m11, m4
 357     ABS1            m11, m13 ; 0dq0, 0dq3 , 1dq0, 1dq3
 358
 359     ;beta calculations
 360 %if %1 > 8
 361     shl             betaq, %1 - 8
 362 %endif
 363     movd            m13, betad
 364     SPLATW          m13, m13, 0
 365     ;end beta calculations
 366
 367     paddw            m9, m10, m11;   0d0, 0d3  ,  1d0, 1d3
 368
 369     pshufhw         m14, m9, 0x0f ;0b00001111;  0d3 0d3 0d0 0d0 in high
 370     pshuflw         m14, m14, 0x0f ;0b00001111;  1d3 1d3 1d0 1d0 in low
 371
 372     pshufhw          m9, m9, 0xf0 ;0b11110000; 0d0 0d0 0d3 0d3
 373     pshuflw          m9, m9, 0xf0 ;0b11110000; 1d0 1d0 1d3 1d3
 374
 375     paddw           m14, m9; 0d0+0d3, 1d0+1d3
 376
 377     ;compare
 378     pcmpgtw         m15, m13, m14
 379     movmskps        r13, m15 ;filtering mask 0d0 + 0d3 < beta0 (bit 2 or 3) , 1d0 + 1d3 < beta1 (bit 0 or 1)
 380     test            r13, r13
 381     je              .bypassluma
 382
 383     ;weak / strong decision compare to beta_2
 384     psraw           m15, m13, 2;   beta >> 2
 385     psllw            m8, m9, 1;
 386     pcmpgtw         m15, m8; (d0 << 1) < beta_2, (d3 << 1) < beta_2
 387     movmskps        r14, m15;
 388     ;end weak / strong decision
 389
 390     ; weak filter nd_p/q calculation
 391     pshufd           m8, m10, 0x31
 392     psrld            m8, 16
 393     paddw            m8, m10
 394     movd            r7d, m8
 395     and              r7, 0xffff; 1dp0 + 1dp3
 396     pshufd           m8, m8, 0x4E
 397     movd            r8d, m8
 398     and              r8, 0xffff; 0dp0 + 0dp3
 399
 400     pshufd           m8, m11, 0x31
 401     psrld            m8, 16
 402     paddw            m8, m11
 403     movd            r9d, m8
 404     and              r9, 0xffff; 1dq0 + 1dq3
 405     pshufd           m8, m8, 0x4E
 406     movd           r10d, m8
 407     and             r10, 0xffff; 0dq0 + 0dq3
 408     ; end calc for weak filter
 409
 410     ; filtering mask
 411     mov             r11, r13
 412     shr             r11, 3
 413     movd            m15, r11d
 414     and             r13, 1
 415     movd            m11, r13d
 416     shufps          m11, m15, 0
 417     shl             r11, 1
 418     or              r13, r11
 419
 420     pcmpeqd         m11, [pd_1]; filtering mask
 421
 422     ;decide between strong and weak filtering
 423     ;tc25 calculations
 424     mov            r11d, [tcq];
 425 %if %1 > 8
 426     shl             r11, %1 - 8
 427 %endif
 428     movd             m8, r11d; tc0
 429     add             tcq, 4;
 430     mov             r3d, [tcq];
 431 %if %1 > 8
 432     shl              r3, %1 - 8
 433 %endif
 434     movd             m9, r3d; tc1
 435     add            r11d, r3d; tc0 + tc1
 436     jz             .bypassluma
 437     punpcklwd        m8, m8
 438     punpcklwd        m9, m9
 439     shufps           m8, m9, 0; tc0, tc1
 440     mova             m9, m8
 441     psllw            m8, 2; tc << 2
 442     pavgw            m8, m9; tc25 = ((tc * 5 + 1) >> 1)
 443     ;end tc25 calculations
 444
 445     ;----beta_3 comparison-----
 446     psubw           m12, m0, m3;      p3 - p0
 447     ABS1            m12, m14; abs(p3 - p0)
 448
 449     psubw           m15, m7, m4;      q3 - q0
 450     ABS1            m15, m14; abs(q3 - q0)
 451
 452     paddw           m12, m15; abs(p3 - p0) + abs(q3 - q0)
 453
 454     pshufhw         m12, m12, 0xf0 ;0b11110000;
 455     pshuflw         m12, m12, 0xf0 ;0b11110000;
 456
 457     psraw           m13, 3; beta >> 3
 458     pcmpgtw         m13, m12;
 459     movmskps        r11, m13;
 460     and             r14, r11; strong mask , beta_2 and beta_3 comparisons
 461     ;----beta_3 comparison end-----
 462     ;----tc25 comparison---
 463     psubw           m12, m3, m4;      p0 - q0
 464     ABS1            m12, m14; abs(p0 - q0)
 465
 466     pshufhw         m12, m12, 0xf0 ;0b11110000;
 467     pshuflw         m12, m12, 0xf0 ;0b11110000;
 468
 469     pcmpgtw          m8, m12; tc25 comparisons
 470     movmskps        r11, m8;
 471     and             r14, r11; strong mask, beta_2, beta_3 and tc25 comparisons
 472     ;----tc25 comparison end---
 473     mov             r11, r14;
 474     shr             r11, 1;
 475     and             r14, r11; strong mask, bits 2 and 0
 476
 477     pmullw          m14, m9, [pw_m2]; -tc * 2
 478     paddw            m9, m9
 479
 480     and             r14, 5; 0b101
 481     mov             r11, r14; strong mask
 482     shr             r14, 2;
 483     movd            m12, r14d; store to xmm for mask generation
 484     shl             r14, 1
 485     and             r11, 1
 486     movd            m10, r11d; store to xmm for mask generation
 487     or              r14, r11; final strong mask, bits 1 and 0
 488     jz      .weakfilter
 489
 490     shufps          m10, m12, 0
 491     pcmpeqd         m10, [pd_1]; strong mask
 492
 493     mova            m13, [pw_4]; 4 in every cell
 494     pand            m11, m10; combine filtering mask and strong mask
 495     paddw           m12, m2, m3;          p1 +   p0
 496     paddw           m12, m4;          p1 +   p0 +   q0
 497     mova            m10, m12; copy
 498     paddw           m12, m12;       2*p1 + 2*p0 + 2*q0
 499     paddw           m12, m1;   p2 + 2*p1 + 2*p0 + 2*q0
 500     paddw           m12, m5;   p2 + 2*p1 + 2*p0 + 2*q0 + q1
 501     paddw           m12, m13;  p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4
 502     psraw           m12, 3;  ((p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4) >> 3)
 503     psubw           m12, m3; ((p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4) >> 3) - p0
 504     pmaxsw          m12, m14
 505     pminsw          m12, m9; av_clip( , -2 * tc, 2 * tc)
 506     paddw           m12, m3; p0'
 507
 508     paddw           m15, m1, m10; p2 + p1 + p0 + q0
 509     psrlw           m13, 1; 2 in every cell
 510     paddw           m15, m13; p2 + p1 + p0 + q0 + 2
 511     psraw           m15, 2;  (p2 + p1 + p0 + q0 + 2) >> 2
 512     psubw           m15, m2;((p2 + p1 + p0 + q0 + 2) >> 2) - p1
 513     pmaxsw          m15, m14
 514     pminsw          m15, m9; av_clip( , -2 * tc, 2 * tc)
 515     paddw           m15, m2; p1'
 516
 517     paddw            m8, m1, m0;     p3 +   p2
 518     paddw            m8, m8;   2*p3 + 2*p2
 519     paddw            m8, m1;   2*p3 + 3*p2
 520     paddw            m8, m10;  2*p3 + 3*p2 + p1 + p0 + q0
 521     paddw           m13, m13
 522     paddw            m8, m13;  2*p3 + 3*p2 + p1 + p0 + q0 + 4
 523     psraw            m8, 3;   (2*p3 + 3*p2 + p1 + p0 + q0 + 4) >> 3
 524     psubw            m8, m1; ((2*p3 + 3*p2 + p1 + p0 + q0 + 4) >> 3) - p2
 525     pmaxsw           m8, m14
 526     pminsw           m8, m9; av_clip( , -2 * tc, 2 * tc)
 527     paddw            m8, m1; p2'
 528     MASKED_COPY      m1, m8
 529
 530     paddw            m8, m3, m4;         p0 +   q0
 531     paddw            m8, m5;         p0 +   q0 +   q1
 532     paddw            m8, m8;       2*p0 + 2*q0 + 2*q1
 533     paddw            m8, m2;  p1 + 2*p0 + 2*q0 + 2*q1
 534     paddw            m8, m6;  p1 + 2*p0 + 2*q0 + 2*q1 + q2
 535     paddw            m8, m13; p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4
 536     psraw            m8, 3;  (p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4) >>3
 537     psubw            m8, m4;
 538     pmaxsw           m8, m14
 539     pminsw           m8, m9; av_clip( , -2 * tc, 2 * tc)
 540     paddw            m8, m4; q0'
 541     MASKED_COPY      m2, m15
 542
 543     paddw           m15, m3, m4;   p0 + q0
 544     paddw           m15, m5;   p0 + q0 + q1
 545     mova            m10, m15;
 546     paddw           m15, m6;   p0 + q0 + q1 + q2
 547     psrlw           m13, 1; 2 in every cell
 548     paddw           m15, m13;  p0 + q0 + q1 + q2 + 2
 549     psraw           m15, 2;   (p0 + q0 + q1 + q2 + 2) >> 2
 550     psubw           m15, m5; ((p0 + q0 + q1 + q2 + 2) >> 2) - q1
 551     pmaxsw          m15, m14
 552     pminsw          m15, m9; av_clip( , -2 * tc, 2 * tc)
 553     paddw           m15, m5; q1'
 554
 555     paddw           m13, m7;      q3 + 2
 556     paddw           m13, m6;      q3 +  q2 + 2
 557     paddw           m13, m13;   2*q3 + 2*q2 + 4
 558     paddw           m13, m6;    2*q3 + 3*q2 + 4
 559     paddw           m13, m10;   2*q3 + 3*q2 + q1 + q0 + p0 + 4
 560     psraw           m13, 3;    (2*q3 + 3*q2 + q1 + q0 + p0 + 4) >> 3
 561     psubw           m13, m6;  ((2*q3 + 3*q2 + q1 + q0 + p0 + 4) >> 3) - q2
 562     pmaxsw          m13, m14
 563     pminsw          m13, m9; av_clip( , -2 * tc, 2 * tc)
 564     paddw           m13, m6; q2'
 565
 566     MASKED_COPY      m6, m13
 567     MASKED_COPY      m5, m15
 568     MASKED_COPY      m4, m8
 569     MASKED_COPY      m3, m12
 570
 571 .weakfilter:
 572     not             r14; strong mask -> weak mask
 573     and             r14, r13; final weak filtering mask, bits 0 and 1
 574     jz             .store
 575
 576     ; weak filtering mask
 577     mov             r11, r14
 578     shr             r11, 1
 579     movd            m12, r11d
 580     and             r14, 1
 581     movd            m11, r14d
 582     shufps          m11, m12, 0
 583     pcmpeqd         m11, [pd_1]; filtering mask
 584
 585     mov             r13, betaq
 586     shr             r13, 1;
 587     add             betaq, r13
 588     shr             betaq, 3; ((beta + (beta >> 1)) >> 3))
 589
 590     mova            m13, [pw_8]
 591     psubw           m12, m4, m3 ; q0 - p0
 592     psllw           m10, m12, 3; 8 * (q0 - p0)
 593     paddw           m12, m10 ; 9 * (q0 - p0)
 594
 595     psubw           m10, m5, m2 ; q1 - p1
 596     psllw            m8, m10, 1; 2 * ( q1 - p1 )
 597     paddw           m10, m8; 3 * ( q1 - p1 )
 598     psubw           m12, m10; 9 * (q0 - p0) - 3 * ( q1 - p1 )
 599     paddw           m12, m13; + 8
 600     psraw           m12, 4; >> 4 , delta0
 601     PABSW           m13, m12; abs(delta0)
 602
 603
 604     psllw           m10, m9, 2; 8 * tc
 605     paddw           m10, m9; 10 * tc
 606     pcmpgtw         m10, m13
 607     pand            m11, m10
 608
 609     psraw            m9, 1;   tc * 2 -> tc
 610     psraw           m14, 1; -tc * 2 -> -tc
 611
 612     pmaxsw          m12, m14
 613     pminsw          m12, m9;  av_clip(delta0, -tc, tc)
 614
 615     psraw            m9, 1;   tc -> tc / 2
 616 %if cpuflag(ssse3)
 617     psignw          m14, m9, [pw_m1]; -tc / 2
 618 %else
 619     pmullw          m14, m9, [pw_m1]; -tc / 2
 620 %endif
 621
 622     pavgw           m15, m1, m3;   (p2 + p0 + 1) >> 1
 623     psubw           m15, m2;  ((p2 + p0 + 1) >> 1) - p1
 624     paddw           m15, m12; ((p2 + p0 + 1) >> 1) - p1 + delta0
 625     psraw           m15, 1;   (((p2 + p0 + 1) >> 1) - p1 + delta0) >> 1
 626     pmaxsw          m15, m14
 627     pminsw          m15, m9; av_clip(deltap1, -tc/2, tc/2)
 628     paddw           m15, m2; p1'
 629
 630     ;beta calculations
 631     movd            m10, betad
 632     SPLATW          m10, m10, 0
 633
 634     movd            m13, r7d; 1dp0 + 1dp3
 635     movd             m8, r8d; 0dp0 + 0dp3
 636     punpcklwd        m8, m8
 637     punpcklwd       m13, m13
 638     shufps          m13, m8, 0;
 639     pcmpgtw          m8, m10, m13
 640     pand             m8, m11
 641     ;end beta calculations
 642     MASKED_COPY2     m2, m15, m8; write p1'
 643
 644     pavgw            m8, m6, m4;   (q2 + q0 + 1) >> 1
 645     psubw            m8, m5;  ((q2 + q0 + 1) >> 1) - q1
 646     psubw            m8, m12; ((q2 + q0 + 1) >> 1) - q1 - delta0)
 647     psraw            m8, 1;   ((q2 + q0 + 1) >> 1) - q1 - delta0) >> 1
 648     pmaxsw           m8, m14
 649     pminsw           m8, m9; av_clip(deltaq1, -tc/2, tc/2)
 650     paddw            m8, m5; q1'
 651
 652     movd            m13, r9d;
 653     movd            m15, r10d;
 654     punpcklwd       m15, m15
 655     punpcklwd       m13, m13
 656     shufps          m13, m15, 0; dq0 + dq3
 657
 658     pcmpgtw         m10, m13; compare to ((beta+(beta>>1))>>3)
 659     pand            m10, m11
 660     MASKED_COPY2     m5, m8, m10; write q1'
 661
 662     paddw           m15, m3, m12 ; p0 + delta0
 663     MASKED_COPY      m3, m15
 664
 665     psubw            m8, m4, m12 ; q0 - delta0
 666     MASKED_COPY      m4, m8
 667 %endmacro
 668
 669 INIT_XMM sse2
 670 ;-----------------------------------------------------------------------------
 671 ; void ff_hevc_v_loop_filter_chroma(uint8_t *_pix, ptrdiff_t _stride, int *_tc,
 672 ;                                   uint8_t *_no_p, uint8_t *_no_q);
 673 ;-----------------------------------------------------------------------------
 674 cglobal hevc_v_loop_filter_chroma_8, 3, 5, 7, pix, stride, tc, pix0, r3stride
 675     sub            pixq, 2
 676     lea       r3strideq, [3*strideq]
 677     mov           pix0q, pixq
 678     add            pixq, r3strideq
 679     TRANSPOSE4x8B_LOAD  PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 680     CHROMA_DEBLOCK_BODY 8
 681     TRANSPOSE8x4B_STORE PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 682     RET
 683
 684 cglobal hevc_v_loop_filter_chroma_10, 3, 5, 7, pix, stride, tc, pix0, r3stride
 685     sub            pixq, 4
 686     lea       r3strideq, [3*strideq]
 687     mov           pix0q, pixq
 688     add            pixq, r3strideq
 689     TRANSPOSE4x8W_LOAD  PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 690     CHROMA_DEBLOCK_BODY 10
 691     TRANSPOSE8x4W_STORE PASS8ROWS(pix0q, pixq, strideq, r3strideq), [pw_pixel_max_10]
 692     RET
 693
 694 cglobal hevc_v_loop_filter_chroma_12, 3, 5, 7, pix, stride, tc, pix0, r3stride
 695     sub            pixq, 4
 696     lea       r3strideq, [3*strideq]
 697     mov           pix0q, pixq
 698     add            pixq, r3strideq
 699     TRANSPOSE4x8W_LOAD  PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 700     CHROMA_DEBLOCK_BODY 12
 701     TRANSPOSE8x4W_STORE PASS8ROWS(pix0q, pixq, strideq, r3strideq), [pw_pixel_max_12]
 702     RET
 703
 704 ;-----------------------------------------------------------------------------
 705 ; void ff_hevc_h_loop_filter_chroma(uint8_t *_pix, ptrdiff_t _stride, int *_tc,
 706 ;                                   uint8_t *_no_p, uint8_t *_no_q);
 707 ;-----------------------------------------------------------------------------
 708 cglobal hevc_h_loop_filter_chroma_8, 3, 4, 7, pix, stride, tc, pix0
 709     mov           pix0q, pixq
 710     sub           pix0q, strideq
 711     sub           pix0q, strideq
 712     movq             m0, [pix0q];    p1
 713     movq             m1, [pix0q+strideq]; p0
 714     movq             m2, [pixq];    q0
 715     movq             m3, [pixq+strideq]; q1
 716     pxor             m5, m5; zeros reg
 717     punpcklbw        m0, m5
 718     punpcklbw        m1, m5
 719     punpcklbw        m2, m5
 720     punpcklbw        m3, m5
 721     CHROMA_DEBLOCK_BODY  8
 722     packuswb         m1, m2
 723     movh[pix0q+strideq], m1
 724     movhps       [pixq], m1
 725     RET
 726
 727 cglobal hevc_h_loop_filter_chroma_10, 3, 4, 7, pix, stride, tc, pix0
 728     mov          pix0q, pixq
 729     sub          pix0q, strideq
 730     sub          pix0q, strideq
 731     movu            m0, [pix0q];    p1
 732     movu            m1, [pix0q+strideq]; p0
 733     movu            m2, [pixq];    q0
 734     movu            m3, [pixq+strideq]; q1
 735     CHROMA_DEBLOCK_BODY 10
 736     pxor            m5, m5; zeros reg
 737     CLIPW           m1, m5, [pw_pixel_max_10]
 738     CLIPW           m2, m5, [pw_pixel_max_10]
 739     movu [pix0q+strideq], m1
 740     movu        [pixq], m2
 741     RET
 742
 743 cglobal hevc_h_loop_filter_chroma_12, 3, 4, 7, pix, stride, tc, pix0
 744     mov          pix0q, pixq
 745     sub          pix0q, strideq
 746     sub          pix0q, strideq
 747     movu            m0, [pix0q];    p1
 748     movu            m1, [pix0q+strideq]; p0
 749     movu            m2, [pixq];    q0
 750     movu            m3, [pixq+strideq]; q1
 751     CHROMA_DEBLOCK_BODY 12
 752     pxor            m5, m5; zeros reg
 753     CLIPW           m1, m5, [pw_pixel_max_12]
 754     CLIPW           m2, m5, [pw_pixel_max_12]
 755     movu [pix0q+strideq], m1
 756     movu        [pixq], m2
 757     RET
 758
 759 %if ARCH_X86_64
 760 %macro LOOP_FILTER_LUMA 0
 761 ;-----------------------------------------------------------------------------
 762 ; void ff_hevc_v_loop_filter_luma(uint8_t *_pix, ptrdiff_t _stride, int beta,
 763 ;                                 int *_tc, uint8_t *_no_p, uint8_t *_no_q);
 764 ;-----------------------------------------------------------------------------
 765 cglobal hevc_v_loop_filter_luma_8, 4, 15, 16, pix, stride, beta, tc
 766     sub              r0, 4
 767     lea              r5, [3 * r1]
 768     mov              r6, r0
 769     add              r0, r5
 770     TRANSPOSE8x8B_LOAD  PASS8ROWS(r6, r0, r1, r5)
 771     LUMA_DEBLOCK_BODY 8, v
 772 .store:
 773     TRANSPOSE8x8B_STORE PASS8ROWS(r6, r0, r1, r5)
 774 .bypassluma:
 775     RET
 776
 777 cglobal hevc_v_loop_filter_luma_10, 4, 15, 16, pix, stride, beta, tc
 778     sub            pixq, 8
 779     lea              r5, [3 * strideq]
 780     mov              r6, pixq
 781     add            pixq, r5
 782     TRANSPOSE8x8W_LOAD  PASS8ROWS(r6, pixq, strideq, r5)
 783     LUMA_DEBLOCK_BODY 10, v
 784 .store:
 785     TRANSPOSE8x8W_STORE PASS8ROWS(r6, r0, r1, r5), [pw_pixel_max_10]
 786 .bypassluma:
 787     RET
 788
 789 cglobal hevc_v_loop_filter_luma_12, 4, 15, 16, pix, stride, beta, tc
 790     sub            pixq, 8
 791     lea              r5, [3 * strideq]
 792     mov              r6, pixq
 793     add            pixq, r5
 794     TRANSPOSE8x8W_LOAD  PASS8ROWS(r6, pixq, strideq, r5)
 795     LUMA_DEBLOCK_BODY 12, v
 796 .store:
 797     TRANSPOSE8x8W_STORE PASS8ROWS(r6, r0, r1, r5), [pw_pixel_max_12]
 798 .bypassluma:
 799     RET
 800
 801 ;-----------------------------------------------------------------------------
 802 ; void ff_hevc_h_loop_filter_luma(uint8_t *_pix, ptrdiff_t _stride, int beta,
 803 ;                                 int *_tc, uint8_t *_no_p, uint8_t *_no_q);
 804 ;-----------------------------------------------------------------------------
 805 cglobal hevc_h_loop_filter_luma_8, 4, 15, 16, pix, stride, beta, tc, count, pix0, src3stride
 806     lea     src3strideq, [3 * strideq]
 807     mov           pix0q, pixq
 808     sub           pix0q, src3strideq
 809     sub           pix0q, strideq
 810     movq             m0, [pix0q];               p3
 811     movq             m1, [pix0q +     strideq]; p2
 812     movq             m2, [pix0q + 2 * strideq]; p1
 813     movq             m3, [pix0q + src3strideq]; p0
 814     movq             m4, [pixq];                q0
 815     movq             m5, [pixq +     strideq];  q1
 816     movq             m6, [pixq + 2 * strideq];  q2
 817     movq             m7, [pixq + src3strideq];  q3
 818     pxor             m8, m8
 819     punpcklbw        m0, m8
 820     punpcklbw        m1, m8
 821     punpcklbw        m2, m8
 822     punpcklbw        m3, m8
 823     punpcklbw        m4, m8
 824     punpcklbw        m5, m8
 825     punpcklbw        m6, m8
 826     punpcklbw        m7, m8
 827     LUMA_DEBLOCK_BODY 8, h
 828 .store:
 829     packuswb          m1, m2
 830     packuswb          m3, m4
 831     packuswb          m5, m6
 832     movh   [r5 +     r1], m1
 833     movhps [r5 + 2 * r1], m1
 834     movh   [r5 +     r6], m3
 835     movhps [r0         ], m3
 836     movh   [r0 +     r1], m5
 837     movhps [r0 + 2 * r1], m5
 838 .bypassluma:
 839     RET
 840
 841 cglobal hevc_h_loop_filter_luma_10, 4, 15, 16, pix, stride, beta, tc, count, pix0, src3stride
 842     lea                  src3strideq, [3 * strideq]
 843     mov                        pix0q, pixq
 844     sub                        pix0q, src3strideq
 845     sub                        pix0q, strideq
 846     movdqu                        m0, [pix0q];               p3
 847     movdqu                        m1, [pix0q +     strideq]; p2
 848     movdqu                        m2, [pix0q + 2 * strideq]; p1
 849     movdqu                        m3, [pix0q + src3strideq]; p0
 850     movdqu                        m4, [pixq];                q0
 851     movdqu                        m5, [pixq  +     strideq]; q1
 852     movdqu                        m6, [pixq  + 2 * strideq]; q2
 853     movdqu                        m7, [pixq  + src3strideq]; q3
 854     LUMA_DEBLOCK_BODY             10, h
 855 .store:
 856     pxor                          m8, m8; zeros reg
 857     CLIPW                         m1, m8, [pw_pixel_max_10]
 858     CLIPW                         m2, m8, [pw_pixel_max_10]
 859     CLIPW                         m3, m8, [pw_pixel_max_10]
 860     CLIPW                         m4, m8, [pw_pixel_max_10]
 861     CLIPW                         m5, m8, [pw_pixel_max_10]
 862     CLIPW                         m6, m8, [pw_pixel_max_10]
 863     movdqu     [pix0q +     strideq], m1;  p2
 864     movdqu     [pix0q + 2 * strideq], m2;  p1
 865     movdqu     [pix0q + src3strideq], m3;  p0
 866     movdqu     [pixq               ], m4;  q0
 867     movdqu     [pixq  +     strideq], m5;  q1
 868     movdqu     [pixq  + 2 * strideq], m6;  q2
 869 .bypassluma:
 870     RET
 871
 872 cglobal hevc_h_loop_filter_luma_12, 4, 15, 16, pix, stride, beta, tc, count, pix0, src3stride
 873     lea                  src3strideq, [3 * strideq]
 874     mov                        pix0q, pixq
 875     sub                        pix0q, src3strideq
 876     sub                        pix0q, strideq
 877     movdqu                        m0, [pix0q];               p3
 878     movdqu                        m1, [pix0q +     strideq]; p2
 879     movdqu                        m2, [pix0q + 2 * strideq]; p1
 880     movdqu                        m3, [pix0q + src3strideq]; p0
 881     movdqu                        m4, [pixq];                q0
 882     movdqu                        m5, [pixq  +     strideq]; q1
 883     movdqu                        m6, [pixq  + 2 * strideq]; q2
 884     movdqu                        m7, [pixq  + src3strideq]; q3
 885     LUMA_DEBLOCK_BODY             12, h
 886 .store:
 887     pxor                          m8, m8; zeros reg
 888     CLIPW                         m1, m8, [pw_pixel_max_12]
 889     CLIPW                         m2, m8, [pw_pixel_max_12]
 890     CLIPW                         m3, m8, [pw_pixel_max_12]
 891     CLIPW                         m4, m8, [pw_pixel_max_12]
 892     CLIPW                         m5, m8, [pw_pixel_max_12]
 893     CLIPW                         m6, m8, [pw_pixel_max_12]
 894     movdqu     [pix0q +     strideq], m1;  p2
 895     movdqu     [pix0q + 2 * strideq], m2;  p1
 896     movdqu     [pix0q + src3strideq], m3;  p0
 897     movdqu     [pixq               ], m4;  q0
 898     movdqu     [pixq  +     strideq], m5;  q1
 899     movdqu     [pixq  + 2 * strideq], m6;  q2
 900 .bypassluma:
 901     RET
 902
 903 %endmacro
 904
 905 INIT_XMM sse2
 906 LOOP_FILTER_LUMA
 907 INIT_XMM ssse3
 908 LOOP_FILTER_LUMA
 909 %endif