git.sesse.net Git - ffmpeg/blob - libavcodec/x86/hevc_deblock.asm

   1 ;*****************************************************************************
   2 ;* SSE2-optimized HEVC deblocking code
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2013 VTT
   5 ;*
   6 ;* Authors: Seppo Tomperi <seppo.tomperi@vtt.fi>
   7 ;*
   8 ;* This file is part of FFmpeg.
   9 ;*
  10 ;* FFmpeg is free software; you can redistribute it and/or
  11 ;* modify it under the terms of the GNU Lesser General Public
  12 ;* License as published by the Free Software Foundation; either
  13 ;* version 2.1 of the License, or (at your option) any later version.
  14 ;*
  15 ;* FFmpeg is distributed in the hope that it will be useful,
  16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  18 ;* Lesser General Public License for more details.
  19 ;*
  20 ;* You should have received a copy of the GNU Lesser General Public
  21 ;* License along with FFmpeg; if not, write to the Free Software
  22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  23 ;******************************************************************************
  24
  25 %include "libavutil/x86/x86util.asm"
  26
  27 SECTION_RODATA
  28
  29 pw_pixel_max: times 8 dw ((1 << 10)-1)
  30 pw_m1:        times 8 dw -1
  31 pw_m2:        times 8 dw -2
  32 pd_1 :        times 4 dd  1
  33
  34 cextern pw_4
  35 cextern pw_8
  36
  37 SECTION .text
  38 INIT_XMM sse2
  39
  40 ; expands to [base],...,[base+7*stride]
  41 %define PASS8ROWS(base, base3, stride, stride3) \
  42     [base], [base+stride], [base+stride*2], [base3], \
  43     [base3+stride], [base3+stride*2], [base3+stride3], [base3+stride*4]
  44
  45 ; in: 8 rows of 4 bytes in %4..%11
  46 ; out: 4 rows of 8 words in m0..m3
  47 %macro TRANSPOSE4x8B_LOAD 8
  48     movd             m0, %1
  49     movd             m2, %2
  50     movd             m1, %3
  51     movd             m3, %4
  52
  53     punpcklbw        m0, m2
  54     punpcklbw        m1, m3
  55     punpcklwd        m0, m1
  56
  57     movd             m4, %5
  58     movd             m6, %6
  59     movd             m5, %7
  60     movd             m3, %8
  61
  62     punpcklbw        m4, m6
  63     punpcklbw        m5, m3
  64     punpcklwd        m4, m5
  65
  66     punpckhdq        m2, m0, m4
  67     punpckldq        m0, m4
  68
  69     pxor             m5, m5
  70     punpckhbw        m1, m0, m5
  71     punpcklbw        m0, m5
  72     punpckhbw        m3, m2, m5
  73     punpcklbw        m2, m5
  74 %endmacro
  75
  76 ; in: 4 rows of 8 words in m0..m3
  77 ; out: 8 rows of 4 bytes in %1..%8
  78 %macro TRANSPOSE8x4B_STORE 8
  79     packuswb         m0, m0
  80     packuswb         m1, m1
  81     packuswb         m2, m2
  82     packuswb         m3, m3
  83
  84     punpcklbw        m0, m1
  85     punpcklbw        m2, m3
  86
  87     punpckhwd        m6, m0, m2
  88     punpcklwd        m0, m2
  89
  90     movd             %1, m0
  91     pshufd           m0, m0, 0x39
  92     movd             %2, m0
  93     pshufd           m0, m0, 0x39
  94     movd             %3, m0
  95     pshufd           m0, m0, 0x39
  96     movd             %4, m0
  97
  98     movd             %5, m6
  99     pshufd           m6, m6, 0x39
 100     movd             %6, m6
 101     pshufd           m6, m6, 0x39
 102     movd             %7, m6
 103     pshufd           m6, m6, 0x39
 104     movd             %8, m6
 105 %endmacro
 106
 107 ; in: 8 rows of 4 words in %4..%11
 108 ; out: 4 rows of 8 words in m0..m3
 109 %macro TRANSPOSE4x8W_LOAD 8
 110     movq             m0, %1
 111     movq             m2, %2
 112     movq             m1, %3
 113     movq             m3, %4
 114
 115     punpcklwd        m0, m2
 116     punpcklwd        m1, m3
 117     punpckhdq        m2, m0, m1
 118     punpckldq        m0, m1
 119
 120     movq             m4, %5
 121     movq             m6, %6
 122     movq             m5, %7
 123     movq             m3, %8
 124
 125     punpcklwd        m4, m6
 126     punpcklwd        m5, m3
 127     punpckhdq        m6, m4, m5
 128     punpckldq        m4, m5
 129
 130     punpckhqdq       m1, m0, m4
 131     punpcklqdq       m0, m4
 132     punpckhqdq       m3, m2, m6
 133     punpcklqdq       m2, m6
 134
 135 %endmacro
 136
 137 ; in: 4 rows of 8 words in m0..m3
 138 ; out: 8 rows of 4 words in %1..%8
 139 %macro TRANSPOSE8x4W_STORE 8
 140     pxor             m5, m5; zeros reg
 141     CLIPW            m0, m5, [pw_pixel_max]
 142     CLIPW            m1, m5, [pw_pixel_max]
 143     CLIPW            m2, m5, [pw_pixel_max]
 144     CLIPW            m3, m5, [pw_pixel_max]
 145
 146     punpckhwd        m4, m0, m1
 147     punpcklwd        m0, m1
 148     punpckhwd        m5, m2, m3
 149     punpcklwd        m2, m3
 150     punpckhdq        m6, m0, m2
 151     punpckldq        m0, m2
 152
 153     movq             %1, m0
 154     movhps           %2, m0
 155     movq             %3, m6
 156     movhps           %4, m6
 157
 158     punpckhdq        m6, m4, m5
 159     punpckldq        m4, m5
 160
 161     movq             %5, m4
 162     movhps           %6, m4
 163     movq             %7, m6
 164     movhps           %8, m6
 165 %endmacro
 166
 167 ; in: 8 rows of 8 bytes in %1..%8
 168 ; out: 8 rows of 8 words in m0..m7
 169 %macro TRANSPOSE8x8B_LOAD 8
 170     movq             m7, %1
 171     movq             m2, %2
 172     movq             m1, %3
 173     movq             m3, %4
 174
 175     punpcklbw        m7, m2
 176     punpcklbw        m1, m3
 177     punpcklwd        m3, m7, m1
 178     punpckhwd        m7, m1
 179
 180     movq             m4, %5
 181     movq             m6, %6
 182     movq             m5, %7
 183     movq            m15, %8
 184
 185     punpcklbw        m4, m6
 186     punpcklbw        m5, m15
 187     punpcklwd        m9, m4, m5
 188     punpckhwd        m4, m5
 189
 190     punpckldq        m1, m3, m9;  0, 1
 191     punpckhdq        m3, m9;  2, 3
 192
 193     punpckldq        m5, m7, m4;  4, 5
 194     punpckhdq        m7, m4;  6, 7
 195
 196     pxor            m13, m13
 197
 198     punpcklbw        m0, m1, m13; 0 in 16 bit
 199     punpckhbw        m1, m13; 1 in 16 bit
 200
 201     punpcklbw        m2, m3, m13; 2
 202     punpckhbw        m3, m13; 3
 203
 204     punpcklbw        m4, m5, m13; 4
 205     punpckhbw        m5, m13; 5
 206
 207     punpcklbw        m6, m7, m13; 6
 208     punpckhbw        m7, m13; 7
 209 %endmacro
 210
 211
 212 ; in: 8 rows of 8 words in m0..m8
 213 ; out: 8 rows of 8 bytes in %1..%8
 214 %macro TRANSPOSE8x8B_STORE 8
 215     packuswb         m0, m0
 216     packuswb         m1, m1
 217     packuswb         m2, m2
 218     packuswb         m3, m3
 219     packuswb         m4, m4
 220     packuswb         m5, m5
 221     packuswb         m6, m6
 222     packuswb         m7, m7
 223
 224     punpcklbw        m0, m1
 225     punpcklbw        m2, m3
 226
 227     punpckhwd        m8, m0, m2
 228     punpcklwd        m0, m2
 229
 230     punpcklbw        m4, m5
 231     punpcklbw        m6, m7
 232
 233     punpckhwd        m9, m4, m6
 234     punpcklwd        m4, m6
 235
 236     punpckhdq       m10, m0, m4; 2, 3
 237     punpckldq        m0, m4;   0, 1
 238
 239     punpckldq       m11, m8, m9;  4, 5
 240     punpckhdq        m8, m9;   6, 7
 241     movq             %1, m0
 242     movhps           %2, m0
 243     movq             %3, m10
 244     movhps           %4, m10
 245     movq             %5, m11
 246     movhps           %6, m11
 247     movq             %7, m8
 248     movhps           %8, m8
 249 %endmacro
 250
 251 ; in: 8 rows of 8 words in %1..%8
 252 ; out: 8 rows of 8 words in m0..m7
 253 %macro TRANSPOSE8x8W_LOAD 8
 254     movdqu           m0, %1
 255     movdqu           m1, %2
 256     movdqu           m2, %3
 257     movdqu           m3, %4
 258     movdqu           m4, %5
 259     movdqu           m5, %6
 260     movdqu           m6, %7
 261     movdqu           m7, %8
 262     TRANSPOSE8x8W     0, 1, 2, 3, 4, 5, 6, 7, 8
 263 %endmacro
 264
 265 ; in: 8 rows of 8 words in m0..m8
 266 ; out: 8 rows of 8 words in %1..%8
 267 %macro TRANSPOSE8x8W_STORE 8
 268     TRANSPOSE8x8W     0, 1, 2, 3, 4, 5, 6, 7, 8
 269
 270     pxor             m8, m8
 271     CLIPW            m0, m8, [pw_pixel_max]
 272     CLIPW            m1, m8, [pw_pixel_max]
 273     CLIPW            m2, m8, [pw_pixel_max]
 274     CLIPW            m3, m8, [pw_pixel_max]
 275     CLIPW            m4, m8, [pw_pixel_max]
 276     CLIPW            m5, m8, [pw_pixel_max]
 277     CLIPW            m6, m8, [pw_pixel_max]
 278     CLIPW            m7, m8, [pw_pixel_max]
 279
 280     movdqu           %1, m0
 281     movdqu           %2, m1
 282     movdqu           %3, m2
 283     movdqu           %4, m3
 284     movdqu           %5, m4
 285     movdqu           %6, m5
 286     movdqu           %7, m6
 287     movdqu           %8, m7
 288 %endmacro
 289
 290
 291 ; in: %2 clobbered
 292 ; out: %1
 293 ; mask in m11
 294 ; clobbers m10
 295 %macro MASKED_COPY 2
 296     pand             %2, m11 ; and mask
 297     pandn           m10, m11, %1; and -mask
 298     por              %2, m10
 299     mova             %1, %2
 300 %endmacro
 301
 302 ; in: %2 clobbered
 303 ; out: %1
 304 ; mask in %3, will be clobbered
 305 %macro MASKED_COPY2 3
 306     pand             %2, %3 ; and mask
 307     pandn            %3, %1; and -mask
 308     por              %2, %3
 309     mova             %1, %2
 310 %endmacro
 311
 312 ALIGN 16
 313 ; input in m0 ... m3 and tcs in tc (r2). Output in m1 and m2
 314 %macro CHROMA_DEBLOCK_BODY 1
 315     psubw            m4, m2, m1; q0 - p0
 316     psubw            m5, m0, m3; p1 - q1
 317     psllw            m4, 2; << 2
 318     paddw            m5, m4;
 319
 320     ;tc calculations
 321     movd             m6, [tcq]; tc0
 322     punpcklwd        m6, m6
 323     movd             m4, [tcq+4]; tc1
 324     punpcklwd        m4, m4
 325     shufps           m6, m4, 0; tc0, tc1
 326     pmullw           m4, m6, [pw_m1]; -tc0, -tc1
 327     ;end tc calculations
 328
 329     paddw            m5, [pw_4]; +4
 330     psraw            m5, 3; >> 3
 331
 332 %if %1 > 8
 333     psllw            m4, %1-8; << (BIT_DEPTH - 8)
 334     psllw            m6, %1-8; << (BIT_DEPTH - 8)
 335 %endif
 336     pmaxsw           m5, m4
 337     pminsw           m5, m6
 338     paddw            m1, m5; p0 + delta0
 339     psubw            m2, m5; q0 - delta0
 340 %endmacro
 341
 342 ; input in m0 ... m7, betas in r2 tcs in r3. Output in m1...m6
 343 %macro LUMA_DEBLOCK_BODY 2
 344     psllw            m9, m2, 1; *2
 345     psubw           m10, m1, m9
 346     paddw           m10, m3
 347     ABS1            m10, m11 ; 0dp0, 0dp3 , 1dp0, 1dp3
 348
 349     psllw            m9, m5, 1; *2
 350     psubw           m11, m6, m9
 351     paddw           m11, m4
 352     ABS1            m11, m13 ; 0dq0, 0dq3 , 1dq0, 1dq3
 353
 354     ;beta calculations
 355     mov             r11, [betaq];
 356 %if %1 > 8
 357     shl             r11, %1 - 8
 358 %endif
 359     movd            m13, r11d; beta0
 360     add           betaq, 4;
 361     punpcklwd       m13, m13
 362     mov             r12, [betaq];
 363 %if %1 > 8
 364     shl             r12, %1 - 8
 365 %endif
 366     movd            m14, r12d; beta1
 367     punpcklwd       m14, m14
 368     pshufd          m13, m14, 0; beta0, beta1
 369     ;end beta calculations
 370
 371     paddw            m9, m10, m11;   0d0, 0d3  ,  1d0, 1d3
 372
 373     pshufhw         m14, m9, 0x0f ;0b00001111;  0d3 0d3 0d0 0d0 in high
 374     pshuflw         m14, m14, 0x0f ;0b00001111;  1d3 1d3 1d0 1d0 in low
 375
 376     pshufhw          m9, m9, 0xf0 ;0b11110000; 0d0 0d0 0d3 0d3
 377     pshuflw          m9, m9, 0xf0 ;0b11110000; 1d0 1d0 1d3 1d3
 378
 379     paddw           m14, m9; 0d0+0d3, 1d0+1d3
 380
 381     ;compare
 382     pcmpgtw         m15, m13, m14; beta0, beta1
 383     movmskps        r13, m15 ;filtering mask 0d0 + 0d3 < beta0 (bit 2 or 3) , 1d0 + 1d3 < beta1 (bit 0 or 1)
 384     test            r13, r13
 385     je              .bypassluma
 386
 387     ;weak / strong decision compare to beta_2
 388     psraw           m15, m13, 2;   beta >> 2
 389     psllw            m8, m9, 1;
 390     pcmpgtw         m15, m8; (d0 << 1) < beta_2, (d3 << 1) < beta_2
 391     movmskps        r14, m15;
 392     ;end weak / strong decision
 393
 394     ; weak filter nd_p/q calculation
 395     pshufd           m8, m10, 0x31
 396     psrld            m8, 16
 397     paddw            m8, m10
 398     movd            r7d, m8
 399     and              r7, 0xffff; 1dp0 + 1dp3
 400     pshufd           m8, m8, 0x4E
 401     movd            r8d, m8
 402     and              r8, 0xffff; 0dp0 + 0dp3
 403
 404     pshufd           m8, m11, 0x31
 405     psrld            m8, 16
 406     paddw            m8, m11
 407     movd            r9d, m8
 408     and              r9, 0xffff; 1dq0 + 1dq3
 409     pshufd           m8, m8, 0x4E
 410     movd           r10d, m8
 411     and             r10, 0xffff; 0dq0 + 0dq3
 412     ; end calc for weak filter
 413
 414     ; filtering mask
 415     mov              r2, r13
 416     shr              r2, 3
 417     movd            m15, r2d
 418     and             r13, 1
 419     movd            m11, r13d
 420     shufps          m11, m15, 0
 421     shl              r2, 1
 422     or              r13, r2
 423
 424     pcmpeqd         m11, [pd_1]; filtering mask
 425
 426     ;decide between strong and weak filtering
 427     ;tc25 calculations
 428     mov             r2d, [tcq];
 429 %if %1 > 8
 430     shl              r2, %1 - 8
 431 %endif
 432     movd             m8, r2d; tc0
 433     add             tcq, 4;
 434     mov             r3d, [tcq];
 435 %if %1 > 8
 436     shl              r3, %1 - 8
 437 %endif
 438     movd             m9, r3d; tc1
 439     add             r2d, r3d; tc0 + tc1
 440     jz             .bypassluma
 441     punpcklwd        m8, m8
 442     punpcklwd        m9, m9
 443     shufps           m8, m9, 0; tc0, tc1
 444     mova             m9, m8
 445     psllw            m8, 2; tc << 2
 446     pavgw            m8, m9; tc25 = ((tc * 5 + 1) >> 1)
 447     ;end tc25 calculations
 448
 449     ;----beta_3 comparison-----
 450     psubw           m12, m0, m3;      p3 - p0
 451     ABS1            m12, m14; abs(p3 - p0)
 452
 453     psubw           m15, m7, m4;      q3 - q0
 454     ABS1            m15, m14; abs(q3 - q0)
 455
 456     paddw           m12, m15; abs(p3 - p0) + abs(q3 - q0)
 457
 458     pshufhw         m12, m12, 0xf0 ;0b11110000;
 459     pshuflw         m12, m12, 0xf0 ;0b11110000;
 460
 461     psraw           m13, 3; beta >> 3
 462     pcmpgtw         m13, m12;
 463     movmskps         r2, m13;
 464     and             r14, r2; strong mask , beta_2 and beta_3 comparisons
 465     ;----beta_3 comparison end-----
 466     ;----tc25 comparison---
 467     psubw           m12, m3, m4;      p0 - q0
 468     ABS1            m12, m14; abs(p0 - q0)
 469
 470     pshufhw         m12, m12, 0xf0 ;0b11110000;
 471     pshuflw         m12, m12, 0xf0 ;0b11110000;
 472
 473     pcmpgtw          m8, m12; tc25 comparisons
 474     movmskps         r2, m8;
 475     and             r14, r2; strong mask, beta_2, beta_3 and tc25 comparisons
 476     ;----tc25 comparison end---
 477     mov              r2, r14;
 478     shr              r2, 1;
 479     and             r14, r2; strong mask, bits 2 and 0
 480
 481     pmullw          m14, m9, [pw_m2]; -tc * 2
 482     paddw            m9, m9
 483
 484     and             r14, 5; 0b101
 485     mov              r2, r14; strong mask
 486     shr             r14, 2;
 487     movd            m12, r14d; store to xmm for mask generation
 488     shl             r14, 1
 489     and              r2, 1
 490     movd            m10, r2d; store to xmm for mask generation
 491     or              r14, r2; final strong mask, bits 1 and 0
 492     jz      .weakfilter
 493
 494     shufps          m10, m12, 0
 495     pcmpeqd         m10, [pd_1]; strong mask
 496
 497     mova            m13, [pw_4]; 4 in every cell
 498     pand            m11, m10; combine filtering mask and strong mask
 499     paddw           m12, m2, m3;          p1 +   p0
 500     paddw           m12, m4;          p1 +   p0 +   q0
 501     mova            m10, m12; copy
 502     paddw           m12, m12;       2*p1 + 2*p0 + 2*q0
 503     paddw           m12, m1;   p2 + 2*p1 + 2*p0 + 2*q0
 504     paddw           m12, m5;   p2 + 2*p1 + 2*p0 + 2*q0 + q1
 505     paddw           m12, m13;  p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4
 506     psraw           m12, 3;  ((p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4) >> 3)
 507     psubw           m12, m3; ((p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4) >> 3) - p0
 508     pmaxsw          m12, m14
 509     pminsw          m12, m9; av_clip( , -2 * tc, 2 * tc)
 510     paddw           m12, m3; p0'
 511
 512     paddw           m15, m1, m10; p2 + p1 + p0 + q0
 513     psrlw           m13, 1; 2 in every cell
 514     paddw           m15, m13; p2 + p1 + p0 + q0 + 2
 515     psraw           m15, 2;  (p2 + p1 + p0 + q0 + 2) >> 2
 516     psubw           m15, m2;((p2 + p1 + p0 + q0 + 2) >> 2) - p1
 517     pmaxsw          m15, m14
 518     pminsw          m15, m9; av_clip( , -2 * tc, 2 * tc)
 519     paddw           m15, m2; p1'
 520
 521     paddw            m8, m1, m0;     p3 +   p2
 522     paddw            m8, m8;   2*p3 + 2*p2
 523     paddw            m8, m1;   2*p3 + 3*p2
 524     paddw            m8, m10;  2*p3 + 3*p2 + p1 + p0 + q0
 525     paddw           m13, m13
 526     paddw            m8, m13;  2*p3 + 3*p2 + p1 + p0 + q0 + 4
 527     psraw            m8, 3;   (2*p3 + 3*p2 + p1 + p0 + q0 + 4) >> 3
 528     psubw            m8, m1; ((2*p3 + 3*p2 + p1 + p0 + q0 + 4) >> 3) - p2
 529     pmaxsw           m8, m14
 530     pminsw           m8, m9; av_clip( , -2 * tc, 2 * tc)
 531     paddw            m8, m1; p2'
 532     MASKED_COPY      m1, m8
 533
 534     paddw            m8, m3, m4;         p0 +   q0
 535     paddw            m8, m5;         p0 +   q0 +   q1
 536     paddw            m8, m8;       2*p0 + 2*q0 + 2*q1
 537     paddw            m8, m2;  p1 + 2*p0 + 2*q0 + 2*q1
 538     paddw            m8, m6;  p1 + 2*p0 + 2*q0 + 2*q1 + q2
 539     paddw            m8, m13; p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4
 540     psraw            m8, 3;  (p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4) >>3
 541     psubw            m8, m4;
 542     pmaxsw           m8, m14
 543     pminsw           m8, m9; av_clip( , -2 * tc, 2 * tc)
 544     paddw            m8, m4; q0'
 545     MASKED_COPY      m2, m15
 546
 547     paddw           m15, m3, m4;   p0 + q0
 548     paddw           m15, m5;   p0 + q0 + q1
 549     mova            m10, m15;
 550     paddw           m15, m6;   p0 + q0 + q1 + q2
 551     psrlw           m13, 1; 2 in every cell
 552     paddw           m15, m13;  p0 + q0 + q1 + q2 + 2
 553     psraw           m15, 2;   (p0 + q0 + q1 + q2 + 2) >> 2
 554     psubw           m15, m5; ((p0 + q0 + q1 + q2 + 2) >> 2) - q1
 555     pmaxsw          m15, m14
 556     pminsw          m15, m9; av_clip( , -2 * tc, 2 * tc)
 557     paddw           m15, m5; q1'
 558
 559     paddw           m13, m7;      q3 + 2
 560     paddw           m13, m6;      q3 +  q2 + 2
 561     paddw           m13, m13;   2*q3 + 2*q2 + 4
 562     paddw           m13, m6;    2*q3 + 3*q2 + 4
 563     paddw           m13, m10;   2*q3 + 3*q2 + q1 + q0 + p0 + 4
 564     psraw           m13, 3;    (2*q3 + 3*q2 + q1 + q0 + p0 + 4) >> 3
 565     psubw           m13, m6;  ((2*q3 + 3*q2 + q1 + q0 + p0 + 4) >> 3) - q2
 566     pmaxsw          m13, m14
 567     pminsw          m13, m9; av_clip( , -2 * tc, 2 * tc)
 568     paddw           m13, m6; q2'
 569
 570     MASKED_COPY      m6, m13
 571     MASKED_COPY      m5, m15
 572     MASKED_COPY      m4, m8
 573     MASKED_COPY      m3, m12
 574
 575 .weakfilter:
 576     not             r14; strong mask -> weak mask
 577     and             r14, r13; final weak filtering mask, bits 0 and 1
 578     jz             .store
 579
 580     ; weak filtering mask
 581     mov              r2, r14
 582     shr              r2, 1
 583     movd            m12, r2d
 584     and             r14, 1
 585     movd            m11, r14d
 586     shufps          m11, m12, 0
 587     pcmpeqd         m11, [pd_1]; filtering mask
 588
 589     mov             r13, r11; beta0
 590     shr             r13, 1;
 591     add             r11, r13
 592     shr             r11, 3; ((beta0+(beta0>>1))>>3))
 593
 594     mov             r13, r12; beta1
 595     shr             r13, 1;
 596     add             r12, r13
 597     shr             r12, 3; ((beta1+(beta1>>1))>>3))
 598
 599     mova            m13, [pw_8]
 600     psubw           m12, m4, m3 ; q0 - p0
 601     psllw           m10, m12, 3; 8 * (q0 - p0)
 602     paddw           m12, m10 ; 9 * (q0 - p0)
 603
 604     psubw           m10, m5, m2 ; q1 - p1
 605     psllw            m8, m10, 1; 2 * ( q1 - p1 )
 606     paddw           m10, m8; 3 * ( q1 - p1 )
 607     psubw           m12, m10; 9 * (q0 - p0) - 3 * ( q1 - p1 )
 608     paddw           m12, m13; + 8
 609     psraw           m12, 4; >> 4 , delta0
 610     PABSW           m13, m12; abs(delta0)
 611
 612
 613     psllw           m10, m9, 2; 8 * tc
 614     paddw           m10, m9; 10 * tc
 615     pcmpgtw         m10, m13
 616     pand            m11, m10
 617
 618     psraw            m9, 1;   tc * 2 -> tc
 619     psraw           m14, 1; -tc * 2 -> -tc
 620
 621     pmaxsw          m12, m14
 622     pminsw          m12, m9;  av_clip(delta0, -tc, tc)
 623
 624     psraw            m9, 1;   tc -> tc / 2
 625     pmullw          m14, m9, [pw_m1]; -tc / 2
 626
 627     pavgw           m15, m1, m3;   (p2 + p0 + 1) >> 1
 628     psubw           m15, m2;  ((p2 + p0 + 1) >> 1) - p1
 629     paddw           m15, m12; ((p2 + p0 + 1) >> 1) - p1 + delta0
 630     psraw           m15, 1;   (((p2 + p0 + 1) >> 1) - p1 + delta0) >> 1
 631     pmaxsw          m15, m14
 632     pminsw          m15, m9; av_clip(deltap1, -tc/2, tc/2)
 633     paddw           m15, m2; p1'
 634
 635     ;beta calculations
 636     movd            m10, r11d; beta0
 637     punpcklwd       m10, m10
 638     movd            m13, r12d; beta1
 639     punpcklwd       m13, m13
 640     shufps          m10, m13, 0; betax0, betax1
 641
 642     movd            m13, r7d; 1dp0 + 1dp3
 643     movd             m8, r8d; 0dp0 + 0dp3
 644     punpcklwd        m8, m8
 645     punpcklwd       m13, m13
 646     shufps          m13, m8, 0;
 647     pcmpgtw          m8, m10, m13
 648     pand             m8, m11
 649     ;end beta calculations
 650     MASKED_COPY2     m2, m15, m8; write p1'
 651
 652     pavgw            m8, m6, m4;   (q2 + q0 + 1) >> 1
 653     psubw            m8, m5;  ((q2 + q0 + 1) >> 1) - q1
 654     psubw            m8, m12; ((q2 + q0 + 1) >> 1) - q1 - delta0)
 655     psraw            m8, 1;   ((q2 + q0 + 1) >> 1) - q1 - delta0) >> 1
 656     pmaxsw           m8, m14
 657     pminsw           m8, m9; av_clip(deltaq1, -tc/2, tc/2)
 658     paddw            m8, m5; q1'
 659
 660     movd            m13, r9d;
 661     movd            m15, r10d;
 662     punpcklwd       m15, m15
 663     punpcklwd       m13, m13
 664     shufps          m13, m15, 0; dq0 + dq3
 665
 666     pcmpgtw         m10, m13; compare to ((beta+(beta>>1))>>3)
 667     pand            m10, m11
 668     MASKED_COPY2     m5, m8, m10; write q1'
 669
 670     paddw           m15, m3, m12 ; p0 + delta0
 671     MASKED_COPY      m3, m15
 672
 673     psubw            m8, m4, m12 ; q0 - delta0
 674     MASKED_COPY      m4, m8
 675 %endmacro
 676
 677 INIT_XMM sse2
 678 ;-----------------------------------------------------------------------------
 679 ; void ff_hevc_v_loop_filter_chroma(uint8_t *_pix, ptrdiff_t _stride, int *_tc, uint8_t *_no_p, uint8_t *_no_q)
 680 ;-----------------------------------------------------------------------------
 681 cglobal hevc_v_loop_filter_chroma_8, 3, 5, 7, pix, stride, tc, pix0, r3stride
 682     sub            pixq, 2
 683     lea       r3strideq, [3*strideq]
 684     mov           pix0q, pixq
 685     add            pixq, r3strideq
 686     TRANSPOSE4x8B_LOAD  PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 687     CHROMA_DEBLOCK_BODY 8
 688     TRANSPOSE8x4B_STORE PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 689     RET
 690
 691 cglobal hevc_v_loop_filter_chroma_10, 3, 5, 7, pix, stride, tc, pix0, r3stride
 692     sub            pixq, 4
 693     lea       r3strideq, [3*strideq]
 694     mov           pix0q, pixq
 695     add            pixq, r3strideq
 696     TRANSPOSE4x8W_LOAD  PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 697     CHROMA_DEBLOCK_BODY 10
 698     TRANSPOSE8x4W_STORE PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 699     RET
 700
 701 ;-----------------------------------------------------------------------------
 702 ; void ff_hevc_h_loop_filter_chroma(uint8_t *_pix, ptrdiff_t _stride, int *_tc, uint8_t *_no_p, uint8_t *_no_q
 703 ;-----------------------------------------------------------------------------
 704 cglobal hevc_h_loop_filter_chroma_8, 3, 4, 7, pix, stride, tc, pix0
 705     mov           pix0q, pixq
 706     sub           pix0q, strideq
 707     sub           pix0q, strideq
 708     movq             m0, [pix0q];    p1
 709     movq             m1, [pix0q+strideq]; p0
 710     movq             m2, [pixq];    q0
 711     movq             m3, [pixq+strideq]; q1
 712     pxor             m5, m5; zeros reg
 713     punpcklbw        m0, m5
 714     punpcklbw        m1, m5
 715     punpcklbw        m2, m5
 716     punpcklbw        m3, m5
 717     CHROMA_DEBLOCK_BODY  8
 718     packuswb         m1, m1 ; p0' packed in bytes on low quadword
 719     packuswb         m2, m2 ; q0' packed in bytes on low quadword
 720     movq [pix0q+strideq], m1
 721     movq         [pixq], m2
 722     RET
 723
 724 cglobal hevc_h_loop_filter_chroma_10, 3, 4, 7, pix, stride, tc, pix0
 725     mov          pix0q, pixq
 726     sub          pix0q, strideq
 727     sub          pix0q, strideq
 728     movu            m0, [pix0q];    p1
 729     movu            m1, [pix0q+strideq]; p0
 730     movu            m2, [pixq];    q0
 731     movu            m3, [pixq+strideq]; q1
 732     CHROMA_DEBLOCK_BODY 10
 733     pxor            m5, m5; zeros reg
 734     CLIPW           m1, m5, [pw_pixel_max]
 735     CLIPW           m2, m5, [pw_pixel_max]
 736     movu [pix0q+strideq], m1
 737     movu        [pixq], m2
 738     RET
 739
 740 %if ARCH_X86_64
 741 %macro LOOP_FILTER_LUMA 0
 742 ;-----------------------------------------------------------------------------
 743 ;    void ff_hevc_v_loop_filter_luma(uint8_t *_pix, ptrdiff_t _stride, int *_beta, int *_tc, uint8_t *_no_p, uint8_t *_no_q);
 744 ;-----------------------------------------------------------------------------
 745 cglobal hevc_v_loop_filter_luma_8, 4, 15, 16, pix, stride, beta, tc
 746     sub              r0, 4
 747     lea              r5, [3 * r1]
 748     mov              r6, r0
 749     add              r0, r5
 750     TRANSPOSE8x8B_LOAD  PASS8ROWS(r6, r0, r1, r5)
 751     LUMA_DEBLOCK_BODY 8, v
 752 .store:
 753     TRANSPOSE8x8B_STORE PASS8ROWS(r6, r0, r1, r5)
 754 .bypassluma:
 755     RET
 756
 757 cglobal hevc_v_loop_filter_luma_10, 4, 15, 16, pix, stride, beta, tc
 758     sub            pixq, 8
 759     lea              r5, [3 * strideq]
 760     mov              r6, pixq
 761     add            pixq, r5
 762     TRANSPOSE8x8W_LOAD  PASS8ROWS(r6, pixq, strideq, r5)
 763     LUMA_DEBLOCK_BODY 10, v
 764 .store:
 765     TRANSPOSE8x8W_STORE PASS8ROWS(r6, r0, r1, r5)
 766 .bypassluma:
 767     RET
 768
 769 ;-----------------------------------------------------------------------------
 770 ;    void ff_hevc_h_loop_filter_luma(uint8_t *_pix, ptrdiff_t _stride, int *_beta, int *_tc, uint8_t *_no_p, uint8_t *_no_q);
 771 ;-----------------------------------------------------------------------------
 772 cglobal hevc_h_loop_filter_luma_8, 4, 15, 16, pix, stride, beta, tc, count, pix0, src3stride
 773     lea     src3strideq, [3 * strideq]
 774     mov           pix0q, pixq
 775     sub           pix0q, src3strideq
 776     sub           pix0q, strideq
 777     movdqu           m0, [pix0q];               p3
 778     movdqu           m1, [pix0q +     strideq]; p2
 779     movdqu           m2, [pix0q + 2 * strideq]; p1
 780     movdqu           m3, [pix0q + src3strideq]; p0
 781     movdqu           m4, [pixq];                q0
 782     movdqu           m5, [pixq +     strideq];  q1
 783     movdqu           m6, [pixq + 2 * strideq];  q2
 784     movdqu           m7, [pixq + src3strideq];  q3
 785     pxor             m8, m8
 786     punpcklbw        m0, m8
 787     punpcklbw        m1, m8
 788     punpcklbw        m2, m8
 789     punpcklbw        m3, m8
 790     punpcklbw        m4, m8
 791     punpcklbw        m5, m8
 792     punpcklbw        m6, m8
 793     punpcklbw        m7, m8
 794     LUMA_DEBLOCK_BODY 8, h
 795 .store:
 796     packuswb         m1, m1; p2
 797     packuswb         m2, m2; p1
 798     packuswb         m3, m3; p0
 799     packuswb         m4, m4; q0
 800     packuswb         m5, m5; q1
 801     packuswb         m6, m6; q2
 802     movq        [r5+r1], m1;  p2
 803     movq      [r5+2*r1], m2;  p1
 804     movq        [r5+r6], m3;  p0
 805     movq           [r0], m4;  q0
 806     movq        [r0+r1], m5;  q1
 807     movq      [r0+2*r1], m6;  q2
 808 .bypassluma:
 809     RET
 810
 811 cglobal hevc_h_loop_filter_luma_10, 4, 15, 16, pix, stride, beta, tc, count, pix0, src3stride
 812     lea                  src3strideq, [3 * strideq]
 813     mov                        pix0q, pixq
 814     sub                        pix0q, src3strideq
 815     sub                        pix0q, strideq
 816     movdqu                        m0, [pix0q];               p3
 817     movdqu                        m1, [pix0q +     strideq]; p2
 818     movdqu                        m2, [pix0q + 2 * strideq]; p1
 819     movdqu                        m3, [pix0q + src3strideq]; p0
 820     movdqu                        m4, [pixq];                q0
 821     movdqu                        m5, [pixq  +     strideq]; q1
 822     movdqu                        m6, [pixq  + 2 * strideq]; q2
 823     movdqu                        m7, [pixq  + src3strideq]; q3
 824     LUMA_DEBLOCK_BODY             10, h
 825 .store:
 826     pxor                          m8, m8; zeros reg
 827     CLIPW                         m1, m8, [pw_pixel_max]
 828     CLIPW                         m2, m8, [pw_pixel_max]
 829     CLIPW                         m3, m8, [pw_pixel_max]
 830     CLIPW                         m4, m8, [pw_pixel_max]
 831     CLIPW                         m5, m8, [pw_pixel_max]
 832     CLIPW                         m6, m8, [pw_pixel_max]
 833     movdqu     [pix0q +     strideq], m1;  p2
 834     movdqu     [pix0q + 2 * strideq], m2;  p1
 835     movdqu     [pix0q + src3strideq], m3;  p0
 836     movdqu     [pixq               ], m4;  q0
 837     movdqu     [pixq  +     strideq], m5;  q1
 838     movdqu     [pixq  + 2 * strideq], m6;  q2
 839 .bypassluma:
 840     RET
 841 %endmacro
 842
 843 INIT_XMM sse2
 844 LOOP_FILTER_LUMA
 845 INIT_XMM ssse3
 846 LOOP_FILTER_LUMA
 847 %endif