git.sesse.net Git - ffmpeg/blob - libavcodec/x86/vp9lpf.asm

   1 ;******************************************************************************
   2 ;* VP9 loop filter SIMD optimizations
   3 ;*
   4 ;* Copyright (C) 2013-2014 Clément Bœsch <u pkh me>
   5 ;* Copyright (C) 2014 Ronald S. Bultje <rsbultje@gmail.com>
   6 ;*
   7 ;* This file is part of FFmpeg.
   8 ;*
   9 ;* FFmpeg is free software; you can redistribute it and/or
  10 ;* modify it under the terms of the GNU Lesser General Public
  11 ;* License as published by the Free Software Foundation; either
  12 ;* version 2.1 of the License, or (at your option) any later version.
  13 ;*
  14 ;* FFmpeg is distributed in the hope that it will be useful,
  15 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  16 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  17 ;* Lesser General Public License for more details.
  18 ;*
  19 ;* You should have received a copy of the GNU Lesser General Public
  20 ;* License along with FFmpeg; if not, write to the Free Software
  21 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  22 ;******************************************************************************
  23
  24 %include "libavutil/x86/x86util.asm"
  25
  26 SECTION_RODATA
  27
  28 cextern pb_3
  29 cextern pb_80
  30
  31 pb_4:   times 16 db 0x04
  32 pb_10:  times 16 db 0x10
  33 pb_40:  times 16 db 0x40
  34 pb_81:  times 16 db 0x81
  35 pb_f8:  times 16 db 0xf8
  36 pb_fe:  times 16 db 0xfe
  37 pb_ff:  times 16 db 0xff
  38
  39 cextern pw_4
  40 cextern pw_8
  41
  42 ; with mix functions, two 8-bit thresholds are stored in a 16-bit storage,
  43 ; the following mask is used to splat both in the same register
  44 mask_mix: times 8 db 0
  45           times 8 db 1
  46
  47 mask_mix84: times 8 db 0xff
  48             times 8 db 0x00
  49 mask_mix48: times 8 db 0x00
  50             times 8 db 0xff
  51
  52 SECTION .text
  53
  54 %macro SCRATCH 3
  55 %ifdef m8
  56     SWAP                %1, %2
  57 %else
  58     mova              [%3], m%1
  59 %endif
  60 %endmacro
  61
  62 %macro UNSCRATCH 3
  63 %ifdef m8
  64     SWAP                %1, %2
  65 %else
  66     mova               m%1, [%3]
  67 %endif
  68 %endmacro
  69
  70 ; %1 = abs(%2-%3)
  71 %macro ABSSUB 4 ; dst, src1 (RO), src2 (RO), tmp
  72 %ifdef m8
  73     psubusb             %1, %3, %2
  74     psubusb             %4, %2, %3
  75 %else
  76     mova                %1, %3
  77     mova                %4, %2
  78     psubusb             %1, %2
  79     psubusb             %4, %3
  80 %endif
  81     por                 %1, %4
  82 %endmacro
  83
  84 ; %1 = %1>%2
  85 %macro CMP_GT 2-3 ; src/dst, cmp, pb_80
  86 %if %0 == 3
  87     pxor                %1, %3
  88 %endif
  89     pcmpgtb             %1, %2
  90 %endmacro
  91
  92 ; %1 = abs(%2-%3) > %4
  93 %macro ABSSUB_GT 5-6 [pb_80]; dst, src1, src2, cmp, tmp, [pb_80]
  94     ABSSUB              %1, %2, %3, %5      ; dst = abs(src1-src2)
  95     CMP_GT              %1, %4, %6          ; dst > cmp
  96 %endmacro
  97
  98 %macro MASK_APPLY 4 ; %1=new_data/dst %2=old_data %3=mask %4=tmp
  99     pand                %1, %3              ; new &= mask
 100     pandn               %4, %3, %2          ; tmp = ~mask & old
 101     por                 %1, %4              ; new&mask | old&~mask
 102 %endmacro
 103
 104 %macro UNPACK 4
 105 %ifdef m8
 106     punpck%1bw          %2, %3, %4
 107 %else
 108     mova                %2, %3
 109     punpck%1bw          %2, %4
 110 %endif
 111 %endmacro
 112
 113 %macro FILTER_SUBx2_ADDx2 11 ; %1=dst %2=h/l %3=cache %4=stack_off %5=sub1 %6=sub2 %7=add1
 114                              ; %8=add2 %9=rshift, [unpack], [unpack_is_mem_on_x86_32]
 115     psubw               %3, [rsp+%4+%5*mmsize*2]
 116     psubw               %3, [rsp+%4+%6*mmsize*2]
 117     paddw               %3, [rsp+%4+%7*mmsize*2]
 118 %ifnidn %10, ""
 119 %if %11 == 0
 120     punpck%2bw          %1, %10, m0
 121 %else
 122     UNPACK          %2, %1, %10, m0
 123 %endif
 124     mova [rsp+%4+%8*mmsize*2], %1
 125     paddw               %3, %1
 126 %else
 127     paddw               %3, [rsp+%4+%8*mmsize*2]
 128 %endif
 129     psraw               %1, %3, %9
 130 %endmacro
 131
 132 ; FIXME interleave l/h better (for instruction pairing)
 133 %macro FILTER_INIT 9 ; tmp1, tmp2, cacheL, cacheH, dstp, stack_off, filterid, mask, source
 134     FILTER%7_INIT       %1, l, %3, %6 +      0
 135     FILTER%7_INIT       %2, h, %4, %6 + mmsize
 136     packuswb            %1, %2
 137     MASK_APPLY          %1, %9, %8, %2
 138     mova                %5, %1
 139 %endmacro
 140
 141
 142 %macro FILTER_UPDATE 12-16 "", "", "", 0 ; tmp1, tmp2, cacheL, cacheH, dstp, stack_off, -, -, +, +, rshift,
 143                                          ; mask, [source], [unpack + src], [unpack_is_mem_on_x86_32]
 144 ; FIXME interleave this properly with the subx2/addx2
 145 %ifnidn %15, ""
 146 %if %16 == 0 || ARCH_X86_64
 147     mova               %14, %15
 148 %endif
 149 %endif
 150     FILTER_SUBx2_ADDx2  %1, l, %3, %6 +      0, %7, %8, %9, %10, %11, %14, %16
 151     FILTER_SUBx2_ADDx2  %2, h, %4, %6 + mmsize, %7, %8, %9, %10, %11, %14, %16
 152     packuswb            %1, %2
 153 %ifnidn %13, ""
 154     MASK_APPLY          %1, %13, %12, %2
 155 %else
 156     MASK_APPLY          %1, %5, %12, %2
 157 %endif
 158     mova                %5, %1
 159 %endmacro
 160
 161 %macro SRSHIFT3B_2X 4 ; reg1, reg2, [pb_10], tmp
 162     mova                %4, [pb_f8]
 163     pand                %1, %4
 164     pand                %2, %4
 165     psrlq               %1, 3
 166     psrlq               %2, 3
 167     pxor                %1, %3
 168     pxor                %2, %3
 169     psubb               %1, %3
 170     psubb               %2, %3
 171 %endmacro
 172
 173 %macro EXTRACT_POS_NEG 3 ; i8, neg, pos
 174     pxor                %3, %3
 175     pxor                %2, %2
 176     pcmpgtb             %3, %1                          ; i8 < 0 mask
 177     psubb               %2, %1                          ; neg values (only the originally - will be kept)
 178     pand                %2, %3                          ; negative values of i8 (but stored as +)
 179     pandn               %3, %1                          ; positive values of i8
 180 %endmacro
 181
 182 ; clip_u8(u8 + i8)
 183 %macro SIGN_ADD 4 ; dst, u8, i8, tmp1
 184     EXTRACT_POS_NEG     %3, %4, %1
 185     paddusb             %1, %2                          ; add the positives
 186     psubusb             %1, %4                          ; sub the negatives
 187 %endmacro
 188
 189 ; clip_u8(u8 - i8)
 190 %macro SIGN_SUB 4 ; dst, u8, i8, tmp1
 191     EXTRACT_POS_NEG     %3, %1, %4
 192     paddusb             %1, %2                          ; add the negatives
 193     psubusb             %1, %4                          ; sub the positives
 194 %endmacro
 195
 196 %macro FILTER6_INIT 4 ; %1=dst %2=h/l %3=cache, %4=stack_off
 197     UNPACK          %2, %1, rp3, m0                     ; p3: B->W
 198     mova [rsp+%4+0*mmsize*2], %1
 199     paddw               %3, %1, %1                      ; p3*2
 200     paddw               %3, %1                          ; p3*3
 201     punpck%2bw          %1, m1,  m0                     ; p2: B->W
 202     mova [rsp+%4+1*mmsize*2], %1
 203     paddw               %3, %1                          ; p3*3 + p2
 204     paddw               %3, %1                          ; p3*3 + p2*2
 205     UNPACK          %2, %1, rp1, m0                     ; p1: B->W
 206     mova [rsp+%4+2*mmsize*2], %1
 207     paddw               %3, %1                          ; p3*3 + p2*2 + p1
 208     UNPACK          %2, %1, rp0, m0                     ; p0: B->W
 209     mova [rsp+%4+3*mmsize*2], %1
 210     paddw               %3, %1                          ; p3*3 + p2*2 + p1 + p0
 211     UNPACK          %2, %1, rq0, m0                     ; q0: B->W
 212     mova [rsp+%4+4*mmsize*2], %1
 213     paddw               %3, %1                          ; p3*3 + p2*2 + p1 + p0 + q0
 214     paddw               %3, [pw_4]                      ; p3*3 + p2*2 + p1 + p0 + q0 + 4
 215     psraw               %1, %3, 3                       ; (p3*3 + p2*2 + p1 + p0 + q0 + 4) >> 3
 216 %endmacro
 217
 218 %macro FILTER14_INIT 4 ; %1=dst %2=h/l %3=cache, %4=stack_off
 219     punpck%2bw          %1, m2, m0                      ; p7: B->W
 220     mova [rsp+%4+ 8*mmsize*2], %1
 221     psllw               %3, %1, 3                       ; p7*8
 222     psubw               %3, %1                          ; p7*7
 223     punpck%2bw          %1, m3, m0                      ; p6: B->W
 224     mova [rsp+%4+ 9*mmsize*2], %1
 225     paddw               %3, %1                          ; p7*7 + p6
 226     paddw               %3, %1                          ; p7*7 + p6*2
 227     UNPACK          %2, %1, rp5, m0                     ; p5: B->W
 228     mova [rsp+%4+10*mmsize*2], %1
 229     paddw               %3, %1                          ; p7*7 + p6*2 + p5
 230     UNPACK          %2, %1, rp4, m0                     ; p4: B->W
 231     mova [rsp+%4+11*mmsize*2], %1
 232     paddw               %3, %1                          ; p7*7 + p6*2 + p5 + p4
 233     paddw               %3, [rsp+%4+ 0*mmsize*2]        ; p7*7 + p6*2 + p5 + p4 + p3
 234     paddw               %3, [rsp+%4+ 1*mmsize*2]        ; p7*7 + p6*2 + p5 + .. + p2
 235     paddw               %3, [rsp+%4+ 2*mmsize*2]        ; p7*7 + p6*2 + p5 + .. + p1
 236     paddw               %3, [rsp+%4+ 3*mmsize*2]        ; p7*7 + p6*2 + p5 + .. + p0
 237     paddw               %3, [rsp+%4+ 4*mmsize*2]        ; p7*7 + p6*2 + p5 + .. + p0 + q0
 238     paddw               %3, [pw_8]                      ; p7*7 + p6*2 + p5 + .. + p0 + q0 + 8
 239     psraw               %1, %3, 4                       ; (p7*7 + p6*2 + p5 + .. + p0 + q0 + 8) >> 4
 240 %endmacro
 241
 242 %macro TRANSPOSE16x16B 17
 243     mova %17, m%16
 244     SBUTTERFLY bw,  %1,  %2,  %16
 245     SBUTTERFLY bw,  %3,  %4,  %16
 246     SBUTTERFLY bw,  %5,  %6,  %16
 247     SBUTTERFLY bw,  %7,  %8,  %16
 248     SBUTTERFLY bw,  %9,  %10, %16
 249     SBUTTERFLY bw,  %11, %12, %16
 250     SBUTTERFLY bw,  %13, %14, %16
 251     mova m%16,  %17
 252     mova  %17, m%14
 253     SBUTTERFLY bw,  %15, %16, %14
 254     SBUTTERFLY wd,  %1,  %3,  %14
 255     SBUTTERFLY wd,  %2,  %4,  %14
 256     SBUTTERFLY wd,  %5,  %7,  %14
 257     SBUTTERFLY wd,  %6,  %8,  %14
 258     SBUTTERFLY wd,  %9,  %11, %14
 259     SBUTTERFLY wd,  %10, %12, %14
 260     SBUTTERFLY wd,  %13, %15, %14
 261     mova m%14,  %17
 262     mova  %17, m%12
 263     SBUTTERFLY wd,  %14, %16, %12
 264     SBUTTERFLY dq,  %1,  %5,  %12
 265     SBUTTERFLY dq,  %2,  %6,  %12
 266     SBUTTERFLY dq,  %3,  %7,  %12
 267     SBUTTERFLY dq,  %4,  %8,  %12
 268     SBUTTERFLY dq,  %9,  %13, %12
 269     SBUTTERFLY dq,  %10, %14, %12
 270     SBUTTERFLY dq,  %11, %15, %12
 271     mova m%12, %17
 272     mova  %17, m%8
 273     SBUTTERFLY dq,  %12, %16, %8
 274     SBUTTERFLY qdq, %1,  %9,  %8
 275     SBUTTERFLY qdq, %2,  %10, %8
 276     SBUTTERFLY qdq, %3,  %11, %8
 277     SBUTTERFLY qdq, %4,  %12, %8
 278     SBUTTERFLY qdq, %5,  %13, %8
 279     SBUTTERFLY qdq, %6,  %14, %8
 280     SBUTTERFLY qdq, %7,  %15, %8
 281     mova m%8, %17
 282     mova %17, m%1
 283     SBUTTERFLY qdq, %8,  %16, %1
 284     mova m%1, %17
 285     SWAP %2,  %9
 286     SWAP %3,  %5
 287     SWAP %4,  %13
 288     SWAP %6,  %11
 289     SWAP %8,  %15
 290     SWAP %12, %14
 291 %endmacro
 292
 293 %macro TRANSPOSE8x8B 13
 294     SBUTTERFLY bw,  %1, %2, %7
 295     movdq%10 m%7, %9
 296     movdqa %11, m%2
 297     SBUTTERFLY bw,  %3, %4, %2
 298     SBUTTERFLY bw,  %5, %6, %2
 299     SBUTTERFLY bw,  %7, %8, %2
 300     SBUTTERFLY wd,  %1, %3, %2
 301     movdqa m%2, %11
 302     movdqa %11, m%3
 303     SBUTTERFLY wd,  %2, %4, %3
 304     SBUTTERFLY wd,  %5, %7, %3
 305     SBUTTERFLY wd,  %6, %8, %3
 306     SBUTTERFLY dq, %1, %5, %3
 307     SBUTTERFLY dq, %2, %6, %3
 308     movdqa m%3, %11
 309     movh   %12, m%2
 310     movhps %13, m%2
 311     SBUTTERFLY dq, %3, %7, %2
 312     SBUTTERFLY dq, %4, %8, %2
 313     SWAP %2, %5
 314     SWAP %4, %7
 315 %endmacro
 316
 317 %macro DEFINE_REAL_P7_TO_Q7 0-1 0
 318 %define P7 dstq  + 4*mstrideq  + %1
 319 %define P6 dstq  +   mstride3q + %1
 320 %define P5 dstq  + 2*mstrideq  + %1
 321 %define P4 dstq  +   mstrideq  + %1
 322 %define P3 dstq                + %1
 323 %define P2 dstq  +    strideq  + %1
 324 %define P1 dstq  + 2* strideq  + %1
 325 %define P0 dstq  +    stride3q + %1
 326 %define Q0 dstq  + 4* strideq  + %1
 327 %define Q1 dst2q +   mstride3q + %1
 328 %define Q2 dst2q + 2*mstrideq  + %1
 329 %define Q3 dst2q +   mstrideq  + %1
 330 %define Q4 dst2q               + %1
 331 %define Q5 dst2q +    strideq  + %1
 332 %define Q6 dst2q + 2* strideq  + %1
 333 %define Q7 dst2q +    stride3q + %1
 334 %endmacro
 335
 336 %macro DEFINE_TRANSPOSED_P7_TO_Q7 0-1 0
 337 %define P3 rsp +  0*mmsize + %1
 338 %define P2 rsp +  1*mmsize + %1
 339 %define P1 rsp +  2*mmsize + %1
 340 %define P0 rsp +  3*mmsize + %1
 341 %define Q0 rsp +  4*mmsize + %1
 342 %define Q1 rsp +  5*mmsize + %1
 343 %define Q2 rsp +  6*mmsize + %1
 344 %define Q3 rsp +  7*mmsize + %1
 345 %if mmsize == 16
 346 %define P7 rsp +  8*mmsize + %1
 347 %define P6 rsp +  9*mmsize + %1
 348 %define P5 rsp + 10*mmsize + %1
 349 %define P4 rsp + 11*mmsize + %1
 350 %define Q4 rsp + 12*mmsize + %1
 351 %define Q5 rsp + 13*mmsize + %1
 352 %define Q6 rsp + 14*mmsize + %1
 353 %define Q7 rsp + 15*mmsize + %1
 354 %endif
 355 %endmacro
 356
 357 ; ..............AB -> AAAAAAAABBBBBBBB
 358 %macro SPLATB_MIX 1-2 [mask_mix]
 359 %if cpuflag(ssse3)
 360     pshufb     %1, %2
 361 %else
 362     punpcklbw  %1, %1
 363     punpcklwd  %1, %1
 364     punpckldq  %1, %1
 365 %endif
 366 %endmacro
 367
 368 %macro LOOPFILTER 5 ; %1=v/h %2=size1 %3+%4=stack, %5=mmx/32bit stack only
 369 %assign %%ext 0
 370 %if ARCH_X86_32 || mmsize == 8
 371 %assign %%ext %5
 372 %endif
 373
 374 %if UNIX64
 375 cglobal vp9_loop_filter_%1_%2_ %+ mmsize, 5, 9, 16, %3 + %4 + %%ext, dst, stride, E, I, H, mstride, dst2, stride3, mstride3
 376 %else
 377 %if WIN64
 378 cglobal vp9_loop_filter_%1_%2_ %+ mmsize, 4, 8, 16, %3 + %4 + %%ext, dst, stride, E, I, mstride, dst2, stride3, mstride3
 379 %else
 380 cglobal vp9_loop_filter_%1_%2_ %+ mmsize, 2, 6, 16, %3 + %4 + %%ext, dst, stride, mstride, dst2, stride3, mstride3
 381 %define Ed dword r2m
 382 %define Id dword r3m
 383 %endif
 384 %define Hd dword r4m
 385 %endif
 386
 387     mov               mstrideq, strideq
 388     neg               mstrideq
 389
 390     lea               stride3q, [strideq*3]
 391     lea              mstride3q, [mstrideq*3]
 392
 393 %ifidn %1, h
 394 %if %2 != 16
 395 %if mmsize == 16
 396 %define movx movh
 397 %else
 398 %define movx mova
 399 %endif
 400     lea                   dstq, [dstq + 4*strideq - 4]
 401 %else
 402 %define movx movu
 403     lea                   dstq, [dstq + 4*strideq - 8] ; go from top center (h pos) to center left (v pos)
 404 %endif
 405 %else
 406     lea                   dstq, [dstq + 4*mstrideq]
 407 %endif
 408     ; FIXME we shouldn't need two dts registers if mmsize == 8
 409     lea                  dst2q, [dstq + 8*strideq]
 410
 411     DEFINE_REAL_P7_TO_Q7
 412
 413 %ifidn %1, h
 414     movx                    m0, [P7]
 415     movx                    m1, [P6]
 416     movx                    m2, [P5]
 417     movx                    m3, [P4]
 418     movx                    m4, [P3]
 419     movx                    m5, [P2]
 420 %if (ARCH_X86_64 && mmsize == 16) || %2 > 16
 421     movx                    m6, [P1]
 422 %endif
 423     movx                    m7, [P0]
 424 %ifdef m8
 425     movx                    m8, [Q0]
 426     movx                    m9, [Q1]
 427     movx                   m10, [Q2]
 428     movx                   m11, [Q3]
 429     movx                   m12, [Q4]
 430     movx                   m13, [Q5]
 431     movx                   m14, [Q6]
 432     movx                   m15, [Q7]
 433     DEFINE_TRANSPOSED_P7_TO_Q7
 434 %if %2 == 16
 435     TRANSPOSE16x16B 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, [rsp]
 436     mova           [P7],  m0
 437     mova           [P6],  m1
 438     mova           [P5],  m2
 439     mova           [P4],  m3
 440 %else ; %2 == 44/48/84/88
 441     ; 8x16 transpose
 442     punpcklbw        m0,  m1
 443     punpcklbw        m2,  m3
 444     punpcklbw        m4,  m5
 445     punpcklbw        m6,  m7
 446     punpcklbw        m8,  m9
 447     punpcklbw       m10, m11
 448     punpcklbw       m12, m13
 449     punpcklbw       m14, m15
 450     TRANSPOSE8x8W     0, 2, 4, 6, 8, 10, 12, 14, 15
 451     SWAP              0,  4
 452     SWAP              2,  5
 453     SWAP              0,  6
 454     SWAP              0,  7
 455     SWAP             10,  9
 456     SWAP             12, 10
 457     SWAP             14, 11
 458 %endif ; %2
 459     mova           [P3],  m4
 460     mova           [P2],  m5
 461     mova           [P1],  m6
 462     mova           [P0],  m7
 463     mova           [Q0],  m8
 464     mova           [Q1],  m9
 465     mova           [Q2], m10
 466     mova           [Q3], m11
 467 %if %2 == 16
 468     mova           [Q4], m12
 469     mova           [Q5], m13
 470     mova           [Q6], m14
 471     mova           [Q7], m15
 472 %endif ; %2
 473 %else ; x86-32
 474 %if %2 == 16
 475     TRANSPOSE8x8B    0, 1, 2, 3, 4, 5, 6, 7, [P1], u, [rsp+%3+%4], [rsp+64], [rsp+80]
 476     DEFINE_TRANSPOSED_P7_TO_Q7
 477     movh          [P7], m0
 478     movh          [P5], m1
 479     movh          [P3], m2
 480     movh          [P1], m3
 481     movh          [Q2], m5
 482     movh          [Q4], m6
 483     movh          [Q6], m7
 484     movhps        [P6], m0
 485     movhps        [P4], m1
 486     movhps        [P2], m2
 487     movhps        [P0], m3
 488     movhps        [Q3], m5
 489     movhps        [Q5], m6
 490     movhps        [Q7], m7
 491     DEFINE_REAL_P7_TO_Q7
 492     movx                    m0, [Q0]
 493     movx                    m1, [Q1]
 494     movx                    m2, [Q2]
 495     movx                    m3, [Q3]
 496     movx                    m4, [Q4]
 497     movx                    m5, [Q5]
 498     movx                    m7, [Q7]
 499     TRANSPOSE8x8B 0, 1, 2, 3, 4, 5, 6, 7, [Q6], u, [rsp+%3+%4], [rsp+72], [rsp+88]
 500     DEFINE_TRANSPOSED_P7_TO_Q7 8
 501     movh          [P7], m0
 502     movh          [P5], m1
 503     movh          [P3], m2
 504     movh          [P1], m3
 505     movh          [Q2], m5
 506     movh          [Q4], m6
 507     movh          [Q6], m7
 508     movhps        [P6], m0
 509     movhps        [P4], m1
 510     movhps        [P2], m2
 511     movhps        [P0], m3
 512     movhps        [Q3], m5
 513     movhps        [Q5], m6
 514     movhps        [Q7], m7
 515     DEFINE_TRANSPOSED_P7_TO_Q7
 516 %elif %2 > 16 ; %2 == 44/48/84/88
 517     punpcklbw        m0, m1
 518     punpcklbw        m2, m3
 519     punpcklbw        m4, m5
 520     punpcklbw        m6, m7
 521     movx             m1, [Q0]
 522     movx             m3, [Q1]
 523     movx             m5, [Q2]
 524     movx             m7, [Q3]
 525     punpcklbw        m1, m3
 526     punpcklbw        m5, m7
 527     movx             m3, [Q4]
 528     movx             m7, [Q5]
 529     punpcklbw        m3, m7
 530     mova          [rsp], m3
 531     movx             m3, [Q6]
 532     movx             m7, [Q7]
 533     punpcklbw        m3, m7
 534     DEFINE_TRANSPOSED_P7_TO_Q7
 535     TRANSPOSE8x8W     0, 2, 4, 6, 1, 5, 7, 3, [rsp], [Q0], 1
 536     mova           [P3],  m0
 537     mova           [P2],  m2
 538     mova           [P1],  m4
 539     mova           [P0],  m6
 540     mova           [Q1],  m5
 541     mova           [Q2],  m7
 542     mova           [Q3],  m3
 543 %else ; %2 == 4 || %2 == 8
 544     SBUTTERFLY       bw, 0, 1, 6
 545     SBUTTERFLY       bw, 2, 3, 6
 546     SBUTTERFLY       bw, 4, 5, 6
 547     mova [rsp+4*mmsize], m5
 548     mova             m6, [P1]
 549     SBUTTERFLY       bw, 6, 7, 5
 550     DEFINE_TRANSPOSED_P7_TO_Q7
 551     TRANSPOSE4x4W     0, 2, 4, 6, 5
 552     mova           [P3], m0
 553     mova           [P2], m2
 554     mova           [P1], m4
 555     mova           [P0], m6
 556     mova             m5, [rsp+4*mmsize]
 557     TRANSPOSE4x4W     1, 3, 5, 7, 0
 558     mova           [Q0], m1
 559     mova           [Q1], m3
 560     mova           [Q2], m5
 561     mova           [Q3], m7
 562 %endif ; %2
 563 %endif ; x86-32/64
 564 %endif ; %1 == h
 565
 566     ; calc fm mask
 567 %if %2 == 16 || mmsize == 8
 568 %if cpuflag(ssse3)
 569     pxor                m0, m0
 570 %endif
 571     SPLATB_REG          m2, I, m0                       ; I I I I ...
 572     SPLATB_REG          m3, E, m0                       ; E E E E ...
 573 %else
 574 %if cpuflag(ssse3)
 575     mova                m0, [mask_mix]
 576 %endif
 577     movd                m2, Id
 578     movd                m3, Ed
 579     SPLATB_MIX          m2, m0
 580     SPLATB_MIX          m3, m0
 581 %endif
 582     mova                m0, [pb_80]
 583     pxor                m2, m0
 584     pxor                m3, m0
 585 %ifdef m8
 586 %ifidn %1, v
 587     mova                m8, [P3]
 588     mova                m9, [P2]
 589     mova               m10, [P1]
 590     mova               m11, [P0]
 591     mova               m12, [Q0]
 592     mova               m13, [Q1]
 593     mova               m14, [Q2]
 594     mova               m15, [Q3]
 595 %else
 596     ; In case of horizontal, P3..Q3 are already present in some registers due
 597     ; to the previous transpose, so we just swap registers.
 598     SWAP                 8,  4, 12
 599     SWAP                 9,  5, 13
 600     SWAP                10,  6, 14
 601     SWAP                11,  7, 15
 602 %endif
 603 %define rp3 m8
 604 %define rp2 m9
 605 %define rp1 m10
 606 %define rp0 m11
 607 %define rq0 m12
 608 %define rq1 m13
 609 %define rq2 m14
 610 %define rq3 m15
 611 %else
 612 %define rp3 [P3]
 613 %define rp2 [P2]
 614 %define rp1 [P1]
 615 %define rp0 [P0]
 616 %define rq0 [Q0]
 617 %define rq1 [Q1]
 618 %define rq2 [Q2]
 619 %define rq3 [Q3]
 620 %endif
 621     ABSSUB_GT           m5, rp3, rp2, m2, m7, m0        ; m5 = abs(p3-p2) <= I
 622     ABSSUB_GT           m1, rp2, rp1, m2, m7, m0        ; m1 = abs(p2-p1) <= I
 623     por                 m5, m1
 624     ABSSUB_GT           m1, rp1, rp0, m2, m7, m0        ; m1 = abs(p1-p0) <= I
 625     por                 m5, m1
 626     ABSSUB_GT           m1, rq0, rq1, m2, m7, m0        ; m1 = abs(q1-q0) <= I
 627     por                 m5, m1
 628     ABSSUB_GT           m1, rq1, rq2, m2, m7, m0        ; m1 = abs(q2-q1) <= I
 629     por                 m5, m1
 630     ABSSUB_GT           m1, rq2, rq3, m2, m7, m0        ; m1 = abs(q3-q2) <= I
 631     por                 m5, m1
 632     ABSSUB              m1, rp0, rq0, m7                ; abs(p0-q0)
 633     paddusb             m1, m1                          ; abs(p0-q0) * 2
 634     ABSSUB              m2, rp1, rq1, m7                ; abs(p1-q1)
 635     pand                m2, [pb_fe]                     ; drop lsb so shift can work
 636     psrlq               m2, 1                           ; abs(p1-q1)/2
 637     paddusb             m1, m2                          ; abs(p0-q0)*2 + abs(p1-q1)/2
 638     pxor                m1, m0
 639     pcmpgtb             m1, m3
 640     por                 m1, m5                          ; fm final value
 641     SWAP                 1, 3
 642     pxor                m3, [pb_ff]
 643
 644     ; (m3: fm, m8..15: p3 p2 p1 p0 q0 q1 q2 q3)
 645     ; calc flat8in (if not 44_16) and hev masks
 646 %if %2 != 44 && %2 != 4
 647     mova                m6, [pb_81]                     ; [1 1 1 1 ...] ^ 0x80
 648     ABSSUB_GT           m2, rp3, rp0, m6, m5            ; abs(p3 - p0) <= 1
 649 %ifdef m8
 650     mova                m8, [pb_80]
 651 %define rb80 m8
 652 %else
 653 %define rb80 [pb_80]
 654 %endif
 655     ABSSUB_GT           m1, rp2, rp0, m6, m5, rb80      ; abs(p2 - p0) <= 1
 656     por                 m2, m1
 657     ABSSUB              m4, rp1, rp0, m5                ; abs(p1 - p0)
 658 %if %2 <= 16
 659 %if cpuflag(ssse3)
 660     pxor                m0, m0
 661 %endif
 662     SPLATB_REG          m7, H, m0                       ; H H H H ...
 663 %else
 664     movd                m7, Hd
 665     SPLATB_MIX          m7
 666 %endif
 667     pxor                m7, rb80
 668     pxor                m4, rb80
 669     pcmpgtb             m0, m4, m7                      ; abs(p1 - p0) > H (1/2 hev condition)
 670     CMP_GT              m4, m6                          ; abs(p1 - p0) <= 1
 671     por                 m2, m4                          ; (flat8in)
 672     ABSSUB              m4, rq1, rq0, m1                ; abs(q1 - q0)
 673     pxor                m4, rb80
 674     pcmpgtb             m5, m4, m7                      ; abs(q1 - q0) > H (2/2 hev condition)
 675     por                 m0, m5                          ; hev final value
 676     CMP_GT              m4, m6                          ; abs(q1 - q0) <= 1
 677     por                 m2, m4                          ; (flat8in)
 678     ABSSUB_GT           m1, rq2, rq0, m6, m5, rb80      ; abs(q2 - q0) <= 1
 679     por                 m2, m1
 680     ABSSUB_GT           m1, rq3, rq0, m6, m5, rb80      ; abs(q3 - q0) <= 1
 681     por                 m2, m1                          ; flat8in final value
 682     pxor                m2, [pb_ff]
 683 %if %2 == 84 || %2 == 48
 684     pand                m2, [mask_mix%2]
 685 %endif
 686 %else
 687     mova                m6, [pb_80]
 688 %if %2 == 44
 689     movd                m7, Hd
 690     SPLATB_MIX          m7
 691 %else
 692 %if cpuflag(ssse3)
 693     pxor                m0, m0
 694 %endif
 695     SPLATB_REG          m7, H, m0                       ; H H H H ...
 696 %endif
 697     pxor                m7, m6
 698     ABSSUB              m4, rp1, rp0, m1                ; abs(p1 - p0)
 699     pxor                m4, m6
 700     pcmpgtb             m0, m4, m7                      ; abs(p1 - p0) > H (1/2 hev condition)
 701     ABSSUB              m4, rq1, rq0, m1                ; abs(q1 - q0)
 702     pxor                m4, m6
 703     pcmpgtb             m5, m4, m7                      ; abs(q1 - q0) > H (2/2 hev condition)
 704     por                 m0, m5                          ; hev final value
 705 %endif
 706
 707 %if %2 == 16
 708     ; (m0: hev, m2: flat8in, m3: fm, m6: pb_81, m9..15: p2 p1 p0 q0 q1 q2 q3)
 709     ; calc flat8out mask
 710 %ifdef m8
 711     mova                m8, [P7]
 712     mova                m9, [P6]
 713 %define rp7 m8
 714 %define rp6 m9
 715 %else
 716 %define rp7 [P7]
 717 %define rp6 [P6]
 718 %endif
 719     ABSSUB_GT           m1, rp7, rp0, m6, m5            ; abs(p7 - p0) <= 1
 720     ABSSUB_GT           m7, rp6, rp0, m6, m5            ; abs(p6 - p0) <= 1
 721     por                 m1, m7
 722 %ifdef m8
 723     mova                m8, [P5]
 724     mova                m9, [P4]
 725 %define rp5 m8
 726 %define rp4 m9
 727 %else
 728 %define rp5 [P5]
 729 %define rp4 [P4]
 730 %endif
 731     ABSSUB_GT           m7, rp5, rp0, m6, m5            ; abs(p5 - p0) <= 1
 732     por                 m1, m7
 733     ABSSUB_GT           m7, rp4, rp0, m6, m5            ; abs(p4 - p0) <= 1
 734     por                 m1, m7
 735 %ifdef m8
 736     mova                m14, [Q4]
 737     mova                m15, [Q5]
 738 %define rq4 m14
 739 %define rq5 m15
 740 %else
 741 %define rq4 [Q4]
 742 %define rq5 [Q5]
 743 %endif
 744     ABSSUB_GT           m7, rq4, rq0, m6, m5            ; abs(q4 - q0) <= 1
 745     por                 m1, m7
 746     ABSSUB_GT           m7, rq5, rq0, m6, m5            ; abs(q5 - q0) <= 1
 747     por                 m1, m7
 748 %ifdef m8
 749     mova                m14, [Q6]
 750     mova                m15, [Q7]
 751 %define rq6 m14
 752 %define rq7 m15
 753 %else
 754 %define rq6 [Q6]
 755 %define rq7 [Q7]
 756 %endif
 757     ABSSUB_GT           m7, rq6, rq0, m6, m5            ; abs(q4 - q0) <= 1
 758     por                 m1, m7
 759     ABSSUB_GT           m7, rq7, rq0, m6, m5            ; abs(q5 - q0) <= 1
 760     por                 m1, m7                          ; flat8out final value
 761     pxor                m1, [pb_ff]
 762 %endif
 763
 764     ; if (fm) {
 765     ;     if (out && in) filter_14()
 766     ;     else if (in)   filter_6()
 767     ;     else if (hev)  filter_2()
 768     ;     else           filter_4()
 769     ; }
 770     ;
 771     ; f14:                                                                            fm &  out &  in
 772     ; f6:  fm & ~f14 & in        => fm & ~(out & in) & in                          => fm & ~out &  in
 773     ; f2:  fm & ~f14 & ~f6 & hev => fm & ~(out & in) & ~(~out & in) & hev          => fm &  ~in &  hev
 774     ; f4:  fm & ~f14 & ~f6 & ~f2 => fm & ~(out & in) & ~(~out & in) & ~(~in & hev) => fm &  ~in & ~hev
 775
 776     ; (m0: hev, [m1: flat8out], [m2: flat8in], m3: fm, m8..15: p5 p4 p1 p0 q0 q1 q6 q7)
 777     ; filter2()
 778 %if %2 != 44 && %2 != 4
 779     mova                m6, [pb_80]                     ; already in m6 if 44_16
 780     SCRATCH              2, 15, rsp+%3+%4
 781 %if %2 == 16
 782     SCRATCH              1,  8, rsp+%3+%4+16
 783 %endif
 784 %endif
 785     pxor                m2, m6, rq0                     ; q0 ^ 0x80
 786     pxor                m4, m6, rp0                     ; p0 ^ 0x80
 787     psubsb              m2, m4                          ; (signed) q0 - p0
 788     pxor                m4, m6, rp1                     ; p1 ^ 0x80
 789     pxor                m5, m6, rq1                     ; q1 ^ 0x80
 790     psubsb              m4, m5                          ; (signed) p1 - q1
 791     paddsb              m4, m2                          ;   (q0 - p0) + (p1 - q1)
 792     paddsb              m4, m2                          ; 2*(q0 - p0) + (p1 - q1)
 793     paddsb              m4, m2                          ; 3*(q0 - p0) + (p1 - q1)
 794     paddsb              m6, m4, [pb_4]                  ; m6: f1 = clip(f + 4, 127)
 795     paddsb              m4, [pb_3]                      ; m4: f2 = clip(f + 3, 127)
 796 %ifdef m8
 797     mova                m14, [pb_10]                    ; will be reused in filter4()
 798 %define rb10 m14
 799 %else
 800 %define rb10 [pb_10]
 801 %endif
 802     SRSHIFT3B_2X        m6, m4, rb10, m7                ; f1 and f2 sign byte shift by 3
 803     SIGN_SUB            m7, rq0, m6, m5                 ; m7 = q0 - f1
 804     SIGN_ADD            m1, rp0, m4, m5                 ; m1 = p0 + f2
 805 %if %2 != 44 && %2 != 4
 806 %ifdef m8
 807     pandn               m6, m15, m3                     ;  ~mask(in) & mask(fm)
 808 %else
 809     mova                m6, [rsp+%3+%4]
 810     pandn               m6, m3
 811 %endif
 812     pand                m6, m0                          ; (~mask(in) & mask(fm)) & mask(hev)
 813 %else
 814     pand                m6, m3, m0
 815 %endif
 816     MASK_APPLY          m7, rq0, m6, m5                 ; m7 = filter2(q0) & mask / we write it in filter4()
 817     MASK_APPLY          m1, rp0, m6, m5                 ; m1 = filter2(p0) & mask / we write it in filter4()
 818
 819     ; (m0: hev, m1: p0', m2: q0-p0, m3: fm, m7: q0', [m8: flat8out], m10..13: p1 p0 q0 q1, m14: pb_10, [m15: flat8in], )
 820     ; filter4()
 821     mova                m4, m2
 822     paddsb              m2, m4                          ; 2 * (q0 - p0)
 823     paddsb              m2, m4                          ; 3 * (q0 - p0)
 824     paddsb              m6, m2, [pb_4]                  ; m6:  f1 = clip(f + 4, 127)
 825     paddsb              m2, [pb_3]                      ; m2: f2 = clip(f + 3, 127)
 826     SRSHIFT3B_2X        m6, m2, rb10, m4                ; f1 and f2 sign byte shift by 3
 827 %if %2 != 44 && %2 != 4
 828 %ifdef m8
 829     pandn               m5, m15, m3                     ;               ~mask(in) & mask(fm)
 830 %else
 831     mova                m5, [rsp+%3+%4]
 832     pandn               m5, m3
 833 %endif
 834     pandn               m0, m5                          ; ~mask(hev) & (~mask(in) & mask(fm))
 835 %else
 836     pandn               m0, m3
 837 %endif
 838     SIGN_SUB            m5, rq0, m6, m4                 ; q0 - f1
 839     MASK_APPLY          m5, m7, m0, m4                  ; filter4(q0) & mask
 840     mova                [Q0], m5
 841     SIGN_ADD            m7, rp0, m2, m4                 ; p0 + f2
 842     MASK_APPLY          m7, m1, m0, m4                  ; filter4(p0) & mask
 843     mova                [P0], m7
 844     paddb               m6, [pb_80]                     ;
 845     pxor                m1, m1                          ;   f=(f1+1)>>1
 846     pavgb               m6, m1                          ;
 847     psubb               m6, [pb_40]                     ;
 848     SIGN_ADD            m1, rp1, m6, m2                 ; p1 + f
 849     SIGN_SUB            m4, rq1, m6, m2                 ; q1 - f
 850     MASK_APPLY          m1, rp1, m0, m2                 ; m1 = filter4(p1)
 851     MASK_APPLY          m4, rq1, m0, m2                 ; m4 = filter4(q1)
 852     mova                [P1], m1
 853     mova                [Q1], m4
 854
 855 %if %2 != 44 && %2 != 4
 856     UNSCRATCH            2, 15, rsp+%3+%4
 857 %endif
 858
 859     ; ([m1: flat8out], m2: flat8in, m3: fm, m10..13: p1 p0 q0 q1)
 860     ; filter6()
 861 %if %2 != 44 && %2 != 4
 862     pxor                m0, m0
 863 %if %2 != 16
 864     pand                m3, m2
 865 %else
 866     pand                m2, m3                          ;               mask(fm) & mask(in)
 867 %ifdef m8
 868     pandn               m3, m8, m2                      ; ~mask(out) & (mask(fm) & mask(in))
 869 %else
 870     mova                m3, [rsp+%3+%4+16]
 871     pandn               m3, m2
 872 %endif
 873 %endif
 874 %ifdef m8
 875     mova               m14, [P3]
 876     mova                m9, [Q3]
 877 %define rp3 m14
 878 %define rq3 m9
 879 %else
 880 %define rp3 [P3]
 881 %define rq3 [Q3]
 882 %endif
 883     mova                m1, [P2]
 884     FILTER_INIT         m4, m5, m6, m7, [P2], %4, 6,             m3,  m1             ; [p2]
 885     mova                m1, [Q2]
 886     FILTER_UPDATE       m4, m5, m6, m7, [P1], %4, 0, 1, 2, 5, 3, m3,  "", rq1, "", 1 ; [p1] -p3 -p2 +p1 +q1
 887     FILTER_UPDATE       m4, m5, m6, m7, [P0], %4, 0, 2, 3, 6, 3, m3,  "", m1         ; [p0] -p3 -p1 +p0 +q2
 888     FILTER_UPDATE       m4, m5, m6, m7, [Q0], %4, 0, 3, 4, 7, 3, m3,  "", rq3, "", 1 ; [q0] -p3 -p0 +q0 +q3
 889     FILTER_UPDATE       m4, m5, m6, m7, [Q1], %4, 1, 4, 5, 7, 3, m3,  ""             ; [q1] -p2 -q0 +q1 +q3
 890     FILTER_UPDATE       m4, m5, m6, m7, [Q2], %4, 2, 5, 6, 7, 3, m3,  m1             ; [q2] -p1 -q1 +q2 +q3
 891 %endif
 892
 893 %if %2 == 16
 894     UNSCRATCH            1,  8, rsp+%3+%4+16
 895 %endif
 896
 897     ; (m0: 0, [m1: flat8out], m2: fm & flat8in, m8..15: q2 q3 p1 p0 q0 q1 p3 p2)
 898     ; filter14()
 899     ;
 900     ;                            m2  m3  m8  m9 m14 m15 m10 m11 m12 m13
 901     ;
 902     ;                                    q2  q3  p3  p2  p1  p0  q0  q1
 903     ; p6  -7                     p7  p6  p5  p4   .   .   .   .   .
 904     ; p5  -6  -p7 -p6 +p5 +q1     .   .   .                           .
 905     ; p4  -5  -p7 -p5 +p4 +q2     .       .   .                      q2
 906     ; p3  -4  -p7 -p4 +p3 +q3     .           .   .                  q3
 907     ; p2  -3  -p7 -p3 +p2 +q4     .               .   .              q4
 908     ; p1  -2  -p7 -p2 +p1 +q5     .                   .   .          q5
 909     ; p0  -1  -p7 -p1 +p0 +q6     .                       .   .      q6
 910     ; q0  +0  -p7 -p0 +q0 +q7     .                           .   .  q7
 911     ; q1  +1  -p6 -q0 +q1 +q7    q1   .                           .   .
 912     ; q2  +2  -p5 -q1 +q2 +q7     .  q2   .                           .
 913     ; q3  +3  -p4 -q2 +q3 +q7         .  q3   .                       .
 914     ; q4  +4  -p3 -q3 +q4 +q7             .  q4   .                   .
 915     ; q5  +5  -p2 -q4 +q5 +q7                 .  q5   .               .
 916     ; q6  +6  -p1 -q5 +q6 +q7                     .  q6   .           .
 917
 918 %if %2 == 16
 919     pand            m1, m2                                                              ; mask(out) & (mask(fm) & mask(in))
 920     mova            m2, [P7]
 921     mova            m3, [P6]
 922 %ifdef m8
 923     mova            m8, [P5]
 924     mova            m9, [P4]
 925 %define rp5 m8
 926 %define rp4 m9
 927 %define rp5s m8
 928 %define rp4s m9
 929 %define rp3s m14
 930 %define rq4 m8
 931 %define rq5 m9
 932 %define rq6 m14
 933 %define rq7 m15
 934 %define rq4s m8
 935 %define rq5s m9
 936 %define rq6s m14
 937 %else
 938 %define rp5 [P5]
 939 %define rp4 [P4]
 940 %define rp5s ""
 941 %define rp4s ""
 942 %define rp3s ""
 943 %define rq4 [Q4]
 944 %define rq5 [Q5]
 945 %define rq6 [Q6]
 946 %define rq7 [Q7]
 947 %define rq4s ""
 948 %define rq5s ""
 949 %define rq6s ""
 950 %endif
 951     FILTER_INIT     m4, m5, m6, m7, [P6], %4, 14,                m1,  m3            ; [p6]
 952     FILTER_UPDATE   m4, m5, m6, m7, [P5], %4,  8,  9, 10,  5, 4, m1, rp5s           ; [p5] -p7 -p6 +p5 +q1
 953     FILTER_UPDATE   m4, m5, m6, m7, [P4], %4,  8, 10, 11,  6, 4, m1, rp4s           ; [p4] -p7 -p5 +p4 +q2
 954     FILTER_UPDATE   m4, m5, m6, m7, [P3], %4,  8, 11,  0,  7, 4, m1, rp3s           ; [p3] -p7 -p4 +p3 +q3
 955     FILTER_UPDATE   m4, m5, m6, m7, [P2], %4,  8,  0,  1, 12, 4, m1,  "", rq4, [Q4], 1 ; [p2] -p7 -p3 +p2 +q4
 956     FILTER_UPDATE   m4, m5, m6, m7, [P1], %4,  8,  1,  2, 13, 4, m1,  "", rq5, [Q5], 1 ; [p1] -p7 -p2 +p1 +q5
 957     FILTER_UPDATE   m4, m5, m6, m7, [P0], %4,  8,  2,  3, 14, 4, m1,  "", rq6, [Q6], 1 ; [p0] -p7 -p1 +p0 +q6
 958     FILTER_UPDATE   m4, m5, m6, m7, [Q0], %4,  8,  3,  4, 15, 4, m1,  "", rq7, [Q7], 1 ; [q0] -p7 -p0 +q0 +q7
 959     FILTER_UPDATE   m4, m5, m6, m7, [Q1], %4,  9,  4,  5, 15, 4, m1,  ""            ; [q1] -p6 -q0 +q1 +q7
 960     FILTER_UPDATE   m4, m5, m6, m7, [Q2], %4, 10,  5,  6, 15, 4, m1,  ""            ; [q2] -p5 -q1 +q2 +q7
 961     FILTER_UPDATE   m4, m5, m6, m7, [Q3], %4, 11,  6,  7, 15, 4, m1,  ""            ; [q3] -p4 -q2 +q3 +q7
 962     FILTER_UPDATE   m4, m5, m6, m7, [Q4], %4,  0,  7, 12, 15, 4, m1, rq4s           ; [q4] -p3 -q3 +q4 +q7
 963     FILTER_UPDATE   m4, m5, m6, m7, [Q5], %4,  1, 12, 13, 15, 4, m1, rq5s           ; [q5] -p2 -q4 +q5 +q7
 964     FILTER_UPDATE   m4, m5, m6, m7, [Q6], %4,  2, 13, 14, 15, 4, m1, rq6s           ; [q6] -p1 -q5 +q6 +q7
 965 %endif
 966
 967 %ifidn %1, h
 968 %if %2 == 16
 969     mova                    m0, [P7]
 970     mova                    m1, [P6]
 971     mova                    m2, [P5]
 972     mova                    m3, [P4]
 973     mova                    m4, [P3]
 974     mova                    m5, [P2]
 975 %if ARCH_X86_64
 976     mova                    m6, [P1]
 977 %endif
 978     mova                    m7, [P0]
 979 %if ARCH_X86_64
 980     mova                    m8, [Q0]
 981     mova                    m9, [Q1]
 982     mova                   m10, [Q2]
 983     mova                   m11, [Q3]
 984     mova                   m12, [Q4]
 985     mova                   m13, [Q5]
 986     mova                   m14, [Q6]
 987     mova                   m15, [Q7]
 988     TRANSPOSE16x16B 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, [rsp]
 989     DEFINE_REAL_P7_TO_Q7
 990     movu  [P7],  m0
 991     movu  [P6],  m1
 992     movu  [P5],  m2
 993     movu  [P4],  m3
 994     movu  [P3],  m4
 995     movu  [P2],  m5
 996     movu  [P1],  m6
 997     movu  [P0],  m7
 998     movu  [Q0],  m8
 999     movu  [Q1],  m9
1000     movu  [Q2], m10
1001     movu  [Q3], m11
1002     movu  [Q4], m12
1003     movu  [Q5], m13
1004     movu  [Q6], m14
1005     movu  [Q7], m15
1006 %else
1007     DEFINE_REAL_P7_TO_Q7
1008     TRANSPOSE8x8B 0, 1, 2, 3, 4, 5, 6, 7, [rsp+32], a, [rsp+%3+%4], [Q0], [Q1]
1009     movh   [P7],  m0
1010     movh   [P5],  m1
1011     movh   [P3],  m2
1012     movh   [P1],  m3
1013     movh   [Q2],  m5
1014     movh   [Q4],  m6
1015     movh   [Q6],  m7
1016     movhps [P6],  m0
1017     movhps [P4],  m1
1018     movhps [P2],  m2
1019     movhps [P0],  m3
1020     movhps [Q3],  m5
1021     movhps [Q5],  m6
1022     movhps [Q7],  m7
1023     DEFINE_TRANSPOSED_P7_TO_Q7
1024     mova                    m0, [Q0]
1025     mova                    m1, [Q1]
1026     mova                    m2, [Q2]
1027     mova                    m3, [Q3]
1028     mova                    m4, [Q4]
1029     mova                    m5, [Q5]
1030     mova                    m7, [Q7]
1031     DEFINE_REAL_P7_TO_Q7 8
1032     TRANSPOSE8x8B 0, 1, 2, 3, 4, 5, 6, 7, [rsp+224], a, [rsp+%3+%4], [Q0], [Q1]
1033     movh   [P7],  m0
1034     movh   [P5],  m1
1035     movh   [P3],  m2
1036     movh   [P1],  m3
1037     movh   [Q2],  m5
1038     movh   [Q4],  m6
1039     movh   [Q6],  m7
1040     movhps [P6],  m0
1041     movhps [P4],  m1
1042     movhps [P2],  m2
1043     movhps [P0],  m3
1044     movhps [Q3],  m5
1045     movhps [Q5],  m6
1046     movhps [Q7],  m7
1047 %endif
1048 %elif %2 == 44 || %2 == 4
1049     SWAP 0, 1   ; m0 = p1
1050     SWAP 1, 7   ; m1 = p0
1051     SWAP 2, 5   ; m2 = q0
1052     SWAP 3, 4   ; m3 = q1
1053     DEFINE_REAL_P7_TO_Q7 2
1054     SBUTTERFLY  bw, 0, 1, 4
1055     SBUTTERFLY  bw, 2, 3, 4
1056     SBUTTERFLY  wd, 0, 2, 4
1057     SBUTTERFLY  wd, 1, 3, 4
1058 %if mmsize == 16
1059     movd  [P7], m0
1060     movd  [P3], m2
1061     movd  [Q0], m1
1062     movd  [Q4], m3
1063     psrldq  m0, 4
1064     psrldq  m1, 4
1065     psrldq  m2, 4
1066     psrldq  m3, 4
1067     movd  [P6], m0
1068     movd  [P2], m2
1069     movd  [Q1], m1
1070     movd  [Q5], m3
1071     psrldq  m0, 4
1072     psrldq  m1, 4
1073     psrldq  m2, 4
1074     psrldq  m3, 4
1075     movd  [P5], m0
1076     movd  [P1], m2
1077     movd  [Q2], m1
1078     movd  [Q6], m3
1079     psrldq  m0, 4
1080     psrldq  m1, 4
1081     psrldq  m2, 4
1082     psrldq  m3, 4
1083     movd  [P4], m0
1084     movd  [P0], m2
1085     movd  [Q3], m1
1086     movd  [Q7], m3
1087 %else
1088     movd  [P7], m0
1089     movd  [P5], m2
1090     movd  [P3], m1
1091     movd  [P1], m3
1092     psrlq   m0, 32
1093     psrlq   m2, 32
1094     psrlq   m1, 32
1095     psrlq   m3, 32
1096     movd  [P6], m0
1097     movd  [P4], m2
1098     movd  [P2], m1
1099     movd  [P0], m3
1100 %endif
1101 %else
1102     ; the following code do a transpose of 8 full lines to 16 half
1103     ; lines (high part). It is inlined to avoid the need of a staging area
1104     mova                    m0, [P3]
1105     mova                    m1, [P2]
1106     mova                    m2, [P1]
1107     mova                    m3, [P0]
1108     mova                    m4, [Q0]
1109     mova                    m5, [Q1]
1110 %ifdef m8
1111     mova                    m6, [Q2]
1112 %endif
1113     mova                    m7, [Q3]
1114     DEFINE_REAL_P7_TO_Q7
1115 %ifdef m8
1116     SBUTTERFLY  bw,  0,  1, 8
1117     SBUTTERFLY  bw,  2,  3, 8
1118     SBUTTERFLY  bw,  4,  5, 8
1119     SBUTTERFLY  bw,  6,  7, 8
1120     SBUTTERFLY  wd,  0,  2, 8
1121     SBUTTERFLY  wd,  1,  3, 8
1122     SBUTTERFLY  wd,  4,  6, 8
1123     SBUTTERFLY  wd,  5,  7, 8
1124     SBUTTERFLY  dq,  0,  4, 8
1125     SBUTTERFLY  dq,  1,  5, 8
1126     SBUTTERFLY  dq,  2,  6, 8
1127     SBUTTERFLY  dq,  3,  7, 8
1128 %else
1129     SBUTTERFLY  bw,  0,  1, 6
1130     mova [rsp+mmsize*4], m1
1131     mova        m6, [rsp+mmsize*6]
1132     SBUTTERFLY  bw,  2,  3, 1
1133     SBUTTERFLY  bw,  4,  5, 1
1134     SBUTTERFLY  bw,  6,  7, 1
1135     SBUTTERFLY  wd,  0,  2, 1
1136     mova [rsp+mmsize*6], m2
1137     mova        m1, [rsp+mmsize*4]
1138     SBUTTERFLY  wd,  1,  3, 2
1139     SBUTTERFLY  wd,  4,  6, 2
1140     SBUTTERFLY  wd,  5,  7, 2
1141     SBUTTERFLY  dq,  0,  4, 2
1142     SBUTTERFLY  dq,  1,  5, 2
1143 %if mmsize == 16
1144     movh      [Q0], m1
1145     movhps    [Q1], m1
1146 %else
1147     mova      [P3], m1
1148 %endif
1149     mova        m2, [rsp+mmsize*6]
1150     SBUTTERFLY  dq,  2,  6, 1
1151     SBUTTERFLY  dq,  3,  7, 1
1152 %endif
1153     SWAP         3, 6
1154     SWAP         1, 4
1155 %if mmsize == 16
1156     movh      [P7], m0
1157     movhps    [P6], m0
1158     movh      [P5], m1
1159     movhps    [P4], m1
1160     movh      [P3], m2
1161     movhps    [P2], m2
1162     movh      [P1], m3
1163     movhps    [P0], m3
1164 %ifdef m8
1165     movh      [Q0], m4
1166     movhps    [Q1], m4
1167 %endif
1168     movh      [Q2], m5
1169     movhps    [Q3], m5
1170     movh      [Q4], m6
1171     movhps    [Q5], m6
1172     movh      [Q6], m7
1173     movhps    [Q7], m7
1174 %else
1175     mova      [P7], m0
1176     mova      [P6], m1
1177     mova      [P5], m2
1178     mova      [P4], m3
1179     mova      [P2], m5
1180     mova      [P1], m6
1181     mova      [P0], m7
1182 %endif
1183 %endif
1184 %endif
1185
1186     RET
1187 %endmacro
1188
1189 %macro LPF_16_VH 5
1190 INIT_XMM %5
1191 LOOPFILTER v, %1, %2,  0, %4
1192 LOOPFILTER h, %1, %2, %3, %4
1193 %endmacro
1194
1195 %macro LPF_16_VH_ALL_OPTS 4
1196 LPF_16_VH %1, %2, %3, %4, sse2
1197 LPF_16_VH %1, %2, %3, %4, ssse3
1198 LPF_16_VH %1, %2, %3, %4, avx
1199 %endmacro
1200
1201 LPF_16_VH_ALL_OPTS 16, 512, 256, 32
1202 LPF_16_VH_ALL_OPTS 44,   0, 128,  0
1203 LPF_16_VH_ALL_OPTS 48, 256, 128, 16
1204 LPF_16_VH_ALL_OPTS 84, 256, 128, 16
1205 LPF_16_VH_ALL_OPTS 88, 256, 128, 16
1206
1207 INIT_MMX mmxext
1208 LOOPFILTER v, 4,   0,  0, 0
1209 LOOPFILTER h, 4,   0, 64, 0
1210 LOOPFILTER v, 8, 128,  0, 8
1211 LOOPFILTER h, 8, 128, 64, 8