git.sesse.net Git - ffmpeg/blob - libavcodec/x86/vp9mc_16bpp.asm

   1 ;******************************************************************************
   2 ;* VP9 MC SIMD optimizations
   3 ;*
   4 ;* Copyright (c) 2015 Ronald S. Bultje <rsbultje gmail com>
   5 ;*
   6 ;* This file is part of FFmpeg.
   7 ;*
   8 ;* FFmpeg is free software; you can redistribute it and/or
   9 ;* modify it under the terms of the GNU Lesser General Public
  10 ;* License as published by the Free Software Foundation; either
  11 ;* version 2.1 of the License, or (at your option) any later version.
  12 ;*
  13 ;* FFmpeg is distributed in the hope that it will be useful,
  14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  16 ;* Lesser General Public License for more details.
  17 ;*
  18 ;* You should have received a copy of the GNU Lesser General Public
  19 ;* License along with FFmpeg; if not, write to the Free Software
  20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  21 ;******************************************************************************
  22
  23 %include "libavutil/x86/x86util.asm"
  24
  25 SECTION_RODATA 32
  26
  27 pd_64: times 8 dd 64
  28
  29 cextern pw_1023
  30 cextern pw_4095
  31
  32 SECTION .text
  33
  34 %macro filter_h4_fn 1-2 12
  35 cglobal vp9_%1_8tap_1d_h_4_10, 6, 6, %2, dst, dstride, src, sstride, h, filtery
  36     mova        m5, [pw_1023]
  37 .body:
  38 %if notcpuflag(sse4) && ARCH_X86_64
  39     pxor       m11, m11
  40 %endif
  41     mova        m6, [pd_64]
  42     mova        m7, [filteryq+ 0]
  43 %if ARCH_X86_64 && mmsize > 8
  44     mova        m8, [filteryq+32]
  45     mova        m9, [filteryq+64]
  46     mova       m10, [filteryq+96]
  47 %endif
  48 .loop:
  49     movh        m0, [srcq-6]
  50     movh        m1, [srcq-4]
  51     movh        m2, [srcq-2]
  52     movh        m3, [srcq+0]
  53     movh        m4, [srcq+2]
  54     punpcklwd   m0, m1
  55     punpcklwd   m2, m3
  56     pmaddwd     m0, m7
  57 %if ARCH_X86_64 && mmsize > 8
  58     pmaddwd     m2, m8
  59 %else
  60     pmaddwd     m2, [filteryq+32]
  61 %endif
  62     movu        m1, [srcq+4]
  63     movu        m3, [srcq+6]
  64     paddd       m0, m2
  65     movu        m2, [srcq+8]
  66     add       srcq, sstrideq
  67     punpcklwd   m4, m1
  68     punpcklwd   m3, m2
  69 %if ARCH_X86_64 && mmsize > 8
  70     pmaddwd     m4, m9
  71     pmaddwd     m3, m10
  72 %else
  73     pmaddwd     m4, [filteryq+64]
  74     pmaddwd     m3, [filteryq+96]
  75 %endif
  76     paddd       m0, m4
  77     paddd       m0, m3
  78     paddd       m0, m6
  79     psrad       m0, 7
  80 %if cpuflag(sse4)
  81     packusdw    m0, m0
  82 %else
  83     packssdw    m0, m0
  84 %endif
  85 %ifidn %1, avg
  86     movh        m1, [dstq]
  87 %endif
  88     pminsw      m0, m5
  89 %if notcpuflag(sse4)
  90 %if ARCH_X86_64
  91     pmaxsw      m0, m11
  92 %else
  93     pxor        m2, m2
  94     pmaxsw      m0, m2
  95 %endif
  96 %endif
  97 %ifidn %1, avg
  98     pavgw       m0, m1
  99 %endif
 100     movh    [dstq], m0
 101     add       dstq, dstrideq
 102     dec         hd
 103     jg .loop
 104     RET
 105
 106 cglobal vp9_%1_8tap_1d_h_4_12, 6, 6, %2, dst, dstride, src, sstride, h, filtery
 107     mova        m5, [pw_4095]
 108     jmp mangle(private_prefix %+ _ %+ vp9_%1_8tap_1d_h_4_10 %+ SUFFIX).body
 109 %endmacro
 110
 111 INIT_XMM sse2
 112 filter_h4_fn put
 113 filter_h4_fn avg
 114
 115 %macro filter_h_fn 1-2 12
 116 %assign %%px mmsize/2
 117 cglobal vp9_%1_8tap_1d_h_ %+ %%px %+ _10, 6, 6, %2, dst, dstride, src, sstride, h, filtery
 118     mova        m5, [pw_1023]
 119 .body:
 120 %if notcpuflag(sse4) && ARCH_X86_64
 121     pxor       m11, m11
 122 %endif
 123     mova        m6, [pd_64]
 124     mova        m7, [filteryq+ 0]
 125 %if ARCH_X86_64 && mmsize > 8
 126     mova        m8, [filteryq+32]
 127     mova        m9, [filteryq+64]
 128     mova       m10, [filteryq+96]
 129 %endif
 130 .loop:
 131     movu        m0, [srcq-6]
 132     movu        m1, [srcq-4]
 133     movu        m2, [srcq-2]
 134     movu        m3, [srcq+0]
 135     movu        m4, [srcq+2]
 136     pmaddwd     m0, m7
 137     pmaddwd     m1, m7
 138 %if ARCH_X86_64 && mmsize > 8
 139     pmaddwd     m2, m8
 140     pmaddwd     m3, m8
 141     pmaddwd     m4, m9
 142 %else
 143     pmaddwd     m2, [filteryq+32]
 144     pmaddwd     m3, [filteryq+32]
 145     pmaddwd     m4, [filteryq+64]
 146 %endif
 147     paddd       m0, m2
 148     paddd       m1, m3
 149     paddd       m0, m4
 150     movu        m2, [srcq+4]
 151     movu        m3, [srcq+6]
 152     movu        m4, [srcq+8]
 153     add       srcq, sstrideq
 154 %if ARCH_X86_64 && mmsize > 8
 155     pmaddwd     m2, m9
 156     pmaddwd     m3, m10
 157     pmaddwd     m4, m10
 158 %else
 159     pmaddwd     m2, [filteryq+64]
 160     pmaddwd     m3, [filteryq+96]
 161     pmaddwd     m4, [filteryq+96]
 162 %endif
 163     paddd       m1, m2
 164     paddd       m0, m3
 165     paddd       m1, m4
 166     paddd       m0, m6
 167     paddd       m1, m6
 168     psrad       m0, 7
 169     psrad       m1, 7
 170 %if cpuflag(sse4)
 171     packusdw    m0, m0
 172     packusdw    m1, m1
 173 %else
 174     packssdw    m0, m0
 175     packssdw    m1, m1
 176 %endif
 177     punpcklwd   m0, m1
 178     pminsw      m0, m5
 179 %if notcpuflag(sse4)
 180 %if ARCH_X86_64
 181     pmaxsw      m0, m11
 182 %else
 183     pxor        m2, m2
 184     pmaxsw      m0, m2
 185 %endif
 186 %endif
 187 %ifidn %1, avg
 188     pavgw       m0, [dstq]
 189 %endif
 190     mova    [dstq], m0
 191     add       dstq, dstrideq
 192     dec         hd
 193     jg .loop
 194     RET
 195
 196 cglobal vp9_%1_8tap_1d_h_ %+ %%px %+ _12, 6, 6, %2, dst, dstride, src, sstride, h, filtery
 197     mova        m5, [pw_4095]
 198     jmp mangle(private_prefix %+ _ %+ vp9_%1_8tap_1d_h_ %+ %%px %+ _10 %+ SUFFIX).body
 199 %endmacro
 200
 201 INIT_XMM sse2
 202 filter_h_fn put
 203 filter_h_fn avg
 204 %if HAVE_AVX2_EXTERNAL
 205 INIT_YMM avx2
 206 filter_h_fn put
 207 filter_h_fn avg
 208 %endif
 209
 210 %macro filter_v4_fn 1-2 12
 211 %if ARCH_X86_64
 212 cglobal vp9_%1_8tap_1d_v_4_10, 6, 8, %2, dst, dstride, src, sstride, h, filtery, src4, sstride3
 213 %else
 214 cglobal vp9_%1_8tap_1d_v_4_10, 4, 7, %2, dst, dstride, src, sstride, filtery, src4, sstride3
 215     mov   filteryq, r5mp
 216 %define hd r4mp
 217 %endif
 218     mova        m5, [pw_1023]
 219 .body:
 220 %if notcpuflag(sse4) && ARCH_X86_64
 221     pxor       m11, m11
 222 %endif
 223     mova        m6, [pd_64]
 224     lea  sstride3q, [sstrideq*3]
 225     lea      src4q, [srcq+sstrideq]
 226     sub       srcq, sstride3q
 227     mova        m7, [filteryq+  0]
 228 %if ARCH_X86_64 && mmsize > 8
 229     mova        m8, [filteryq+ 32]
 230     mova        m9, [filteryq+ 64]
 231     mova       m10, [filteryq+ 96]
 232 %endif
 233 .loop:
 234     ; FIXME maybe reuse loads from previous rows, or just
 235     ; more generally unroll this to prevent multiple loads of
 236     ; the same data?
 237     movh        m0, [srcq]
 238     movh        m1, [srcq+sstrideq]
 239     movh        m2, [srcq+sstrideq*2]
 240     movh        m3, [srcq+sstride3q]
 241     add       srcq, sstrideq
 242     movh        m4, [src4q]
 243     punpcklwd   m0, m1
 244     punpcklwd   m2, m3
 245     pmaddwd     m0, m7
 246 %if ARCH_X86_64 && mmsize > 8
 247     pmaddwd     m2, m8
 248 %else
 249     pmaddwd     m2, [filteryq+ 32]
 250 %endif
 251     movh        m1, [src4q+sstrideq]
 252     movh        m3, [src4q+sstrideq*2]
 253     paddd       m0, m2
 254     movh        m2, [src4q+sstride3q]
 255     add      src4q, sstrideq
 256     punpcklwd   m4, m1
 257     punpcklwd   m3, m2
 258 %if ARCH_X86_64 && mmsize > 8
 259     pmaddwd     m4, m9
 260     pmaddwd     m3, m10
 261 %else
 262     pmaddwd     m4, [filteryq+ 64]
 263     pmaddwd     m3, [filteryq+ 96]
 264 %endif
 265     paddd       m0, m4
 266     paddd       m0, m3
 267     paddd       m0, m6
 268     psrad       m0, 7
 269 %if cpuflag(sse4)
 270     packusdw    m0, m0
 271 %else
 272     packssdw    m0, m0
 273 %endif
 274 %ifidn %1, avg
 275     movh        m1, [dstq]
 276 %endif
 277     pminsw      m0, m5
 278 %if notcpuflag(sse4)
 279 %if ARCH_X86_64
 280     pmaxsw      m0, m11
 281 %else
 282     pxor        m2, m2
 283     pmaxsw      m0, m2
 284 %endif
 285 %endif
 286 %ifidn %1, avg
 287     pavgw       m0, m1
 288 %endif
 289     movh    [dstq], m0
 290     add       dstq, dstrideq
 291     dec         hd
 292     jg .loop
 293     RET
 294
 295 %if ARCH_X86_64
 296 cglobal vp9_%1_8tap_1d_v_4_12, 6, 8, %2, dst, dstride, src, sstride, h, filtery, src4, sstride3
 297 %else
 298 cglobal vp9_%1_8tap_1d_v_4_12, 4, 7, %2, dst, dstride, src, sstride, filtery, src4, sstride3
 299     mov   filteryq, r5mp
 300 %endif
 301     mova        m5, [pw_4095]
 302     jmp mangle(private_prefix %+ _ %+ vp9_%1_8tap_1d_v_4_10 %+ SUFFIX).body
 303 %endmacro
 304
 305 INIT_XMM sse2
 306 filter_v4_fn put
 307 filter_v4_fn avg
 308
 309 %macro filter_v_fn 1-2 13
 310 %assign %%px mmsize/2
 311 %if ARCH_X86_64
 312 cglobal vp9_%1_8tap_1d_v_ %+ %%px %+ _10, 6, 8, %2, dst, dstride, src, sstride, h, filtery, src4, sstride3
 313 %else
 314 cglobal vp9_%1_8tap_1d_v_ %+ %%px %+ _10, 4, 7, %2, dst, dstride, src, sstride, filtery, src4, sstride3
 315     mov   filteryq, r5mp
 316 %define hd r4mp
 317 %endif
 318     mova        m5, [pw_1023]
 319 .body:
 320 %if notcpuflag(sse4) && ARCH_X86_64
 321     pxor       m12, m12
 322 %endif
 323 %if ARCH_X86_64
 324     mova       m11, [pd_64]
 325 %endif
 326     lea  sstride3q, [sstrideq*3]
 327     lea      src4q, [srcq+sstrideq]
 328     sub       srcq, sstride3q
 329     mova        m7, [filteryq+  0]
 330 %if ARCH_X86_64 && mmsize > 8
 331     mova        m8, [filteryq+ 32]
 332     mova        m9, [filteryq+ 64]
 333     mova       m10, [filteryq+ 96]
 334 %endif
 335 .loop:
 336     ; FIXME maybe reuse loads from previous rows, or just
 337     ; more generally unroll this to prevent multiple loads of
 338     ; the same data?
 339     movu        m0, [srcq]
 340     movu        m1, [srcq+sstrideq]
 341     movu        m2, [srcq+sstrideq*2]
 342     movu        m3, [srcq+sstride3q]
 343     add       srcq, sstrideq
 344     movu        m4, [src4q]
 345     SBUTTERFLY  wd, 0, 1, 6
 346     SBUTTERFLY  wd, 2, 3, 6
 347     pmaddwd     m0, m7
 348     pmaddwd     m1, m7
 349 %if ARCH_X86_64 && mmsize > 8
 350     pmaddwd     m2, m8
 351     pmaddwd     m3, m8
 352 %else
 353     pmaddwd     m2, [filteryq+ 32]
 354     pmaddwd     m3, [filteryq+ 32]
 355 %endif
 356     paddd       m0, m2
 357     paddd       m1, m3
 358     movu        m2, [src4q+sstrideq]
 359     movu        m3, [src4q+sstrideq*2]
 360     SBUTTERFLY  wd, 4, 2, 6
 361 %if ARCH_X86_64 && mmsize > 8
 362     pmaddwd     m4, m9
 363     pmaddwd     m2, m9
 364 %else
 365     pmaddwd     m4, [filteryq+ 64]
 366     pmaddwd     m2, [filteryq+ 64]
 367 %endif
 368     paddd       m0, m4
 369     paddd       m1, m2
 370     movu        m4, [src4q+sstride3q]
 371     add      src4q, sstrideq
 372     SBUTTERFLY  wd, 3, 4, 6
 373 %if ARCH_X86_64 && mmsize > 8
 374     pmaddwd     m3, m10
 375     pmaddwd     m4, m10
 376 %else
 377     pmaddwd     m3, [filteryq+ 96]
 378     pmaddwd     m4, [filteryq+ 96]
 379 %endif
 380     paddd       m0, m3
 381     paddd       m1, m4
 382 %if ARCH_X86_64
 383     paddd       m0, m11
 384     paddd       m1, m11
 385 %else
 386     paddd       m0, [pd_64]
 387     paddd       m1, [pd_64]
 388 %endif
 389     psrad       m0, 7
 390     psrad       m1, 7
 391 %if cpuflag(sse4)
 392     packusdw    m0, m1
 393 %else
 394     packssdw    m0, m1
 395 %endif
 396     pminsw      m0, m5
 397 %if notcpuflag(sse4)
 398 %if ARCH_X86_64
 399     pmaxsw      m0, m12
 400 %else
 401     pxor        m2, m2
 402     pmaxsw      m0, m2
 403 %endif
 404 %endif
 405 %ifidn %1, avg
 406     pavgw       m0, [dstq]
 407 %endif
 408     mova    [dstq], m0
 409     add       dstq, dstrideq
 410     dec         hd
 411     jg .loop
 412     RET
 413
 414 %if ARCH_X86_64
 415 cglobal vp9_%1_8tap_1d_v_ %+ %%px %+ _12, 6, 8, %2, dst, dstride, src, sstride, h, filtery, src4, sstride3
 416 %else
 417 cglobal vp9_%1_8tap_1d_v_ %+ %%px %+ _12, 4, 7, %2, dst, dstride, src, sstride, filtery, src4, sstride3
 418     mov   filteryq, r5mp
 419 %endif
 420     mova        m5, [pw_4095]
 421     jmp mangle(private_prefix %+ _ %+ vp9_%1_8tap_1d_v_ %+ %%px %+ _10 %+ SUFFIX).body
 422 %endmacro
 423
 424 INIT_XMM sse2
 425 filter_v_fn put
 426 filter_v_fn avg
 427 %if HAVE_AVX2_EXTERNAL
 428 INIT_YMM avx2
 429 filter_v_fn put
 430 filter_v_fn avg
 431 %endif