git.sesse.net Git - ffmpeg/blob - libavutil/x86/float_dsp.asm

   1 ;*****************************************************************************
   2 ;* x86-optimized Float DSP functions
   3 ;*
   4 ;* This file is part of Libav.
   5 ;*
   6 ;* Libav is free software; you can redistribute it and/or
   7 ;* modify it under the terms of the GNU Lesser General Public
   8 ;* License as published by the Free Software Foundation; either
   9 ;* version 2.1 of the License, or (at your option) any later version.
  10 ;*
  11 ;* Libav is distributed in the hope that it will be useful,
  12 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  13 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14 ;* Lesser General Public License for more details.
  15 ;*
  16 ;* You should have received a copy of the GNU Lesser General Public
  17 ;* License along with Libav; if not, write to the Free Software
  18 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  19 ;******************************************************************************
  20
  21 %include "x86util.asm"
  22
  23 SECTION .text
  24
  25 ;-----------------------------------------------------------------------------
  26 ; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
  27 ;-----------------------------------------------------------------------------
  28 %macro VECTOR_FMUL 0
  29 cglobal vector_fmul, 4,4,2, dst, src0, src1, len
  30     lea       lenq, [lend*4 - 2*mmsize]
  31 ALIGN 16
  32 .loop:
  33     mova      m0,   [src0q + lenq]
  34     mova      m1,   [src0q + lenq + mmsize]
  35     mulps     m0, m0, [src1q + lenq]
  36     mulps     m1, m1, [src1q + lenq + mmsize]
  37     mova      [dstq + lenq], m0
  38     mova      [dstq + lenq + mmsize], m1
  39
  40     sub       lenq, 2*mmsize
  41     jge       .loop
  42     REP_RET
  43 %endmacro
  44
  45 INIT_XMM sse
  46 VECTOR_FMUL
  47 INIT_YMM avx
  48 VECTOR_FMUL
  49
  50 ;------------------------------------------------------------------------------
  51 ; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
  52 ;------------------------------------------------------------------------------
  53
  54 %macro VECTOR_FMAC_SCALAR 0
  55 %if UNIX64
  56 cglobal vector_fmac_scalar, 3,3,3, dst, src, len
  57 %else
  58 cglobal vector_fmac_scalar, 4,4,3, dst, src, mul, len
  59 %endif
  60 %if ARCH_X86_32
  61     VBROADCASTSS m0, mulm
  62 %else
  63 %if WIN64
  64     mova       xmm0, xmm2
  65 %endif
  66     shufps     xmm0, xmm0, 0
  67 %if cpuflag(avx)
  68     vinsertf128  m0, m0, xmm0, 1
  69 %endif
  70 %endif
  71     lea    lenq, [lend*4-2*mmsize]
  72 .loop:
  73     mulps    m1, m0, [srcq+lenq       ]
  74     mulps    m2, m0, [srcq+lenq+mmsize]
  75     addps    m1, m1, [dstq+lenq       ]
  76     addps    m2, m2, [dstq+lenq+mmsize]
  77     mova  [dstq+lenq       ], m1
  78     mova  [dstq+lenq+mmsize], m2
  79     sub    lenq, 2*mmsize
  80     jge .loop
  81     REP_RET
  82 %endmacro
  83
  84 INIT_XMM sse
  85 VECTOR_FMAC_SCALAR
  86 INIT_YMM avx
  87 VECTOR_FMAC_SCALAR
  88
  89 ;------------------------------------------------------------------------------
  90 ; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
  91 ;------------------------------------------------------------------------------
  92
  93 %macro VECTOR_FMUL_SCALAR 0
  94 %if UNIX64
  95 cglobal vector_fmul_scalar, 3,3,2, dst, src, len
  96 %else
  97 cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
  98 %endif
  99 %if ARCH_X86_32
 100     movss    m0, mulm
 101 %elif WIN64
 102     SWAP 0, 2
 103 %endif
 104     shufps   m0, m0, 0
 105     lea    lenq, [lend*4-mmsize]
 106 .loop:
 107     mova     m1, [srcq+lenq]
 108     mulps    m1, m0
 109     mova  [dstq+lenq], m1
 110     sub    lenq, mmsize
 111     jge .loop
 112     REP_RET
 113 %endmacro
 114
 115 INIT_XMM sse
 116 VECTOR_FMUL_SCALAR
 117
 118 ;------------------------------------------------------------------------------
 119 ; void ff_vector_dmul_scalar(double *dst, const double *src, double mul,
 120 ;                            int len)
 121 ;------------------------------------------------------------------------------
 122
 123 %macro VECTOR_DMUL_SCALAR 0
 124 %if ARCH_X86_32
 125 cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
 126     mov          lenq, lenaddrm
 127 %elif UNIX64
 128 cglobal vector_dmul_scalar, 3,3,3, dst, src, len
 129 %else
 130 cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
 131 %endif
 132 %if ARCH_X86_32
 133     VBROADCASTSD   m0, mulm
 134 %else
 135 %if WIN64
 136     movlhps      xmm2, xmm2
 137 %if cpuflag(avx)
 138     vinsertf128  ymm2, ymm2, xmm2, 1
 139 %endif
 140     SWAP 0, 2
 141 %else
 142     movlhps      xmm0, xmm0
 143 %if cpuflag(avx)
 144     vinsertf128  ymm0, ymm0, xmm0, 1
 145 %endif
 146 %endif
 147 %endif
 148     lea          lenq, [lend*8-2*mmsize]
 149 .loop:
 150     mulpd          m1, m0, [srcq+lenq       ]
 151     mulpd          m2, m0, [srcq+lenq+mmsize]
 152     mova   [dstq+lenq       ], m1
 153     mova   [dstq+lenq+mmsize], m2
 154     sub          lenq, 2*mmsize
 155     jge .loop
 156     REP_RET
 157 %endmacro
 158
 159 INIT_XMM sse2
 160 VECTOR_DMUL_SCALAR
 161 %if HAVE_AVX_EXTERNAL
 162 INIT_YMM avx
 163 VECTOR_DMUL_SCALAR
 164 %endif
 165
 166 ;-----------------------------------------------------------------------------
 167 ; vector_fmul_add(float *dst, const float *src0, const float *src1,
 168 ;                 const float *src2, int len)
 169 ;-----------------------------------------------------------------------------
 170 %macro VECTOR_FMUL_ADD 0
 171 cglobal vector_fmul_add, 5,5,2, dst, src0, src1, src2, len
 172     lea       lenq, [lend*4 - 2*mmsize]
 173 ALIGN 16
 174 .loop:
 175     mova    m0,   [src0q + lenq]
 176     mova    m1,   [src0q + lenq + mmsize]
 177     mulps   m0, m0, [src1q + lenq]
 178     mulps   m1, m1, [src1q + lenq + mmsize]
 179     addps   m0, m0, [src2q + lenq]
 180     addps   m1, m1, [src2q + lenq + mmsize]
 181     mova    [dstq + lenq], m0
 182     mova    [dstq + lenq + mmsize], m1
 183
 184     sub     lenq,   2*mmsize
 185     jge     .loop
 186     REP_RET
 187 %endmacro
 188
 189 INIT_XMM sse
 190 VECTOR_FMUL_ADD
 191 INIT_YMM avx
 192 VECTOR_FMUL_ADD
 193
 194 ;-----------------------------------------------------------------------------
 195 ; void vector_fmul_reverse(float *dst, const float *src0, const float *src1,
 196 ;                          int len)
 197 ;-----------------------------------------------------------------------------
 198 %macro VECTOR_FMUL_REVERSE 0
 199 cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
 200     lea       lenq, [lend*4 - 2*mmsize]
 201 ALIGN 16
 202 .loop:
 203 %if cpuflag(avx)
 204     vmovaps     xmm0, [src1q + 16]
 205     vinsertf128 m0, m0, [src1q], 1
 206     vshufps     m0, m0, m0, q0123
 207     vmovaps     xmm1, [src1q + mmsize + 16]
 208     vinsertf128 m1, m1, [src1q + mmsize], 1
 209     vshufps     m1, m1, m1, q0123
 210 %else
 211     mova    m0, [src1q]
 212     mova    m1, [src1q + mmsize]
 213     shufps  m0, m0, q0123
 214     shufps  m1, m1, q0123
 215 %endif
 216     mulps   m0, m0, [src0q + lenq + mmsize]
 217     mulps   m1, m1, [src0q + lenq]
 218     mova    [dstq + lenq + mmsize], m0
 219     mova    [dstq + lenq], m1
 220     add     src1q, 2*mmsize
 221     sub     lenq,  2*mmsize
 222     jge     .loop
 223     REP_RET
 224 %endmacro
 225
 226 INIT_XMM sse
 227 VECTOR_FMUL_REVERSE
 228 INIT_YMM avx
 229 VECTOR_FMUL_REVERSE
 230
 231 ; float scalarproduct_float_sse(const float *v1, const float *v2, int len)
 232 INIT_XMM sse
 233 cglobal scalarproduct_float, 3,3,2, v1, v2, offset
 234     neg   offsetq
 235     shl   offsetq, 2
 236     sub       v1q, offsetq
 237     sub       v2q, offsetq
 238     xorps    xmm0, xmm0
 239 .loop:
 240     movaps   xmm1, [v1q+offsetq]
 241     mulps    xmm1, [v2q+offsetq]
 242     addps    xmm0, xmm1
 243     add   offsetq, 16
 244     js .loop
 245     movhlps  xmm1, xmm0
 246     addps    xmm0, xmm1
 247     movss    xmm1, xmm0
 248     shufps   xmm0, xmm0, 1
 249     addss    xmm0, xmm1
 250 %if ARCH_X86_64 == 0
 251     movss     r0m,  xmm0
 252     fld dword r0m
 253 %endif
 254     RET