git.sesse.net Git - ffmpeg/blob - libavutil/x86/float_dsp.asm

   1 ;*****************************************************************************
   2 ;* x86-optimized Float DSP functions
   3 ;*
   4 ;* This file is part of Libav.
   5 ;*
   6 ;* Libav is free software; you can redistribute it and/or
   7 ;* modify it under the terms of the GNU Lesser General Public
   8 ;* License as published by the Free Software Foundation; either
   9 ;* version 2.1 of the License, or (at your option) any later version.
  10 ;*
  11 ;* Libav is distributed in the hope that it will be useful,
  12 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  13 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  14 ;* Lesser General Public License for more details.
  15 ;*
  16 ;* You should have received a copy of the GNU Lesser General Public
  17 ;* License along with Libav; if not, write to the Free Software
  18 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  19 ;******************************************************************************
  20
  21 %include "x86inc.asm"
  22 %include "x86util.asm"
  23
  24 SECTION .text
  25
  26 ;-----------------------------------------------------------------------------
  27 ; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
  28 ;-----------------------------------------------------------------------------
  29 %macro VECTOR_FMUL 0
  30 cglobal vector_fmul, 4,4,2, dst, src0, src1, len
  31     lea       lenq, [lend*4 - 2*mmsize]
  32 ALIGN 16
  33 .loop
  34     mova      m0,   [src0q + lenq]
  35     mova      m1,   [src0q + lenq + mmsize]
  36     mulps     m0, m0, [src1q + lenq]
  37     mulps     m1, m1, [src1q + lenq + mmsize]
  38     mova      [dstq + lenq], m0
  39     mova      [dstq + lenq + mmsize], m1
  40
  41     sub       lenq, 2*mmsize
  42     jge       .loop
  43 %if mmsize == 32
  44     vzeroupper
  45     RET
  46 %else
  47     REP_RET
  48 %endif
  49 %endmacro
  50
  51 INIT_XMM sse
  52 VECTOR_FMUL
  53 %if HAVE_AVX
  54 INIT_YMM avx
  55 VECTOR_FMUL
  56 %endif
  57
  58 ;------------------------------------------------------------------------------
  59 ; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
  60 ;------------------------------------------------------------------------------
  61
  62 %macro VECTOR_FMAC_SCALAR 0
  63 %if UNIX64
  64 cglobal vector_fmac_scalar, 3,3,3, dst, src, len
  65 %else
  66 cglobal vector_fmac_scalar, 4,4,3, dst, src, mul, len
  67 %endif
  68 %if WIN64
  69     SWAP 0, 2
  70 %endif
  71 %if ARCH_X86_32
  72     VBROADCASTSS m0, mulm
  73 %else
  74     shufps     xmm0, xmm0, 0
  75 %if cpuflag(avx)
  76     vinsertf128  m0, m0, xmm0, 1
  77 %endif
  78 %endif
  79     lea    lenq, [lend*4-2*mmsize]
  80 .loop
  81     mulps    m1, m0, [srcq+lenq       ]
  82     mulps    m2, m0, [srcq+lenq+mmsize]
  83     addps    m1, m1, [dstq+lenq       ]
  84     addps    m2, m2, [dstq+lenq+mmsize]
  85     mova  [dstq+lenq       ], m1
  86     mova  [dstq+lenq+mmsize], m2
  87     sub    lenq, 2*mmsize
  88     jge .loop
  89 %if mmsize == 32
  90     vzeroupper
  91     RET
  92 %else
  93     REP_RET
  94 %endif
  95 %endmacro
  96
  97 INIT_XMM sse
  98 VECTOR_FMAC_SCALAR
  99 %if HAVE_AVX
 100 INIT_YMM avx
 101 VECTOR_FMAC_SCALAR
 102 %endif