git.sesse.net Git - ffmpeg/blob - libavutil/x86/float_dsp.asm

   1 ;*****************************************************************************
   2 ;* x86-optimized Float DSP functions
   3 ;*
   4 ;* Copyright 2006 Loren Merritt
   5 ;*
   6 ;* This file is part of FFmpeg.
   7 ;*
   8 ;* FFmpeg is free software; you can redistribute it and/or
   9 ;* modify it under the terms of the GNU Lesser General Public
  10 ;* License as published by the Free Software Foundation; either
  11 ;* version 2.1 of the License, or (at your option) any later version.
  12 ;*
  13 ;* FFmpeg is distributed in the hope that it will be useful,
  14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  16 ;* Lesser General Public License for more details.
  17 ;*
  18 ;* You should have received a copy of the GNU Lesser General Public
  19 ;* License along with FFmpeg; if not, write to the Free Software
  20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  21 ;******************************************************************************
  22
  23 %include "x86util.asm"
  24
  25 SECTION .text
  26
  27 ;-----------------------------------------------------------------------------
  28 ; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
  29 ;-----------------------------------------------------------------------------
  30 %macro VECTOR_FMUL 0
  31 cglobal vector_fmul, 4,4,2, dst, src0, src1, len
  32     lea       lenq, [lend*4 - 2*mmsize]
  33 ALIGN 16
  34 .loop:
  35     mova      m0,   [src0q + lenq]
  36     mova      m1,   [src0q + lenq + mmsize]
  37     mulps     m0, m0, [src1q + lenq]
  38     mulps     m1, m1, [src1q + lenq + mmsize]
  39     mova      [dstq + lenq], m0
  40     mova      [dstq + lenq + mmsize], m1
  41
  42     sub       lenq, 2*mmsize
  43     jge       .loop
  44     REP_RET
  45 %endmacro
  46
  47 INIT_XMM sse
  48 VECTOR_FMUL
  49 %if HAVE_AVX_EXTERNAL
  50 INIT_YMM avx
  51 VECTOR_FMUL
  52 %endif
  53
  54 ;------------------------------------------------------------------------------
  55 ; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
  56 ;------------------------------------------------------------------------------
  57
  58 %macro VECTOR_FMAC_SCALAR 0
  59 %if UNIX64
  60 cglobal vector_fmac_scalar, 3,3,3, dst, src, len
  61 %else
  62 cglobal vector_fmac_scalar, 4,4,3, dst, src, mul, len
  63 %endif
  64 %if ARCH_X86_32
  65     VBROADCASTSS m0, mulm
  66 %else
  67 %if WIN64
  68     mova       xmm0, xmm2
  69 %endif
  70     shufps     xmm0, xmm0, 0
  71 %if cpuflag(avx)
  72     vinsertf128  m0, m0, xmm0, 1
  73 %endif
  74 %endif
  75     lea    lenq, [lend*4-2*mmsize]
  76 .loop:
  77     mulps    m1, m0, [srcq+lenq       ]
  78     mulps    m2, m0, [srcq+lenq+mmsize]
  79     addps    m1, m1, [dstq+lenq       ]
  80     addps    m2, m2, [dstq+lenq+mmsize]
  81     mova  [dstq+lenq       ], m1
  82     mova  [dstq+lenq+mmsize], m2
  83     sub    lenq, 2*mmsize
  84     jge .loop
  85     REP_RET
  86 %endmacro
  87
  88 INIT_XMM sse
  89 VECTOR_FMAC_SCALAR
  90 %if HAVE_AVX_EXTERNAL
  91 INIT_YMM avx
  92 VECTOR_FMAC_SCALAR
  93 %endif
  94
  95 ;------------------------------------------------------------------------------
  96 ; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
  97 ;------------------------------------------------------------------------------
  98
  99 %macro VECTOR_FMUL_SCALAR 0
 100 %if UNIX64
 101 cglobal vector_fmul_scalar, 3,3,2, dst, src, len
 102 %else
 103 cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
 104 %endif
 105 %if ARCH_X86_32
 106     movss    m0, mulm
 107 %elif WIN64
 108     SWAP 0, 2
 109 %endif
 110     shufps   m0, m0, 0
 111     lea    lenq, [lend*4-mmsize]
 112 .loop:
 113     mova     m1, [srcq+lenq]
 114     mulps    m1, m0
 115     mova  [dstq+lenq], m1
 116     sub    lenq, mmsize
 117     jge .loop
 118     REP_RET
 119 %endmacro
 120
 121 INIT_XMM sse
 122 VECTOR_FMUL_SCALAR
 123
 124 ;------------------------------------------------------------------------------
 125 ; void ff_vector_dmul_scalar(double *dst, const double *src, double mul,
 126 ;                            int len)
 127 ;------------------------------------------------------------------------------
 128
 129 %macro VECTOR_DMUL_SCALAR 0
 130 %if UNIX64
 131 cglobal vector_dmul_scalar, 3,3,3, dst, src, len
 132 %else
 133 cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
 134 %endif
 135 %if ARCH_X86_32
 136     VBROADCASTSD   m0, mulm
 137 %else
 138 %if WIN64
 139     movlhps      xmm2, xmm2
 140 %if cpuflag(avx)
 141     vinsertf128  ymm2, ymm2, xmm2, 1
 142 %endif
 143     SWAP 0, 2
 144 %else
 145     movlhps      xmm0, xmm0
 146 %if cpuflag(avx)
 147     vinsertf128  ymm0, ymm0, xmm0, 1
 148 %endif
 149 %endif
 150 %endif
 151     lea          lenq, [lend*8-2*mmsize]
 152 .loop:
 153     mulpd          m1, m0, [srcq+lenq       ]
 154     mulpd          m2, m0, [srcq+lenq+mmsize]
 155     mova   [dstq+lenq       ], m1
 156     mova   [dstq+lenq+mmsize], m2
 157     sub          lenq, 2*mmsize
 158     jge .loop
 159     REP_RET
 160 %endmacro
 161
 162 INIT_XMM sse2
 163 VECTOR_DMUL_SCALAR
 164 %if HAVE_AVX_EXTERNAL
 165 INIT_YMM avx
 166 VECTOR_DMUL_SCALAR
 167 %endif