git.sesse.net Git - ffmpeg/blob - libavcodec/x86/aacpsdsp.asm

   1 ;******************************************************************************
   2 ;* SIMD optimized MPEG-4 Parametric Stereo decoding functions
   3 ;*
   4 ;* Copyright (C) 2015 James Almer
   5 ;*
   6 ;* This file is part of FFmpeg.
   7 ;*
   8 ;* FFmpeg is free software; you can redistribute it and/or
   9 ;* modify it under the terms of the GNU Lesser General Public
  10 ;* License as published by the Free Software Foundation; either
  11 ;* version 2.1 of the License, or (at your option) any later version.
  12 ;*
  13 ;* FFmpeg is distributed in the hope that it will be useful,
  14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  16 ;* Lesser General Public License for more details.
  17 ;*
  18 ;* You should have received a copy of the GNU Lesser General Public
  19 ;* License along with FFmpeg; if not, write to the Free Software
  20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  21 ;******************************************************************************
  22
  23 %include "libavutil/x86/x86util.asm"
  24
  25 SECTION_RODATA
  26
  27 ps_p1m1p1m1: dd 0, 0x80000000, 0, 0x80000000
  28
  29 SECTION .text
  30
  31 ;*************************************************************************
  32 ;void ff_ps_add_squares_<opt>(float *dst, const float (*src)[2], int n);
  33 ;*************************************************************************
  34 %macro PS_ADD_SQUARES 1
  35 cglobal ps_add_squares, 3, 3, %1, dst, src, n
  36     shl    nd, 3
  37     add  srcq, nq
  38     neg    nq
  39
  40 align 16
  41 .loop:
  42     movaps m0, [srcq+nq]
  43     movaps m1, [srcq+nq+mmsize]
  44     mulps  m0, m0
  45     mulps  m1, m1
  46     HADDPS m0, m1, m2
  47     addps  m0, [dstq]
  48     movaps [dstq], m0
  49     add  dstq, mmsize
  50     add    nq, mmsize*2
  51     jl .loop
  52     REP_RET
  53 %endmacro
  54
  55 INIT_XMM sse
  56 PS_ADD_SQUARES 2
  57 INIT_XMM sse3
  58 PS_ADD_SQUARES 3
  59
  60 ;*******************************************************************
  61 ;void ff_ps_mul_pair_single_sse(float (*dst)[2], float (*src0)[2],
  62 ;                                   float *src1, int n);
  63 ;*******************************************************************
  64 INIT_XMM sse
  65 cglobal ps_mul_pair_single, 4, 4, 4, dst, src1, src2, n
  66     shl      nd, 3
  67     add   src1q, nq
  68     add    dstq, nq
  69     neg      nq
  70
  71 align 16
  72 .loop:
  73     movu     m0, [src1q+nq]
  74     movu     m1, [src1q+nq+mmsize]
  75     mova     m2, [src2q]
  76     mova     m3, m2
  77     unpcklps m2, m2
  78     unpckhps m3, m3
  79     mulps    m0, m2
  80     mulps    m1, m3
  81     mova [dstq+nq], m0
  82     mova [dstq+nq+mmsize], m1
  83     add   src2q, mmsize
  84     add      nq, mmsize*2
  85     jl .loop
  86     REP_RET
  87
  88 ;***********************************************************************
  89 ;void ff_ps_stereo_interpolate_sse3(float (*l)[2], float (*r)[2],
  90 ;                                   float h[2][4], float h_step[2][4],
  91 ;                                   int len);
  92 ;***********************************************************************
  93 INIT_XMM sse3
  94 cglobal ps_stereo_interpolate, 5, 5, 6, l, r, h, h_step, n
  95     movaps   m0, [hq]
  96     movaps   m1, [h_stepq]
  97     cmp      nd, 0
  98     jle .ret
  99     unpcklps m4, m0, m0
 100     unpckhps m0, m0
 101     unpcklps m5, m1, m1
 102     unpckhps m1, m1
 103     shl      nd, 3
 104     add      lq, nq
 105     add      rq, nq
 106     neg      nq
 107
 108 align 16
 109 .loop:
 110     addps    m4, m5
 111     addps    m0, m1
 112     movddup  m2, [lq+nq]
 113     movddup  m3, [rq+nq]
 114     mulps    m2, m4
 115     mulps    m3, m0
 116     addps    m2, m3
 117     movsd  [lq+nq], m2
 118     movhps [rq+nq], m2
 119     add      nq, 8
 120     jl .loop
 121 .ret:
 122     REP_RET
 123
 124 ;***************************************************************************
 125 ;void ps_stereo_interpolate_ipdopd_sse3(float (*l)[2], float (*r)[2],
 126 ;                                       float h[2][4], float h_step[2][4],
 127 ;                                       int len);
 128 ;***************************************************************************
 129 INIT_XMM sse3
 130 cglobal ps_stereo_interpolate_ipdopd, 5, 5, 10, l, r, h, h_step, n
 131     cmp      nd, 0
 132     jle .ret
 133     movaps   m0, [hq]
 134     movaps   m1, [hq+mmsize]
 135 %if ARCH_X86_64
 136     movaps   m8, [h_stepq]
 137     movaps   m9, [h_stepq+mmsize]
 138     %define  H_STEP0 m8
 139     %define  H_STEP1 m9
 140 %else
 141     %define  H_STEP0 [h_stepq]
 142     %define  H_STEP1 [h_stepq+mmsize]
 143 %endif
 144     shl      nd, 3
 145     add      lq, nq
 146     add      rq, nq
 147     neg      nq
 148
 149 align 16
 150 .loop:
 151     addps    m0, H_STEP0
 152     addps    m1, H_STEP1
 153     movddup  m2, [lq+nq]
 154     movddup  m3, [rq+nq]
 155     shufps   m4, m2, m2, q2301
 156     shufps   m5, m3, m3, q2301
 157     unpcklps m6, m0, m0
 158     unpckhps m7, m0, m0
 159     mulps    m2, m6
 160     mulps    m3, m7
 161     unpcklps m6, m1, m1
 162     unpckhps m7, m1, m1
 163     mulps    m4, m6
 164     mulps    m5, m7
 165     addps    m2, m3
 166     addsubps m2, m4
 167     addsubps m2, m5
 168     movsd  [lq+nq], m2
 169     movhps [rq+nq], m2
 170     add      nq, 8
 171     jl .loop
 172 .ret:
 173     REP_RET
 174
 175 ;*******************************************************************
 176 ;void ff_ps_hybrid_analysis_<opt>(float (*out)[2], float (*in)[2],
 177 ;                                 const float (*filter)[8][2],
 178 ;                                 int stride, int n);
 179 ;*******************************************************************
 180 %macro PS_HYBRID_ANALYSIS_LOOP 3
 181     movu     %1, [inq+mmsize*%3]
 182     movu     m1, [inq+mmsize*(5-%3)+8]
 183 %if cpuflag(sse3)
 184     pshufd   %2, %1, q2301
 185     pshufd   m4, m1, q0123
 186     pshufd   m1, m1, q1032
 187     pshufd   m2, [filterq+nq+mmsize*%3], q2301
 188     addsubps %2, m4
 189     addsubps %1, m1
 190 %else
 191     mova     m2, [filterq+nq+mmsize*%3]
 192     mova     %2, %1
 193     mova     m4, m1
 194     shufps   %2, %2, q2301
 195     shufps   m4, m4, q0123
 196     shufps   m1, m1, q1032
 197     shufps   m2, m2, q2301
 198     xorps    m4, m7
 199     xorps    m1, m7
 200     subps    %2, m4
 201     subps    %1, m1
 202 %endif
 203     mulps    %2, m2
 204     mulps    %1, m2
 205 %if %3
 206     addps    m3, %2
 207     addps    m0, %1
 208 %endif
 209 %endmacro
 210
 211 %macro PS_HYBRID_ANALYSIS 0
 212 cglobal ps_hybrid_analysis, 5, 5, 8, out, in, filter, stride, n
 213 %if cpuflag(sse3)
 214 %define MOVH movsd
 215 %else
 216 %define MOVH movlps
 217 %endif
 218     shl strided, 3
 219     shl nd, 6
 220     add filterq, nq
 221     neg nq
 222     mova m7, [ps_p1m1p1m1]
 223
 224 align 16
 225 .loop:
 226     PS_HYBRID_ANALYSIS_LOOP m0, m3, 0
 227     PS_HYBRID_ANALYSIS_LOOP m5, m6, 1
 228     PS_HYBRID_ANALYSIS_LOOP m5, m6, 2
 229
 230 %if cpuflag(sse3)
 231     pshufd   m3, m3, q2301
 232     xorps    m0, m7
 233     hsubps   m3, m0
 234     pshufd   m1, m3, q0020
 235     pshufd   m3, m3, q0031
 236     addps    m1, m3
 237     movsd    m2, [inq+6*8]
 238 %else
 239     mova     m1, m3
 240     mova     m2, m0
 241     shufps   m1, m1, q2301
 242     shufps   m2, m2, q2301
 243     subps    m1, m3
 244     addps    m2, m0
 245     unpcklps m3, m1, m2
 246     unpckhps m1, m2
 247     addps    m1, m3
 248     movu     m2, [inq+6*8] ; faster than movlps and no risk of overread
 249 %endif
 250     movss    m3, [filterq+nq+8*6]
 251     SPLATD   m3
 252     mulps    m2, m3
 253     addps    m1, m2
 254     MOVH [outq], m1
 255     add    outq, strideq
 256     add      nq, 64
 257     jl .loop
 258     REP_RET
 259 %endmacro
 260
 261 INIT_XMM sse
 262 PS_HYBRID_ANALYSIS
 263 INIT_XMM sse3
 264 PS_HYBRID_ANALYSIS