git.sesse.net Git - ffmpeg/blob - libavcodec/x86/dcadsp.asm

   1 ;******************************************************************************
   2 ;* SSE-optimized functions for the DCA decoder
   3 ;* Copyright (C) 2012-2014 Christophe Gisquet <christophe.gisquet@gmail.com>
   4 ;*
   5 ;* This file is part of Libav.
   6 ;*
   7 ;* Libav is free software; you can redistribute it and/or
   8 ;* modify it under the terms of the GNU Lesser General Public
   9 ;* License as published by the Free Software Foundation; either
  10 ;* version 2.1 of the License, or (at your option) any later version.
  11 ;*
  12 ;* Libav is distributed in the hope that it will be useful,
  13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15 ;* Lesser General Public License for more details.
  16 ;*
  17 ;* You should have received a copy of the GNU Lesser General Public
  18 ;* License along with Libav; if not, write to the Free Software
  19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20 ;******************************************************************************
  21
  22 %include "libavutil/x86/x86util.asm"
  23
  24 SECTION_RODATA
  25 pf_inv16:  times 4 dd 0x3D800000 ; 1/16
  26
  27 SECTION .text
  28
  29 ; %1=v0/v1  %2=in1  %3=in2
  30 %macro FIR_LOOP 2-3
  31 .loop%1:
  32 %define va          m1
  33 %define vb          m2
  34 %if %1
  35 %define OFFSET      0
  36 %else
  37 %define OFFSET      NUM_COEF*count
  38 %endif
  39 ; for v0, incrementing and for v1, decrementing
  40     mova        va, [cf0q + OFFSET]
  41     mova        vb, [cf0q + OFFSET + 4*NUM_COEF]
  42 %if %0 == 3
  43     mova        m4, [cf0q + OFFSET + mmsize]
  44     mova        m0, [cf0q + OFFSET + 4*NUM_COEF + mmsize]
  45 %endif
  46     mulps       va, %2
  47     mulps       vb, %2
  48 %if %0 == 3
  49     mulps       m4, %3
  50     mulps       m0, %3
  51     addps       va, m4
  52     addps       vb, m0
  53 %endif
  54     ; va = va1 va2 va3 va4
  55     ; vb = vb1 vb2 vb3 vb4
  56 %if %1
  57     SWAP        va, vb
  58 %endif
  59     mova        m4, va
  60     unpcklps    va, vb ; va3 vb3 va4 vb4
  61     unpckhps    m4, vb ; va1 vb1 va2 vb2
  62     addps       m4, va ; va1+3 vb1+3 va2+4 vb2+4
  63     movhlps     vb, m4 ; va1+3  vb1+3
  64     addps       vb, m4 ; va0..4 vb0..4
  65     movlps  [outq + count], vb
  66 %if %1
  67     sub       cf0q, 8*NUM_COEF
  68 %endif
  69     add      count, 8
  70     jl   .loop%1
  71 %endmacro
  72
  73 ; void dca_lfe_fir(float *out, float *in, float *coefs)
  74 %macro DCA_LFE_FIR 1
  75 cglobal dca_lfe_fir%1, 3,3,6-%1, out, in, cf0
  76 %define IN1       m3
  77 %define IN2       m5
  78 %define count     inq
  79 %define NUM_COEF  4*(2-%1)
  80 %define NUM_OUT   32*(%1+1)
  81
  82     movu     IN1, [inq + 4 - 1*mmsize]
  83     shufps   IN1, IN1, q0123
  84 %if %1 == 0
  85     movu     IN2, [inq + 4 - 2*mmsize]
  86     shufps   IN2, IN2, q0123
  87 %endif
  88
  89     mov    count, -4*NUM_OUT
  90     add     cf0q, 4*NUM_COEF*NUM_OUT
  91     add     outq, 4*NUM_OUT
  92     ; compute v0 first
  93 %if %1 == 0
  94     FIR_LOOP   0, IN1, IN2
  95 %else
  96     FIR_LOOP   0, IN1
  97 %endif
  98     shufps   IN1, IN1, q0123
  99     mov    count, -4*NUM_OUT
 100     ; cf1 already correctly positioned
 101     add     outq, 4*NUM_OUT          ; outq now at out2
 102     sub     cf0q, 8*NUM_COEF
 103 %if %1 == 0
 104     shufps   IN2, IN2, q0123
 105     FIR_LOOP   1, IN2, IN1
 106 %else
 107     FIR_LOOP   1, IN1
 108 %endif
 109     RET
 110 %endmacro
 111
 112 INIT_XMM sse
 113 DCA_LFE_FIR 0
 114 DCA_LFE_FIR 1
 115
 116 %macro SETZERO 1
 117 %if cpuflag(sse2) && notcpuflag(avx)
 118     pxor          %1, %1
 119 %else
 120     xorps         %1, %1, %1
 121 %endif
 122 %endmacro
 123
 124 %macro SHUF 3
 125 %if cpuflag(avx)
 126     mova          %3, [%2 - 16]
 127     vperm2f128    %1, %3, %3, 1
 128     vshufps       %1, %1, %1, q0123
 129 %elif cpuflag(sse2)
 130     pshufd        %1, [%2], q0123
 131 %else
 132     mova          %1, [%2]
 133     shufps        %1, %1, q0123
 134 %endif
 135 %endmacro
 136
 137 %macro INNER_LOOP   1
 138     ; reading backwards:  ptr1 = synth_buf + j + i; ptr2 = synth_buf + j - i
 139     ;~ a += window[i + j]      * (-synth_buf[15 - i + j])
 140     ;~ b += window[i + j + 16] * (synth_buf[i + j])
 141     SHUF          m5,  ptr2 + j + (15 - 3) * 4, m6
 142     mova          m6, [ptr1 + j]
 143 %if ARCH_X86_64
 144     SHUF         m11,  ptr2 + j + (15 - 3) * 4 - mmsize, m12
 145     mova         m12, [ptr1 + j + mmsize]
 146 %endif
 147 %if cpuflag(fma3)
 148     fmaddps       m2, m6,  [win + %1 + j + 16 * 4], m2
 149     fnmaddps      m1, m5,  [win + %1 + j], m1
 150 %if ARCH_X86_64
 151     fmaddps       m8, m12, [win + %1 + j + mmsize + 16 * 4], m8
 152     fnmaddps      m7, m11, [win + %1 + j + mmsize], m7
 153 %endif
 154 %else ; non-FMA
 155     mulps         m6, m6,  [win + %1 + j + 16 * 4]
 156     mulps         m5, m5,  [win + %1 + j]
 157 %if ARCH_X86_64
 158     mulps        m12, m12, [win + %1 + j + mmsize + 16 * 4]
 159     mulps        m11, m11, [win + %1 + j + mmsize]
 160 %endif
 161     addps         m2, m2, m6
 162     subps         m1, m1, m5
 163 %if ARCH_X86_64
 164     addps         m8, m8, m12
 165     subps         m7, m7, m11
 166 %endif
 167 %endif ; cpuflag(fma3)
 168     ;~ c += window[i + j + 32] * (synth_buf[16 + i + j])
 169     ;~ d += window[i + j + 48] * (synth_buf[31 - i + j])
 170     SHUF          m6,  ptr2 + j + (31 - 3) * 4, m5
 171     mova          m5, [ptr1 + j + 16 * 4]
 172 %if ARCH_X86_64
 173     SHUF         m12,  ptr2 + j + (31 - 3) * 4 - mmsize, m11
 174     mova         m11, [ptr1 + j + mmsize + 16 * 4]
 175 %endif
 176 %if cpuflag(fma3)
 177     fmaddps       m3, m5,  [win + %1 + j + 32 * 4], m3
 178     fmaddps       m4, m6,  [win + %1 + j + 48 * 4], m4
 179 %if ARCH_X86_64
 180     fmaddps       m9, m11, [win + %1 + j + mmsize + 32 * 4], m9
 181     fmaddps      m10, m12, [win + %1 + j + mmsize + 48 * 4], m10
 182 %endif
 183 %else ; non-FMA
 184     mulps         m5, m5,  [win + %1 + j + 32 * 4]
 185     mulps         m6, m6,  [win + %1 + j + 48 * 4]
 186 %if ARCH_X86_64
 187     mulps        m11, m11, [win + %1 + j + mmsize + 32 * 4]
 188     mulps        m12, m12, [win + %1 + j + mmsize + 48 * 4]
 189 %endif
 190     addps         m3, m3, m5
 191     addps         m4, m4, m6
 192 %if ARCH_X86_64
 193     addps         m9, m9, m11
 194     addps        m10, m10, m12
 195 %endif
 196 %endif ; cpuflag(fma3)
 197     sub            j, 64 * 4
 198 %endmacro
 199
 200 ; void ff_synth_filter_inner_<opt>(float *synth_buf, float synth_buf2[32],
 201 ;                                  const float window[512], float out[32],
 202 ;                                  intptr_t offset, float scale)
 203 %macro SYNTH_FILTER 0
 204 cglobal synth_filter_inner, 0, 6 + 4 * ARCH_X86_64, 7 + 6 * ARCH_X86_64, \
 205                               synth_buf, synth_buf2, window, out, off, scale
 206 %define scale m0
 207 %if ARCH_X86_32 || WIN64
 208 %if cpuflag(sse2) && notcpuflag(avx)
 209     movd       scale, scalem
 210     SPLATD        m0
 211 %else
 212     VBROADCASTSS  m0, scalem
 213 %endif
 214 ; Make sure offset is in a register and not on the stack
 215 %define OFFQ  r4q
 216 %else
 217     SPLATD      xmm0
 218 %if cpuflag(avx)
 219     vinsertf128   m0, m0, xmm0, 1
 220 %endif
 221 %define OFFQ  offq
 222 %endif
 223     ; prepare inner counter limit 1
 224     mov          r5q, 480
 225     sub          r5q, offmp
 226     and          r5q, -64
 227     shl          r5q, 2
 228 %if ARCH_X86_32 || notcpuflag(avx)
 229     mov         OFFQ, r5q
 230 %define i        r5q
 231     mov            i, 16 * 4 - (ARCH_X86_64 + 1) * mmsize  ; main loop counter
 232 %else
 233 %define i 0
 234 %define OFFQ  r5q
 235 %endif
 236
 237 %define buf2     synth_buf2q
 238 %if ARCH_X86_32
 239     mov         buf2, synth_buf2mp
 240 %endif
 241 .mainloop:
 242     ; m1 = a  m2 = b  m3 = c  m4 = d
 243     SETZERO       m3
 244     SETZERO       m4
 245     mova          m1, [buf2 + i]
 246     mova          m2, [buf2 + i + 16 * 4]
 247 %if ARCH_X86_32
 248 %define ptr1     r0q
 249 %define ptr2     r1q
 250 %define win      r2q
 251 %define j        r3q
 252     mov          win, windowm
 253     mov         ptr1, synth_bufm
 254 %if ARCH_X86_32 || notcpuflag(avx)
 255     add          win, i
 256     add         ptr1, i
 257 %endif
 258 %else ; ARCH_X86_64
 259 %define ptr1     r6q
 260 %define ptr2     r7q ; must be loaded
 261 %define win      r8q
 262 %define j        r9q
 263     SETZERO       m9
 264     SETZERO      m10
 265     mova          m7, [buf2 + i + mmsize]
 266     mova          m8, [buf2 + i + mmsize + 16 * 4]
 267     lea          win, [windowq + i]
 268     lea         ptr1, [synth_bufq + i]
 269 %endif
 270     mov         ptr2, synth_bufmp
 271     ; prepare the inner loop counter
 272     mov            j, OFFQ
 273 %if ARCH_X86_32 || notcpuflag(avx)
 274     sub         ptr2, i
 275 %endif
 276 .loop1:
 277     INNER_LOOP  0
 278     jge       .loop1
 279
 280     mov            j, 448 * 4
 281     sub            j, OFFQ
 282     jz          .end
 283     sub         ptr1, j
 284     sub         ptr2, j
 285     add          win, OFFQ ; now at j-64, so define OFFSET
 286     sub            j, 64 * 4
 287 .loop2:
 288     INNER_LOOP  64 * 4
 289     jge       .loop2
 290
 291 .end:
 292 %if ARCH_X86_32
 293     mov         buf2, synth_buf2m ; needed for next iteration anyway
 294     mov         outq, outmp       ; j, which will be set again during it
 295 %endif
 296     ;~ out[i]      = a * scale;
 297     ;~ out[i + 16] = b * scale;
 298     mulps         m1, m1, scale
 299     mulps         m2, m2, scale
 300 %if ARCH_X86_64
 301     mulps         m7, m7, scale
 302     mulps         m8, m8, scale
 303 %endif
 304     ;~ synth_buf2[i]      = c;
 305     ;~ synth_buf2[i + 16] = d;
 306     mova   [buf2 + i +  0 * 4], m3
 307     mova   [buf2 + i + 16 * 4], m4
 308 %if ARCH_X86_64
 309     mova   [buf2 + i +  0 * 4 + mmsize], m9
 310     mova   [buf2 + i + 16 * 4 + mmsize], m10
 311 %endif
 312     ;~ out[i]      = a;
 313     ;~ out[i + 16] = a;
 314     mova   [outq + i +  0 * 4], m1
 315     mova   [outq + i + 16 * 4], m2
 316 %if ARCH_X86_64
 317     mova   [outq + i +  0 * 4 + mmsize], m7
 318     mova   [outq + i + 16 * 4 + mmsize], m8
 319 %endif
 320 %if ARCH_X86_32 || notcpuflag(avx)
 321     sub            i, (ARCH_X86_64 + 1) * mmsize
 322     jge    .mainloop
 323 %endif
 324     RET
 325 %endmacro
 326
 327 %if ARCH_X86_32
 328 INIT_XMM sse
 329 SYNTH_FILTER
 330 %endif
 331 INIT_XMM sse2
 332 SYNTH_FILTER
 333 INIT_YMM avx
 334 SYNTH_FILTER
 335 INIT_YMM fma3
 336 SYNTH_FILTER