git.sesse.net Git - ffmpeg/blob - libavcodec/x86/synth_filter.asm

   1 ;******************************************************************************
   2 ;* SSE-optimized functions for the DCA decoder
   3 ;* Copyright (C) 2012-2014 Christophe Gisquet <christophe.gisquet@gmail.com>
   4 ;*
   5 ;* This file is part of FFmpeg.
   6 ;*
   7 ;* FFmpeg is free software; you can redistribute it and/or
   8 ;* modify it under the terms of the GNU Lesser General Public
   9 ;* License as published by the Free Software Foundation; either
  10 ;* version 2.1 of the License, or (at your option) any later version.
  11 ;*
  12 ;* FFmpeg is distributed in the hope that it will be useful,
  13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15 ;* Lesser General Public License for more details.
  16 ;*
  17 ;* You should have received a copy of the GNU Lesser General Public
  18 ;* License along with FFmpeg; if not, write to the Free Software
  19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20 ;******************************************************************************
  21
  22 %include "libavutil/x86/x86util.asm"
  23
  24 SECTION .text
  25
  26 %macro SETZERO 1
  27 %if cpuflag(sse2) && notcpuflag(avx)
  28     pxor          %1, %1
  29 %else
  30     xorps         %1, %1, %1
  31 %endif
  32 %endmacro
  33
  34 %macro SHUF 3
  35 %if cpuflag(avx)
  36     mova          %3, [%2 - 16]
  37     vperm2f128    %1, %3, %3, 1
  38     vshufps       %1, %1, %1, q0123
  39 %elif cpuflag(sse2)
  40     pshufd        %1, [%2], q0123
  41 %else
  42     mova          %1, [%2]
  43     shufps        %1, %1, q0123
  44 %endif
  45 %endmacro
  46
  47 %macro INNER_LOOP   1
  48     ; reading backwards:  ptr1 = synth_buf + j + i; ptr2 = synth_buf + j - i
  49     ;~ a += window[i + j]      * (-synth_buf[15 - i + j])
  50     ;~ b += window[i + j + 16] * (synth_buf[i + j])
  51     SHUF          m5,  ptr2 + j + (15 - 3) * 4, m6
  52     mova          m6, [ptr1 + j]
  53 %if ARCH_X86_64
  54     SHUF         m11,  ptr2 + j + (15 - 3) * 4 - mmsize, m12
  55     mova         m12, [ptr1 + j + mmsize]
  56 %endif
  57 %if cpuflag(fma3)
  58     fmaddps       m2, m6,  [win + %1 + j + 16 * 4], m2
  59     fnmaddps      m1, m5,  [win + %1 + j], m1
  60 %if ARCH_X86_64
  61     fmaddps       m8, m12, [win + %1 + j + mmsize + 16 * 4], m8
  62     fnmaddps      m7, m11, [win + %1 + j + mmsize], m7
  63 %endif
  64 %else ; non-FMA
  65     mulps         m6, m6,  [win + %1 + j + 16 * 4]
  66     mulps         m5, m5,  [win + %1 + j]
  67 %if ARCH_X86_64
  68     mulps        m12, m12, [win + %1 + j + mmsize + 16 * 4]
  69     mulps        m11, m11, [win + %1 + j + mmsize]
  70 %endif
  71     addps         m2, m2, m6
  72     subps         m1, m1, m5
  73 %if ARCH_X86_64
  74     addps         m8, m8, m12
  75     subps         m7, m7, m11
  76 %endif
  77 %endif ; cpuflag(fma3)
  78     ;~ c += window[i + j + 32] * (synth_buf[16 + i + j])
  79     ;~ d += window[i + j + 48] * (synth_buf[31 - i + j])
  80     SHUF          m6,  ptr2 + j + (31 - 3) * 4, m5
  81     mova          m5, [ptr1 + j + 16 * 4]
  82 %if ARCH_X86_64
  83     SHUF         m12,  ptr2 + j + (31 - 3) * 4 - mmsize, m11
  84     mova         m11, [ptr1 + j + mmsize + 16 * 4]
  85 %endif
  86 %if cpuflag(fma3)
  87     fmaddps       m3, m5,  [win + %1 + j + 32 * 4], m3
  88     fmaddps       m4, m6,  [win + %1 + j + 48 * 4], m4
  89 %if ARCH_X86_64
  90     fmaddps       m9, m11, [win + %1 + j + mmsize + 32 * 4], m9
  91     fmaddps      m10, m12, [win + %1 + j + mmsize + 48 * 4], m10
  92 %endif
  93 %else ; non-FMA
  94     mulps         m5, m5,  [win + %1 + j + 32 * 4]
  95     mulps         m6, m6,  [win + %1 + j + 48 * 4]
  96 %if ARCH_X86_64
  97     mulps        m11, m11, [win + %1 + j + mmsize + 32 * 4]
  98     mulps        m12, m12, [win + %1 + j + mmsize + 48 * 4]
  99 %endif
 100     addps         m3, m3, m5
 101     addps         m4, m4, m6
 102 %if ARCH_X86_64
 103     addps         m9, m9, m11
 104     addps        m10, m10, m12
 105 %endif
 106 %endif ; cpuflag(fma3)
 107     sub            j, 64 * 4
 108 %endmacro
 109
 110 ; void ff_synth_filter_inner_<opt>(float *synth_buf, float synth_buf2[32],
 111 ;                                  const float window[512], float out[32],
 112 ;                                  intptr_t offset, float scale)
 113 %macro SYNTH_FILTER 0
 114 cglobal synth_filter_inner, 0, 6 + 4 * ARCH_X86_64, 7 + 6 * ARCH_X86_64, \
 115                               synth_buf, synth_buf2, window, out, off, scale
 116 %define scale m0
 117 %if ARCH_X86_32 || WIN64
 118 %if cpuflag(sse2) && notcpuflag(avx)
 119     movd       scale, scalem
 120     SPLATD        m0
 121 %else
 122     VBROADCASTSS  m0, scalem
 123 %endif
 124 ; Make sure offset is in a register and not on the stack
 125 %define OFFQ  r4q
 126 %else
 127     SPLATD      xmm0
 128 %if cpuflag(avx)
 129     vinsertf128   m0, m0, xmm0, 1
 130 %endif
 131 %define OFFQ  offq
 132 %endif
 133     ; prepare inner counter limit 1
 134     mov          r5q, 480
 135     sub          r5q, offmp
 136     and          r5q, -64
 137     shl          r5q, 2
 138 %if ARCH_X86_32 || notcpuflag(avx)
 139     mov         OFFQ, r5q
 140 %define i        r5q
 141     mov            i, 16 * 4 - (ARCH_X86_64 + 1) * mmsize  ; main loop counter
 142 %else
 143 %define i 0
 144 %define OFFQ  r5q
 145 %endif
 146
 147 %define buf2     synth_buf2q
 148 %if ARCH_X86_32
 149     mov         buf2, synth_buf2mp
 150 %endif
 151 .mainloop:
 152     ; m1 = a  m2 = b  m3 = c  m4 = d
 153     SETZERO       m3
 154     SETZERO       m4
 155     mova          m1, [buf2 + i]
 156     mova          m2, [buf2 + i + 16 * 4]
 157 %if ARCH_X86_32
 158 %define ptr1     r0q
 159 %define ptr2     r1q
 160 %define win      r2q
 161 %define j        r3q
 162     mov          win, windowm
 163     mov         ptr1, synth_bufm
 164 %if ARCH_X86_32 || notcpuflag(avx)
 165     add          win, i
 166     add         ptr1, i
 167 %endif
 168 %else ; ARCH_X86_64
 169 %define ptr1     r6q
 170 %define ptr2     r7q ; must be loaded
 171 %define win      r8q
 172 %define j        r9q
 173     SETZERO       m9
 174     SETZERO      m10
 175     mova          m7, [buf2 + i + mmsize]
 176     mova          m8, [buf2 + i + mmsize + 16 * 4]
 177     lea          win, [windowq + i]
 178     lea         ptr1, [synth_bufq + i]
 179 %endif
 180     mov         ptr2, synth_bufmp
 181     ; prepare the inner loop counter
 182     mov            j, OFFQ
 183 %if ARCH_X86_32 || notcpuflag(avx)
 184     sub         ptr2, i
 185 %endif
 186 .loop1:
 187     INNER_LOOP  0
 188     jge       .loop1
 189
 190     mov            j, 448 * 4
 191     sub            j, OFFQ
 192     jz          .end
 193     sub         ptr1, j
 194     sub         ptr2, j
 195     add          win, OFFQ ; now at j-64, so define OFFSET
 196     sub            j, 64 * 4
 197 .loop2:
 198     INNER_LOOP  64 * 4
 199     jge       .loop2
 200
 201 .end:
 202 %if ARCH_X86_32
 203     mov         buf2, synth_buf2m ; needed for next iteration anyway
 204     mov         outq, outmp       ; j, which will be set again during it
 205 %endif
 206     ;~ out[i]      = a * scale;
 207     ;~ out[i + 16] = b * scale;
 208     mulps         m1, m1, scale
 209     mulps         m2, m2, scale
 210 %if ARCH_X86_64
 211     mulps         m7, m7, scale
 212     mulps         m8, m8, scale
 213 %endif
 214     ;~ synth_buf2[i]      = c;
 215     ;~ synth_buf2[i + 16] = d;
 216     mova   [buf2 + i +  0 * 4], m3
 217     mova   [buf2 + i + 16 * 4], m4
 218 %if ARCH_X86_64
 219     mova   [buf2 + i +  0 * 4 + mmsize], m9
 220     mova   [buf2 + i + 16 * 4 + mmsize], m10
 221 %endif
 222     ;~ out[i]      = a;
 223     ;~ out[i + 16] = a;
 224     mova   [outq + i +  0 * 4], m1
 225     mova   [outq + i + 16 * 4], m2
 226 %if ARCH_X86_64
 227     mova   [outq + i +  0 * 4 + mmsize], m7
 228     mova   [outq + i + 16 * 4 + mmsize], m8
 229 %endif
 230 %if ARCH_X86_32 || notcpuflag(avx)
 231     sub            i, (ARCH_X86_64 + 1) * mmsize
 232     jge    .mainloop
 233 %endif
 234     RET
 235 %endmacro
 236
 237 %if ARCH_X86_32
 238 INIT_XMM sse
 239 SYNTH_FILTER
 240 %endif
 241 INIT_XMM sse2
 242 SYNTH_FILTER
 243 INIT_YMM avx
 244 SYNTH_FILTER
 245 INIT_YMM fma3
 246 SYNTH_FILTER