git.sesse.net Git - ffmpeg/blob - libavcodec/x86/ac3dsp.asm

   1 ;*****************************************************************************
   2 ;* x86-optimized AC-3 DSP utils
   3 ;* Copyright (c) 2011 Justin Ruggles
   4 ;*
   5 ;* This file is part of FFmpeg.
   6 ;*
   7 ;* FFmpeg is free software; you can redistribute it and/or
   8 ;* modify it under the terms of the GNU Lesser General Public
   9 ;* License as published by the Free Software Foundation; either
  10 ;* version 2.1 of the License, or (at your option) any later version.
  11 ;*
  12 ;* FFmpeg is distributed in the hope that it will be useful,
  13 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  14 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15 ;* Lesser General Public License for more details.
  16 ;*
  17 ;* You should have received a copy of the GNU Lesser General Public
  18 ;* License along with FFmpeg; if not, write to the Free Software
  19 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20 ;******************************************************************************
  21
  22 %include "x86inc.asm"
  23 %include "x86util.asm"
  24
  25 SECTION_RODATA
  26
  27 ; 16777216.0f - used in ff_float_to_fixed24()
  28 pf_1_24: times 4 dd 0x4B800000
  29
  30 SECTION .text
  31
  32 ;-----------------------------------------------------------------------------
  33 ; void ff_ac3_exponent_min(uint8_t *exp, int num_reuse_blocks, int nb_coefs)
  34 ;-----------------------------------------------------------------------------
  35
  36 %macro AC3_EXPONENT_MIN 1
  37 cglobal ac3_exponent_min_%1, 3,4,2, exp, reuse_blks, expn, offset
  38     shl  reuse_blksq, 8
  39     jz .end
  40     LOOP_ALIGN
  41 .nextexp:
  42     mov      offsetq, reuse_blksq
  43     mova          m0, [expq+offsetq]
  44     sub      offsetq, 256
  45     LOOP_ALIGN
  46 .nextblk:
  47     PMINUB        m0, [expq+offsetq], m1
  48     sub      offsetq, 256
  49     jae .nextblk
  50     mova      [expq], m0
  51     add         expq, mmsize
  52     sub        expnq, mmsize
  53     jg .nextexp
  54 .end:
  55     REP_RET
  56 %endmacro
  57
  58 %define PMINUB PMINUB_MMX
  59 %define LOOP_ALIGN
  60 INIT_MMX
  61 AC3_EXPONENT_MIN mmx
  62 %ifdef HAVE_MMX2
  63 %define PMINUB PMINUB_MMXEXT
  64 %define LOOP_ALIGN ALIGN 16
  65 AC3_EXPONENT_MIN mmxext
  66 %endif
  67 %ifdef HAVE_SSE
  68 INIT_XMM
  69 AC3_EXPONENT_MIN sse2
  70 %endif
  71 %undef PMINUB
  72 %undef LOOP_ALIGN
  73
  74 ;-----------------------------------------------------------------------------
  75 ; int ff_ac3_max_msb_abs_int16(const int16_t *src, int len)
  76 ;
  77 ; This function uses 2 different methods to calculate a valid result.
  78 ; 1) logical 'or' of abs of each element
  79 ;        This is used for ssse3 because of the pabsw instruction.
  80 ;        It is also used for mmx because of the lack of min/max instructions.
  81 ; 2) calculate min/max for the array, then or(abs(min),abs(max))
  82 ;        This is used for mmxext and sse2 because they have pminsw/pmaxsw.
  83 ;-----------------------------------------------------------------------------
  84
  85 %macro AC3_MAX_MSB_ABS_INT16 2
  86 cglobal ac3_max_msb_abs_int16_%1, 2,2,5, src, len
  87     pxor        m2, m2
  88     pxor        m3, m3
  89 .loop:
  90 %ifidn %2, min_max
  91     mova        m0, [srcq]
  92     mova        m1, [srcq+mmsize]
  93     pminsw      m2, m0
  94     pminsw      m2, m1
  95     pmaxsw      m3, m0
  96     pmaxsw      m3, m1
  97 %else ; or_abs
  98 %ifidn %1, mmx
  99     mova        m0, [srcq]
 100     mova        m1, [srcq+mmsize]
 101     ABS2        m0, m1, m3, m4
 102 %else ; ssse3
 103     ; using memory args is faster for ssse3
 104     pabsw       m0, [srcq]
 105     pabsw       m1, [srcq+mmsize]
 106 %endif
 107     por         m2, m0
 108     por         m2, m1
 109 %endif
 110     add       srcq, mmsize*2
 111     sub       lend, mmsize
 112     ja .loop
 113 %ifidn %2, min_max
 114     ABS2        m2, m3, m0, m1
 115     por         m2, m3
 116 %endif
 117 %ifidn mmsize, 16
 118     movhlps     m0, m2
 119     por         m2, m0
 120 %endif
 121     PSHUFLW     m0, m2, 0xe
 122     por         m2, m0
 123     PSHUFLW     m0, m2, 0x1
 124     por         m2, m0
 125     movd       eax, m2
 126     and        eax, 0xFFFF
 127     RET
 128 %endmacro
 129
 130 INIT_MMX
 131 %define ABS2 ABS2_MMX
 132 %define PSHUFLW pshufw
 133 AC3_MAX_MSB_ABS_INT16 mmx, or_abs
 134 %define ABS2 ABS2_MMX2
 135 AC3_MAX_MSB_ABS_INT16 mmxext, min_max
 136 INIT_XMM
 137 %define PSHUFLW pshuflw
 138 AC3_MAX_MSB_ABS_INT16 sse2, min_max
 139 %define ABS2 ABS2_SSSE3
 140 AC3_MAX_MSB_ABS_INT16 ssse3, or_abs
 141
 142 ;-----------------------------------------------------------------------------
 143 ; macro used for ff_ac3_lshift_int16() and ff_ac3_rshift_int32()
 144 ;-----------------------------------------------------------------------------
 145
 146 %macro AC3_SHIFT 4 ; l/r, 16/32, shift instruction, instruction set
 147 cglobal ac3_%1shift_int%2_%4, 3,3,5, src, len, shift
 148     movd      m0, shiftd
 149 .loop:
 150     mova      m1, [srcq         ]
 151     mova      m2, [srcq+mmsize  ]
 152     mova      m3, [srcq+mmsize*2]
 153     mova      m4, [srcq+mmsize*3]
 154     %3        m1, m0
 155     %3        m2, m0
 156     %3        m3, m0
 157     %3        m4, m0
 158     mova  [srcq         ], m1
 159     mova  [srcq+mmsize  ], m2
 160     mova  [srcq+mmsize*2], m3
 161     mova  [srcq+mmsize*3], m4
 162     add     srcq, mmsize*4
 163     sub     lend, mmsize*32/%2
 164     ja .loop
 165 .end:
 166     REP_RET
 167 %endmacro
 168
 169 ;-----------------------------------------------------------------------------
 170 ; void ff_ac3_lshift_int16(int16_t *src, unsigned int len, unsigned int shift)
 171 ;-----------------------------------------------------------------------------
 172
 173 INIT_MMX
 174 AC3_SHIFT l, 16, psllw, mmx
 175 INIT_XMM
 176 AC3_SHIFT l, 16, psllw, sse2
 177
 178 ;-----------------------------------------------------------------------------
 179 ; void ff_ac3_rshift_int32(int32_t *src, unsigned int len, unsigned int shift)
 180 ;-----------------------------------------------------------------------------
 181
 182 INIT_MMX
 183 AC3_SHIFT r, 32, psrad, mmx
 184 INIT_XMM
 185 AC3_SHIFT r, 32, psrad, sse2
 186
 187 ;-----------------------------------------------------------------------------
 188 ; void ff_float_to_fixed24(int32_t *dst, const float *src, unsigned int len)
 189 ;-----------------------------------------------------------------------------
 190
 191 ; The 3DNow! version is not bit-identical because pf2id uses truncation rather
 192 ; than round-to-nearest.
 193 INIT_MMX
 194 cglobal float_to_fixed24_3dnow, 3,3,0, dst, src, len
 195     movq   m0, [pf_1_24]
 196 .loop:
 197     movq   m1, [srcq   ]
 198     movq   m2, [srcq+8 ]
 199     movq   m3, [srcq+16]
 200     movq   m4, [srcq+24]
 201     pfmul  m1, m0
 202     pfmul  m2, m0
 203     pfmul  m3, m0
 204     pfmul  m4, m0
 205     pf2id  m1, m1
 206     pf2id  m2, m2
 207     pf2id  m3, m3
 208     pf2id  m4, m4
 209     movq  [dstq   ], m1
 210     movq  [dstq+8 ], m2
 211     movq  [dstq+16], m3
 212     movq  [dstq+24], m4
 213     add  srcq, 32
 214     add  dstq, 32
 215     sub  lend, 8
 216     ja .loop
 217     REP_RET
 218
 219 INIT_XMM
 220 cglobal float_to_fixed24_sse, 3,3,3, dst, src, len
 221     movaps     m0, [pf_1_24]
 222 .loop:
 223     movaps     m1, [srcq   ]
 224     movaps     m2, [srcq+16]
 225     mulps      m1, m0
 226     mulps      m2, m0
 227     cvtps2pi  mm0, m1
 228     movhlps    m1, m1
 229     cvtps2pi  mm1, m1
 230     cvtps2pi  mm2, m2
 231     movhlps    m2, m2
 232     cvtps2pi  mm3, m2
 233     movq  [dstq   ], mm0
 234     movq  [dstq+ 8], mm1
 235     movq  [dstq+16], mm2
 236     movq  [dstq+24], mm3
 237     add      srcq, 32
 238     add      dstq, 32
 239     sub      lend, 8
 240     ja .loop
 241     REP_RET
 242
 243 INIT_XMM
 244 cglobal float_to_fixed24_sse2, 3,3,9, dst, src, len
 245     movaps     m0, [pf_1_24]
 246 .loop:
 247     movaps     m1, [srcq    ]
 248     movaps     m2, [srcq+16 ]
 249     movaps     m3, [srcq+32 ]
 250     movaps     m4, [srcq+48 ]
 251 %ifdef m8
 252     movaps     m5, [srcq+64 ]
 253     movaps     m6, [srcq+80 ]
 254     movaps     m7, [srcq+96 ]
 255     movaps     m8, [srcq+112]
 256 %endif
 257     mulps      m1, m0
 258     mulps      m2, m0
 259     mulps      m3, m0
 260     mulps      m4, m0
 261 %ifdef m8
 262     mulps      m5, m0
 263     mulps      m6, m0
 264     mulps      m7, m0
 265     mulps      m8, m0
 266 %endif
 267     cvtps2dq   m1, m1
 268     cvtps2dq   m2, m2
 269     cvtps2dq   m3, m3
 270     cvtps2dq   m4, m4
 271 %ifdef m8
 272     cvtps2dq   m5, m5
 273     cvtps2dq   m6, m6
 274     cvtps2dq   m7, m7
 275     cvtps2dq   m8, m8
 276 %endif
 277     movdqa  [dstq    ], m1
 278     movdqa  [dstq+16 ], m2
 279     movdqa  [dstq+32 ], m3
 280     movdqa  [dstq+48 ], m4
 281 %ifdef m8
 282     movdqa  [dstq+64 ], m5
 283     movdqa  [dstq+80 ], m6
 284     movdqa  [dstq+96 ], m7
 285     movdqa  [dstq+112], m8
 286     add      srcq, 128
 287     add      dstq, 128
 288     sub      lenq, 32
 289 %else
 290     add      srcq, 64
 291     add      dstq, 64
 292     sub      lenq, 16
 293 %endif
 294     ja .loop
 295     REP_RET