git.sesse.net Git - ffmpeg/blob - libavcodec/arm/dcadsp_vfp.S

   1 /*
   2  * Copyright (c) 2013 RISC OS Open Ltd
   3  * Author: Ben Avison <bavison@riscosopen.org>
   4  *
   5  * This file is part of Libav.
   6  *
   7  * Libav is free software; you can redistribute it and/or
   8  * modify it under the terms of the GNU Lesser General Public
   9  * License as published by the Free Software Foundation; either
  10  * version 2.1 of the License, or (at your option) any later version.
  11  *
  12  * Libav is distributed in the hope that it will be useful,
  13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  15  * Lesser General Public License for more details.
  16  *
  17  * You should have received a copy of the GNU Lesser General Public
  18  * License along with Libav; if not, write to the Free Software
  19  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  20  */
  21
  22 #include "libavutil/arm/asm.S"
  23
  24 POUT          .req    a1
  25 PIN           .req    a2
  26 PCOEF         .req    a3
  27 DECIFACTOR    .req    a4
  28 OLDFPSCR      .req    a4
  29 COUNTER       .req    ip
  30
  31 SCALE32       .req    s28  @ use vector of 4 in place of 9th scalar when decifactor=32 / JMAX=8
  32 SCALE64       .req    s0   @ spare register in scalar bank when decifactor=64 / JMAX=4
  33 IN0           .req    s4
  34 IN1           .req    s5
  35 IN2           .req    s6
  36 IN3           .req    s7
  37 IN4           .req    s0
  38 IN5           .req    s1
  39 IN6           .req    s2
  40 IN7           .req    s3
  41 COEF0         .req    s8   @ coefficient elements
  42 COEF1         .req    s9
  43 COEF2         .req    s10
  44 COEF3         .req    s11
  45 COEF4         .req    s12
  46 COEF5         .req    s13
  47 COEF6         .req    s14
  48 COEF7         .req    s15
  49 ACCUM0        .req    s16  @ double-buffered multiply-accumulate results
  50 ACCUM4        .req    s20
  51 POST0         .req    s24  @ do long-latency post-multiply in this vector in parallel
  52 POST1         .req    s25
  53 POST2         .req    s26
  54 POST3         .req    s27
  55
  56
  57 .macro inner_loop  decifactor, dir, tail, head
  58  .ifc "\dir","up"
  59   .set X, 0
  60   .set Y, 4
  61  .else
  62   .set X, 4*JMAX*4 - 4
  63   .set Y, -4
  64  .endif
  65  .ifnc "\head",""
  66         vldr    COEF0, [PCOEF, #X + (0*JMAX + 0) * Y]
  67         vldr    COEF1, [PCOEF, #X + (1*JMAX + 0) * Y]
  68         vldr    COEF2, [PCOEF, #X + (2*JMAX + 0) * Y]
  69         vldr    COEF3, [PCOEF, #X + (3*JMAX + 0) * Y]
  70  .endif
  71  .ifnc "\tail",""
  72         vadd.f  POST0, ACCUM0, ACCUM4   @ vector operation
  73  .endif
  74  .ifnc "\head",""
  75         vmul.f  ACCUM0, COEF0, IN0      @ vector = vector * scalar
  76         vldr    COEF4, [PCOEF, #X + (0*JMAX + 1) * Y]
  77         vldr    COEF5, [PCOEF, #X + (1*JMAX + 1) * Y]
  78         vldr    COEF6, [PCOEF, #X + (2*JMAX + 1) * Y]
  79  .endif
  80  .ifnc "\tail",""
  81         vmul.f  POST0, POST0, SCALE\decifactor  @ vector operation (SCALE may be scalar)
  82  .endif
  83  .ifnc "\head",""
  84         vldr    COEF7, [PCOEF, #X + (3*JMAX + 1) * Y]
  85    .ifc "\tail",""
  86         vmul.f  ACCUM4, COEF4, IN1      @ vector operation
  87    .endif
  88         vldr    COEF0, [PCOEF, #X + (0*JMAX + 2) * Y]
  89         vldr    COEF1, [PCOEF, #X + (1*JMAX + 2) * Y]
  90    .ifnc "\tail",""
  91         vmul.f  ACCUM4, COEF4, IN1      @ vector operation
  92    .endif
  93         vldr    COEF2, [PCOEF, #X + (2*JMAX + 2) * Y]
  94         vldr    COEF3, [PCOEF, #X + (3*JMAX + 2) * Y]
  95  .endif
  96  .ifnc "\tail",""
  97         vstmia  POUT!, {POST0-POST3}
  98  .endif
  99  .ifnc "\head",""
 100         vmla.f  ACCUM0, COEF0, IN2      @ vector = vector * scalar
 101         vldr    COEF4, [PCOEF, #X + (0*JMAX + 3) * Y]
 102         vldr    COEF5, [PCOEF, #X + (1*JMAX + 3) * Y]
 103         vldr    COEF6, [PCOEF, #X + (2*JMAX + 3) * Y]
 104         vldr    COEF7, [PCOEF, #X + (3*JMAX + 3) * Y]
 105         vmla.f  ACCUM4, COEF4, IN3      @ vector = vector * scalar
 106   .if \decifactor == 32
 107         vldr    COEF0, [PCOEF, #X + (0*JMAX + 4) * Y]
 108         vldr    COEF1, [PCOEF, #X + (1*JMAX + 4) * Y]
 109         vldr    COEF2, [PCOEF, #X + (2*JMAX + 4) * Y]
 110         vldr    COEF3, [PCOEF, #X + (3*JMAX + 4) * Y]
 111         vmla.f  ACCUM0, COEF0, IN4      @ vector = vector * scalar
 112         vldr    COEF4, [PCOEF, #X + (0*JMAX + 5) * Y]
 113         vldr    COEF5, [PCOEF, #X + (1*JMAX + 5) * Y]
 114         vldr    COEF6, [PCOEF, #X + (2*JMAX + 5) * Y]
 115         vldr    COEF7, [PCOEF, #X + (3*JMAX + 5) * Y]
 116         vmla.f  ACCUM4, COEF4, IN5      @ vector = vector * scalar
 117         vldr    COEF0, [PCOEF, #X + (0*JMAX + 6) * Y]
 118         vldr    COEF1, [PCOEF, #X + (1*JMAX + 6) * Y]
 119         vldr    COEF2, [PCOEF, #X + (2*JMAX + 6) * Y]
 120         vldr    COEF3, [PCOEF, #X + (3*JMAX + 6) * Y]
 121         vmla.f  ACCUM0, COEF0, IN6      @ vector = vector * scalar
 122         vldr    COEF4, [PCOEF, #X + (0*JMAX + 7) * Y]
 123         vldr    COEF5, [PCOEF, #X + (1*JMAX + 7) * Y]
 124         vldr    COEF6, [PCOEF, #X + (2*JMAX + 7) * Y]
 125         vldr    COEF7, [PCOEF, #X + (3*JMAX + 7) * Y]
 126         vmla.f  ACCUM4, COEF4, IN7      @ vector = vector * scalar
 127   .endif
 128  .endif
 129 .endm
 130
 131 .macro dca_lfe_fir  decifactor
 132  .if \decifactor == 32
 133   .set JMAX, 8
 134         vpush   {s16-s31}
 135         vmov    SCALE32, s0             @ duplicate scalar across vector
 136         vldr    IN4, [PIN, #-4*4]
 137         vldr    IN5, [PIN, #-5*4]
 138         vldr    IN6, [PIN, #-6*4]
 139         vldr    IN7, [PIN, #-7*4]
 140  .else
 141   .set JMAX, 4
 142         vpush   {s16-s27}
 143  .endif
 144
 145         mov     COUNTER, #\decifactor/4 - 1
 146         inner_loop  \decifactor, up,, head
 147 1:      add     PCOEF, PCOEF, #4*JMAX*4
 148         subs    COUNTER, COUNTER, #1
 149         inner_loop  \decifactor, up, tail, head
 150         bne     1b
 151         inner_loop  \decifactor, up, tail
 152
 153         mov     COUNTER, #\decifactor/4 - 1
 154         inner_loop  \decifactor, down,, head
 155 1:      sub     PCOEF, PCOEF, #4*JMAX*4
 156         subs    COUNTER, COUNTER, #1
 157         inner_loop  \decifactor, down, tail, head
 158         bne     1b
 159         inner_loop  \decifactor, down, tail
 160
 161  .if \decifactor == 32
 162         vpop    {s16-s31}
 163  .else
 164         vpop    {s16-s27}
 165  .endif
 166         fmxr    FPSCR, OLDFPSCR
 167         bx      lr
 168 .endm
 169
 170
 171 /* void ff_dca_lfe_fir_vfp(float *out, const float *in, const float *coefs,
 172  *                         int decifactor, float scale)
 173  */
 174 function ff_dca_lfe_fir_vfp, export=1
 175         teq     DECIFACTOR, #32
 176         fmrx    OLDFPSCR, FPSCR
 177         ldr     ip, =0x03030000         @ RunFast mode, short vectors of length 4, stride 1
 178         fmxr    FPSCR, ip
 179 NOVFP   vldr    s0, [sp]
 180         vldr    IN0, [PIN, #-0*4]
 181         vldr    IN1, [PIN, #-1*4]
 182         vldr    IN2, [PIN, #-2*4]
 183         vldr    IN3, [PIN, #-3*4]
 184         beq     32f
 185 64:     dca_lfe_fir  64
 186  .ltorg
 187 32:     dca_lfe_fir  32
 188 endfunc
 189
 190         .unreq  POUT
 191         .unreq  PIN
 192         .unreq  PCOEF
 193         .unreq  DECIFACTOR
 194         .unreq  OLDFPSCR
 195         .unreq  COUNTER
 196
 197         .unreq  SCALE32
 198         .unreq  SCALE64
 199         .unreq  IN0
 200         .unreq  IN1
 201         .unreq  IN2
 202         .unreq  IN3
 203         .unreq  IN4
 204         .unreq  IN5
 205         .unreq  IN6
 206         .unreq  IN7
 207         .unreq  COEF0
 208         .unreq  COEF1
 209         .unreq  COEF2
 210         .unreq  COEF3
 211         .unreq  COEF4
 212         .unreq  COEF5
 213         .unreq  COEF6
 214         .unreq  COEF7
 215         .unreq  ACCUM0
 216         .unreq  ACCUM4
 217         .unreq  POST0
 218         .unreq  POST1
 219         .unreq  POST2
 220         .unreq  POST3
 221
 222
 223 IN      .req    a1
 224 SBACT   .req    a2
 225 OLDFPSCR .req   a3
 226 IMDCT   .req    a4
 227 WINDOW  .req    v1
 228 OUT     .req    v2
 229 BUF     .req    v3
 230 SCALEINT .req   v4 @ only used in softfp case
 231 COUNT   .req    v5
 232
 233 SCALE   .req    s0
 234
 235 /* Stack layout differs in softfp and hardfp cases:
 236  *
 237  * hardfp
 238  *      fp -> 6 arg words saved by caller
 239  *            a3,a4,v1-v3,v5,fp,lr on entry (a3 just to pad to 8 bytes)
 240  *            s16-s23 on entry
 241  *            align 16
 242  *     buf -> 8*32*4 bytes buffer
 243  *            s0 on entry
 244  *      sp -> 3 arg words for callee
 245  *
 246  * softfp
 247  *      fp -> 7 arg words saved by caller
 248  *            a4,v1-v5,fp,lr on entry
 249  *            s16-s23 on entry
 250  *            align 16
 251  *     buf -> 8*32*4 bytes buffer
 252  *      sp -> 4 arg words for callee
 253  */
 254
 255 /* void ff_dca_qmf_32_subbands_vfp(float samples_in[32][8], int sb_act,
 256  *                                 SynthFilterContext *synth, FFTContext *imdct,
 257  *                                 float (*synth_buf_ptr)[512],
 258  *                                 int *synth_buf_offset, float (*synth_buf2)[32],
 259  *                                 const float (*window)[512], float *samples_out,
 260  *                                 float (*raXin)[32], float scale);
 261  */
 262 function ff_dca_qmf_32_subbands_vfp, export=1
 263 VFP     push    {a3-a4,v1-v3,v5,fp,lr}
 264 NOVFP   push    {a4,v1-v5,fp,lr}
 265         add     fp, sp, #8*4
 266         vpush   {s16-s23}
 267         @ The buffer pointed at by raXin isn't big enough for us to do a
 268         @ complete matrix transposition as we want to, so allocate an
 269         @ alternative buffer from the stack. Align to 4 words for speed.
 270         sub     BUF, sp, #8*32*4
 271         bic     BUF, BUF, #15
 272         mov     sp, BUF
 273         ldr     lr, =0x03330000     @ RunFast mode, short vectors of length 4, stride 2
 274         fmrx    OLDFPSCR, FPSCR
 275         fmxr    FPSCR, lr
 276         @ COUNT is used to count down 2 things at once:
 277         @ bits 0-4 are the number of word pairs remaining in the output row
 278         @ bits 5-31 are the number of words to copy (with possible negation)
 279         @   from the source matrix before we start zeroing the remainder
 280         mov     COUNT, #(-4 << 5) + 16
 281         adds    COUNT, COUNT, SBACT, lsl #5
 282         bmi     2f
 283 1:
 284         vldr    s8,  [IN, #(0*8+0)*4]
 285         vldr    s10, [IN, #(0*8+1)*4]
 286         vldr    s12, [IN, #(0*8+2)*4]
 287         vldr    s14, [IN, #(0*8+3)*4]
 288         vldr    s16, [IN, #(0*8+4)*4]
 289         vldr    s18, [IN, #(0*8+5)*4]
 290         vldr    s20, [IN, #(0*8+6)*4]
 291         vldr    s22, [IN, #(0*8+7)*4]
 292         vneg.f  s8, s8
 293         vldr    s9,  [IN, #(1*8+0)*4]
 294         vldr    s11, [IN, #(1*8+1)*4]
 295         vldr    s13, [IN, #(1*8+2)*4]
 296         vldr    s15, [IN, #(1*8+3)*4]
 297         vneg.f  s16, s16
 298         vldr    s17, [IN, #(1*8+4)*4]
 299         vldr    s19, [IN, #(1*8+5)*4]
 300         vldr    s21, [IN, #(1*8+6)*4]
 301         vldr    s23, [IN, #(1*8+7)*4]
 302         vstr    d4,  [BUF, #(0*32+0)*4]
 303         vstr    d5,  [BUF, #(1*32+0)*4]
 304         vstr    d6,  [BUF, #(2*32+0)*4]
 305         vstr    d7,  [BUF, #(3*32+0)*4]
 306         vstr    d8,  [BUF, #(4*32+0)*4]
 307         vstr    d9,  [BUF, #(5*32+0)*4]
 308         vstr    d10, [BUF, #(6*32+0)*4]
 309         vstr    d11, [BUF, #(7*32+0)*4]
 310         vldr    s9,  [IN, #(3*8+0)*4]
 311         vldr    s11, [IN, #(3*8+1)*4]
 312         vldr    s13, [IN, #(3*8+2)*4]
 313         vldr    s15, [IN, #(3*8+3)*4]
 314         vldr    s17, [IN, #(3*8+4)*4]
 315         vldr    s19, [IN, #(3*8+5)*4]
 316         vldr    s21, [IN, #(3*8+6)*4]
 317         vldr    s23, [IN, #(3*8+7)*4]
 318         vneg.f  s9, s9
 319         vldr    s8,  [IN, #(2*8+0)*4]
 320         vldr    s10, [IN, #(2*8+1)*4]
 321         vldr    s12, [IN, #(2*8+2)*4]
 322         vldr    s14, [IN, #(2*8+3)*4]
 323         vneg.f  s17, s17
 324         vldr    s16, [IN, #(2*8+4)*4]
 325         vldr    s18, [IN, #(2*8+5)*4]
 326         vldr    s20, [IN, #(2*8+6)*4]
 327         vldr    s22, [IN, #(2*8+7)*4]
 328         vstr    d4,  [BUF, #(0*32+2)*4]
 329         vstr    d5,  [BUF, #(1*32+2)*4]
 330         vstr    d6,  [BUF, #(2*32+2)*4]
 331         vstr    d7,  [BUF, #(3*32+2)*4]
 332         vstr    d8,  [BUF, #(4*32+2)*4]
 333         vstr    d9,  [BUF, #(5*32+2)*4]
 334         vstr    d10, [BUF, #(6*32+2)*4]
 335         vstr    d11, [BUF, #(7*32+2)*4]
 336         add     IN, IN, #4*8*4
 337         add     BUF, BUF, #4*4
 338         subs    COUNT, COUNT, #(4 << 5) + 2
 339         bpl     1b
 340 2:      @ Now deal with trailing < 4 samples
 341         adds    COUNT, COUNT, #3 << 5
 342         bmi     4f  @ sb_act was a multiple of 4
 343         bics    lr, COUNT, #0x1F
 344         bne     3f
 345         @ sb_act was n*4+1
 346         vldr    s8,  [IN, #(0*8+0)*4]
 347         vldr    s10, [IN, #(0*8+1)*4]
 348         vldr    s12, [IN, #(0*8+2)*4]
 349         vldr    s14, [IN, #(0*8+3)*4]
 350         vldr    s16, [IN, #(0*8+4)*4]
 351         vldr    s18, [IN, #(0*8+5)*4]
 352         vldr    s20, [IN, #(0*8+6)*4]
 353         vldr    s22, [IN, #(0*8+7)*4]
 354         vneg.f  s8, s8
 355         vldr    s9,  zero
 356         vldr    s11, zero
 357         vldr    s13, zero
 358         vldr    s15, zero
 359         vneg.f  s16, s16
 360         vldr    s17, zero
 361         vldr    s19, zero
 362         vldr    s21, zero
 363         vldr    s23, zero
 364         vstr    d4,  [BUF, #(0*32+0)*4]
 365         vstr    d5,  [BUF, #(1*32+0)*4]
 366         vstr    d6,  [BUF, #(2*32+0)*4]
 367         vstr    d7,  [BUF, #(3*32+0)*4]
 368         vstr    d8,  [BUF, #(4*32+0)*4]
 369         vstr    d9,  [BUF, #(5*32+0)*4]
 370         vstr    d10, [BUF, #(6*32+0)*4]
 371         vstr    d11, [BUF, #(7*32+0)*4]
 372         add     BUF, BUF, #2*4
 373         sub     COUNT, COUNT, #1
 374         b       4f
 375 3:      @ sb_act was n*4+2 or n*4+3, so do the first 2
 376         vldr    s8,  [IN, #(0*8+0)*4]
 377         vldr    s10, [IN, #(0*8+1)*4]
 378         vldr    s12, [IN, #(0*8+2)*4]
 379         vldr    s14, [IN, #(0*8+3)*4]
 380         vldr    s16, [IN, #(0*8+4)*4]
 381         vldr    s18, [IN, #(0*8+5)*4]
 382         vldr    s20, [IN, #(0*8+6)*4]
 383         vldr    s22, [IN, #(0*8+7)*4]
 384         vneg.f  s8, s8
 385         vldr    s9,  [IN, #(1*8+0)*4]
 386         vldr    s11, [IN, #(1*8+1)*4]
 387         vldr    s13, [IN, #(1*8+2)*4]
 388         vldr    s15, [IN, #(1*8+3)*4]
 389         vneg.f  s16, s16
 390         vldr    s17, [IN, #(1*8+4)*4]
 391         vldr    s19, [IN, #(1*8+5)*4]
 392         vldr    s21, [IN, #(1*8+6)*4]
 393         vldr    s23, [IN, #(1*8+7)*4]
 394         vstr    d4,  [BUF, #(0*32+0)*4]
 395         vstr    d5,  [BUF, #(1*32+0)*4]
 396         vstr    d6,  [BUF, #(2*32+0)*4]
 397         vstr    d7,  [BUF, #(3*32+0)*4]
 398         vstr    d8,  [BUF, #(4*32+0)*4]
 399         vstr    d9,  [BUF, #(5*32+0)*4]
 400         vstr    d10, [BUF, #(6*32+0)*4]
 401         vstr    d11, [BUF, #(7*32+0)*4]
 402         add     BUF, BUF, #2*4
 403         sub     COUNT, COUNT, #(2 << 5) + 1
 404         bics    lr, COUNT, #0x1F
 405         bne     4f
 406         @ sb_act was n*4+3
 407         vldr    s8,  [IN, #(2*8+0)*4]
 408         vldr    s10, [IN, #(2*8+1)*4]
 409         vldr    s12, [IN, #(2*8+2)*4]
 410         vldr    s14, [IN, #(2*8+3)*4]
 411         vldr    s16, [IN, #(2*8+4)*4]
 412         vldr    s18, [IN, #(2*8+5)*4]
 413         vldr    s20, [IN, #(2*8+6)*4]
 414         vldr    s22, [IN, #(2*8+7)*4]
 415         vldr    s9,  zero
 416         vldr    s11, zero
 417         vldr    s13, zero
 418         vldr    s15, zero
 419         vldr    s17, zero
 420         vldr    s19, zero
 421         vldr    s21, zero
 422         vldr    s23, zero
 423         vstr    d4,  [BUF, #(0*32+0)*4]
 424         vstr    d5,  [BUF, #(1*32+0)*4]
 425         vstr    d6,  [BUF, #(2*32+0)*4]
 426         vstr    d7,  [BUF, #(3*32+0)*4]
 427         vstr    d8,  [BUF, #(4*32+0)*4]
 428         vstr    d9,  [BUF, #(5*32+0)*4]
 429         vstr    d10, [BUF, #(6*32+0)*4]
 430         vstr    d11, [BUF, #(7*32+0)*4]
 431         add     BUF, BUF, #2*4
 432         sub     COUNT, COUNT, #1
 433 4:      @ Now fill the remainder with 0
 434         vldr    s8, zero
 435         vldr    s9, zero
 436         ands    COUNT, COUNT, #0x1F
 437         beq     6f
 438 5:      vstr    d4, [BUF, #(0*32+0)*4]
 439         vstr    d4, [BUF, #(1*32+0)*4]
 440         vstr    d4, [BUF, #(2*32+0)*4]
 441         vstr    d4, [BUF, #(3*32+0)*4]
 442         vstr    d4, [BUF, #(4*32+0)*4]
 443         vstr    d4, [BUF, #(5*32+0)*4]
 444         vstr    d4, [BUF, #(6*32+0)*4]
 445         vstr    d4, [BUF, #(7*32+0)*4]
 446         add     BUF, BUF, #2*4
 447         subs    COUNT, COUNT, #1
 448         bne     5b
 449 6:
 450         fmxr    FPSCR, OLDFPSCR
 451         ldr     WINDOW, [fp, #3*4]
 452         ldr     OUT, [fp, #4*4]
 453         sub     BUF, BUF, #32*4
 454 NOVFP   ldr     SCALEINT, [fp, #6*4]
 455         mov     COUNT, #8
 456 VFP     vpush   {SCALE}
 457 VFP     sub     sp, sp, #3*4
 458 NOVFP   sub     sp, sp, #4*4
 459 7:
 460 VFP     ldr     a1, [fp, #-7*4]     @ imdct
 461 NOVFP   ldr     a1, [fp, #-8*4]
 462         ldmia   fp, {a2-a4}
 463 VFP     stmia   sp, {WINDOW, OUT, BUF}
 464 NOVFP   stmia   sp, {WINDOW, OUT, BUF, SCALEINT}
 465 VFP     vldr    SCALE, [sp, #3*4]
 466         bl      X(ff_synth_filter_float_vfp)
 467         add     OUT, OUT, #32*4
 468         add     BUF, BUF, #32*4
 469         subs    COUNT, COUNT, #1
 470         bne     7b
 471
 472 A       sub     sp, fp, #(8+8)*4
 473 T       sub     fp, fp, #(8+8)*4
 474 T       mov     sp, fp
 475         vpop    {s16-s23}
 476 VFP     pop     {a3-a4,v1-v3,v5,fp,pc}
 477 NOVFP   pop     {a4,v1-v5,fp,pc}
 478 endfunc
 479
 480         .unreq  IN
 481         .unreq  SBACT
 482         .unreq  OLDFPSCR
 483         .unreq  IMDCT
 484         .unreq  WINDOW
 485         .unreq  OUT
 486         .unreq  BUF
 487         .unreq  SCALEINT
 488         .unreq  COUNT
 489
 490         .unreq  SCALE
 491
 492         .align 2
 493 zero:   .word   0