]> git.sesse.net Git - ffmpeg/blob - libavcodec/mips/dsputil_mips.c
Merge commit 'b146d74730ab9ec5abede9066f770ad851e45fbc'
[ffmpeg] / libavcodec / mips / dsputil_mips.c
1 /*
2  * Copyright (c) 2012
3  *      MIPS Technologies, Inc., California.
4  *
5  * Redistribution and use in source and binary forms, with or without
6  * modification, are permitted provided that the following conditions
7  * are met:
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  * 2. Redistributions in binary form must reproduce the above copyright
11  *    notice, this list of conditions and the following disclaimer in the
12  *    documentation and/or other materials provided with the distribution.
13  * 3. Neither the name of the MIPS Technologies, Inc., nor the names of is
14  *    contributors may be used to endorse or promote products derived from
15  *    this software without specific prior written permission.
16  *
17  * THIS SOFTWARE IS PROVIDED BY THE MIPS TECHNOLOGIES, INC. ``AS IS'' AND
18  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
19  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
20  * ARE DISCLAIMED.  IN NO EVENT SHALL THE MIPS TECHNOLOGIES, INC. BE LIABLE
21  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
22  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
23  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
24  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
25  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
26  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
27  * SUCH DAMAGE.
28  *
29  * Author:  Zoran Lukic (zoranl@mips.com)
30  *
31  * This file is part of FFmpeg.
32  *
33  * FFmpeg is free software; you can redistribute it and/or
34  * modify it under the terms of the GNU Lesser General Public
35  * License as published by the Free Software Foundation; either
36  * version 2.1 of the License, or (at your option) any later version.
37  *
38  * FFmpeg is distributed in the hope that it will be useful,
39  * but WITHOUT ANY WARRANTY; without even the implied warranty of
40  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
41  * Lesser General Public License for more details.
42  *
43  * You should have received a copy of the GNU Lesser General Public
44  * License along with FFmpeg; if not, write to the Free Software
45  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
46  */
47 #include "config.h"
48 #include "libavcodec/dsputil.h"
49
50 static void vector_fmul_window_mips(float *dst, const float *src0,
51         const float *src1, const float *win, int len)
52 {
53     int i, j;
54     /*
55      * variables used in inline assembler
56      */
57     float * dst_i, * dst_j, * dst_i2, * dst_j2;
58     float temp, temp1, temp2, temp3, temp4, temp5, temp6, temp7;
59
60     dst  += len;
61     win  += len;
62     src0 += len;
63
64     for (i = -len, j = len - 1; i < 0; i += 8, j -= 8) {
65
66         dst_i = dst + i;
67         dst_j = dst + j;
68
69         dst_i2 = dst + i + 4;
70         dst_j2 = dst + j - 4;
71
72         __asm__ volatile (
73             "mul.s   %[temp],   %[s1],       %[wi]            \n\t"
74             "mul.s   %[temp1],  %[s1],       %[wj]            \n\t"
75             "mul.s   %[temp2],  %[s11],      %[wi1]           \n\t"
76             "mul.s   %[temp3],  %[s11],      %[wj1]           \n\t"
77
78             "msub.s  %[temp],   %[temp],     %[s0],  %[wj]    \n\t"
79             "madd.s  %[temp1],  %[temp1],    %[s0],  %[wi]    \n\t"
80             "msub.s  %[temp2],  %[temp2],    %[s01], %[wj1]   \n\t"
81             "madd.s  %[temp3],  %[temp3],    %[s01], %[wi1]   \n\t"
82
83             "swc1    %[temp],   0(%[dst_i])                   \n\t" /* dst[i] = s0*wj - s1*wi; */
84             "swc1    %[temp1],  0(%[dst_j])                   \n\t" /* dst[j] = s0*wi + s1*wj; */
85             "swc1    %[temp2],  4(%[dst_i])                   \n\t" /* dst[i+1] = s01*wj1 - s11*wi1; */
86             "swc1    %[temp3], -4(%[dst_j])                   \n\t" /* dst[j-1] = s01*wi1 + s11*wj1; */
87
88             "mul.s   %[temp4],  %[s12],      %[wi2]           \n\t"
89             "mul.s   %[temp5],  %[s12],      %[wj2]           \n\t"
90             "mul.s   %[temp6],  %[s13],      %[wi3]           \n\t"
91             "mul.s   %[temp7],  %[s13],      %[wj3]           \n\t"
92
93             "msub.s  %[temp4],  %[temp4],    %[s02], %[wj2]   \n\t"
94             "madd.s  %[temp5],  %[temp5],    %[s02], %[wi2]   \n\t"
95             "msub.s  %[temp6],  %[temp6],    %[s03], %[wj3]   \n\t"
96             "madd.s  %[temp7],  %[temp7],    %[s03], %[wi3]   \n\t"
97
98             "swc1    %[temp4],  8(%[dst_i])                   \n\t" /* dst[i+2] = s02*wj2 - s12*wi2; */
99             "swc1    %[temp5], -8(%[dst_j])                   \n\t" /* dst[j-2] = s02*wi2 + s12*wj2; */
100             "swc1    %[temp6],  12(%[dst_i])                  \n\t" /* dst[i+2] = s03*wj3 - s13*wi3; */
101             "swc1    %[temp7], -12(%[dst_j])                  \n\t" /* dst[j-3] = s03*wi3 + s13*wj3; */
102             : [temp]"=&f"(temp),  [temp1]"=&f"(temp1), [temp2]"=&f"(temp2),
103               [temp3]"=&f"(temp3), [temp4]"=&f"(temp4), [temp5]"=&f"(temp5),
104               [temp6]"=&f"(temp6), [temp7]"=&f"(temp7)
105             : [dst_j]"r"(dst_j),     [dst_i]"r" (dst_i),
106               [s0] "f"(src0[i]),     [wj] "f"(win[j]),     [s1] "f"(src1[j]),
107               [wi] "f"(win[i]),      [s01]"f"(src0[i + 1]),[wj1]"f"(win[j - 1]),
108               [s11]"f"(src1[j - 1]), [wi1]"f"(win[i + 1]), [s02]"f"(src0[i + 2]),
109               [wj2]"f"(win[j - 2]),  [s12]"f"(src1[j - 2]),[wi2]"f"(win[i + 2]),
110               [s03]"f"(src0[i + 3]), [wj3]"f"(win[j - 3]), [s13]"f"(src1[j - 3]),
111               [wi3]"f"(win[i + 3])
112             : "memory"
113         );
114
115         __asm__ volatile (
116             "mul.s  %[temp],   %[s1],       %[wi]            \n\t"
117             "mul.s  %[temp1],  %[s1],       %[wj]            \n\t"
118             "mul.s  %[temp2],  %[s11],      %[wi1]           \n\t"
119             "mul.s  %[temp3],  %[s11],      %[wj1]           \n\t"
120
121             "msub.s %[temp],   %[temp],     %[s0],  %[wj]    \n\t"
122             "madd.s %[temp1],  %[temp1],    %[s0],  %[wi]    \n\t"
123             "msub.s %[temp2],  %[temp2],    %[s01], %[wj1]   \n\t"
124             "madd.s %[temp3],  %[temp3],    %[s01], %[wi1]   \n\t"
125
126             "swc1   %[temp],   0(%[dst_i2])                  \n\t" /* dst[i] = s0*wj - s1*wi; */
127             "swc1   %[temp1],  0(%[dst_j2])                  \n\t" /* dst[j] = s0*wi + s1*wj; */
128             "swc1   %[temp2],  4(%[dst_i2])                  \n\t" /* dst[i+1] = s01*wj1 - s11*wi1; */
129             "swc1   %[temp3], -4(%[dst_j2])                  \n\t" /* dst[j-1] = s01*wi1 + s11*wj1; */
130
131             "mul.s  %[temp4],  %[s12],      %[wi2]           \n\t"
132             "mul.s  %[temp5],  %[s12],      %[wj2]           \n\t"
133             "mul.s  %[temp6],  %[s13],      %[wi3]           \n\t"
134             "mul.s  %[temp7],  %[s13],      %[wj3]           \n\t"
135
136             "msub.s %[temp4],  %[temp4],    %[s02], %[wj2]   \n\t"
137             "madd.s %[temp5],  %[temp5],    %[s02], %[wi2]   \n\t"
138             "msub.s %[temp6],  %[temp6],    %[s03], %[wj3]   \n\t"
139             "madd.s %[temp7],  %[temp7],    %[s03], %[wi3]   \n\t"
140
141             "swc1   %[temp4],  8(%[dst_i2])                  \n\t" /* dst[i+2] = s02*wj2 - s12*wi2; */
142             "swc1   %[temp5], -8(%[dst_j2])                  \n\t" /* dst[j-2] = s02*wi2 + s12*wj2; */
143             "swc1   %[temp6],  12(%[dst_i2])                 \n\t" /* dst[i+2] = s03*wj3 - s13*wi3; */
144             "swc1   %[temp7], -12(%[dst_j2])                 \n\t" /* dst[j-3] = s03*wi3 + s13*wj3; */
145             : [temp]"=&f"(temp),
146               [temp1]"=&f"(temp1), [temp2]"=&f"(temp2), [temp3]"=&f"(temp3),
147               [temp4]"=&f"(temp4), [temp5]"=&f"(temp5), [temp6]"=&f"(temp6),
148               [temp7]  "=&f" (temp7)
149             : [dst_j2]"r"(dst_j2),   [dst_i2]"r"(dst_i2),
150               [s0] "f"(src0[i + 4]), [wj] "f"(win[j - 4]), [s1] "f"(src1[j - 4]),
151               [wi] "f"(win[i + 4]),  [s01]"f"(src0[i + 5]),[wj1]"f"(win[j - 5]),
152               [s11]"f"(src1[j - 5]), [wi1]"f"(win[i + 5]), [s02]"f"(src0[i + 6]),
153               [wj2]"f"(win[j - 6]),  [s12]"f"(src1[j - 6]),[wi2]"f"(win[i + 6]),
154               [s03]"f"(src0[i + 7]), [wj3]"f"(win[j - 7]), [s13]"f"(src1[j - 7]),
155               [wi3]"f"(win[i + 7])
156             : "memory"
157         );
158     }
159 }
160
161 av_cold void ff_dsputil_init_mips( DSPContext* c, AVCodecContext *avctx )
162 {
163     c->vector_fmul_window = vector_fmul_window_mips;
164 }