]> git.sesse.net Git - ffmpeg/blob - libavcodec/x86/pngdsp.asm
avfilter/vf_psnr: remove unnecessary check
[ffmpeg] / libavcodec / x86 / pngdsp.asm
1 ;******************************************************************************
2 ;* x86 optimizations for PNG decoding
3 ;*
4 ;* Copyright (c) 2008 Loren Merritt <lorenm@u.washington.edu>
5 ;* Copyright (c) 2012 Ronald S. Bultje <rsbultje@gmail.com>
6 ;*
7 ;* This file is part of FFmpeg.
8 ;*
9 ;* FFmpeg is free software; you can redistribute it and/or
10 ;* modify it under the terms of the GNU Lesser General Public
11 ;* License as published by the Free Software Foundation; either
12 ;* version 2.1 of the License, or (at your option) any later version.
13 ;*
14 ;* FFmpeg is distributed in the hope that it will be useful,
15 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
16 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
17 ;* Lesser General Public License for more details.
18 ;*
19 ;* You should have received a copy of the GNU Lesser General Public
20 ;* License along with FFmpeg; if not, write to the Free Software
21 ;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
22 ;******************************************************************************
23
24 %include "libavutil/x86/x86util.asm"
25
26 SECTION_RODATA
27
28 cextern pw_255
29
30 SECTION .text
31
32 ; %1 = nr. of xmm registers used
33 %macro ADD_BYTES_FN 1
34 cglobal add_bytes_l2, 4, 6, %1, dst, src1, src2, wa, w, i
35 %if ARCH_X86_64
36     movsxd             waq, wad
37 %endif
38     xor                 iq, iq
39
40     ; vector loop
41     mov                 wq, waq
42     and                waq, ~(mmsize*2-1)
43     jmp .end_v
44 .loop_v:
45     movu                m0, [src2q+iq]
46     movu                m1, [src2q+iq+mmsize]
47     paddb               m0, [src1q+iq]
48     paddb               m1, [src1q+iq+mmsize]
49     movu  [dstq+iq       ], m0
50     movu  [dstq+iq+mmsize], m1
51     add                 iq, mmsize*2
52 .end_v:
53     cmp                 iq, waq
54     jl .loop_v
55
56 %if mmsize == 16
57     ; vector loop
58     mov                waq, wq
59     and                waq, ~7
60     jmp .end_l
61 .loop_l:
62     movq               mm0, [src1q+iq]
63     paddb              mm0, [src2q+iq]
64     movq  [dstq+iq       ], mm0
65     add                 iq, 8
66 .end_l:
67     cmp                 iq, waq
68     jl .loop_l
69 %endif
70
71     ; scalar loop for leftover
72     jmp .end_s
73 .loop_s:
74     mov                wab, [src1q+iq]
75     add                wab, [src2q+iq]
76     mov          [dstq+iq], wab
77     inc                 iq
78 .end_s:
79     cmp                 iq, wq
80     jl .loop_s
81     REP_RET
82 %endmacro
83
84 %if ARCH_X86_32
85 INIT_MMX mmx
86 ADD_BYTES_FN 0
87 %endif
88
89 INIT_XMM sse2
90 ADD_BYTES_FN 2
91
92 %macro ADD_PAETH_PRED_FN 1
93 cglobal add_png_paeth_prediction, 5, 7, %1, dst, src, top, w, bpp, end, cntr
94 %if ARCH_X86_64
95     movsxd            bppq, bppd
96     movsxd              wq, wd
97 %endif
98     lea               endq, [dstq+wq-(mmsize/2-1)]
99     sub               topq, dstq
100     sub               srcq, dstq
101     sub               dstq, bppq
102     pxor                m7, m7
103
104     PUSH              dstq
105     lea              cntrq, [bppq-1]
106     shr              cntrq, 2 + mmsize/16
107 .bpp_loop:
108     lea               dstq, [dstq+cntrq*(mmsize/2)]
109     movh                m0, [dstq]
110     movh                m1, [topq+dstq]
111     punpcklbw           m0, m7
112     punpcklbw           m1, m7
113     add               dstq, bppq
114 .loop:
115     mova                m2, m1
116     movh                m1, [topq+dstq]
117     mova                m3, m2
118     punpcklbw           m1, m7
119     mova                m4, m2
120     psubw               m3, m1
121     psubw               m4, m0
122     mova                m5, m3
123     paddw               m5, m4
124 %if cpuflag(ssse3)
125     pabsw               m3, m3
126     pabsw               m4, m4
127     pabsw               m5, m5
128 %else ; !cpuflag(ssse3)
129     psubw               m7, m5
130     pmaxsw              m5, m7
131     pxor                m6, m6
132     pxor                m7, m7
133     psubw               m6, m3
134     psubw               m7, m4
135     pmaxsw              m3, m6
136     pmaxsw              m4, m7
137     pxor                m7, m7
138 %endif ; cpuflag(ssse3)
139     mova                m6, m4
140     pminsw              m6, m5
141     pcmpgtw             m3, m6
142     pcmpgtw             m4, m5
143     mova                m6, m4
144     pand                m4, m3
145     pandn               m6, m3
146     pandn               m3, m0
147     movh                m0, [srcq+dstq]
148     pand                m6, m1
149     pand                m2, m4
150     punpcklbw           m0, m7
151     paddw               m0, m6
152     paddw               m3, m2
153     paddw               m0, m3
154     pand                m0, [pw_255]
155     mova                m3, m0
156     packuswb            m3, m3
157     movh            [dstq], m3
158     add               dstq, bppq
159     cmp               dstq, endq
160     jl .loop
161
162     mov               dstq, [rsp]
163     dec              cntrq
164     jge .bpp_loop
165     POP               dstq
166     RET
167 %endmacro
168
169 INIT_MMX mmxext
170 ADD_PAETH_PRED_FN 0
171
172 INIT_MMX ssse3
173 ADD_PAETH_PRED_FN 0