]> git.sesse.net Git - vlc/blob - modules/video_filter/deinterlace/merge.c
Contribs: update libdvdcss to 1.2.11
[vlc] / modules / video_filter / deinterlace / merge.c
1 /*****************************************************************************
2  * merge.c : Merge (line blending) routines for the VLC deinterlacer
3  *****************************************************************************
4  * Copyright (C) 2011 the VideoLAN team
5  * $Id$
6  *
7  * Author: Sam Hocevar <sam@zoy.org>                      (generic C routine)
8  *         Sigmund Augdal Helberg <sigmunau@videolan.org> (MMXEXT, 3DNow, SSE2)
9  *         Eric Petit <eric.petit@lapsus.org>             (Altivec)
10  *         RĂ©mi Denis-Courmont <remi@remlab.net>          (ARM NEON)
11  *
12  * This program is free software; you can redistribute it and/or modify
13  * it under the terms of the GNU General Public License as published by
14  * the Free Software Foundation; either version 2 of the License, or
15  * (at your option) any later version.
16  *
17  * This program is distributed in the hope that it will be useful,
18  * but WITHOUT ANY WARRANTY; without even the implied warranty of
19  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
20  * GNU General Public License for more details.
21  *
22  * You should have received a copy of the GNU General Public License
23  * along with this program; if not, write to the Free Software
24  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston MA 02110-1301, USA.
25  *****************************************************************************/
26
27 #ifdef HAVE_CONFIG_H
28 #   include "config.h"
29 #endif
30
31 #include <stdlib.h>
32 #include <stdint.h>
33
34 #include "merge.h"
35
36 #ifdef CAN_COMPILE_MMXEXT
37 #   include "mmx.h"
38 #endif
39
40 #ifdef HAVE_ALTIVEC_H
41 #   include <altivec.h>
42 #endif
43
44 /*****************************************************************************
45  * Merge (line blending) routines
46  *****************************************************************************/
47
48 void MergeGeneric( void *_p_dest, const void *_p_s1,
49                    const void *_p_s2, size_t i_bytes )
50 {
51     uint8_t* p_dest = (uint8_t*)_p_dest;
52     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
53     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
54     uint8_t* p_end = p_dest + i_bytes - 8;
55
56     while( p_dest < p_end )
57     {
58         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
59         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
60         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
61         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
62         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
63         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
64         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
65         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
66     }
67
68     p_end += 8;
69
70     while( p_dest < p_end )
71     {
72         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
73     }
74 }
75
76 #if defined(CAN_COMPILE_MMXEXT)
77 void MergeMMXEXT( void *_p_dest, const void *_p_s1, const void *_p_s2,
78                   size_t i_bytes )
79 {
80     uint8_t* p_dest = (uint8_t*)_p_dest;
81     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
82     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
83     uint8_t* p_end = p_dest + i_bytes - 8;
84     while( p_dest < p_end )
85     {
86         __asm__  __volatile__( "movq %2,%%mm1;"
87                                "pavgb %1, %%mm1;"
88                                "movq %%mm1, %0" :"=m" (*p_dest):
89                                                  "m" (*p_s1),
90                                                  "m" (*p_s2) );
91         p_dest += 8;
92         p_s1 += 8;
93         p_s2 += 8;
94     }
95
96     p_end += 8;
97
98     while( p_dest < p_end )
99     {
100         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
101     }
102 }
103 #endif
104
105 #if defined(CAN_COMPILE_3DNOW)
106 void Merge3DNow( void *_p_dest, const void *_p_s1, const void *_p_s2,
107                  size_t i_bytes )
108 {
109     uint8_t* p_dest = (uint8_t*)_p_dest;
110     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
111     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
112     uint8_t* p_end = p_dest + i_bytes - 8;
113     while( p_dest < p_end )
114     {
115         __asm__  __volatile__( "movq %2,%%mm1;"
116                                "pavgusb %1, %%mm1;"
117                                "movq %%mm1, %0" :"=m" (*p_dest):
118                                                  "m" (*p_s1),
119                                                  "m" (*p_s2) );
120         p_dest += 8;
121         p_s1 += 8;
122         p_s2 += 8;
123     }
124
125     p_end += 8;
126
127     while( p_dest < p_end )
128     {
129         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
130     }
131 }
132 #endif
133
134 #if defined(CAN_COMPILE_SSE)
135 void MergeSSE2( void *_p_dest, const void *_p_s1, const void *_p_s2,
136                 size_t i_bytes )
137 {
138     uint8_t* p_dest = (uint8_t*)_p_dest;
139     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
140     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
141     uint8_t* p_end;
142     while( (uintptr_t)p_s1 % 16 )
143     {
144         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
145     }
146     p_end = p_dest + i_bytes - 16;
147     while( p_dest < p_end )
148     {
149         __asm__  __volatile__( "movdqu %2,%%xmm1;"
150                                "pavgb %1, %%xmm1;"
151                                "movdqu %%xmm1, %0" :"=m" (*p_dest):
152                                                  "m" (*p_s1),
153                                                  "m" (*p_s2) );
154         p_dest += 16;
155         p_s1 += 16;
156         p_s2 += 16;
157     }
158
159     p_end += 16;
160
161     while( p_dest < p_end )
162     {
163         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
164     }
165 }
166 #endif
167
168 #ifdef CAN_COMPILE_C_ALTIVEC
169 void MergeAltivec( void *_p_dest, const void *_p_s1,
170                    const void *_p_s2, size_t i_bytes )
171 {
172     uint8_t *p_dest = (uint8_t *)_p_dest;
173     uint8_t *p_s1   = (uint8_t *)_p_s1;
174     uint8_t *p_s2   = (uint8_t *)_p_s2;
175     uint8_t *p_end  = p_dest + i_bytes - 15;
176
177     /* Use C until the first 16-bytes aligned destination pixel */
178     while( (uintptr_t)p_dest & 0xF )
179     {
180         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
181     }
182
183     if( ( (int)p_s1 & 0xF ) | ( (int)p_s2 & 0xF ) )
184     {
185         /* Unaligned source */
186         vector unsigned char s1v, s2v, destv;
187         vector unsigned char s1oldv, s2oldv, s1newv, s2newv;
188         vector unsigned char perm1v, perm2v;
189
190         perm1v = vec_lvsl( 0, p_s1 );
191         perm2v = vec_lvsl( 0, p_s2 );
192         s1oldv = vec_ld( 0, p_s1 );
193         s2oldv = vec_ld( 0, p_s2 );
194
195         while( p_dest < p_end )
196         {
197             s1newv = vec_ld( 16, p_s1 );
198             s2newv = vec_ld( 16, p_s2 );
199             s1v    = vec_perm( s1oldv, s1newv, perm1v );
200             s2v    = vec_perm( s2oldv, s2newv, perm2v );
201             s1oldv = s1newv;
202             s2oldv = s2newv;
203             destv  = vec_avg( s1v, s2v );
204             vec_st( destv, 0, p_dest );
205
206             p_s1   += 16;
207             p_s2   += 16;
208             p_dest += 16;
209         }
210     }
211     else
212     {
213         /* Aligned source */
214         vector unsigned char s1v, s2v, destv;
215
216         while( p_dest < p_end )
217         {
218             s1v   = vec_ld( 0, p_s1 );
219             s2v   = vec_ld( 0, p_s2 );
220             destv = vec_avg( s1v, s2v );
221             vec_st( destv, 0, p_dest );
222
223             p_s1   += 16;
224             p_s2   += 16;
225             p_dest += 16;
226         }
227     }
228
229     p_end += 15;
230
231     while( p_dest < p_end )
232     {
233         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
234     }
235 }
236 #endif
237
238 #ifdef __ARM_NEON__
239 void MergeNEON (void *restrict out, const void *in1,
240                 const void *in2, size_t n)
241 {
242     uint8_t *outp = out;
243     const uint8_t *in1p = in1;
244     const uint8_t *in2p = in2;
245     size_t mis = ((uintptr_t)outp) & 15;
246
247     if (mis)
248     {
249         MergeGeneric (outp, in1p, in2p, mis);
250         outp += mis;
251         in1p += mis;
252         in2p += mis;
253         n -= mis;
254     }
255
256     uint8_t *end = outp + (n & ~15);
257
258     if ((((uintptr_t)in1p)|((uintptr_t)in2p)) & 15)
259         while (outp < end)
260             asm volatile (
261                 "vld1.u8  {q0-q1}, [%[in1]]!\n"
262                 "vld1.u8  {q2-q3}, [%[in2]]!\n"
263                 "vhadd.u8 q4, q0, q2\n"
264                 "vld1.u8  {q6-q7}, [%[in1]]!\n"
265                 "vhadd.u8 q5, q1, q3\n"
266                 "vld1.u8  {q8-q9}, [%[in2]]!\n"
267                 "vhadd.u8 q10, q6, q8\n"
268                 "vhadd.u8 q11, q7, q9\n"
269                 "vst1.u8  {q4-q5}, [%[out],:128]!\n"
270                 "vst1.u8  {q10-q11}, [%[out],:128]!\n"
271                 : [out] "+r" (outp), [in1] "+r" (in1p), [in2] "+r" (in2p)
272                 :
273                 : "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
274                   "q8", "q9", "q10", "q11", "memory");
275     else
276          while (outp < end)
277             asm volatile (
278                 "vld1.u8  {q0-q1}, [%[in1],:128]!\n"
279                 "vld1.u8  {q2-q3}, [%[in2],:128]!\n"
280                 "vhadd.u8 q4, q0, q2\n"
281                 "vld1.u8  {q6-q7}, [%[in1],:128]!\n"
282                 "vhadd.u8 q5, q1, q3\n"
283                 "vld1.u8  {q8-q9}, [%[in2],:128]!\n"
284                 "vhadd.u8 q10, q6, q8\n"
285                 "vhadd.u8 q11, q7, q9\n"
286                 "vst1.u8  {q4-q5}, [%[out],:128]!\n"
287                 "vst1.u8  {q10-q11}, [%[out],:128]!\n"
288                 : [out] "+r" (outp), [in1] "+r" (in1p), [in2] "+r" (in2p)
289                 :
290                 : "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
291                   "q8", "q9", "q10", "q11", "memory");
292     n &= 15;
293     if (n)
294         MergeGeneric (outp, in1p, in2p, n);
295 }
296 #endif
297
298 /*****************************************************************************
299  * EndMerge routines
300  *****************************************************************************/
301
302 #if defined(CAN_COMPILE_MMXEXT) || defined(CAN_COMPILE_SSE)
303 void EndMMX( void )
304 {
305     __asm__ __volatile__( "emms" :: );
306 }
307 #endif
308
309 #if defined(CAN_COMPILE_3DNOW)
310 void End3DNow( void )
311 {
312     __asm__ __volatile__( "femms" :: );
313 }
314 #endif