]> git.sesse.net Git - vlc/blob - modules/video_filter/deinterlace/merge.c
Refactored deinterlacer module
[vlc] / modules / video_filter / deinterlace / merge.c
1 /*****************************************************************************
2  * merge.c : Merge (line blending) routines for the VLC deinterlacer
3  *****************************************************************************
4  * Copyright (C) 2011 the VideoLAN team
5  * $Id$
6  *
7  * Author: Sam Hocevar <sam@zoy.org>
8  *
9  * This program is free software; you can redistribute it and/or modify
10  * it under the terms of the GNU General Public License as published by
11  * the Free Software Foundation; either version 2 of the License, or
12  * (at your option) any later version.
13  *
14  * This program is distributed in the hope that it will be useful,
15  * but WITHOUT ANY WARRANTY; without even the implied warranty of
16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
17  * GNU General Public License for more details.
18  *
19  * You should have received a copy of the GNU General Public License
20  * along with this program; if not, write to the Free Software
21  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston MA 02110-1301, USA.
22  *****************************************************************************/
23
24 /* This handles including config.h, because the config
25    is already needed in the header. */
26 #include "merge.h"
27
28 #ifdef CAN_COMPILE_MMXEXT
29 #   include "mmx.h"
30 #endif
31
32 #ifdef HAVE_ALTIVEC_H
33 #   include <altivec.h>
34 #endif
35
36 #include <stdint.h>
37
38 /*****************************************************************************
39  * Merge (line blending) routines
40  *****************************************************************************/
41
42 void MergeGeneric( void *_p_dest, const void *_p_s1,
43                    const void *_p_s2, size_t i_bytes )
44 {
45     uint8_t* p_dest = (uint8_t*)_p_dest;
46     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
47     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
48     uint8_t* p_end = p_dest + i_bytes - 8;
49
50     while( p_dest < p_end )
51     {
52         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
53         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
54         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
55         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
56         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
57         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
58         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
59         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
60     }
61
62     p_end += 8;
63
64     while( p_dest < p_end )
65     {
66         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
67     }
68 }
69
70 #if defined(CAN_COMPILE_MMXEXT)
71 void MergeMMXEXT( void *_p_dest, const void *_p_s1, const void *_p_s2,
72                   size_t i_bytes )
73 {
74     uint8_t* p_dest = (uint8_t*)_p_dest;
75     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
76     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
77     uint8_t* p_end = p_dest + i_bytes - 8;
78     while( p_dest < p_end )
79     {
80         __asm__  __volatile__( "movq %2,%%mm1;"
81                                "pavgb %1, %%mm1;"
82                                "movq %%mm1, %0" :"=m" (*p_dest):
83                                                  "m" (*p_s1),
84                                                  "m" (*p_s2) );
85         p_dest += 8;
86         p_s1 += 8;
87         p_s2 += 8;
88     }
89
90     p_end += 8;
91
92     while( p_dest < p_end )
93     {
94         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
95     }
96 }
97 #endif
98
99 #if defined(CAN_COMPILE_3DNOW)
100 void Merge3DNow( void *_p_dest, const void *_p_s1, const void *_p_s2,
101                  size_t i_bytes )
102 {
103     uint8_t* p_dest = (uint8_t*)_p_dest;
104     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
105     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
106     uint8_t* p_end = p_dest + i_bytes - 8;
107     while( p_dest < p_end )
108     {
109         __asm__  __volatile__( "movq %2,%%mm1;"
110                                "pavgusb %1, %%mm1;"
111                                "movq %%mm1, %0" :"=m" (*p_dest):
112                                                  "m" (*p_s1),
113                                                  "m" (*p_s2) );
114         p_dest += 8;
115         p_s1 += 8;
116         p_s2 += 8;
117     }
118
119     p_end += 8;
120
121     while( p_dest < p_end )
122     {
123         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
124     }
125 }
126 #endif
127
128 #if defined(CAN_COMPILE_SSE)
129 void MergeSSE2( void *_p_dest, const void *_p_s1, const void *_p_s2,
130                 size_t i_bytes )
131 {
132     uint8_t* p_dest = (uint8_t*)_p_dest;
133     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
134     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
135     uint8_t* p_end;
136     while( (uintptr_t)p_s1 % 16 )
137     {
138         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
139     }
140     p_end = p_dest + i_bytes - 16;
141     while( p_dest < p_end )
142     {
143         __asm__  __volatile__( "movdqu %2,%%xmm1;"
144                                "pavgb %1, %%xmm1;"
145                                "movdqu %%xmm1, %0" :"=m" (*p_dest):
146                                                  "m" (*p_s1),
147                                                  "m" (*p_s2) );
148         p_dest += 16;
149         p_s1 += 16;
150         p_s2 += 16;
151     }
152
153     p_end += 16;
154
155     while( p_dest < p_end )
156     {
157         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
158     }
159 }
160 #endif
161
162 #ifdef CAN_COMPILE_C_ALTIVEC
163 void MergeAltivec( void *_p_dest, const void *_p_s1,
164                    const void *_p_s2, size_t i_bytes )
165 {
166     uint8_t *p_dest = (uint8_t *)_p_dest;
167     uint8_t *p_s1   = (uint8_t *)_p_s1;
168     uint8_t *p_s2   = (uint8_t *)_p_s2;
169     uint8_t *p_end  = p_dest + i_bytes - 15;
170
171     /* Use C until the first 16-bytes aligned destination pixel */
172     while( (uintptr_t)p_dest & 0xF )
173     {
174         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
175     }
176
177     if( ( (int)p_s1 & 0xF ) | ( (int)p_s2 & 0xF ) )
178     {
179         /* Unaligned source */
180         vector unsigned char s1v, s2v, destv;
181         vector unsigned char s1oldv, s2oldv, s1newv, s2newv;
182         vector unsigned char perm1v, perm2v;
183
184         perm1v = vec_lvsl( 0, p_s1 );
185         perm2v = vec_lvsl( 0, p_s2 );
186         s1oldv = vec_ld( 0, p_s1 );
187         s2oldv = vec_ld( 0, p_s2 );
188
189         while( p_dest < p_end )
190         {
191             s1newv = vec_ld( 16, p_s1 );
192             s2newv = vec_ld( 16, p_s2 );
193             s1v    = vec_perm( s1oldv, s1newv, perm1v );
194             s2v    = vec_perm( s2oldv, s2newv, perm2v );
195             s1oldv = s1newv;
196             s2oldv = s2newv;
197             destv  = vec_avg( s1v, s2v );
198             vec_st( destv, 0, p_dest );
199
200             p_s1   += 16;
201             p_s2   += 16;
202             p_dest += 16;
203         }
204     }
205     else
206     {
207         /* Aligned source */
208         vector unsigned char s1v, s2v, destv;
209
210         while( p_dest < p_end )
211         {
212             s1v   = vec_ld( 0, p_s1 );
213             s2v   = vec_ld( 0, p_s2 );
214             destv = vec_avg( s1v, s2v );
215             vec_st( destv, 0, p_dest );
216
217             p_s1   += 16;
218             p_s2   += 16;
219             p_dest += 16;
220         }
221     }
222
223     p_end += 15;
224
225     while( p_dest < p_end )
226     {
227         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
228     }
229 }
230 #endif
231
232 #ifdef __ARM_NEON__
233 void MergeNEON (void *restrict out, const void *in1,
234                 const void *in2, size_t n)
235 {
236     uint8_t *outp = out;
237     const uint8_t *in1p = in1;
238     const uint8_t *in2p = in2;
239     size_t mis = ((uintptr_t)outp) & 15;
240
241     if (mis)
242     {
243         MergeGeneric (outp, in1p, in2p, mis);
244         outp += mis;
245         in1p += mis;
246         in2p += mis;
247         n -= mis;
248     }
249
250     uint8_t *end = outp + (n & ~15);
251
252     if ((((uintptr_t)in1p)|((uintptr_t)in2p)) & 15)
253         while (outp < end)
254             asm volatile (
255                 "vld1.u8  {q0-q1}, [%[in1]]!\n"
256                 "vld1.u8  {q2-q3}, [%[in2]]!\n"
257                 "vhadd.u8 q4, q0, q2\n"
258                 "vld1.u8  {q6-q7}, [%[in1]]!\n"
259                 "vhadd.u8 q5, q1, q3\n"
260                 "vld1.u8  {q8-q9}, [%[in2]]!\n"
261                 "vhadd.u8 q10, q6, q8\n"
262                 "vhadd.u8 q11, q7, q9\n"
263                 "vst1.u8  {q4-q5}, [%[out],:128]!\n"
264                 "vst1.u8  {q10-q11}, [%[out],:128]!\n"
265                 : [out] "+r" (outp), [in1] "+r" (in1p), [in2] "+r" (in2p)
266                 :
267                 : "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
268                   "q8", "q9", "q10", "q11", "memory");
269     else
270          while (outp < end)
271             asm volatile (
272                 "vld1.u8  {q0-q1}, [%[in1],:128]!\n"
273                 "vld1.u8  {q2-q3}, [%[in2],:128]!\n"
274                 "vhadd.u8 q4, q0, q2\n"
275                 "vld1.u8  {q6-q7}, [%[in1],:128]!\n"
276                 "vhadd.u8 q5, q1, q3\n"
277                 "vld1.u8  {q8-q9}, [%[in2],:128]!\n"
278                 "vhadd.u8 q10, q6, q8\n"
279                 "vhadd.u8 q11, q7, q9\n"
280                 "vst1.u8  {q4-q5}, [%[out],:128]!\n"
281                 "vst1.u8  {q10-q11}, [%[out],:128]!\n"
282                 : [out] "+r" (outp), [in1] "+r" (in1p), [in2] "+r" (in2p)
283                 :
284                 : "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
285                   "q8", "q9", "q10", "q11", "memory");
286     n &= 15;
287     if (n)
288         MergeGeneric (outp, in1p, in2p, n);
289 }
290 #endif
291
292 /*****************************************************************************
293  * EndMerge routines
294  *****************************************************************************/
295
296 #if defined(CAN_COMPILE_MMXEXT) || defined(CAN_COMPILE_SSE)
297 void EndMMX( void )
298 {
299     __asm__ __volatile__( "emms" :: );
300 }
301 #endif
302
303 #if defined(CAN_COMPILE_3DNOW)
304 void End3DNow( void )
305 {
306     __asm__ __volatile__( "femms" :: );
307 }
308 #endif