git.sesse.net Git - vlc/blob - modules/video_filter/deinterlace/merge.c

   1 /*****************************************************************************
   2  * merge.c : Merge (line blending) routines for the VLC deinterlacer
   3  *****************************************************************************
   4  * Copyright (C) 2011 the VideoLAN team
   5  * $Id$
   6  *
   7  * Author: Sam Hocevar <sam@zoy.org>                      (generic C routine)
   8  *         Sigmund Augdal Helberg <sigmunau@videolan.org> (MMXEXT, 3DNow, SSE2)
   9  *         Eric Petit <eric.petit@lapsus.org>             (Altivec)
  10  *         Rémi Denis-Courmont <remi@remlab.net>          (ARM NEON)
  11  *
  12  * This program is free software; you can redistribute it and/or modify
  13  * it under the terms of the GNU General Public License as published by
  14  * the Free Software Foundation; either version 2 of the License, or
  15  * (at your option) any later version.
  16  *
  17  * This program is distributed in the hope that it will be useful,
  18  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  19  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  20  * GNU General Public License for more details.
  21  *
  22  * You should have received a copy of the GNU General Public License
  23  * along with this program; if not, write to the Free Software
  24  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston MA 02110-1301, USA.
  25  *****************************************************************************/
  26
  27 #ifdef HAVE_CONFIG_H
  28 #   include "config.h"
  29 #endif
  30
  31 #include <stdlib.h>
  32 #include <stdint.h>
  33
  34 #include "merge.h"
  35
  36 #ifdef CAN_COMPILE_MMXEXT
  37 #   include "mmx.h"
  38 #endif
  39
  40 #ifdef HAVE_ALTIVEC_H
  41 #   include <altivec.h>
  42 #endif
  43
  44 /*****************************************************************************
  45  * Merge (line blending) routines
  46  *****************************************************************************/
  47
  48 void MergeGeneric( void *_p_dest, const void *_p_s1,
  49                    const void *_p_s2, size_t i_bytes )
  50 {
  51     uint8_t* p_dest = (uint8_t*)_p_dest;
  52     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
  53     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
  54     uint8_t* p_end = p_dest + i_bytes - 8;
  55
  56     while( p_dest < p_end )
  57     {
  58         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  59         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  60         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  61         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  62         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  63         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  64         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  65         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  66     }
  67
  68     p_end += 8;
  69
  70     while( p_dest < p_end )
  71     {
  72         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
  73     }
  74 }
  75
  76 #if defined(CAN_COMPILE_MMXEXT)
  77 void MergeMMXEXT( void *_p_dest, const void *_p_s1, const void *_p_s2,
  78                   size_t i_bytes )
  79 {
  80     uint8_t* p_dest = (uint8_t*)_p_dest;
  81     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
  82     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
  83     uint8_t* p_end = p_dest + i_bytes - 8;
  84     while( p_dest < p_end )
  85     {
  86         __asm__  __volatile__( "movq %2,%%mm1;"
  87                                "pavgb %1, %%mm1;"
  88                                "movq %%mm1, %0" :"=m" (*p_dest):
  89                                                  "m" (*p_s1),
  90                                                  "m" (*p_s2) );
  91         p_dest += 8;
  92         p_s1 += 8;
  93         p_s2 += 8;
  94     }
  95
  96     p_end += 8;
  97
  98     while( p_dest < p_end )
  99     {
 100         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
 101     }
 102 }
 103 #endif
 104
 105 #if defined(CAN_COMPILE_3DNOW)
 106 void Merge3DNow( void *_p_dest, const void *_p_s1, const void *_p_s2,
 107                  size_t i_bytes )
 108 {
 109     uint8_t* p_dest = (uint8_t*)_p_dest;
 110     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
 111     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
 112     uint8_t* p_end = p_dest + i_bytes - 8;
 113     while( p_dest < p_end )
 114     {
 115         __asm__  __volatile__( "movq %2,%%mm1;"
 116                                "pavgusb %1, %%mm1;"
 117                                "movq %%mm1, %0" :"=m" (*p_dest):
 118                                                  "m" (*p_s1),
 119                                                  "m" (*p_s2) );
 120         p_dest += 8;
 121         p_s1 += 8;
 122         p_s2 += 8;
 123     }
 124
 125     p_end += 8;
 126
 127     while( p_dest < p_end )
 128     {
 129         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
 130     }
 131 }
 132 #endif
 133
 134 #if defined(CAN_COMPILE_SSE)
 135 void MergeSSE2( void *_p_dest, const void *_p_s1, const void *_p_s2,
 136                 size_t i_bytes )
 137 {
 138     uint8_t* p_dest = (uint8_t*)_p_dest;
 139     const uint8_t *p_s1 = (const uint8_t *)_p_s1;
 140     const uint8_t *p_s2 = (const uint8_t *)_p_s2;
 141     uint8_t* p_end;
 142     while( (uintptr_t)p_s1 % 16 )
 143     {
 144         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
 145     }
 146     p_end = p_dest + i_bytes - 16;
 147     while( p_dest < p_end )
 148     {
 149         __asm__  __volatile__( "movdqu %2,%%xmm1;"
 150                                "pavgb %1, %%xmm1;"
 151                                "movdqu %%xmm1, %0" :"=m" (*p_dest):
 152                                                  "m" (*p_s1),
 153                                                  "m" (*p_s2) );
 154         p_dest += 16;
 155         p_s1 += 16;
 156         p_s2 += 16;
 157     }
 158
 159     p_end += 16;
 160
 161     while( p_dest < p_end )
 162     {
 163         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
 164     }
 165 }
 166 #endif
 167
 168 #ifdef CAN_COMPILE_C_ALTIVEC
 169 void MergeAltivec( void *_p_dest, const void *_p_s1,
 170                    const void *_p_s2, size_t i_bytes )
 171 {
 172     uint8_t *p_dest = (uint8_t *)_p_dest;
 173     uint8_t *p_s1   = (uint8_t *)_p_s1;
 174     uint8_t *p_s2   = (uint8_t *)_p_s2;
 175     uint8_t *p_end  = p_dest + i_bytes - 15;
 176
 177     /* Use C until the first 16-bytes aligned destination pixel */
 178     while( (uintptr_t)p_dest & 0xF )
 179     {
 180         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
 181     }
 182
 183     if( ( (int)p_s1 & 0xF ) | ( (int)p_s2 & 0xF ) )
 184     {
 185         /* Unaligned source */
 186         vector unsigned char s1v, s2v, destv;
 187         vector unsigned char s1oldv, s2oldv, s1newv, s2newv;
 188         vector unsigned char perm1v, perm2v;
 189
 190         perm1v = vec_lvsl( 0, p_s1 );
 191         perm2v = vec_lvsl( 0, p_s2 );
 192         s1oldv = vec_ld( 0, p_s1 );
 193         s2oldv = vec_ld( 0, p_s2 );
 194
 195         while( p_dest < p_end )
 196         {
 197             s1newv = vec_ld( 16, p_s1 );
 198             s2newv = vec_ld( 16, p_s2 );
 199             s1v    = vec_perm( s1oldv, s1newv, perm1v );
 200             s2v    = vec_perm( s2oldv, s2newv, perm2v );
 201             s1oldv = s1newv;
 202             s2oldv = s2newv;
 203             destv  = vec_avg( s1v, s2v );
 204             vec_st( destv, 0, p_dest );
 205
 206             p_s1   += 16;
 207             p_s2   += 16;
 208             p_dest += 16;
 209         }
 210     }
 211     else
 212     {
 213         /* Aligned source */
 214         vector unsigned char s1v, s2v, destv;
 215
 216         while( p_dest < p_end )
 217         {
 218             s1v   = vec_ld( 0, p_s1 );
 219             s2v   = vec_ld( 0, p_s2 );
 220             destv = vec_avg( s1v, s2v );
 221             vec_st( destv, 0, p_dest );
 222
 223             p_s1   += 16;
 224             p_s2   += 16;
 225             p_dest += 16;
 226         }
 227     }
 228
 229     p_end += 15;
 230
 231     while( p_dest < p_end )
 232     {
 233         *p_dest++ = ( (uint16_t)(*p_s1++) + (uint16_t)(*p_s2++) ) >> 1;
 234     }
 235 }
 236 #endif
 237
 238 #ifdef __ARM_NEON__
 239 void MergeNEON (void *restrict out, const void *in1,
 240                 const void *in2, size_t n)
 241 {
 242     uint8_t *outp = out;
 243     const uint8_t *in1p = in1;
 244     const uint8_t *in2p = in2;
 245     size_t mis = ((uintptr_t)outp) & 15;
 246
 247     if (mis)
 248     {
 249         MergeGeneric (outp, in1p, in2p, mis);
 250         outp += mis;
 251         in1p += mis;
 252         in2p += mis;
 253         n -= mis;
 254     }
 255
 256     uint8_t *end = outp + (n & ~15);
 257
 258     if ((((uintptr_t)in1p)|((uintptr_t)in2p)) & 15)
 259         while (outp < end)
 260             asm volatile (
 261                 "vld1.u8  {q0-q1}, [%[in1]]!\n"
 262                 "vld1.u8  {q2-q3}, [%[in2]]!\n"
 263                 "vhadd.u8 q4, q0, q2\n"
 264                 "vld1.u8  {q6-q7}, [%[in1]]!\n"
 265                 "vhadd.u8 q5, q1, q3\n"
 266                 "vld1.u8  {q8-q9}, [%[in2]]!\n"
 267                 "vhadd.u8 q10, q6, q8\n"
 268                 "vhadd.u8 q11, q7, q9\n"
 269                 "vst1.u8  {q4-q5}, [%[out],:128]!\n"
 270                 "vst1.u8  {q10-q11}, [%[out],:128]!\n"
 271                 : [out] "+r" (outp), [in1] "+r" (in1p), [in2] "+r" (in2p)
 272                 :
 273                 : "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
 274                   "q8", "q9", "q10", "q11", "memory");
 275     else
 276          while (outp < end)
 277             asm volatile (
 278                 "vld1.u8  {q0-q1}, [%[in1],:128]!\n"
 279                 "vld1.u8  {q2-q3}, [%[in2],:128]!\n"
 280                 "vhadd.u8 q4, q0, q2\n"
 281                 "vld1.u8  {q6-q7}, [%[in1],:128]!\n"
 282                 "vhadd.u8 q5, q1, q3\n"
 283                 "vld1.u8  {q8-q9}, [%[in2],:128]!\n"
 284                 "vhadd.u8 q10, q6, q8\n"
 285                 "vhadd.u8 q11, q7, q9\n"
 286                 "vst1.u8  {q4-q5}, [%[out],:128]!\n"
 287                 "vst1.u8  {q10-q11}, [%[out],:128]!\n"
 288                 : [out] "+r" (outp), [in1] "+r" (in1p), [in2] "+r" (in2p)
 289                 :
 290                 : "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
 291                   "q8", "q9", "q10", "q11", "memory");
 292     n &= 15;
 293     if (n)
 294         MergeGeneric (outp, in1p, in2p, n);
 295 }
 296 #endif
 297
 298 /*****************************************************************************
 299  * EndMerge routines
 300  *****************************************************************************/
 301
 302 #if defined(CAN_COMPILE_MMXEXT) || defined(CAN_COMPILE_SSE)
 303 void EndMMX( void )
 304 {
 305     __asm__ __volatile__( "emms" :: );
 306 }
 307 #endif
 308
 309 #if defined(CAN_COMPILE_3DNOW)
 310 void End3DNow( void )
 311 {
 312     __asm__ __volatile__( "femms" :: );
 313 }
 314 #endif