]> git.sesse.net Git - vlc/blobdiff - src/text/unicode.c
vout: fix memory leak in ThreadReinit() in case of similar video format
[vlc] / src / text / unicode.c
index bad916cedac7fa2cd7119e1c79e274d2152d5d2b..25215d7ffc0934d12a20c935ca2ee9dcaa74b4f9 100644 (file)
@@ -1,24 +1,24 @@
 /*****************************************************************************
  * unicode.c: Unicode <-> locale functions
  *****************************************************************************
- * Copyright (C) 2005-2006 the VideoLAN team
+ * Copyright (C) 2005-2006 VLC authors and VideoLAN
  * Copyright © 2005-2010 Rémi Denis-Courmont
  *
  * Authors: Rémi Denis-Courmont <rem # videolan.org>
  *
- * This program is free software; you can redistribute it and/or modify
- * it under the terms of the GNU General Public License as published by
- * the Free Software Foundation; either version 2 of the License, or
+ * This program is free software; you can redistribute it and/or modify it
+ * under the terms of the GNU Lesser General Public License as published by
+ * the Free Software Foundation; either version 2.1 of the License, or
  * (at your option) any later version.
  *
  * This program is distributed in the hope that it will be useful,
  * but WITHOUT ANY WARRANTY; without even the implied warranty of
- * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
- * GNU General Public License for more details.
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
+ * GNU Lesser General Public License for more details.
  *
- * You should have received a copy of the GNU General Public License
- * along with this program; if not, write to the Free Software
- * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston MA 02110-1301, USA.
+ * You should have received a copy of the GNU Lesser General Public License
+ * along with this program; if not, write to the Free Software Foundation,
+ * Inc., 51 Franklin Street, Fifth Floor, Boston MA 02110-1301, USA.
  *****************************************************************************/
 
 /*****************************************************************************
@@ -29,6 +29,8 @@
 #endif
 
 #include <vlc_common.h>
+
+#include "libvlc.h"
 #include <vlc_charset.h>
 
 #include <assert.h>
 #include <stdarg.h>
 #include <stdlib.h>
 #include <sys/types.h>
-#ifdef UNDER_CE
-#  include <tchar.h>
-#elif defined(WIN32)
+#if defined(_WIN32)
 #  include <io.h>
 #endif
 #include <errno.h>
 #include <wctype.h>
 
-/**
- * Releases (if needed) a localized or uniformized string.
- * @param str non-NULL return value from FromLocale() or ToLocale().
- */
-void LocaleFree (const char *str)
-{
-#ifdef ASSUME_UTF8
-    (void) str;
-#else
-    free ((char *)str);
-#endif
-}
-
-
-/**
- * Converts a string from the system locale character encoding to UTF-8.
- *
- * @param locale nul-terminated string to convert
- *
- * @return a nul-terminated UTF-8 string, or NULL in case of error.
- * To avoid memory leak, you have to pass the result to LocaleFree()
- * when it is no longer needed.
- */
-char *FromLocale (const char *locale)
-{
-#ifdef ASSUME_UTF8
-    return (char *)locale;
-#else
-    return locale ? FromCharset ("", locale, strlen(locale)) : NULL;
-#endif
-}
-
-/**
- * converts a string from the system locale character encoding to utf-8,
- * the result is always allocated on the heap.
- *
- * @param locale nul-terminated string to convert
- *
- * @return a nul-terminated utf-8 string, or null in case of error.
- * The result must be freed using free() - as with the strdup() function.
- */
-char *FromLocaleDup (const char *locale)
-{
-#ifdef ASSUME_UTF8
-    return strdup (locale);
-#else
-    return FromCharset ("", locale, strlen(locale));
-#endif
-}
-
-
-/**
- * ToLocale: converts an UTF-8 string to local system encoding.
- *
- * @param utf8 nul-terminated string to be converted
- *
- * @return a nul-terminated string, or NULL in case of error.
- * To avoid memory leak, you have to pass the result to LocaleFree()
- * when it is no longer needed.
- */
-char *ToLocale (const char *utf8)
-{
-#ifdef ASSUME_UTF8
-    return (char *)utf8;
-#else
-    size_t outsize;
-    return utf8 ? ToCharset ("", utf8, &outsize) : NULL;
-#endif
-}
-
-
-/**
- * converts a string from UTF-8 to the system locale character encoding,
- * the result is always allocated on the heap.
- *
- * @param utf8 nul-terminated string to convert
- *
- * @return a nul-terminated string, or null in case of error.
- * The result must be freed using free() - as with the strdup() function.
- */
-char *ToLocaleDup (const char *utf8)
-{
-#ifdef ASSUME_UTF8
-    return strdup (utf8);
-#else
-    size_t outsize;
-    return ToCharset ("", utf8, &outsize);
-#endif
-}
-
 /**
  * Formats an UTF-8 string as vfprintf(), then print it, with
  * appropriate conversion to local encoding.
  */
 int utf8_vfprintf( FILE *stream, const char *fmt, va_list ap )
 {
-#ifdef ASSUME_UTF8
+#ifndef _WIN32
     return vfprintf (stream, fmt, ap);
 #else
     char *str;
-    int res;
+    int res = vasprintf (&str, fmt, ap);
+    if (unlikely(res == -1))
+        return -1;
 
-# if defined( WIN32 ) && !defined( UNDER_CE )
+#if !VLC_WINSTORE_APP
     /* Writing to the console is a lot of fun on Microsoft Windows.
      * If you use the standard I/O functions, you must use the OEM code page,
      * which is different from the usual ANSI code page. Or maybe not, if the
@@ -155,44 +67,30 @@ int utf8_vfprintf( FILE *stream, const char *fmt, va_list ap )
     int fd = _fileno (stream);
     if (likely(fd != -1) && _isatty (fd))
     {
-        res = vasprintf (&str, fmt, ap);
-        if (unlikely(res == -1))
-            return -1;
-
-        size_t wlen = 2 * (res + 1);
-        wchar_t *wide = malloc (wlen);
+        wchar_t *wide = ToWide (str);
         if (likely(wide != NULL))
         {
-            wlen = MultiByteToWideChar (CP_UTF8, 0, str, res + 1, wide, wlen);
-            if (wlen > 0)
-            {
-                HANDLE h = (HANDLE)(intptr_t)_get_osfhandle (fd);
-                DWORD out;
-
-                WriteConsoleW (h, wide, wlen - 1, &out, NULL);
-            }
-            else
-                res = -1;
+            HANDLE h = (HANDLE)((uintptr_t)_get_osfhandle (fd));
+            DWORD out;
+            /* XXX: It is not clear whether WriteConsole() wants the number of
+             * Unicode characters or the size of the wchar_t array. */
+            BOOL ok = WriteConsoleW (h, wide, wcslen (wide), &out, NULL);
             free (wide);
+            if (ok)
+                goto out;
         }
-        else
-            res = -1;
-        free (str);
-        return res;
     }
-# endif
-
-    res = vasprintf (&str, fmt, ap);
-    if (unlikely(res == -1))
-        return -1;
-
-    char *ansi = ToLocaleDup (str);
+#endif
+    wchar_t *wide = ToWide(str);
+    if (likely(wide != NULL))
+    {
+        res = fputws(wide, stream);
+        free(wide);
+    }
+    else
+        res = -1;
+out:
     free (str);
-
-    if (ansi == NULL)
-        return -1;
-    fputs (ansi, stream);
-    free (ansi);
     return res;
 #endif
 }
@@ -221,61 +119,76 @@ int utf8_fprintf( FILE *stream, const char *fmt, ... )
  * number of bytes that the first character occupies (from 1 to 4) otherwise;
  * -1 if the byte sequence was not a valid UTF-8 sequence.
  */
-static size_t vlc_towc (const char *str, uint32_t *restrict pwc)
+size_t vlc_towc (const char *str, uint32_t *restrict pwc)
 {
-    uint8_t *ptr = (uint8_t *)str;
-    assert (str != NULL);
-
-    uint8_t c = ptr[0];
+    uint8_t *ptr = (uint8_t *)str, c;
+    uint32_t cp;
 
-    if (unlikely(c == '\0'))
-    {
-        *pwc = 0;
-        return 0;
-    }
+    assert (str != NULL);
 
+    c = *ptr;
     if (unlikely(c > 0xF4))
         return -1;
 
     int charlen = clz8 (c ^ 0xFF);
     switch (charlen)
     {
-        case 0: // 7-bit ASCII character -> OK
+        case 0: // 7-bit ASCII character -> short cut
             *pwc = c;
-            return 1;
+            return c != '\0';
 
         case 1: // continuation byte -> error
             return -1;
-    }
 
-    assert (charlen >= 2 && charlen <= 4);
+        case 2:
+            if (unlikely(c < 0xC2)) // ASCII overlong
+                return -1;
+            cp = (c & 0x1F) << 6;
+            break;
 
-    uint32_t cp = c & ~((0xff >> (7 - charlen)) << (7 - charlen));
-    for (int i = 1; i < charlen; i++)
-    {
-        assert (cp < (1 << 26));
-        c = ptr[i];
+        case 3:
+            cp = (c & 0x0F) << 12;
+            break;
 
-        if (unlikely((c >> 6) != 2)) // not a continuation byte
-            return -1;
+        case 4:
+            cp = (c & 0x07) << 16;
+            break;
 
-        cp = (cp << 6) | (ptr[i] & 0x3f);
+        default:
+            assert (0);
     }
 
+    /* Unrolled continuation bytes decoding */
     switch (charlen)
     {
         case 4:
-            if (unlikely(cp > 0x10FFFF)) // beyond Unicode
+            c = *++ptr;
+            if (unlikely((c >> 6) != 2)) // not a continuation byte
                 return -1;
+            cp |= (c & 0x3f) << 12;
+
+            if (unlikely(cp >= 0x110000)) // beyond Unicode range
+                return -1;
+            /* fall through */
         case 3:
-            if (unlikely(cp >= 0xD800 && cp < 0xC000)) // UTF-16 surrogate
+            c = *++ptr;
+            if (unlikely((c >> 6) != 2)) // not a continuation byte
                 return -1;
-        case 2:
-            if (unlikely(cp < 128)) // ASCII overlong
+            cp |= (c & 0x3f) << 6;
+
+            if (unlikely(cp >= 0xD800 && cp < 0xE000)) // UTF-16 surrogate
+                return -1;
+            if (unlikely(cp < (1u << (5 * charlen - 4)))) // non-ASCII overlong
                 return -1;
-            if (unlikely(cp < (1u << (5 * charlen - 3)))) // overlong
+            /* fall through */
+        case 2:
+            c = *++ptr;
+            if (unlikely((c >> 6) != 2)) // not a continuation byte
                 return -1;
+            cp |= (c & 0x3f);
+            break;
     }
+
     *pwc = cp;
     return charlen;
 }
@@ -319,7 +232,7 @@ char *vlc_strcasestr (const char *haystack, const char *needle)
         s = vlc_towc (haystack, &(uint32_t) { 0 });
         haystack += s;
     }
-    while (s != 0);
+    while (s > 0);
 
     return NULL;
 }
@@ -436,11 +349,12 @@ void *ToCharset(const char *charset, const char *in, size_t *outsize)
         const char *inp = in;
         char *outp = res;
         size_t inb = inlen;
-        size_t outb = outlen;
+        size_t outb = outlen - mul;
 
         if (vlc_iconv (hd, &inp, &inb, &outp, &outb) != (size_t)(-1))
         {
-            *outsize = outlen - outb;
+            *outsize = outlen - mul - outb;
+            outb += mul;
             inb = 1; /* append nul terminator if possible */
             if (vlc_iconv (hd, &inp, &inb, &outp, &outb) != (size_t)(-1))
                 break;