]> git.sesse.net Git - vlc/blob - src/input/subtitles.c
decoder: reorder to avoid forward declation, no functional changes
[vlc] / src / input / subtitles.c
1 /*****************************************************************************
2  * subtitles.c : subtitles detection
3  *****************************************************************************
4  * Copyright (C) 2003-2009 VLC authors and VideoLAN
5  * $Id$
6  *
7  * Authors: Derk-Jan Hartman <hartman at videolan.org>
8  * This is adapted code from the GPL'ed MPlayer (http://mplayerhq.hu)
9  *
10  * This program is free software; you can redistribute it and/or modify it
11  * under the terms of the GNU Lesser General Public License as published by
12  * the Free Software Foundation; either version 2.1 of the License, or
13  * (at your option) any later version.
14  *
15  * This program is distributed in the hope that it will be useful,
16  * but WITHOUT ANY WARRANTY; without even the implied warranty of
17  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
18  * GNU Lesser General Public License for more details.
19  *
20  * You should have received a copy of the GNU Lesser General Public License
21  * along with this program; if not, write to the Free Software Foundation,
22  * Inc., 51 Franklin Street, Fifth Floor, Boston MA 02110-1301, USA.
23  *****************************************************************************/
24
25 /**
26  *  \file
27  *  This file contains functions to dectect subtitle files.
28  */
29
30 #ifdef HAVE_CONFIG_H
31 # include "config.h"
32 #endif
33
34 #include <ctype.h> /* isalnum() */
35 #include <unistd.h>
36 #include <sys/stat.h>
37
38 #include <vlc_common.h>
39 #include <vlc_fs.h>
40 #include <vlc_url.h>
41
42 #include "input_internal.h"
43
44 /**
45  * We are not going to autodetect more subtitle files than this.
46  */
47 #define MAX_SUBTITLE_FILES 128
48
49 /**
50  * The possible extensions for subtitle files we support
51  */
52 static const char sub_exts[][6] = {
53     "idx", "sub",  "srt",
54     "ssa", "ass",  "smi",
55     "utf", "utf8", "utf-8",
56     "rt",   "aqt", "txt",
57     "usf", "jss",  "cdg",
58     "psb", "mpsub","mpl2",
59     "pjs", "dks", "stl",
60     "vtt",""
61 };
62
63 static void strcpy_trim( char *d, const char *s )
64 {
65     unsigned char c;
66
67     /* skip leading whitespace */
68     while( ((c = *s) != '\0') && !isalnum(c) )
69     {
70         s++;
71     }
72     for(;;)
73     {
74         /* copy word */
75         while( ((c = *s) != '\0') && isalnum(c) )
76         {
77             *d = tolower(c);
78             s++; d++;
79         }
80         if( *s == 0 ) break;
81         /* trim excess whitespace */
82         while( ((c = *s) != '\0') && !isalnum(c) )
83         {
84             s++;
85         }
86         if( *s == 0 ) break;
87         *d++ = ' ';
88     }
89     *d = 0;
90 }
91
92 static void strcpy_strip_ext( char *d, const char *s )
93 {
94     unsigned char c;
95
96     const char *tmp = strrchr(s, '.');
97     if( !tmp )
98     {
99         strcpy(d, s);
100         return;
101     }
102     else
103         strlcpy(d, s, tmp - s + 1 );
104     while( (c = *d) != '\0' )
105     {
106         *d = tolower(c);
107         d++;
108     }
109 }
110
111 static void strcpy_get_ext( char *d, const char *s )
112 {
113     const char *tmp = strrchr(s, '.');
114     if( !tmp )
115         strcpy(d, "");
116     else
117         strcpy( d, tmp + 1 );
118 }
119
120 static int whiteonly( const char *s )
121 {
122     unsigned char c;
123
124     while( (c = *s) != '\0' )
125     {
126         if( isalnum( c ) )
127             return 0;
128         s++;
129     }
130     return 1;
131 }
132
133 enum
134 {
135     SUB_PRIORITY_NONE        = 0,
136     SUB_PRIORITY_MATCH_NONE  = 1,
137     SUB_PRIORITY_MATCH_RIGHT = 2,
138     SUB_PRIORITY_MATCH_LEFT  = 3,
139     SUB_PRIORITY_MATCH_ALL   = 4,
140 };
141 typedef struct
142 {
143     int priority;
144     char *psz_fname;
145     char *psz_ext;
146 } vlc_subfn_t;
147
148 static int compare_sub_priority( const void *a, const void *b )
149 {
150     const vlc_subfn_t *p0 = a;
151     const vlc_subfn_t *p1 = b;
152
153     if( p0->priority > p1->priority )
154         return -1;
155
156     if( p0->priority < p1->priority )
157         return 1;
158
159 #ifdef HAVE_STRCOLL
160     return strcoll( p0->psz_fname, p1->psz_fname);
161 #else
162     return strcmp( p0->psz_fname, p1->psz_fname);
163 #endif
164 }
165
166 /*
167  * Check if a file ends with a subtitle extension
168  */
169 int subtitles_Filter( const char *psz_dir_content )
170 {
171     const char *tmp = strrchr( psz_dir_content, '.');
172
173     if( !tmp )
174         return 0;
175     tmp++;
176
177     for( int i = 0; sub_exts[i][0]; i++ )
178         if( strcasecmp( sub_exts[i], tmp ) == 0 )
179             return 1;
180     return 0;
181 }
182
183
184 /**
185  * Convert a list of paths separated by ',' to a char**
186  */
187 static char **paths_to_list( const char *psz_dir, char *psz_path )
188 {
189     unsigned int i, k, i_nb_subdirs;
190     char **subdirs; /* list of subdirectories to look in */
191     char *psz_parser = psz_path;
192
193     if( !psz_dir || !psz_path )
194         return NULL;
195
196     for( k = 0, i_nb_subdirs = 1; psz_path[k] != '\0'; k++ )
197     {
198         if( psz_path[k] == ',' )
199             i_nb_subdirs++;
200     }
201
202     subdirs = calloc( i_nb_subdirs + 1, sizeof(char*) );
203     if( !subdirs )
204         return NULL;
205
206     for( i = 0; psz_parser && *psz_parser != '\0' ; )
207     {
208         char *psz_subdir = psz_parser;
209         psz_parser = strchr( psz_subdir, ',' );
210         if( psz_parser )
211         {
212             *psz_parser++ = '\0';
213             while( *psz_parser == ' ' )
214                 psz_parser++;
215         }
216         if( *psz_subdir == '\0' )
217             continue;
218
219         if( asprintf( &subdirs[i++], "%s%s",
220                   psz_subdir[0] == '.' ? psz_dir : "",
221                   psz_subdir ) == -1 )
222             break;
223     }
224     subdirs[i] = NULL;
225
226     return subdirs;
227 }
228
229
230 /**
231  * Detect subtitle files.
232  *
233  * When called this function will split up the psz_name string into a
234  * directory, filename and extension. It then opens the directory
235  * in which the file resides and tries to find possible matches of
236  * subtitles files.
237  *
238  * \ingroup Demux
239  * \param p_this the calling \ref input_thread_t
240  * \param psz_path a list of subdirectories (separated by a ',') to look in.
241  * \param psz_name the complete filename to base the search on.
242  * \return a NULL terminated array of filenames with detected possible subtitles.
243  * The array contains max MAX_SUBTITLE_FILES items and you need to free it after use.
244  */
245 char **subtitles_Detect( input_thread_t *p_this, char *psz_path,
246                          const char *psz_name_org )
247 {
248     int i_fuzzy = var_GetInteger( p_this, "sub-autodetect-fuzzy" );
249     if ( i_fuzzy == 0 )
250         return NULL;
251     int j, i_result2, i_sub_count, i_fname_len;
252     char *f_fname_noext = NULL, *f_fname_trim = NULL;
253
254     char **subdirs; /* list of subdirectories to look in */
255
256     vlc_subfn_t *result = NULL; /* unsorted results */
257     char **result2; /* sorted results */
258
259     if( !psz_name_org )
260         return NULL;
261
262     char *psz_fname = make_path( psz_name_org );
263     if( !psz_fname )
264         return NULL;
265
266     /* extract filename & dirname from psz_fname */
267     char *f_dir = strdup( psz_fname );
268     if( f_dir == NULL )
269     {
270         free( psz_fname );
271         return NULL;
272     }
273
274     const char *f_fname = strrchr( psz_fname, DIR_SEP_CHAR );
275     if( !f_fname )
276     {
277         free( f_dir );
278         free( psz_fname );
279         return NULL;
280     }
281     f_fname++; /* Skip the '/' */
282     f_dir[f_fname - psz_fname] = 0; /* keep dir separator in f_dir */
283
284     i_fname_len = strlen( f_fname );
285
286     f_fname_noext = malloc(i_fname_len + 1);
287     f_fname_trim = malloc(i_fname_len + 1 );
288     if( !f_fname_noext || !f_fname_trim )
289     {
290         free( f_dir );
291         free( f_fname_noext );
292         free( f_fname_trim );
293         free( psz_fname );
294         return NULL;
295     }
296
297     strcpy_strip_ext( f_fname_noext, f_fname );
298     strcpy_trim( f_fname_trim, f_fname_noext );
299
300     result = calloc( MAX_SUBTITLE_FILES+1, sizeof(vlc_subfn_t) ); /* We check it later (simplify code) */
301     subdirs = paths_to_list( f_dir, psz_path );
302     for( j = -1, i_sub_count = 0; (j == -1) || ( j >= 0 && subdirs != NULL && subdirs[j] != NULL ); j++ )
303     {
304         const char *psz_dir = (j < 0) ? f_dir : subdirs[j];
305         if( psz_dir == NULL || ( j >= 0 && !strcmp( psz_dir, f_dir ) ) )
306             continue;
307
308         /* parse psz_src dir */
309         DIR *dir = vlc_opendir( psz_dir );
310         if( dir == NULL )
311             continue;
312
313         msg_Dbg( p_this, "looking for a subtitle file in %s", psz_dir );
314
315         const char *psz_name;
316         while( (psz_name = vlc_readdir( dir )) && i_sub_count < MAX_SUBTITLE_FILES )
317         {
318             if( psz_name[0] == '.' || !subtitles_Filter( psz_name ) )
319                 continue;
320
321             char tmp_fname_noext[strlen( psz_name ) + 1];
322             char tmp_fname_trim[strlen( psz_name ) + 1];
323             char tmp_fname_ext[strlen( psz_name ) + 1];
324             const char *tmp;
325             int i_prio = SUB_PRIORITY_NONE;
326
327             /* retrieve various parts of the filename */
328             strcpy_strip_ext( tmp_fname_noext, psz_name );
329             strcpy_get_ext( tmp_fname_ext, psz_name );
330             strcpy_trim( tmp_fname_trim, tmp_fname_noext );
331
332             if( !strcmp( tmp_fname_trim, f_fname_trim ) )
333             {
334                 /* matches the movie name exactly */
335                 i_prio = SUB_PRIORITY_MATCH_ALL;
336             }
337             else if( (tmp = strstr( tmp_fname_trim, f_fname_trim )) )
338             {
339                 /* contains the movie name */
340                 tmp += strlen( f_fname_trim );
341                 if( whiteonly( tmp ) )
342                 {
343                     /* chars in front of the movie name */
344                     i_prio = SUB_PRIORITY_MATCH_RIGHT;
345                 }
346                 else
347                 {
348                     /* chars after (and possibly in front of)
349                      * the movie name */
350                     i_prio = SUB_PRIORITY_MATCH_LEFT;
351                 }
352             }
353             else if( j == -1 )
354             {
355                 /* doesn't contain the movie name, prefer files in f_dir over subdirs */
356                 i_prio = SUB_PRIORITY_MATCH_NONE;
357             }
358             if( i_prio >= i_fuzzy )
359             {
360                 struct stat st;
361                 char *path;
362
363                 if( asprintf( &path, "%s"DIR_SEP"%s", psz_dir, psz_name ) < 0 )
364                     continue;
365
366                 if( strcmp( path, psz_fname )
367                  && vlc_stat( path, &st ) == 0
368                  && S_ISREG( st.st_mode ) && result )
369                 {
370                     msg_Dbg( p_this,
371                             "autodetected subtitle: %s with priority %d",
372                             path, i_prio );
373                     result[i_sub_count].priority = i_prio;
374                     result[i_sub_count].psz_fname = path;
375                     path = NULL;
376                     result[i_sub_count].psz_ext = strdup(tmp_fname_ext);
377                     i_sub_count++;
378                 }
379                 free( path );
380             }
381         }
382         closedir( dir );
383     }
384     if( subdirs )
385     {
386         for( j = 0; subdirs[j]; j++ )
387             free( subdirs[j] );
388         free( subdirs );
389     }
390     free( f_dir );
391     free( f_fname_trim );
392     free( f_fname_noext );
393     free( psz_fname );
394
395     if( !result )
396         return NULL;
397
398     qsort( result, i_sub_count, sizeof(vlc_subfn_t), compare_sub_priority );
399
400     result2 = calloc( i_sub_count + 1, sizeof(char*) );
401
402     for( j = 0, i_result2 = 0; j < i_sub_count && result2 != NULL; j++ )
403     {
404         bool b_reject = false;
405
406         if( !result[j].psz_fname || !result[j].psz_ext ) /* memory out */
407             break;
408
409         if( !strcasecmp( result[j].psz_ext, "sub" ) )
410         {
411             int i;
412             for( i = 0; i < i_sub_count; i++ )
413             {
414                 if( result[i].psz_fname && result[i].psz_ext &&
415                     !strncasecmp( result[j].psz_fname, result[i].psz_fname,
416                                   strlen( result[j].psz_fname) - 3 ) &&
417                     !strcasecmp( result[i].psz_ext, "idx" ) )
418                     break;
419             }
420             if( i < i_sub_count )
421                 b_reject = true;
422         }
423         else if( !strcasecmp( result[j].psz_ext, "cdg" ) )
424         {
425             if( result[j].priority < SUB_PRIORITY_MATCH_ALL )
426                 b_reject = true;
427         }
428
429         /* */
430         if( !b_reject )
431             result2[i_result2++] = strdup( result[j].psz_fname );
432     }
433
434     for( j = 0; j < i_sub_count; j++ )
435     {
436         free( result[j].psz_fname );
437         free( result[j].psz_ext );
438     }
439     free( result );
440
441     return result2;
442 }
443