]> git.sesse.net Git - x264/blob - encoder/speed.c
Switch to exponential interpolation between presets.
[x264] / encoder / speed.c
1 #include <stdio.h>
2 #include <string.h>
3 #include <math.h>
4 #include "common/common.h"
5 #include "common/cpu.h"
6
7 struct x264_speedcontrol_t
8 {
9     // all times are in usec
10     int64_t timestamp;   // when was speedcontrol last invoked
11     int64_t cpu_time;    // time spent encoding the previous frame
12     int64_t buffer_size; // assumed application-side buffer of frames to be streamed (measured in microseconds),
13     int64_t buffer_fill; //   where full = we don't have to hurry
14     int64_t compensation_period; // how quickly we try to return to the target buffer fullness
15     float uspf;          // microseconds per frame
16     int preset;          // which setting was used in the previous frame
17     int prev_frame;
18     float cplx_num;      // rolling average of estimated spf for preset #0
19     float cplx_den;
20     float cplx_decay;
21     float dither;
22
23     int first;
24     int buffer_complete;
25
26     struct
27     {
28         int64_t min_buffer, max_buffer;
29         double avg_preset;
30         int den;
31     } stat;
32 };
33
34 void x264_speedcontrol_new( x264_t *h )
35 {
36     x264_speedcontrol_t *sc = h->sc = x264_malloc( sizeof(x264_speedcontrol_t) );
37     x264_emms();
38     memset( sc, 0, sizeof(x264_speedcontrol_t) );
39
40     if( h->param.sc.f_speed <= 0 )
41         h->param.sc.f_speed = 1;
42     float fps = h->param.i_fps_num / h->param.i_fps_den;
43     sc->uspf = 1e6 / fps;
44     h->param.sc.i_buffer_size = X264_MAX( 3, h->param.sc.i_buffer_size );
45     sc->buffer_size = h->param.sc.i_buffer_size * sc->uspf;
46     sc->buffer_fill = sc->buffer_size * h->param.sc.f_buffer_init;
47     sc->buffer_fill = x264_clip3( sc->buffer_fill, sc->uspf, sc->buffer_size );
48     sc->compensation_period = sc->buffer_size/4;
49     sc->timestamp = x264_mdate();
50     sc->preset = -1;
51     sc->prev_frame = 0;
52     sc->cplx_num = 3e3; //FIXME estimate initial complexity
53     sc->cplx_den = .1;
54     sc->cplx_decay = 1 - 1./h->param.sc.i_buffer_size;
55     sc->stat.min_buffer = sc->buffer_size;
56     sc->stat.max_buffer = 0;
57     sc->first = 1;
58     sc->buffer_complete = 0;
59 }
60
61 void x264_speedcontrol_delete( x264_t *h )
62 {
63     x264_speedcontrol_t *sc = h->sc;
64     if( !sc )
65         return;
66     x264_log( h, X264_LOG_INFO, "speedcontrol: avg preset=%.3f  buffer min=%.3f max=%.3f\n",
67               sc->stat.avg_preset / sc->stat.den,
68               (float)sc->stat.min_buffer / sc->buffer_size,
69               (float)sc->stat.max_buffer / sc->buffer_size );
70 //  x264_log( h, X264_LOG_INFO, "speedcontrol: avg cplx=%.5f\n", sc->cplx_num / sc->cplx_den );
71     x264_free( sc );
72 }
73
74 static int dither( x264_speedcontrol_t *sc, float f )
75 {
76     int i = f;
77     if( f < 0 )
78         i--;
79     sc->dither += f - i;
80     if( sc->dither >= 1. )
81     {
82         sc->dither--;
83         i++;
84     }
85     return i;
86 }
87
88 typedef struct
89 {
90     float time; // relative encoding time, compared to the other presets
91     int subme;
92     int me;
93     int refs;
94     int mix;
95     int trellis;
96     int partitions;
97     int badapt;
98     int bframes;
99     int direct;
100     int merange;
101 } sc_preset_t;
102
103 // The actual presets, including the equivalent commandline options. Note that
104 // all presets are benchmarked with --weightp 1 --mbtree --rc-lookahead 20
105 // on top of the given settings (equivalent settings to the "faster" preset).
106 // Timings and SSIM measurements were done on a quadcore Haswell i5 3.2 GHz
107 // on the first 1000 frames of "Tears of Steel" in 1080p.
108 //
109 // Note that the two first and the two last are also used for extrapolation
110 // should the desired time be outside the range. Thus, it is disadvantageous if
111 // they are chosen so that the timings are too close to each other.
112 static const sc_preset_t presets[SC_PRESETS] = {
113 #define I4 X264_ANALYSE_I4x4
114 #define I8 X264_ANALYSE_I8x8
115 #define P4 X264_ANALYSE_PSUB8x8
116 #define P8 X264_ANALYSE_PSUB16x16
117 #define B8 X264_ANALYSE_BSUB16x16
118   // Preset 0: 14.179db, --preset superfast --b-adapt 0 --bframes 0
119   { .time= 1.000, .subme=1, .me=X264_ME_DIA, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4, .badapt=0, .bframes=0, .direct=0, .merange=16 },
120
121   // Preset 1: 14.459db, --preset superfast
122   { .time= 1.283, .subme=1, .me=X264_ME_DIA, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4, .badapt=1, .bframes=3, .direct=1, .merange=16 },
123
124   // Preset 2: 14.761db, --preset superfast --subme 2
125   { .time= 1.603, .subme=2, .me=X264_ME_DIA, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4, .badapt=1, .bframes=3, .direct=1, .merange=16 },
126
127   // Preset 3: 15.543db, --preset veryfast
128   { .time= 1.843, .subme=2, .me=X264_ME_HEX, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
129
130   // Preset 4: 15.716db, --preset veryfast --subme 3
131   { .time= 2.452, .subme=3, .me=X264_ME_HEX, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
132
133   // Preset 5: 15.786db, --preset veryfast --subme 3 --ref 2
134   { .time= 2.733, .subme=3, .me=X264_ME_HEX, .refs=2, .mix=0, .trellis=0, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
135
136   // Preset 6: 15.813db, --preset veryfast --subme 4 --ref 2
137   { .time= 3.085, .subme=4, .me=X264_ME_HEX, .refs=2, .mix=0, .trellis=0, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
138
139   // Preset 7: 15.849db, --preset faster
140   { .time= 3.101, .subme=4, .me=X264_ME_HEX, .refs=2, .mix=0, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
141
142   // Preset 8: 15.857db, --preset faster --mixed-refs
143   { .time= 3.284, .subme=4, .me=X264_ME_HEX, .refs=2, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
144
145   // Preset 9: 15.869db, --preset faster --mixed-refs --subme 5
146   { .time= 3.587, .subme=5, .me=X264_ME_HEX, .refs=2, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
147
148   // Preset 10: 16.051db, --preset fast
149   { .time= 3.947, .subme=6, .me=X264_ME_HEX, .refs=2, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
150
151   // Preset 11: 16.356db, --preset fast --subme 7
152   { .time= 4.041, .subme=7, .me=X264_ME_HEX, .refs=2, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
153
154   // Preset 12: 16.418db, --preset fast --subme 7 --ref 3
155   { .time= 4.406, .subme=7, .me=X264_ME_HEX, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
156
157   // Preset 13: 16.460db, --preset medium
158   { .time= 4.707, .subme=7, .me=X264_ME_HEX, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
159
160   // Preset 14: 16.517db, --preset medium --subme 8
161   { .time= 5.133, .subme=8, .me=X264_ME_HEX, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
162
163   // Preset 15: 16.523db, --preset medium --subme 8 --me umh
164   { .time= 6.050, .subme=8, .me=X264_ME_UMH, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
165
166   // Preset 16: 16.543db, --preset medium --subme 8 --me umh --direct auto --b-adapt 2
167   { .time= 6.849, .subme=8, .me=X264_ME_UMH, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
168
169   // Preset 17: 16.613db, --preset slow
170   { .time= 8.042, .subme=8, .me=X264_ME_UMH, .refs=5, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
171
172   // Preset 18: 16.641db, --preset slow --subme 9
173   { .time= 8.972, .subme=9, .me=X264_ME_UMH, .refs=5, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
174
175   // Preset 19: 16.895db, --preset slow --subme 9 --trellis 2
176   { .time=10.073, .subme=9, .me=X264_ME_UMH, .refs=5, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
177
178   // Preset 20: 16.918db, --preset slow --subme 9 --trellis 2 --ref 6
179   { .time=11.147, .subme=9, .me=X264_ME_UMH, .refs=6, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
180
181   // Preset 21: 16.934db, --preset slow --subme 9 --trellis 2 --ref 7
182   { .time=12.267, .subme=9, .me=X264_ME_UMH, .refs=7, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
183
184   // Preset 22: 16.948db, --preset slower
185   { .time=13.829, .subme=9, .me=X264_ME_UMH, .refs=8, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8|P4, .badapt=2, .bframes=3, .direct=3, .merange=16 },
186
187   // Preset 23: 17.058db, --preset slower --subme 10
188   { .time=14.831, .subme=10, .me=X264_ME_UMH, .refs=8, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8|P4, .badapt=2, .bframes=3, .direct=3, .merange=16 },
189
190   // Preset 24: 17.268db, --preset slower --subme 10 --bframes 8
191   { .time=18.705, .subme=10, .me=X264_ME_UMH, .refs=8, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8|P4, .badapt=2, .bframes=8, .direct=3, .merange=16 },
192
193   // Preset 25: 17.297db, --preset veryslow
194   { .time=31.419, .subme=10, .me=X264_ME_UMH, .refs=16, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8|P4, .badapt=2, .bframes=8, .direct=3, .merange=24 },
195 #undef I4
196 #undef I8
197 #undef P4
198 #undef P8
199 #undef B8
200 };
201
202 static void apply_preset( x264_t *h, int preset )
203 {
204     x264_speedcontrol_t *sc = h->sc;
205     preset = x264_clip3( preset, 0, h->param.sc.max_preset-1 );
206     //if( preset != sc->preset )
207     {
208         const sc_preset_t *s = &presets[preset];
209         x264_param_t p = h->param;
210
211         p.i_frame_reference = s->refs;
212         p.i_bframe_adaptive = s->badapt;
213         p.i_bframe = s->bframes;
214         p.analyse.inter = s->partitions;
215         p.analyse.i_subpel_refine = s->subme;
216         p.analyse.i_me_method = s->me;
217         p.analyse.i_trellis = s->trellis;
218         p.analyse.b_mixed_references = s->mix;
219         p.analyse.i_direct_mv_pred = s->direct;
220         p.analyse.i_me_range = s->merange;
221         x264_encoder_reconfig( h, &p );
222         sc->preset = preset;
223         x264_log( h, X264_LOG_DEBUG, "Applying speedcontrol preset %d.\n", preset );
224     }
225 }
226
227 void x264_speedcontrol_frame_end( x264_t *h )
228 {
229     x264_speedcontrol_t *sc = h->sc;
230     if( h->param.sc.b_alt_timer )
231         sc->cpu_time = x264_mdate() - sc->timestamp;
232 }
233
234 void x264_speedcontrol_frame( x264_t *h )
235 {
236     x264_speedcontrol_t *sc = h->sc;
237     int64_t t, delta_t, delta_buffer;
238     int delta_f;
239
240     x264_emms();
241
242     // update buffer state after encoding and outputting the previous frame(s)
243     if( sc->first )
244     {
245         t = sc->timestamp = x264_mdate();
246         sc->first = 0;
247     }
248     else
249         t = x264_mdate();
250
251     delta_f = h->i_frame - sc->prev_frame;
252     delta_t = t - sc->timestamp;
253     delta_buffer = delta_f * sc->uspf / h->param.sc.f_speed - delta_t;
254     if( !sc->buffer_complete )
255         sc->buffer_fill += delta_buffer;
256     sc->prev_frame = h->i_frame;
257     sc->timestamp = t;
258
259     // update the time predictor
260     if( delta_f )
261     {
262         int cpu_time = h->param.sc.b_alt_timer ? sc->cpu_time : delta_t;
263         float decay = powf( sc->cplx_decay, delta_f );
264         sc->cplx_num *= decay;
265         sc->cplx_den *= decay;
266         sc->cplx_num += cpu_time / presets[sc->preset].time;
267         sc->cplx_den += delta_f;
268
269         sc->stat.avg_preset += sc->preset * delta_f;
270         sc->stat.den += delta_f;
271     }
272     sc->stat.min_buffer = X264_MIN( sc->buffer_fill, sc->stat.min_buffer );
273     sc->stat.max_buffer = X264_MAX( sc->buffer_fill, sc->stat.max_buffer );
274
275     if( sc->buffer_fill > sc->buffer_size ) // oops, cpu was idle
276     {
277         // not really an error, but we'll warn for debugging purposes
278         static int64_t idle_t = 0, print_interval = 0;
279         idle_t += sc->buffer_fill - sc->buffer_size;
280         if( t - print_interval > 1e6 )
281         {
282             x264_log( h, X264_LOG_DEBUG, "speedcontrol idle (%.6f sec)\n", idle_t/1e6 );
283             print_interval = t;
284             idle_t = 0;
285         }
286         sc->buffer_fill = sc->buffer_size;
287     }
288     else if( sc->buffer_fill < 0 && delta_buffer < 0 ) // oops, we're late
289     {
290         // don't clip fullness to 0; we'll hope the real buffer was bigger than
291         // specified, and maybe we can catch up. if the application had to drop
292         // frames, then it should override the buffer fullness (FIXME implement this).
293         x264_log( h, X264_LOG_WARNING, "speedcontrol underflow (%.6f sec)\n", sc->buffer_fill/1e6 );
294     }
295
296     {
297         // pick the preset that should return the buffer to 3/4-full within a time
298         // specified by compensation_period
299         float target = sc->uspf / h->param.sc.f_speed
300                      * (sc->buffer_fill + sc->compensation_period)
301                      / (sc->buffer_size*3/4 + sc->compensation_period);
302         float cplx = sc->cplx_num / sc->cplx_den;
303         float set, t0, t1;
304         float filled = (float) sc->buffer_fill / sc->buffer_size;
305         int i;
306         t0 = presets[0].time * cplx;
307         for( i=1;; i++ )
308         {
309             t1 = presets[i].time * cplx;
310             if( t1 >= target || i == h->param.sc.max_preset-1 )
311                 break;
312             t0 = t1;
313         }
314         // exponential interpolation between states
315         set = i-1 + (log(target) - log(t0)) / (log(t1) - log(t0));
316         set = x264_clip3f( set, -5, (SC_PRESETS-1) + 5 );
317         // Even if our time estimations in the SC_PRESETS array are off
318         // this will push us towards our target fullness
319         set += (40 * (filled-0.75));
320         set = x264_clip3f( set, 0 , h->param.sc.max_preset-1 );
321         apply_preset( h, dither( sc, set ) );
322
323         // FIXME
324         if (h->param.i_log_level >= X264_LOG_DEBUG)
325         {
326             static float cpu, wall, tgt, den;
327             float decay = 1-1/100.;
328             cpu = cpu*decay + sc->cpu_time;
329             wall = wall*decay + delta_t;
330             tgt = tgt*decay + target;
331             den = den*decay + 1;
332             x264_log( h, X264_LOG_DEBUG, "speed: %.2f %d[%.5f] (t/c/w: %6.0f/%6.0f/%6.0f = %.4f) fps=%.2f\r",
333                      set, sc->preset, (float)sc->buffer_fill / sc->buffer_size,
334                      tgt/den, cpu/den, wall/den, cpu/wall, 1e6*den/wall );
335         }
336     }
337
338 }
339
340 void x264_speedcontrol_sync( x264_t *h, float f_buffer_fill, int i_buffer_size, int buffer_complete )
341 {
342     x264_speedcontrol_t *sc = h->sc;
343     if( !h->param.sc.i_buffer_size )
344         return;
345     if( i_buffer_size )
346         h->param.sc.i_buffer_size = X264_MAX( 3, i_buffer_size );
347     sc->buffer_size = h->param.sc.i_buffer_size * sc->uspf;
348     sc->cplx_decay = 1 - 1./h->param.sc.i_buffer_size;
349     sc->compensation_period = sc->buffer_size/4;
350     sc->buffer_fill = sc->buffer_size * f_buffer_fill;
351     sc->buffer_complete = !!buffer_complete;
352 }