]> git.sesse.net Git - nageru/blob - x264_speed_control.cpp
Fix an issue with changing video bitrate when x264 speed control was in effect.
[nageru] / x264_speed_control.cpp
1 #include "x264_speed_control.h"
2
3 #include "flags.h"
4
5 #include <time.h>
6
7 #include <algorithm>
8
9 using namespace std;
10
11 X264SpeedControl::X264SpeedControl(x264_t *x264, float f_speed, int i_buffer_size, float f_buffer_init)
12         : x264(x264), f_speed(f_speed)
13 {
14         x264_param_t param;
15         x264_encoder_parameters(x264, &param);
16
17         float fps = (float)param.i_fps_num / param.i_fps_den;
18         uspf = 1e6 / fps;
19         set_buffer_size(i_buffer_size);
20         buffer_fill = buffer_size * f_buffer_init;
21         buffer_fill = max<int64_t>(buffer_fill, uspf);
22         buffer_fill = min(buffer_fill, buffer_size);
23         timestamp = mdate();
24         preset = -1;
25         cplx_num = 3e3; //FIXME estimate initial complexity
26         cplx_den = .1;
27         stat.min_buffer = buffer_size;
28         stat.max_buffer = 0;
29         stat.avg_preset = 0.0;
30         stat.den = 0;
31 }
32
33 X264SpeedControl::~X264SpeedControl()
34 {
35         fprintf(stderr, "speedcontrol: avg preset=%.3f  buffer min=%.3f max=%.3f\n",
36                 stat.avg_preset / stat.den,
37                 (float)stat.min_buffer / buffer_size,
38                 (float)stat.max_buffer / buffer_size );
39         //  x264_log( x264, X264_LOG_INFO, "speedcontrol: avg cplx=%.5f\n", cplx_num / cplx_den );
40 }
41
42 typedef struct
43 {
44         float time; // relative encoding time, compared to the other presets
45         int subme;
46         int me;
47         int refs;
48         int mix;
49         int trellis;
50         int partitions;
51         int badapt;
52         int bframes;
53         int direct;
54         int merange;
55 } sc_preset_t;
56
57 // The actual presets, including the equivalent commandline options. Note that
58 // all presets are benchmarked with --weightp 1 --mbtree --rc-lookahead 20
59 // on top of the given settings (equivalent settings to the "faster" preset).
60 // Timings and SSIM measurements were done on a quadcore Haswell i5 3.2 GHz
61 // on the first 1000 frames of "Tears of Steel" in 1080p.
62 //
63 // Note that the two first and the two last are also used for extrapolation
64 // should the desired time be outside the range. Thus, it is disadvantageous if
65 // they are chosen so that the timings are too close to each other.
66 #define SC_PRESETS 26
67 static const sc_preset_t presets[SC_PRESETS] = {
68 #define I4 X264_ANALYSE_I4x4
69 #define I8 X264_ANALYSE_I8x8
70 #define P4 X264_ANALYSE_PSUB8x8
71 #define P8 X264_ANALYSE_PSUB16x16
72 #define B8 X264_ANALYSE_BSUB16x16
73         // Preset 0: 14.179db, --preset superfast --b-adapt 0 --bframes 0
74         { .time= 1.000, .subme=1, .me=X264_ME_DIA, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4, .badapt=0, .bframes=0, .direct=0, .merange=16 },
75
76         // Preset 1: 14.459db, --preset superfast
77         { .time= 1.283, .subme=1, .me=X264_ME_DIA, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4, .badapt=1, .bframes=3, .direct=1, .merange=16 },
78
79         // Preset 2: 14.761db, --preset superfast --subme 2
80         { .time= 1.603, .subme=2, .me=X264_ME_DIA, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4, .badapt=1, .bframes=3, .direct=1, .merange=16 },
81
82         // Preset 3: 15.543db, --preset veryfast
83         { .time= 1.843, .subme=2, .me=X264_ME_HEX, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
84
85         // Preset 4: 15.716db, --preset veryfast --subme 3
86         { .time= 2.452, .subme=3, .me=X264_ME_HEX, .refs=1, .mix=0, .trellis=0, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
87
88         // Preset 5: 15.786db, --preset veryfast --subme 3 --ref 2
89         { .time= 2.733, .subme=3, .me=X264_ME_HEX, .refs=2, .mix=0, .trellis=0, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
90
91         // Preset 6: 15.813db, --preset veryfast --subme 4 --ref 2
92         { .time= 3.085, .subme=4, .me=X264_ME_HEX, .refs=2, .mix=0, .trellis=0, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
93
94         // Preset 7: 15.849db, --preset faster
95         { .time= 3.101, .subme=4, .me=X264_ME_HEX, .refs=2, .mix=0, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
96
97         // Preset 8: 15.857db, --preset faster --mixed-refs
98         { .time= 3.284, .subme=4, .me=X264_ME_HEX, .refs=2, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
99
100         // Preset 9: 15.869db, --preset faster --mixed-refs --subme 5
101         { .time= 3.587, .subme=5, .me=X264_ME_HEX, .refs=2, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
102
103         // Preset 10: 16.051db, --preset fast
104         { .time= 3.947, .subme=6, .me=X264_ME_HEX, .refs=2, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
105
106         // Preset 11: 16.356db, --preset fast --subme 7
107         { .time= 4.041, .subme=7, .me=X264_ME_HEX, .refs=2, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
108
109         // Preset 12: 16.418db, --preset fast --subme 7 --ref 3
110         { .time= 4.406, .subme=7, .me=X264_ME_HEX, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
111
112         // Preset 13: 16.460db, --preset medium
113         { .time= 4.707, .subme=7, .me=X264_ME_HEX, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
114
115         // Preset 14: 16.517db, --preset medium --subme 8
116         { .time= 5.133, .subme=8, .me=X264_ME_HEX, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
117
118         // Preset 15: 16.523db, --preset medium --subme 8 --me umh
119         { .time= 6.050, .subme=8, .me=X264_ME_UMH, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=1, .bframes=3, .direct=1, .merange=16 },
120
121         // Preset 16: 16.543db, --preset medium --subme 8 --me umh --direct auto --b-adapt 2
122         { .time= 6.849, .subme=8, .me=X264_ME_UMH, .refs=3, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
123
124         // Preset 17: 16.613db, --preset slow
125         { .time= 8.042, .subme=8, .me=X264_ME_UMH, .refs=5, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
126
127         // Preset 18: 16.641db, --preset slow --subme 9
128         { .time= 8.972, .subme=9, .me=X264_ME_UMH, .refs=5, .mix=1, .trellis=1, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
129
130         // Preset 19: 16.895db, --preset slow --subme 9 --trellis 2
131         { .time=10.073, .subme=9, .me=X264_ME_UMH, .refs=5, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
132
133         // Preset 20: 16.918db, --preset slow --subme 9 --trellis 2 --ref 6
134         { .time=11.147, .subme=9, .me=X264_ME_UMH, .refs=6, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
135
136         // Preset 21: 16.934db, --preset slow --subme 9 --trellis 2 --ref 7
137         { .time=12.267, .subme=9, .me=X264_ME_UMH, .refs=7, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8, .badapt=2, .bframes=3, .direct=3, .merange=16 },
138
139         // Preset 22: 16.948db, --preset slower
140         { .time=13.829, .subme=9, .me=X264_ME_UMH, .refs=8, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8|P4, .badapt=2, .bframes=3, .direct=3, .merange=16 },
141
142         // Preset 23: 17.058db, --preset slower --subme 10
143         { .time=14.831, .subme=10, .me=X264_ME_UMH, .refs=8, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8|P4, .badapt=2, .bframes=3, .direct=3, .merange=16 },
144
145         // Preset 24: 17.268db, --preset slower --subme 10 --bframes 8
146         { .time=18.705, .subme=10, .me=X264_ME_UMH, .refs=8, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8|P4, .badapt=2, .bframes=8, .direct=3, .merange=16 },
147
148         // Preset 25: 17.297db, --preset veryslow
149         { .time=31.419, .subme=10, .me=X264_ME_UMH, .refs=16, .mix=1, .trellis=2, .partitions=I8|I4|P8|B8|P4, .badapt=2, .bframes=8, .direct=3, .merange=24 },
150 #undef I4
151 #undef I8
152 #undef P4
153 #undef P8
154 #undef B8
155 };
156
157 void X264SpeedControl::before_frame(float new_buffer_fill, int new_buffer_size, float new_uspf)
158 {
159         if (new_uspf > 0.0) {
160                 uspf = new_uspf;
161         }
162         if (new_buffer_size) {
163                 set_buffer_size(new_buffer_size);
164         }
165         buffer_fill = buffer_size * new_buffer_fill;
166
167         int64_t t, delta_t;
168
169         // update buffer state after encoding and outputting the previous frame(s)
170         if (first) {
171                 t = timestamp = mdate();
172                 first = false;
173         } else {
174                 t = mdate();
175         }
176
177         delta_t = t - timestamp;
178         timestamp = t;
179
180         // update the time predictor
181         if (preset >= 0) {
182                 int cpu_time = cpu_time_last_frame;
183                 cplx_num *= cplx_decay;
184                 cplx_den *= cplx_decay;
185                 cplx_num += cpu_time / presets[preset].time;
186                 ++cplx_den;
187
188                 stat.avg_preset += preset;
189                 ++stat.den;
190         }
191
192         stat.min_buffer = min(buffer_fill, stat.min_buffer);
193         stat.max_buffer = max(buffer_fill, stat.max_buffer);
194
195         if (buffer_fill >= buffer_size) { // oops, cpu was idle
196                 // not really an error, but we'll warn for debugging purposes
197                 static int64_t idle_t = 0, print_interval = 0;
198                 idle_t += buffer_fill - buffer_size;
199                 if (t - print_interval > 1e6) {
200                         //fprintf(stderr, "speedcontrol idle (%.6f sec)\n", idle_t/1e6);
201                         print_interval = t;
202                         idle_t = 0;
203                 }
204                 buffer_fill = buffer_size;
205         } else if (buffer_fill <= 0) {  // oops, we're late
206                 // fprintf(stderr, "speedcontrol underflow (%.6f sec)\n", buffer_fill/1e6);
207         }
208
209         {
210                 // Pick the preset that should return the buffer to 3/4-full within a time
211                 // specified by compensation_period.
212                 //
213                 // NOTE: This doesn't actually do that, at least assuming the same target is
214                 // chosen for every frame; exactly what it does is unclear to me. It seems
215                 // to consistently undershoot a bit, so it needs to be saved by the second
216                 // predictor below. However, fixing the formula seems to yield somewhat less
217                 // stable results in practice; in particular, once the buffer is half-full
218                 // or so, it would give us a negative target. Perhaps increasing
219                 // compensation_period would be a good idea, but initial (very brief) tests
220                 // did not yield good results.
221                 float target = uspf / f_speed
222                         * (buffer_fill + compensation_period)
223                         / (buffer_size*3/4 + compensation_period);
224                 float cplx = cplx_num / cplx_den;
225                 float set, t0, t1;
226                 float filled = (float) buffer_fill / buffer_size;
227                 int i;
228                 t0 = presets[0].time * cplx;
229                 for (i = 1; ; i++) {
230                         t1 = presets[i].time * cplx;
231                         if (t1 >= target || i == SC_PRESETS - 1)
232                                 break;
233                         t0 = t1;
234                 }
235                 // exponential interpolation between states
236                 set = i-1 + (log(target) - log(t0)) / (log(t1) - log(t0));
237                 set = max<float>(set, -5);
238                 set = min<float>(set, (SC_PRESETS-1) + 5);
239                 // Even if our time estimations in the SC_PRESETS array are off
240                 // this will push us towards our target fullness
241                 float s1 = set;
242                 set += (40 * (filled-0.75));
243                 float s2 = (40 * (filled-0.75));
244                 set = min<float>(max<float>(set, 0), SC_PRESETS - 1);
245                 apply_preset(dither_preset(set));
246
247                 if (global_flags.x264_speedcontrol_verbose) {
248                         static float cpu, wall, tgt, den;
249                         const float decay = 1-1/100.;
250                         cpu = cpu*decay + cpu_time_last_frame;
251                         wall = wall*decay + delta_t;
252                         tgt = tgt*decay + target;
253                         den = den*decay + 1;
254                         fprintf(stderr, "speed: %.2f+%.2f %d[%.5f] (t/c/w: %6.0f/%6.0f/%6.0f = %.4f) fps=%.2f\r",
255                                         s1, s2, preset, (float)buffer_fill / buffer_size,
256                                         tgt/den, cpu/den, wall/den, cpu/wall, 1e6*den/wall );
257                 }
258         }
259
260 }
261
262 void X264SpeedControl::after_frame()
263 {
264         cpu_time_last_frame = mdate() - timestamp;
265 }
266
267 void X264SpeedControl::set_buffer_size(int new_buffer_size)
268 {
269         new_buffer_size = max(3, new_buffer_size);
270         buffer_size = new_buffer_size * uspf;
271         cplx_decay = 1 - 1./new_buffer_size;
272         compensation_period = buffer_size/4;
273 }
274
275 int X264SpeedControl::dither_preset(float f)
276 {
277         int i = f;
278         if (f < 0) {
279                 i--;
280         }
281         dither += f - i;
282         if (dither >= 1.0) {
283                 dither--;
284                 i++;
285         }
286         return i;
287 }
288
289 void X264SpeedControl::apply_preset(int new_preset)
290 {
291         new_preset = max(new_preset, 0);
292         new_preset = min(new_preset, SC_PRESETS - 1);
293
294         const sc_preset_t *s = &presets[new_preset];
295         x264_param_t p;
296         x264_encoder_parameters(x264, &p);
297
298         p.i_frame_reference = s->refs;
299         p.i_bframe_adaptive = s->badapt;
300         p.i_bframe = s->bframes;
301         p.analyse.inter = s->partitions;
302         p.analyse.i_subpel_refine = s->subme;
303         p.analyse.i_me_method = s->me;
304         p.analyse.i_trellis = s->trellis;
305         p.analyse.b_mixed_references = s->mix;
306         p.analyse.i_direct_mv_pred = s->direct;
307         p.analyse.i_me_range = s->merange;
308         if (override_func) {
309                 override_func(&p);
310         }
311         x264_encoder_reconfig(x264, &p);
312         preset = new_preset;
313 }
314
315 int64_t X264SpeedControl::mdate()
316 {
317         timespec now;
318         clock_gettime(CLOCK_MONOTONIC, &now);
319         return now.tv_sec * 1000000 + now.tv_nsec / 1000;
320 }