]> git.sesse.net Git - nageru-docs/blob - audio.rst
Write more about multichannel audio; adapted from my blog post.
[nageru-docs] / audio.rst
1 Audio
2 =====
3
4 Audio is the most important part of video. It is also the most
5 neglected part in most amateur productions; it is easy to care
6 about full-HD productions but never remember to give the speaker
7 a microphone. Your stream can live with blurry or murky pictures,
8 but it cannot live with people not hearing what's being said.
9
10 Nageru aims to give the operator meaningful, useful controls for
11 processing and mixing audio, with a focus on voice. There are two
12 modes for audio processing, namely *simple* and *multichannel*;
13 they are selectable from the audio menu.
14
15 Be aware that a mix that sounds good on a PA system will not
16 necessarily sound good on a stream; PA systems often have rather
17 different audio characteristics than a set of home speakers or
18 headphones, and there will also frequently be other sounds in the
19 room that remove some of the typical “dryness”. However, for simple
20 use, reusing such a mix isn't the worst choice you can make.
21
22
23 Simple mode
24 -----------
25
26 **Simple** audio mode is the default, and was the only mode available
27 up until Nageru 1.4.0. Despite its name, it contains a powerful
28 audio processing chain; however, in many cases, you won't need to
29 understand or twiddle any of the knobs availale.
30
31 Simple mode allows input from only a single source, and that source
32 has to be one of the capture cards. (You choose which one by right-clicking
33 on its channel and selecting it as audio source.) The two typical
34 cases where this is useful are:
35
36   * When you simply take in audio from one of the cameras,
37     possibly by way of external microphone, or
38   * When you have an external mixer and can embed its output
39     in one of the video inputs.
40
41 If you want more than one audio source at a time, or if you want
42 to use ALSA inputs, you will need to use multichannel mode; it is
43 more complicated, but it is a strict superset of what the simple mode
44 can do. (In fact, simple mode constructs a multichannel setup
45 behind-the-scenes and then runs the multichannel audio code.)
46
47
48 .. _audio-meters:
49
50 Audio meters
51 ------------
52
53 .. image:: images/level-meters.png
54
55 When setting overall audio levels, there are two important goals:
56 To keep a reasonable **perceived loudness**, and to **avoid clipping**.
57 Both are more subtle to measure than one would initially assume,
58 and there are many ways to misstep. In particular, pretty much any
59 naïve way of measuring loudness will fail; human hearing is, for instance,
60 much more sensitive in some frequencies than others.
61
62 `EBU R128 <https://tech.ebu.ch/loudness>`_ provides solid solutions
63 to both problems. It specifies a precise algorithm to calculate a
64 both *momentary* loudness (over short and medium time intervals;
65 Nageru uses the short measurement), and a *loudness range* over an
66 arbitrary amount of time. The loudness is measured in LU (loudness
67 units), which is a relative unit very much like decibels; there's
68 also LUFS (loudness unit relative to full scale), which is number of
69 LU compared to a given reference.
70
71 EBU R128 specifies a *target loudness* (0 LU) of -23 LUFS +/- 1 LU;
72 if you keep your stream within this and don't have a huge range
73 in general, it will have a reasonable loudness on most viewers'
74 setups. The left meter shows the momentary loudness (over the short
75 400 ms intervals), and the right meter shows the loudness range,
76 with the target shown as a box. If you are within the target,
77 the box turns green; otherwise, it is red. Both meters show
78 1 LU as one segment, with the highest value being +9 LU
79 (compared to the reference level) and the lowest being -18 LU.
80
81 Even if the overall loudness is correct, one needs to avoid clipping;
82 if samples go outside the allowed range, it will sound as clicking
83 or popping (or if many do, as extreme distortion). However,
84 just measuring the value of every single sample is not good enough;
85 since the client might do its own resampling and processing,
86 we also need to account for *inter-sample peaks*. Nageru, in line
87 with R128 recommendations, oversamples the audio by 4x and writes
88 the highest peak (in dBFS) below the left meter. Anything above
89 the R128 limit of -0.1 dBFS will make the meter turn red to alert
90 the operator that clipping has occurred. (In practice, this should
91 rarely happen due to the limiter; see the next section.)
92
93 You can click the reset (RST) button to reset all the meters, including
94 the peak measurement.
95
96 Finally, the very top contains a **correlation meter** measuring
97 the correlation between the left and right channel, which is
98 useful for checking the stereo image. It goes from -1 at the very
99 left (the channels are exact opposites of each other), via 0 in
100 the middle (the channels are totally uncorrelated), to +1 at
101 the very right (the channels are exactly the same). All of these
102 are indications of common issues:
103
104   * A correlation meter that sits at exactly zero typically means
105     either the left or the both channel (or both) is silent.
106   * A correlation meter that sits at exactly +1 typically means
107     you are sending a mono stream. This could be intentional
108     (if you e.g. have only a single microphone), but if not,
109     it could indicate either a loose connector or stereo channels
110     panned wrong.
111   * Finally, a correlation meter that sits at negative values
112     for longer periods of time indicate that one of the channels
113     is inverted (the phase is wrong), and could sound odd on
114     speaker setups. However, certain kinds of reverb or other
115     effects could also cause this, so it could be benign.
116
117 A healthy stereo stream will usually have a correlation somewhere
118 around 0.7–0.8, and this section is marked in green.
119
120 .. _audio-strip:
121
122 The audio strip
123 ---------------
124
125 .. image:: images/audio-strip.png
126
127 The audio strip contains controls for the processing chain for the audio from
128 start to end, left to right. Note that by default, everything is enabled;
129 if you have a premade audio mix that you are confident that you
130 want 1:1 into the stream, you can start Nageru with the “--flat-audio”
131 flag, that instead starts with everything disabled.
132
133 The first step in the pipeline is a **lo-cut** (or equivalently,
134 highpass) filter. The exact cutoff frequency is a bit a matter
135 of taste (and also depends on the speaker), but the main point
136 is that it gets rid of low-frequency hum and a lot of the background
137 noise that is not related to the speaker's voice. (If you were
138 producing music, you'd probably want it there to make room for
139 music *under* it, but the you'd want it higher than the default 120 Hz.)
140
141 Next comes a chain of no less than four compressors. They are
142 based on the same basic structure, but have very different settings,
143 and fill very different roles.
144
145 The first compressor is the **gain staging**, or auto-leveler;
146 it is very slow, with 500 ms attack time and 20 second release time.
147 Its purpose is to set the overall level for the next compressor
148 in the chain (so that it is slightly over its threshold);
149 if you have a pretty consistent input signal, you can uncheck
150 the “Auto” box and just set a static value manually.
151
152 The second compressor is the **actual compressor**. It is much
153 faster, with typical voice settings (5 ms attack, 40 ms release).
154 It has the effect of making the voice sound a bit tighter,
155 more level and overall better; if you have multiple things
156 in the mix, it will also bring them somewhat closer together.
157 (In general, a compressor gives the signal less dynamic range
158 by making it quieter, which allows you to gain it more up in
159 a later stage, so that it can get louder overall. It's a bit
160 paradoxical if you're not used to it.)
161
162 You can adjust the threshold if you wish, or disable the compressor
163 altogether if your signal is already mastered. Note that if the
164 gain staging is not set so that this compressor gets an input signal
165 that's loud enough, it won't do anything to it.
166
167 At this point, the mastering section begins; for simple audio,
168 the distinction won't matter, but for multichannel, the previous
169 effects are separate per-bus and the remaining are applied
170 after the mix. (More on this below.) The mastering section begins
171 with a **limiter**, basically a compressor with very high ratio.
172 It's there as an emergency brake for really loud compressors
173 that got through the other compressors—a classic example is a
174 speaker suddenly coughing, or a very loud bass drum. This prevents
175 both clipping and blowing out the speakers' ears.
176
177 At this point, the audio signal is *almost* where we'd like it
178 to be, but the overall sound level might not be quite right.
179 All the previous compressors have been working in the objective
180 domain, but as explained in the :ref:`previous section <audio-meters>`,
181 this does not necessarily correspond to the desired overall
182 audio loudness. (Their default levels have been calibrated so
183 that they end up around 0 LU for typical speech content,
184 but they could easily miss by a few LU in many cases.)
185
186 Thus, there's a final **makeup gain** at the end to compensate
187 for these issues. When the “Auto” checkbox is ticked, which is
188 by default, it will very slowly (filter constant of 30 seconds)
189 adjust itself so that the overall level goes toward 0 LU,
190 ie., the reference level. It is so slow because the R128 calculations
191 inherently must go over a certain amount of time (what we want
192 to change with this gain is the *overall* sound level,
193 not the *immediate* one). In periods where the makeup gain is
194 far off, such as when the stream is all silent, it doesn't update
195 at all. As with the other knobs, you can uncheck the “Auto”
196 checkbox and tune this yourself if you want to.
197
198
199 Multichannel mode
200 -----------------
201
202 **Multichannel mode** expands on simple audio mode by allowing you
203 to have multiple *buses* of audio. (In a sense, it could more accurately
204 be called “multibus mode” instead, but the name would be too confusing.)
205 A bus in Nageru is a pair of channels (left/right), sourced from
206 a video capture or ALSA card. The channel mapping is flexible; my USB
207 sound card has 18 channels, for instance, and you can use that to make
208 several buses. Each bus has a name (for instance, something like
209 “Blue microphone” or “Speaker PC”), which is just for convenience;
210 Nageru doesn't care what you write here, but the labels are useful
211 for the operator.
212
213
214 Input mappings
215 ''''''''''''''
216
217 .. image:: images/input-mapping.png
218
219 The input mapping dialog should be pretty much self-explanatory;
220 you can use the + button to add a new bus, and the - button to remove
221 the currently selected one (you select by clicking on it). The up and
222 down buttons rearrange the order by moving the currently selected bus
223 up or down, if possible.
224
225 Because mappings can be tedious to setup, you wouldn't want to set up
226 a complicated one every time you started Nageru. Therefore, mappings
227 can be saved and loaded from disk; the stored file is a
228 `protocol buffer <https://developers.google.com/protocol-buffers/>`_
229 in textual format. You can also load one at start with the
230 “--input-mapping” parameter, which also implies multichannel mode
231 (--multichannel).
232
233 Nageru strives to keep the mapping consistent even
234 in the face of a changed environment—for instance, if you unplug and
235 replug a USB sound card, Nageru will attempt to keep your buses mapped to
236 that card still mapped. (While the card unplugged, the main display will show
237 the relevant buses as “(disconnected)”.) Similarly, if an ALSA device
238 is taken by another program on startup and cannot be accessed by Nageru,
239 it will mark it as “(busy)” and try again in the background. However,
240 there are edge cases where Nageru simply cannot do the right thing,
241 for instance if you unplug two identical cards and plug them back
242 in the reverse order; USB cards don't carry any kind of serial number
243 or other forms of unique identification.
244
245
246 The audio views
247 '''''''''''''''
248
249 .. image:: images/audio-view-selector.png
250
251 Once multichannel mode is active, a little selector shows up to the right,
252 just below the level meters. The arrows (or equivalently, the PgUp/PgDown
253 keys on the keyboard) allow you to select between two views:
254
255   * In the **compact audio view** (which is the default), each bus is
256     represented only by its label, its peak meter (see below) and its
257     fader. This takes up little screen estate, and allows the video channels
258     to be visible. This is the typical view you'd use once you've set up
259     everything and are actually doing live video editing; the controls
260     from the full audio view are still in effect, but you cannot see or
261     interact with them.
262
263   * The **full audio view** contains a lot more controls, but leaves no
264     room for the video channels. These are useful when you are doing initial
265     setup of your mix, or if you want to go back and tune something.
266     The full audio view will be described in detail in the following section;
267     the interpretation of the corresponding controls in the compact audio view
268     is the same.
269
270 .. image:: images/audio-bus-controls.png
271
272 (TODO: fix image)
273
274 There's one set each of these controls for every bus. The most
275 important parts of the mix are given the most screen estate,
276 so even though the way through the signal chain is left-to-right
277 top-to-bottom, we'll go over it in the opposite direction.
278
279 By far the most important part is the audio level, so the **fader** naturally is
280 very prominent. (Note that the scale is nonlinear; you want more resolution
281 in the most important area.) Changing a fader with the mouse or keyboard is
282 possible, and probably most people will be doing that, but Nageru also
283 supports USB faders (see :ref:`midi-control`). There's a mute button
284 if you just want to silence a bus temporarily; it has exactly the same
285 effect as pulling the fader all the way down, ie., it will make the bus
286 go all silent.
287
288 Then there's the **peak meter** to the left of that. For each bus, unlike
289 for the meters used for mastering (see :ref:`audio meters`),
290 you don't want to know loudness; you want to know recording levels,
291 so this is a peak meter, *not* a loudness meter. (There's some holdoff
292 so you can see the actual peaks over a short period.) In particular,
293 you don't want the bus to send clipped data to the master
294 (which would happen if you set it too high); Nageru can handle
295 this situation pretty well (unlike most digital mixers, it mixes in
296 full 32-bit floating-point so there's no internal clipping,
297 and the limiter described in :ref:`audio-strip` will usually save you)
298 but it's still not a good place to be in, so if you peak,
299 the **historical peak label** under the meter will go red if it happens.
300 If you want to reset it, click on it using the mouse.
301
302 The peak meter doubles as an input peak check during
303 setup; if you turn off all the effects and set the fader to neutral, you can
304 see if the input hits peak or not, and then adjust it down. Left and right
305 channel are shown separately, so you can see if they are approximately
306 the same level or even completely mono.
307
308 The **compressor** is well-known from the simple audio mode, but in this view,
309 it also has a **reduction meter**, so that you can see whether it kicks in or not.
310 (This is also nonlinear, and each step is marked with number of decibels
311 the compressor had to reduce the signal.) Most casual users
312 would want to just leave the gain staging and compressor settings alone, but
313 a skilled audio engineer will know how to adjust these to each speaker's
314 antics—some speak at a pretty even volume and thus can get a bit of
315 headroom, while some are much more variable and need tighter settings.
316
317 Finally (or, well, first), there's the EQ section. The **lo-cut** is again
318 well-known from the simple audio mode (the filter is separate for each
319 bus, the cutoff **frequency** is the same across all buses),
320 but there's now also a simple **three-band EQ** per bus. Simply ask the speaker
321 to talk normally for a bit, and tweak the controls until it sounds good.
322 People have different voices and different ways of holding the microphone,
323 and if you have a reasonable ear, you can use the EQ to your advantage to
324 make them sound a little more even on the stream. Either that, or just
325 put it in neutral, and the entire EQ code will be bypassed.
326
327 .. _midi-control:
328
329 MIDI control
330 ------------