Главная / Статьи / Теория / Создание и обработка звука

Тэги: MIDI

Создание и обработка звука

В статье в формате вопросов и ответов представлена важная информация для начинающих музыкантов о свойствах звука, параметрах звукового тракта, методах синтеза и обработки звука, о миди-синтезаторах и т.д.

Для чего применяется создание и обработка звука?

Создание (синтез) звука в основном преследует две цели: имитация различных естественных звуков (шум ветра и дождя, звук шагов, пение птиц и т.п.), а также акустических музыкальных инструментов (имитационный синтез), и получение принципиально новых звуков, не встречающихся в природе (чистый синтез). Обработка звука обычно направлена на получение новых звуков из уже существующих (например, «голос робота»), либо придание им дополнительных качеств или устранение существующих (например, добавление эффекта хора, удаление шума или щелчков). Каждый из методов синтеза и обработки имеет свою математическую и алгоритмическую модель, что позволяет любой из них реализовать на компьютере; однако, многие методы, будучи реализованы точно, требуют слишком большого объема вычислений, отчего их обычно реализуют с какой-либо степенью допущения.

Каковы основные свойства звука?

Чаще всего в звуке рассматривается амплитуда и спектральный состав звукового колебания, а также их изменение во времени.

Амплитуда (amplitude) определяет максимальную интенсивность колебаний — громкость (volume) или силу звука. На осциллограмме амплитуда представляется размахом сигнала — наибольшим и наименьшим относительно среднего значения уровнями.

Спектральный состав определяет окраску или тембр звука (timbre). Любое периодическое колебание может быть представлено рядом Фурье — суммой конечного числа синусоидальных колебаний (чистых тонов). Спектр звука представляет собой график интенсивностей (амплитуд) этих частотных составляющих, обозначаемых обычно в виде вертикальных линий соответствующей высоты. Спектр чистого тона имеет только одну линию, соответстующую его частоте; спектр любого другого колебания имеет более одной линии. Если на спектре звука имеется достаточно острый пик, то такой звук воспринимается на слух как тон соответствующей высоты, а остальные составляющие определяют его окраску; в противном случае звук воспринимается как одновременное звучание нескольких тонов или шум. Частотные составляющие, кратные основной частоте тона, называются гармониками (harmonics) или обертонами; гармоники нумеруются, начиная с самого основного тона (первая гармоника), а обертоны — с первой кратной составляющей (первый обертон — вторая гармоника и т.д.).

Из-за особенностей слухового восприятия высота звука определяется больше по его спектральному составу, нежели по самому основному тону. Например, субъективная высота большинства спектрально богатых низкочастотных звуков практически не меняется даже при полном удалении из них основного тона, который в слуховом аппарате восстанавливается по разностным частотам первых обертонов.

Изменение амплитуды во времени называется амплитудной огибающей (envelope) звука — на амплитудном графике она как бы огибает график колебания, а график получается как бы вписанным в огибающую. Любой природный звук имеет огибающую примерно такого вида:

       /~~~
     /       __________
   /
/
———-!—!—!—————!——
   1    2 3      4       5

Цифрами обозначены фазы развития звука, принятые в акустике:

1 — атака (attack) — начальная фаза, подъем
2 — остановка (hold) — короткая стабилизация после подъема
3 — спад (decay) — фаза перехода звука в установившееся состояние
4 — удержание (sustain) — фаза «поддержки»
5 — затухание (release) — послезвучание

Фаза поддержки имеет место лишь в том случае, когда вызвавшее появление звука воздействие остается постоянным в течение какого-то времени (например, движение пилы по металлу или поток воздуха в духовом инструменте).

Аналогично, имеется понятие спектральной огибающей — трехмерный график изменения спектра (и соответственно — тембра) во времени.

Кроме периодических колебаний — тонов — рассматриваются также непериодические колебания — шумы. Для шума характерно более или менее равномерное распределение интенсивности по спектру, без явно выраженных пиков или спадов. В основном различается два вида шума: белый и розовый.

Белый шум имеет равномерную спектральную плотность и в чистом виде в природных звуках не встречается, однако часто встречается в электронных приборах; плотность розового шума спадает с ростом частоты (1/f) — это характеристика шума дождя, прибоя, ветра и прочих неярко выраженных природных шумов. Иногда рассматривается также коричневый шум с плотностью 1/f^2, быстро спадающей с ростом частоты — характеристика, близкая к звукам ударного происхождения (гром, обвал).

Что такое децибел?

Это относительная логарифмическая единица измерения величин, связанных с интенсивностью звука (мощности, амплитуды, напряжения или тока сигнала, усиления/ ослабления и т.п.). Чувствительность слуха носит логарифмический характер — нарастание интенсивности в виде степенной функции воспринимается на слух как линейное увеличение громкости, поэтому в ряде случаев удобее пользоваться логарифмическими, а не линейными единицами. Десятичный логарифм отношения некоторой величины к ее эталонному значению — lg (X/Xэ) — называется белом (Б), а его десятая часть — lg (X/Xэ) / 10 — децибелом (дБ). Измерение в децибелах удобно еще и тем, что человеческое ухо различает относительное изменение интенсивности примерно на 1 дБ.

При измерениях абсолютной интенсивности звука (Вт/кв.м.) за эталонное значение принимается уровень порога слышимости для синусоидального сигнала с частотой 1 кГц — 10 в степени -12 (10E-12) Вт/кв.м. При этом порог слышимости определяется интенсивностью 0 дБ, а интенсивность, при которой начинаются болевые ощущения (болевой порог) — около 140 дБ. Интенсивность тихого шепота — около 35 дБ, громкого голоса — около 95 дБ, forte fortissimo (fff) оркестра — около 100 дБ, оркестрового тутти (звучания всех инструментов) — около 120 дБ.

При измерениях величин, с которыми интенсивность связана квадратичной зависимостью — напряжения, тока и звукового давления — в выражении для децибела множитель 10 меняется на 20 (двойка выносится из логарифма отношения квадратов).

При измерениях относительных величин за эталонный уровень принимается какое-либо значение величины. Например, при оценке усиления за него принимается единичное усиление (пропускание сигнала без изменения), равно 0 дБ. При этом 60 дБ соответствует усилению в 1000 раз (60 = 20 lg 1000), а -20 дБ — ослаблению в 10 раз. Для описания характеристик усилителей и фильтров применяется также единица «децибел на октаву» (дБ/окт), показывающая изменение усиления при изменении частоты в два раза.

Какие параметры характеризуют звуковой тракт?

Звуковым трактом называют любое устройство, осуществляющее передачу и/или преобразование звука. Звуковой тракт характеризуется следующими параметрами: — номинальный входной и выходной уровень (Input/Output Level) — величина сигнала на входе и выходе тракта, до которого он сохраняет указанные параметры. Указывается в вольтах и обычно принимается за 0 дБ.

Таким образом, рабочие уровни сигнала имеют отрицательный либо нулевой уровень.

максимальный входной и выходной уровень — величина сигнала, до которой тракт сохраняет работоспособность. Уровни сигналов от номинального до максимального всегда имеют ненулевой положительный уровень.
коэффициент усиления — отношение величины выходного сигнала ко входному. Указывается в разах, процентах или децибелах.
диапазон частот (Frequency Response) — частотный интервал, в котором тракт сохраняет свои основные характеристики. Нуль подразумевает постоянный ток.
форма амплитудно-частотной характеристики (АЧХ) — график зависимости амплитуды сигнала на выходе от его частоты при неизменной амплитуде сигнала на входе. Тракты с горизонтальной внутри частотного диапазона АЧХ называют частотно-независимыми.
неравномерность АЧХ — отклонения графика от заданной формы. Указывается в процентах или децибелах.
уровень шума (Noise Level) — величина шума относительно номинального уровня сигнала. Указывается в децибелах и всегда имеет отрицательное значение. Другое название — соотношение сигнал/шум (Signal to Noise Ratio, SNR), которое имеет такое же положительное значение. Иногда указывется уровень шума, приведенный ко входу — в предположении, что весь шум поступает только на вход, а сам тракт собственного шума не имеет.
коэффициент гармоник (Total Harmonic Distortion, THD) — величина побочных гармонических составляющих, вносимых нелинейностью тракта. Указывается в процентах от величины сигнала; в ряде случаев указывается для различных гармоник (на слух наибольшие искажения вносят нечетные гармоники высших порядков).
уровень интермодуляционнх искажений (InterModulation Distortion, IMD) — относительный уровень паразитных частотных компонент, порожденных взаимной модуляцией полезных компонент сигнала. Указывается в процентах от величины сигнала.
переходное затухание (Stereo Crosstalk) — степень ослабления сигнала при его проникновении в соседний стереоканал. Указывается в децибелах.
динамический диапазон (Dynamic Range) — диапазон наибольшего и наименьшего уровней сигнала, внутри которых сохраняются основные характеристики тракта. Снизу обычно ограничен уровнем шума, сверху — номинальным уровнем, поэтому часто равен соотношению сигнал/шум, однако нелинейность тракта в ряде случаев не позволяет выдержать параметры в этих областях, а это сужает динамический диапазон.

Какие частотные характеристики имеет музыкальный звукоряд?

В основе всех звукорядов лежит понятие октавы — звуковысотного диапазона, частоты крайних звуков которого различаются вдвое. Музыкальный звукоряд разбивает октаву на ряд ступеней (в европейской системе — двенадцать), которые в любой октаве имеют одинаковое название и смысл.

Различаются два основных музыкальных звукоряда — натуральный и хроматический. Натуральный строится из обертонов базового звука, сведенных в одну октаву, хроматический основан на равномерном делении октавы на двенадцать ступеней. Соотношения частот натурального звукоряда представляют собой рациональные дроби, что соседние ступени хроматического отличаются в корень 12 степени из двойки — примерно в 1.059 раза. Опорным звуком принято считать ноту Ля первой октавы — 440 Гц.

Использование натурального звукоряда позволяет получить более слитные (консонасные) созвучия, однако неравномерность его ступеней затрудняет транспонирование музыки на интервалы, не кратные октаве. Хроматический звукоряд не дает таких слитных созвучий, однако из-за равномерности ступеней получил преимущественное распространение.

Какие методы используются для синтеза звука?

1. Аддитивный (additive). Основан на утверждении Фурье о том, что любое периодическое колебание можно представить в виде суммы чистых тонов (синусоидальных колебаний с различными частотами и амплитудами). Для этого нужен набор из нескольких синусоидальных генераторов с независимым управлением, выходные сигналы которых суммируются для получения результирующего сигнала. На этом методе основан принцип создания звука в духовом органе.

Достоинства метода: позволяет получить любой периодический звук, и процесс синтеза хорошо предсказуем (изменение настройки одного из генераторов не влияет на остальную часть спектра звука). Основной недостаток — для звуков сложной структуры могут потребоваться сотни генераторов, что достаточно сложно и дорого реализовать. Для снижения стоимости реализации вместо набора отдельных генераторов (реальных или математических) применяется обратное преобразование Фурье.

2. Разностный (subtractive). Идеологически противоположен первому. В основу положена генерация звукового сигнала с богатым спектром (множеством частотных составляющих) с последующей фильтрацией (выделением одних составляющих и ослаблением других) — по этому принципу работает речевой аппарат человека. В качестве исходных сигналов обычно используются меандр (прямоугольный, square), с переменной скважностью (отношением всего периода к положительному полупериоду), пилообразный (saw) — прямой и обратный, и треугольный (triangle), а также различные виды шумов (случайных непериодических колебаний). Основным органом синтеза в этом методе служат управляемые фильтры: резонансный (полосовой) — с изменяемым положением и шириной полосы пропускания (band) и фильтр нижних частот (ФНЧ) с изменямой частотой среза (cutoff). Для каждого фильтра также регулируется добротность (Q) — крутизна подъема или спада на резонансной частоте.

Достоинства метода — относительно простая реализация и довольно широкий диапазон синтезируемых звуков. На этом методе построено множество студийных и концертных синтезаторов (типичный представитель — Moog). Недостаток — для синтеза звуков со сложным спектром требуется большое количество управляемых фильтров, которые достаточно сложны и дороги.

3. Частотно-модуляционный (frequency modulation — FM). В основу положена взаимная модуляция по частоте между несколькими синусоидальными генераторами. Каждый из таких генераторов, снабженный собственными формирователем амплитудной огибающей, амплитудным и частотным вибрато, именуетчся оператором. Различные способы соединения нескольких операторов, когда сигналы с выходов одних управляют работой других, называются алгоритмами синтеза. Алгоритм может включать один или больше операторов, соединенных последовательно, параллельно, последовательно-параллельно, с обратными связями и в прочих сочетаниях — все это дает практически бесконечное множество возможных звуков.

Благодаря простоте цифровой реализации, метод получил широкое распространение в студийной и концертной практике (типичный представитель класса синтезаторов — Yamaha DX). Однако практическое использование этого метода достаточно сложно из-за того, что бОльшая часть звуков, получаемых с его помощью, представляет собой шумоподобные колебания, и достаточно лишь слегка изменить настройку одного из генераторов, чтобы чистый тембр превратился в шум. Однако метод дает широкие возможности по синтезу разного рода ударных звуков, а также — различных звуковых эффектов, недостижимых в других методах разумной сложности.

4. Самплерный (sample — выборка). В этом методе записывается реальное звучание (сампл), которое затем в нужный момент воспроизводится. Для получения звуков разной высоты воспроизведение ускоряется или замедляется; при неизменной скорости выборки применяется расчет промежуточных значений отсчетов (интерполяция). Чтобы тембр звука при сдвиге высоты не менялся слишком сильно, используется несколько записей звучания через определенные интервалы (обычно — через одну-две октавы). В ранних самплерных синтезаторах звуки в буквальном смысле записывались на магнитофон, в современных применяется цифровая запись звука.

Метод позволяет получить сколь угодно точное подобие звучания реального инструмента, однако для этого требуются достаточно большие объемы памяти. С другой стороны, запись звучит естественно только при тех же параметрах, при которых она была сделана — при попытке, например, придать ей другую амплитудную огибающую естественность резко падает.

Для уменьшения требуемого объема памяти применяется зацикливание сампла (looping). В этом случае записывается только короткое время звучания инструмента, затем в нем выделяется средняя фаза с установившимся (sustained) звуком, которая при воспроизведении повторяется до тех пор, пока включена нота (нажата клавиша), а после отпускания воспроизводится концевая фаза.

На самом деле этот метод нельзя с полным правом называть синтезом — это скорее метод записи-воспроизведения. Однако в современных синтезаторах на его основе воспроизводимый звук можно подвергать различной обработке — модуляции, фильтрованию, добавлению новых гармоник, звуковых эффектов, в результате чего звук может приобретать совершенно новый тембр, иногда совсем непохожий на первоначальный. По сути, получается комбинация трех основных методов синтеза, где в качестве основного сигнала используется исходное звучание.

Типичный представитель этого класса синтезаторов — E-mu Proteus.

5. Таблично-волновой (wave table). Разновидность самплерного метода, когда записывается не все звучание целиком, а его отдельные фазы — атака, начальное затухание, средняя фаза и концевое затухание, что позволяет резко снизить объем памяти, требуемый для хранения самплов. Эти фазы записываются на различных частотах и при различных условиях (мягкий или резкий удар по клавише рояля, различное положение губ и языка при игре на саксофоне и т.п.), в результате чего получается семейство звучаний одного инструмента. При воспроизведении эти фазы нужным образом составляются, что дает возможность при относительно небольшом объеме самплов получить достаточно широкий спектр различных звучаний инструмента, а главное — заметно усилить выразительность звучания, выбирая, например, в зависимости от силы удара по клавише синтезатора не только нужную амплитудную огибающую, как делает любой синтезатор, но и нужную фазу атаки.

Основная проблема этого метода — в сложности сопряжения различных фаз друг с другом, чтобы переходы не воспринимались на слух и звучание было цельным и непрерывным. Поэтому синтезаторы этого класса достаточно редки и дороги.

Этот метод также используется в в синтезаторах звуковых карт персональных компьютеров, однако его возможности там сильно урезаны. В частности, почти нигде не применяют составление звука из нескольких фаз, сводя метод к простому самплерному, хотя почти везде есть возможность параллельного воспроизведения более одного сампла внутри одной ноты.

6. Метод физического моделирования (physical modelling). Состоит в моделировании физических процессов, определяющих звучание реального инструмента на основе его заданных параметров (например, для скрипки — порода дерева, состав лака, геометрические размеры, материал струн и смычка и т.п.). В связи с крайней сложностью точного моделирования даже простых инструментов и огромным объемом вычислений метод пока развивается медленно, на уровне студийных и экспериментальных образцов синтезаторов. Ожидается, что с момента своего достаточного развития он заменит известные методы синтеза звучаний акустических инструментов, оставив им только задачу синтеза не встречающихся в природе тембров.

7. (Alexander Grigoriev) WaveGuide технология, активно pазpабатываемая в Стэнфоpдcком Унивеpcитете и пpименяемая yже в неcкольких пpомышленных моделях электpонных pоялей, напpимеp, фиpмы Baldwin. Пpедcтавляет cобой pазновидноcть физичеcкого моделиpования, пpи котоpой моделиpyетcя pаcпpоcтpанение колебаний, пpедcтавленных диcкpетными отcчетами, по cтpyне (одномеpное моделиpование) и по pезонанcным повеpхноcтям (двyмеpное моделиpование) или в объемном pезонатоpе (тpехмеpное). Пpи этом появляетcя возможноcть моделиpовать также нелинейные эффекты, напpимеp yдаp молоточка и каcание cтpyны демпфеpом, а также взаимнyю cвязь cтpyн и cвязь гоpизонтальной и веpтикальной мод.

Какие методы используются для обработки звука?

1. Монтаж. Состоит в вырезании из записи одних участков, вставке других, их замене, размножении и т.п. Называется также редактированием. Все современные звуко- и видеозаписи в той или иной мере подвергаются монтажу.

2. Амплитудные преобразования. Выполняются при помощи различных действий над амплитудой сигнала, которые в конечном счете сводятся к умножению значений самплов на постоянный коэффициент (усиление/ослабление) или изменяющуюся во времени функцию-модулятор (амплитудная модуляция). Частным случаем амплитудной модуляции является формирование огибающей для придания стационарному звучанию развития во времени.

Амплитудные преобразования выполняются последовательно с отдельными самплами, поэтому они просты в реализации и не требуют большого объема вычислений.

3. Частотные (спектральные) преобразования. Выполняются над частотными составляющими звука. Если использовать спектральное разложение — форму представления звука, в которой по горизонтали отсчитываются частоты, а по вертикали — интенсивности составляющих этих частот, то многие частотные преобразования становятся похожими на амплитудные преобразованиям над спектром. Например, фильтрация — усиление или ослабление определенных полос частот — сводится к наложению на спектр соответствующей амплитудной огибающей. Однако частотную модуляцию таким образом представить нельзя — она выглядит, как смещение всего спектра или его отдельных участков во времени по определенному закону.

Для реализации частотных преобразований обычно применяется спектральное разложение по методу Фурье, которое требует значительных ресурсов. Однако имеется алгоритм быстрого преобразования Фурье (БПФ, FFT), который делается в целочисленной арифметике и позволяет уже на младших моделях 486 разворачивать в реальном времени спектр сигнала среднего качества. При частотных преобразованиях, кроме этого, требуется обработка и последующая свертка, поэтому фильтрация в реальном времени пока не реализуется на процессорах общего назначения. Вместо этого существует большое количество цифровых сигнальных процессоров (Digital Signal Processor — DSP), которые выполняют эти операции в реальном времени и по нескольким каналам.

4. Фазовые преобразования. Сводятся в основном к постоянному сдвигу фазы сигнала или ее модуляции некоторой функцией или другим сигналом. Благодаря тому, что слуховой аппарат человека использует фазу для определения направления на источник звука, фазовые преобразования стереозвука позволяют получить эффект вращающегося звука, хора и ему подобные. При помощи сдвига фазы на 90-180 градусов (последнее получается простым инвертированием отсчетов) реализуется эффект «псевдообъемности» звука (Surround).

5. ВременнЫе преобразования. Заключаются в добавлении к основному сигналу его копий, сдвинутых во времени на различные величины. При сдвигах на величины, сравнимые с периодом сигнала, эти преобразования превращаются в фазовые; при небольших сдвигах за пределами периода (примерно менее 20 мс) это дает эффект, близкий к хоровому (размножение источника звука), при бОльших — эффекты многократного отражения: реверберации (20..50 мс) и эха (более 50 мс).

6. Формантные преобразования. Являются частным случаем частотных и оперируют с формантами — характерными полосами частот, встречающимися в звуках, произносимых человеком. Каждому звуку соответствует свое соотношение амплитуд и частот нескольких формант, которое определяет тембр и разборчивость голоса. Изменяя параметры формант, можно подчеркивать или затушевывать отдельные звуки, менять одну гласную на другую, сдвигать регистр голоса и т.п.

Как делаются звуковые эффекты, применяемые в музыке?

При помощи различных комбинаций описанных выше преобразований. Вот наиболее распространенные звуковые эффекты:

вибрато — амплитудная или частотная модуляция сигнала с небольшой частотой (до 10 Гц). Амплитудное вибрато также носит название тремоло; на слух оно воспринимается, как замирание или дрожание звука, а частотное — как «завывание» или «плавание» звука (типичная неисправность механизма магнитофона — детонация). Вибрато обычно реализуется модуляцией синусоидальным сигналом, а тремоло — треугольным или пилообразным сигналом либо многократным автоматическим перезапуском ноты.

динамическая фильтрация (wah-wah — «вау-вау») — реализуется изменением частоты среза или полосы пропускания фильтра с небольшой частотой. На слух воспринимается, как вращение или заслонение/открывание источника звука — увеличение высокочастотных составляющих ассоциируется с источником, обращенным на слушателя, а их уменьшение — с отклонением от этого направления.

фленжер (flange — гребень). Название происходит от способа реализации этого эффекта в аналоговых устройствах — при помощи так называемых гребенчатых фильтров, имеющих АЧХ такого же вида. Гребенчатые фильтрымогут строиться на линиях задержки — при этом постоянный сдвиг фазы создает характерную форму АЧХ. Заключается в добавлении к исходному сигналу его копий, сдвинутых во времени на небольшие величины (примерно 3..30 мс) с возможной частотной модуляцией копий или величин их временных сдвигов и обратной связью (суммарный сигнал снова копируется, сдвигается и т.п.). На слух это ощущается как «дробление», «размазывание» звука, возникновение биений — разностных частот, характерных для игры в унисон или хорового пения, отчего фленжеры с определенными параметрами (сдвиги с модуляцией противофазным сигналом) применяются для получения хорового эффекта (chorus). Меняя параметры фленжера, можно в значительной степени изменять первоначальный тембр звука.

фейзер (phase — фаза) — смешивание исходного сигнала с его копиями, сдвинутыми по фазе (что равноценно сдвигу по времени на доли-единицы миллисекунд); величина сдвига может модулироваться во времени. По сути, это частный случай фленжера, но с намного более простой аналоговой реализацией, так как сдвиг по фазе выполняется проще задержки по времени (цифровая реализация одинакова). Изменение фазовых сдвигов суммируемых сигналов приводит к подавлению отдельных гармоник или частотных областей, как в многополосном фильтре. На слух такой эффект напоминает качание головки в стереомагнитофоне — физические процессы в обоих случаях примерно одинаковы.

реверберация (reverberation — повторение, отражение). Получается путем добавления к исходному сигналу затухающей серии его задержанных во времени копий. Это имитирует затухание звука в помещении, когда за счет многократных отражений от стен, потолка и прочих поверхностей звук приобретает полноту и гулкость, а после прекращения звучания источника затухает не сразу, а постепенно. При этом время между последовательными отзвуками (примерно 15..50 мс) ассоциируется с величиной помещения, а их интенсивность — с его гулкостью. По сути, ревербератор представляет собой частный случай фленжера без модуляции и с увеличенной задержкой между отзвуками основного сигнала, однако особенности слухового восприятия качественно различают эти два вида обработки.

эхо (echo). Реверберация с еще более увеличенным временем задержки — выше примерно 50 мс. При этом слух перестает субъективно воспринимать отражения, как призвуки основного сигнала, и начинает воспринимать их как повторения. Эхо обычно реализуется так же, как и естественное — с затуханием повторяющихся копий.

дистошн (distortion — искажение) — намеренное искажение формы звука, что придает ему резкий, скрежещущий оттенок. Наибольшее применение получил в качестве гитарного эффекта (классическая гитара heavy metal). Получается переусилением исходного сигнала до появления ограничений в усилителе (среза верхушек импульсов) и даже его самовозбуждения. Благодаря этому исходный сигнал становится похож на прямоугольный, отчего в нем появляется большое количество новых нечетных гармоник, резко расширяющих спектр. Этот эффект применяется в различных вариациях (fuzz, overdrive и т.п.), различающихся способом ограничения сигнала (обычное или сглаженное, весь спектр или полоса частот, весь амплитудный диапазон или его часть и т.п.), соотношением исходного и искаженного сигналов в выходном, частотными характеристиками усилителей (наличие/отсутствие фильтров на выходе).

компрессия — сжатие динамического диапазона сигнала, когда слабые звуки усиливаются сильнее, а сильные — слабее. На слух воспринимается как уменьшение разницы между тихим и громким звучанием исходного сигнала. Используется для последующей обработки методами, чувствительными к изменению амплитуды сигнала. В звукозаписи используется для снижения относительного уровня шума и предотвращения перегрузок. В качестве гитарной приставки позволяет значительно (на десятки секунд) продлить звучание струны без затухания громкости.

вокодер (voice coder — кодировщик голоса) — синтез речи на основе произвольного входного сигнала с богатым спектром. Речевой синтез реализуется обычно при помощи формантных преобразований: выделение из сигнала с достаточным спектром нужного набора формант с нужными соотношениями придает сигналу свойства соответствующего гласного звука. Изначально вокодеры использовались для передачи кодированной речи: путем анализа исходного речевого сигнала из него выделялась информация об изменении положений формант (переход от звука к звуку), которая кодировалась и передавалась по линии связи, а на приемном конце блок управляемых фильтров и усилителей синтезировал речь заново. Подавая на блок речевого синтеза звучание, например, электрогитары и произнося слова в микрофон блока анализа, можно получить эффект «разговаривающей гитары»; при подаче звучания с синтезатора получается известный «голос робота», а подача сигнала, близкого по спектру к колебаниям голосовых связок, но отличающегося по частоте, меняет регистр голоса — мужской на женский или детский, и наоборот.

Как устроен электронный музыкальный синтезатор?

Большинство популярных аналоговых синтезаторов, работающих на разностном принципе, построены по модульной технологии, сложившейся к концу 70-х годов, и содержат блоки Key, Env, VCO, VCA, VCF, LFO, NG, Mix и другие.

Key (Keyboard — клавиатура) — блок музыкальной клавиатуры. В ответ на нажатия клавиш формирует сигнал нажатия, запускающий остальные блоки синтезатора, а также сигнал высоты, напряжение которого пропорционально номеру нажатой клавиши.

VCO (Voltage Controlled Oscillator — генератор, управляемый напряжением, ГУН) — генератор исходного сигнала синтезатора. Вырабатывает прямоугольные колебания с различной скважностью (разным спектром сигнала), а также синусоидальные, треугольные и пилообразные, логарифм частоты которых пропорционален управляющему напряжению.

NG (Noise Generator — генератор шума) вырабатывает шум — в основном белый или розовый.

Mix (Mixer — микшер) объединяет вырабатываемые генераторами сигналы, суммируя их в различных пропорциях, задаваемых регуляторами. Изменение пропорций смешиваемых сигналов дает изменение спектральной плотности выходного сигнала, который подается в другие блоки для дальшейшей обработки.

VCF (VoltageControlledFilter — управляемый напряжением фильтр) — блок перестраиваемых фильтров. Обычно под воздействием управляющего напряжения изменяется полоса пропускания фильтра (Band, Contour), частота среза (Cutoff) и добротность фильтра — подъем или спад усиления внутри полосы (Resonance — резонанс). Чаще всего используется фильтр нижних частот (ФНЧ), срезающий высшие частоты, с резонансом около частоты среза; в более сложных моделях используются также полосовые фильтры и ФВЧ. Все или часть параметров фильтров выведены на регуляторы, задающие их исходные значения.

Env (Envelope — огибающая) вырабатывает напряжение, изменяющееся по фазам ADSR (Attack — Decay — Sustain — Release). При поступлении сигнала запуска начинается выработка фазы Attack, которая переходит в Decay и далее — в Sustain, где остается до момента снятия сигнала запуска, после чего формируется фаза Release и цикл выработки огибающей завершается. Длительности фаз ADR и уровень S задаются регуляторами.

На простых одноголосых синтезаторах имеется только один блок Env, который позволяет сформировать огибающую для одного звука; в многоголосных синтезаторах их несколько. В простых инструментах блок Env формирует только амплитудную огибающую звука, в более сложных имеется отдельный блок для выработки спектральной огибающей для фильтра или дополнительного управления синтезом.

VCA (VoltageControlledAmplifier — управляемый напряжением усилитель) формирует выходной сигнал синтезатора. Обычно его управляющее напряжение берется с блока Env, что дает амплитудную огибающую звука.

LFO (LowFrequencyOscillator — генератор низкой частоты) вырабатывает колебания различной формы частотой примерно от 0.1 до 20 Гц, которые могут быть смешаны с любым из других управляющих напряжений. Подача их на VCO дает частотную модуляцию, на VCF — эффект «вау-вау», «вращающегося» или «открывающегося» источника звука, на VCA — амплитудное вибрато (тремоло). Некоторые LFO могут вырабатывать случайно меняющийся ступенчатый сигнал, дающий интересные на слух виды модуляции.

Каждый из блоков синтезатора полностью независим от других — все они могут соединяться любым способом для получения различных режимов синтеза. В концертных синтезаторах большинство блоков соединены жестко (Key — на VCO и Env, Env — на VCA, LFO — на VCO и VCA и т.п.), в студийных входы и выходы каждого блока выведены на переднюю панель, и соединение делается внешними шнурами.

В начале 80-х начали внедряться цифровые методы обработки, которые поначалу комбинировались с аналоговыми, выполняя каждый свойственные ему функции. Например, блоки Key, VCO, LFO, NG и Env проще реализуются цифровым способом, а Mix и VCF — аналоговым. При этом цифровые блоки через ЦАП подавали управляющие напряжения на аналоговые. Преимущество цифровых формирователей — более высокая стабильность, точность, а главное — повторяемость сигналов, поскольку аналоговая (непрерывная) форма заменена дискретной (конечной). При достаточно большом числе дискрет ступенчатость перестает ощущаться на слух, но повторяемость остается.

Тогда же появились полностью цифровые FM-синтезаторы, которые не содержали наиболее сложных в цифровой реализации управляемых фильтров.

В середине 80-х был освоен выпуск быстродействующих DSP, и появились полностью цифровые разностные и самплерные синтезаторы.

По сути, цифровой синтезатор представляет собой обыкновенный компьютер с устройствами ввода (клавиатура, кнопки, рычажки, датчики, MIDI), вывода (звук, индикаторы, MIDI), обработки (генераторы, преобразователи, память и т.п.) и центральным процессором, координирующим их работу. Например, клавишный синтезатор RolandJV-30 выпускается как в виде от дельного модуля (тонгенератора) SC-55, так и в виде звуковой карты для PC — SCC-1.

Какие методы синтеза используются в популярных синтезаторах?

В большинстве моделей выпуска 70-х годов использовался в основном разностный метод синтеза. В моделях выпуска начала-середины 80-х — частотно-модуляционный. В конце 80-х стали преобладать самплерные методы, а в начале 90-х — таблично-волновые, с обработкой на мощных DSP. Популярные модели разностных синтезаторов — PolyMoog, Crumar, ARP; частотно-модуляционных — YamahaDX, ритмический RolandTR; самплерных — E-mu ProteusXR, KorgM1; таблично-волновых — mahaPSS/PSR, RolandJV и E, EnsoniqTS и ASR (самплер-синтезатор); таблично-волновых с развитой обработкой звука — YamahaSY, Kurzweil 2000.

В первых синтезаторах 40-х..60-х годов использовался в основном аддитивный метод синтеза и его разновидности.

Что такое MIDI?

MIDI — Musical Instrument Digital Interface (цифровой интерфейс музыкальных инструментов) — стандарт на соединение инструментов и передачи информации между ними. Каждый инструмент имеет три разъема: In (вход), Out (выход) и Thru (повторитель входного сигнала), что позволяет объединить в сеть практически любое количество инструментов.

Способ передачи — токовая петля (5 мА). Информация передается байтами, в последовательном стартстопном коде (8 битов данных, один стоповый, без четности — формат 8-N-1), со скоростью 31250 бит/с. В этом MIDI-интерфейс очень похож на последовательный интерфейс IBMPC — отличие только в скорости и способе передачи: в PC используется интерфейс V24 (RS-232) с передачей сигналов путем изменения напряжения. Частоту 31250 бит/с на стандартном интерфейсе IBMPC получить нельзя.

Поток данных, передаваемый по MIDI, состоит из сообщений (событий): нажатие/отпускание клавиш, изменение положений регуляторов (MIDI-контроллеров), смена режимов работы, синхронизация и т.п. Можно сказать, что по MIDI передается партитура музыкального произведения, однако есть и специальные виды сообщений — SystemExclusive (SysEx) — в которых может содержаться любая информация для инструмента — например, оцифрованный звук для загрузки в ОЗУ, партитура ритм-блока и т.п. Обычно SysEx уникальны для каждого инструмента и не совместимы с другими инструментами.

Большинство сообщений содержит в себе номер канала (1..16) — это чаще всего условный номер инструмента в сети, для которого они предназначены. Однако один инструмент может «отзываться» и по нескольким каналам — именно так и работают звуковые карты и многие тонгенераторы (внешние модули синтеза). Прочие сообщения являются общими и воспринимаются всеми инструментами в сети.

В сообщениях о нажатиях/отпусканиях клавиш передается номер ноты — число в диапазоне 0..127, определяющее условный номер полутона: ноте До первой октавы соответствует номер 60. Отсюда происходит «компьютерная» нумерация октав, начинающаяся с нуля, в которой первой октаве соответствует номер 5, а нота До нулевой октавы имеет нулевой MIDI-номер.

При записи MIDI-потока в файл (MID, RMI) он оформляется в один из трех стандартных форматов:

0 — обычный MIDI-поток
1 — несколько параллельних потоков (дорожек)
2 — несколько независимых последовательных потоков

Разбиение на дорожки удобно для выделения партий отдельных инструментов — популярные MIDI-секвенсоры формируют файлы именно формата 1.

Почему при игре по MIDI «залипают» ноты, контроллеры и т.п.?

Чаще всего — из-за превышения пропускной способности самого MIDI-канала или конкретного инструмента. Например, при «рисовании» графика движения движения контроллера в секвенсоре генерируется достаточно большое количество MIDI-сообщений, которое при передаче по каналу может приводить к переполнению входного MIDI-буфера инструмента и потере идущих следом MIDI-сообщений. На некоторых инструментах это видно по миганию индикатора «MIDIError». Чтобы этого не случалось, серии посылок контроллеров необходимо «прореживать», оставляя только ощутимые на слух изменения. В Cakewalk для этого есть специальные CAL-программы thinaft, thinctrl и thinwhl.

Подобные ошибки могут также возникать из-за ошибок в реализации MIDI-интерфейса или его драйверов. Например, MIDI-интерфейс звуковых карт SB 32 PnP моделей CT-3600 и CT-3620 спонтанно генерирует на выходе последний выведенный через интерфейс байт, нарушая правильность MIDI-сообщений, а драйверы SB 16, SB 32 и AWE32 версий 1996-1997 годов имеют обыкновение терять байты даже на быстрых машинах. Ошибку интерфейса можно частично замаскировать, включив в секвенсоре вывод синхронизирующих сообщений (MIDIClock).

Что такое DrumLoop?

Дословно — «барабанная петля». Представляет собой файл-оцифровку, в котором записаны отдельные партии ударных или весь ритм целиком, сыгранные «живьем» на ударной установке. Готовые оцифровки вставляются в звуковые дорожки секвенсора и нужным образом зацикливаются, чтобы получилась цельная партия ударных. DrumLoop применяются в тех случаях, когда средствами MIDI трудно или невозможно воспроизвести нужные ударные тембры или манеру игры.

От чего зависит естественность звучания акустических тембров?

Естественность звучания акустических тембров в синтезаторах зависит в основном от двух факторов: подобия тембров (спектральные характеристики звука) и подобия динамических характеристик (так называемые исполнительские воздействия — щипок струны гитары или арфы, касание смычком струн виолончели, перегиб грифа и т.п.), причем последние психоакустические исследования показывают, что даже великолепно оцифрованный инструмент без свойственных ему исполнительских воздействий звучит неестественно, а плохая оцифровка или даже имитация тембра, имеющая характерные признаки игры на данном инструменте воспринимается слухом, как гораздо более похожая. В большинстве случаев наиболее полную информацию о характере звучания несет фаза атаки звука, на которой сильнее всего отражается применяемый при игре способ звукоизвлечения.

Когда оцифровка инструментов выполняется полностью (от начала атаки) — полученное звучание уже несет в себе примененный при записи метод звукоизвлечения. При этом отдельные MIDI-ноты звучат достаточно естественно, однако звучание всегда имеет характер однажды записанного инструмента и с трудом поддается изменению, отчего приходится иметь множество оцифровок с разным характером звукоизвлечения.

Когда оцифровка сделана в так называемой стационарной фазе звучания — после прохождения атаки — звучание отдельной MIDI-ноты уже не будет таким похожим на исходный инструмент, как бы качественно не была выполнена сама запись. Этот метод рассчитан на имитацию исполнительского воздействия средствами MIDI — параметрами инструмента и контроллерами управления громкостью, высотой (pitch bend), модуляцией, фильтрами. Такой подход более трудоемок, однако дает возможность создавать на основе имеющегося стационарного тембра множество тембров со свойствами различных инструментов. Например, для имитации игры на щипковых струнных инструментах синхронно с началом атаки вставляется небольшое быстро спадающее повышение тона, имитирующее более высокое звучание струны в момент щипка; для имитации духовых — постепенно снижающаяся по мере расходования запаса воздуха в легких громкость звучания и т.п.

Нужные исполнительские воздействия для имитации естественного звучания акустических инструментов могут вноситься как вручную при помощи MIDI-редакторов, так и автоматически — для этого служит программа Style Enhancer (NTONYX Computer Laboratory). Она позволяет не только накладывать на MIDI-партитуру воздействия, свойственные тому или иному инструменту при заданной манере игры, но и автоматически распознавать отдельные музыкальные фразы и обороты, преобразуя их в соответствии с заданным стилем исполнения. Также могут быть автоматически рассчитаны такие параметры, как амплитуда замаха перед ударом по струнам, объем воздуха в легких, скорость движения смычка в момент касания струн, и т.п. Многие MIDI-партитуры с правильно сделанной имитацией исполнительских воздействий звучат даже на синтезаторах среднего класса субъективно более естественно, чем «чистые» партитуры — на сложных профессиональных аппаратах.