Содержание
- Делим звук на отрезки
- 10. Редактирование DSD
- 4. Перегрузка и устойчивость
- Посмотрим что у нас с форматами высокого разрешения, начнем с Flac:
- SBC
- Что такое Джиттеринг?
- Что такое битность записи, динамический диапазон и на что они влияют
- Алгоритмы передискретизации
- Где используются конверторы частоты дискретизации
- Функциональные особенности устройств
- Двунаправленная связь через Bluetooth. Передача голоса.
- Проблемы устройств, сертификации и логотипов Bluetooth
- Фильтр ConvolverNode
- Материалы
- О субдискретизации
- Кодирование звуковой информации: частота дискретизации звука
- Как теперь воспроизвести звук
- Вроде все нормально, так чего же тут не так?
- Чем отличается hi-end конвертор частоты дискретизации аудио сигнала от конвертора среднего качества
- Итак, что такое ЦАП?
- 2. 1-бит и шум
- Основные определения
- Заключение
Делим звук на отрезки
Давайте увеличим наш график и посмотрим, что происходит, например, за одну секунду (опять же, очень примерно и упрощённо!):
Упрощённо!
А теперь сделаем вот что: разделим секунду на 4 части, и для каждой найдём значение амплитуды:
Мы за секунду четыре раза измерили состояние волны. Это называется дискретизацией
Мы измерили значение амплитуды в каждой из четырёх точек, получили, условно говоря, четыре числа: +30, −50, −50 и −60. Теоретически, если взять ток и подать эти четыре напряжения на динамик, у нас получится воспроизвести тот же звук. Но есть несколько проблем:
- Из-за того, что мы замерили волну только в четырёх местах, мы пропустили целое колебание. Оно было настолько быстрым, что уместилось между нашими ключевыми точками.
- Опять же, из-за больших отрезков мы получим очень грубый звук по сравнению с оригиналом. Это то же самое, как взять картину с тысячей разных оттенков и нарисовать её тремя цветами, не смешивая их.
Дискретизация с частотой 4 (сколько значений мы измеряем в секунду) — это слишком мало для звука. Чтобы получить более или менее разборчивую речь, нужно секунду делить на 8 тысяч отрезков, а для музыки обычно хватает 41 тысячи.
Увеличим частоту дискретизации: нарежем звук на более мелкие кусочки за ту же единицу времени:
Теперь измерения будут намного точнее, а получившийся звук — естественнее
10. Редактирование DSD
Читайте основную статью о редактировании DSD >
DSD редактирование достаточно сложный процесс по причине модулирующего шума в области высоких частот. Нелинейные обработки могут привести к слышимым продуктам интермодуляционных искажений ультразвукового шума.
В настоящее время автор не располагает информацией о «естественной» (native) обработке аудио 1-бит (например: изменение уровня, ресемплинг и пр.) без конвертации 1-бит в мильтибитный формат и обратно. Кроме слияния/разрезания аудио файлов.
Читайте статью DSD против DSF против DFF >
Редактирование DSD
PCM в данном контексте может быть рассмотрено, как «мультибитное DSD». Импульсно-кодовая модуляция не обязательно обозначает «24 бит / 352 кГц» и т.п. Автор рекоммендует использовать 32- or 64-bit float (с плавающей запятой) форматы. Рассматриваемый PCM содержит высокочастотный модуляционный шум. Но, для конвертирования этого «мультибитного DSD» в 1-бит необходима модуляция с .
Потери при редактировании с 1-бит/мультибит преобразованием примерно сравнимы с ресемплингом.
Звукозаписывающие студии могут распространять DSD записи без редактирования.
Также существует DXD формат. Это PCM (как правило, «24 bit / 352 kHz» и т.п.) с высокими частотами дискретизации, битовыми разрешениями и «наследственным» высокочастотным шумом DSD. К сожалению, этот шум может привести к слышимым продуктам нелинейных искажений. рекомендуется вырезать (фильтровать) этот шум перед нелинейными обработками.
Смотрите и делитесь: эксперимент в удалением высокочастотного шума
Читайте статьи
Читайте: Как устроен DSD конвертер
DSD vs DSF vs DFF Files Audio. What is difference
ЦАП. Цифро-аналоговый преобразователь
DSD vs PCM. Real competitors?
Прочтите: DSD формат аудио. Простое объяснение
Audio Converter List | Read Comparison
4. Перегрузка и устойчивость
Когда разрабатывается сигма-дельта модулятор, инженеры обращают особое внимание на:
- уровень шума в слышимом звуковом диапазоне и
- устойчивость к перегрузке.
Для решения этих проблем разработчики могут варьировать:
- битовой глубиной,
- частотой дискретизации,
- нойз-шейпингом.
Эти параметры должны рассматриваться в связи друг с другом.
Нойз-шейпинг
«выталкивает» энергию ошибки квантования из слышимого диапазона.
Для «выталкивания» большего количества энергии нужно более крутой нойз-шейпинг.
Более крутой увеличивает вероятность срыва стабильности работы сигма-дельта модулятора при перегрузке на входе.
Когда модулятор в нестабильном состоянии, на его выходе отсутствует сигнал или генерируются колебания.
После срыва стабильности модулятор должен быть принудительно перезапущен.
Устойчивость сигма-дельта модулятора к перегрузке
Частота дискретизации
Более высокая частота дискретизации уменьшает уровень спектра ошибки квантования. Потому, что энергия шума распределяется в более широкой полосе. Это позволяет использовать более пологий .
Энергия — это площадь фигуры, заключенной между линеей спектра и горизонтальной осью в полосе 0 … /2.
Частота дискретизации и уровень шума квантования
В правой и левой частях изображения площади фигур шума одинаковы. Но фигура, более растянутая по горизонтальной оси, дает более низкий уровень шума.
Увеличение частоты дискретизации позволяет снизить уровень шума в полосе слышимого звука. Это позволяет уменьшить крутизну нойз-шейпинга и увеличить устойчивость модулятора к перегрузке.
Resume
Мы можем видеть, что более низкий уровень шума и более высокая устойчивость модулятора к перегрузке на входе могут быть достигнуты разными путями.
Например, лучшее качество звука — это вопрос реализации нойз-шейпинга при имеющихся битовом разрешении и частоте дискретизации. Но, с другой стороны, возможно увеличить частоту дискретизации и/или количество бит для снижения ошибки квантования (уровня шума) без улучшения метода .
Посмотрим что у нас с форматами высокого разрешения, начнем с Flac:
Flac 96000 Hz 24 bit
- 24000 Hz 4p(2b) -12дБ
- 12000 Hz 8p(3b) -18дБ
- 6000 Hz 16p(4b) -24дБ
- 3000 Hz 32p(5b) -30дБ
- 20 Hz 4800p(13b) -78дБ
Flac 192000 Hz 24 bit
- 24000 Hz 8p(3b) -18дБ
- 12000 Hz 16p(4b) -24дБ
- 6000 Hz 32p(5b) -30дБ
- 3000 Hz 64p(6b) -36дБ
- 20 Hz 9600p(14b) -84дБ
Дополнительно рассмотрим пару форматов WAVE, с ультравысокой частотой дискретизации
WAVE 384000 Hz 32 bit
- 24000 Hz 16p(4b) -24дБ
- 12000 Hz 32p(5b) -30дБ
- 6000 Hz 64p(6b) -36дБ
- 3000 Hz 128p(7b) -42дБ
- 20 Hz 19200p(15b) -90дБ
WAVE 768000 Hz 32 bit
- 24000 Hz 32p(5b) -30дБ
- 12000 Hz 64p(6b) -36дБ
- 6000 Hz 128p(7b) -42дБ
- 3000 Hz 256p(8b) -48дБ
- 20 Hz 38400p(16b) -96дБ
SBC
Частота дискретизации | Разрядность | Битрейт | Поддержка кодирования | Поддержка декодирования |
---|---|---|---|---|
16, 32, 44.1, 48 кГц | 16 бит | 10-1500 кбит/с | Всеми устройствами | Всеми устройствами |
Joint StereoLoudnessYour browser does not support HTML5 video.
ZZ Top — Sharp Dressed ManYour browser does not support HTML5 video.
Mindless Self Indulgence — WitnessDual Channel
ОС | Поддерживаемые частоты дискретизации | Ограничение макс. Bitpool | Ограничение макс. Bitrate | Типичный Bitrate | Динамическая подстройка Bitpool |
---|---|---|---|---|---|
Windows 10 | 44.1 кГц | 53 | 512 кбит/с | 328 кбит/с | ✓* |
Linux (BlueZ + PulseAudio) | 16, 32, 44.1, 48 кГц | 64 (при входящем подключении), 53 (при исходящем) | Нет ограничения | 328 кбит/с | ✓* |
macOS High Sierra | 44.1 кГц | 64, по умолчанию 53*** | Неизвестно | 328 кбит/с | ✗ |
Android 4.4-9 | 44.1/48 кГц** | 53 | 328 кбит/с | 328 кбит/с | ✗ |
Android 4.1-4.3.1 | 44.1, 48 кГц** | 53 | 229 кбит/с | 229 кбит/с | ✗ |
Blackberry OS 10 | 48 кГц | 53 | Нет ограничения | 328 кбит/с | ✗ |
* Bitpool только уменьшается, но не увеличивается автоматически, в случае улучшения условий передачи. Для восстановления Bitpool нужно остановить воспроизведение, подождать пару секунд и заново запустить аудио.** Значение по умолчанию зависит от настроек стека, указанных при компиляции прошивки. В Android 8/8.1 частота только либо 44.1 кГц, либо 48 кГц, в зависимости от настроек при компиляции, в остальных версиях поддерживаются 44.1 кГц и 48 кГц одновременно.*** Значение Bitpool можно поднять в программе Bluetooth Explorer.
Что такое Джиттеринг?
Но всё же, что такое Джиттер? Этот эффект полностью зависит от частоты дискретизации, или от того как часто мы измеряем изменение амплитуды аналоговой звуковой волны. Представьте, что мы делаем это реже, чем 44.1 Гц или раз в секунду. Если мы попытаемся таким образом оцифровать звук очень высокой частоты, например тарелок ударной установки или колокольчиков, мы не будем успевать замерить прохождение сигналом полной амплитуды звука и при неудачном стечении обстоятельств будем замерять только нижние значение амплитуды или средние. В итоге, вместо высокого и чистого звука мы получим невнятное дрожжание звука, которое совсем не похоже на то, что мы записывали. Просто посмотрите на иллюстрацию и вам всё станет ясно.
Под пунктом А вы видите нормальную частоту дискретизации, которая успевает измерить движение звуковой волны в каждом его положении и в оцифрованном виде мы получим тот же звук, что и слышали от живого инструмента. На рисунке B мы видим, что амплитуда звука успевает полностью измениться, но частота дискретизации недостаточная для того, чтобы успеть замерить это, и потому мы услышим дрожание звука более низкой частоты, чем был звук изначально.
Просто запомните, что минимально необходимая частота дискретизации для полного отсутствия джиттеринга это 44.1 Гц, с этой частотой кодируется вся современная музыка, поэтому я писал чуть выше, что если вы слушаете то, что было записано за последние 20 лет, скорее всего, не содержит этот паразитный эффект.
Что такое битность записи, динамический диапазон и на что они влияют
Если вы послушаете старые mp3 файлы или плохие MIDI записи вы заметите, что вам сложно различать музыкальные инструменты, если они играют одновременно, они просто сливаются в «звуковую кашу» и разобрать в ней ничего невозможно.
Это происходит от того, что у записи узкий динамический диапазон. Чем он больше, тем более глубоким слышится звук, более приятным и реалистичным. Узкий динамический диапазон просто не позволяет разным инструментам, которые звучат одновременно, иметь различную громкость и один инструмент глушит другой, от этого возникает мутный неприятный звук и слушать такую музыку совершенно не хочется.
Теоретически за динамический диапазон отвечает битность звука во время его кодирования в цифровой вид. Чем выше битность, тем больше значений может принимать звуковая волна за единицу времени и тем шире может быть динамический диапазон. Но это в теории, т.к. это кроме битности на громкость могут влиять много других факторов и битность начинает влиять на динамический диапазон тогда, когда все другие факторы исключены.
Например, почти вся современная музыка выпускается со значительной компрессией, чтобы увеличить базовую громкость всего материала, от этого сильно страдает динамический диапазон, т.к. все тихие места композиции подтягиваются и становятся более громкими, а очень громкие пики инструментов срезаются до среднего значения
Таким образом, после процедуры компрессии уже почти не важно какой была битность записи. Но в том случае если вы слушаете качественный материал, который не испортили на студии, битность действительно начинает играть значительную роль в динамическом диапазоне
Самое распространённое значение сегодня это 16 битная запись, но уже набирает популярность 24 битная музыка, а в скором времени в общее пользование начнут попадать 32 битные записи музыкальных произведений. При качественной обработки музыкального материала на студии и без ужасающей компрессии 16 битная точность записи, в общем, достаточна для того, чтобы не испытывать проблем с динамическим диапазоном.
Но в определении качества звука мы снова сталкиваемся с особенностями человеческого восприятия звука. Что такое 16 битная запись звука? Это значит, что одно измерение изменения амплитуды звуковой волны может принимать 65536 значений, что даёт нам динамический диапазон до 96,33 Дб. В свою очередь это означает, что звук с громкостью до 96,33 Дб должен быть записан без искажений по уровню громкости.
Если вы похожи на меня, то в большинстве случаев вы слушаете музыку в наушниках, а в наушниках довольно опасно долго слушать громкую музыку и, поверьте, 96,33 Дб это очень громко. Я стараюсь не превышать 60-65 Дб при прослушивании, этого вполне достаточно чтобы в полной мере насладиться звуком, но недостаточно чтобы повредить слух. И, как видите, у меня остается значительный запас по громкости до заветных 96,33 дб. По этой причине записи с 24 битной точностью для меня не дадут никакого преимущества, я просто не буду слышать разницы из-за того, что не слушаю музыку достаточно громко. Если кто-то из ваших знакомых, слушающий музыку в наушниках, говорит вам, что есть разница между 16 битной записью и 24 битной — не верьте ему. Он стал жертвой маркетинга и просто верит, что разница есть, хоть он её и не слышит. Добавим к этому тот факт, что наш слух имеет разную чувствительность по громкости к разным частотам звука, поэтому 16 битных записей для прослушивания в наушниках хватит для любых ситуаций.
Так почему многие люди верят, что 24 битная запись музыки значительно превосходит 16 битную? Для некоторых ситуаций это действительно так. Например, если вы слушаете живую запись симфонического оркестра, вам действительно нужна 24 битная запись, т.к. вам придется значительно повышать громкость, чтобы услышать все нюансы. Вы повышаете громкость технически, на вашем устройстве, но та громкость, которую вы услышите будет нормальной, потому что записи симфонической музыки делаются довольно тихими как раз для того, чтобы можно было расслышать все нюансы звука. Но это правило не работает для современных записей поп музыки, т.к. уже на студии записи делают предельно громкими и если вы будете слушать её на той же громкости, что и качественную запись оркестра, вы просто рискуете повредить свой слух.
Также 24 битная запись подходит для записи звука. Гораздо эффективнее сделать запись в более высокой битности и потом, при финальной обработке снизить её до 16, чем наоборот. Если вы сделаете запись в 16 битах и потом искусственно увеличите её до 24, то качество будет даже ниже, чем при исходных 16 битах, а возможно и такое, что в звуке появится посторонний фоновый шум.
Алгоритмы передискретизации
Наиболее просты алгоритмы изменения частоты дискретизации в целое число раз. При уменьшении частоты дискретизации в N раз частота Найквиста (половина частоты дискретизации) становится в N раз ниже, т.е. частотный диапазон сужается. Поэтому для предотвращения наложения спектра (алиасинга) применяют НЧ-фильтр, подавляющий все частотные составляющие выше будущей частоты Найквиста. После фильтрации отсчеты сигнала прореживаются в N раз. При этой операции спектр сигнала ниже новой частоты Найквиста остается неискаженным.
Для увеличения частоты дискретизации в M раз сигнал сначала интерполируется («разбавляется») нулями. Это сохраняет неизменным спектр сигнала ниже частоты Найквиста, но создает копии спектра выше частоты Найквиста. После этого возникшие копии спектра отфильтровываются НЧ-фильтром.
Понятно, что параметры алгоритма определяются свойствами НЧ-фильтра. Гладкость АЧХ и ФЧХ фильтра в полосе пропускания обеспечивает неискаженную передачу сигнала в допустимом частотном диапазоне. Степень подавления в полосе подавления определяет, насколько будут подавлены помехи, не укладывающиеся в допустимый частотный диапазон при уменьшении частоты дискретизации, или насколько будут подавлены возникшие копии спектра при увеличении частоты. Переходная полоса фильтра покажет поведение фильтра вблизи частоты Найквиста (для Audio-CD — вблизи 22 кГц). Форма импульсной характеристики фильтра покажет осцилляции, которые фильтр вносит в сигнал во временной области. В реальных фильтрах эти параметры взаимосвязаны (см. «Цифровые эквалайзеры», «Звукорежиссер» 8/2006). Например, для улучшения параметров частотной характеристики приходится использовать фильтры с более длинным импульсным откликом и большим количеством пульсаций во временной области.
Для передискретизации сигнала в нецелое число раз (например, из 96 кГц в 44,1 кГц) можно скомбинировать повышение и понижение частоты дискретизации в целое число раз (например, 44100 = =96000?M/N = 96000?147/320). Поскольку НЧ-фильтрация выполняется после повышения частоты дискретизации в M раз, но до понижения ее в N раз, то две фильтрации можно совместить в одну, установив частоту среза фильтра на минимум из двух необходимых частот среза. Отметим, что фильтр в данном случае работает над сигналом с повышенной в M раз частотой дискретизации.
Специальные алгоритмы полифазной фильтрации позволяют избежать явного вычисления такого промежуточного сигнала, сокращая число операций. Они сразу вычисляют отсчеты выходного сигнала как взвешенную сумму окружающих отсчетов входного сигнала и подмножества коэффициентов фильтра. При этом число операций почти не зависит от величин M и N, а зависит лишь от порядка интерполяции, то есть от числа взвешиваемых отсчетов входного сигнала.
Большинство конвертеров частоты дискретизации работают именно по принципу полифазной фильтрации, а в качестве фильтра используется НЧ-фильтр с линейной фазой.
Где используются конверторы частоты дискретизации
Конвертирование частоты дискретизации бывает: реального времени (на лету — преобразование сигнала аудиопотока) или конвертируют файлы.
В реальном времени изменяют частоты дискретизации при воспроизведении семплов, и микшировании нескольких аудиодорожек программы-секвенсора (импортированных из внешних файлов с разными частотами дискретизации).
В аудиотехнике в основном распространены 2 ряда частот дискретизации:
1) CD: 44 100, 88 200, 176 400 Гц;
2) DVD-аудио и DVD-видео: 48 000, 96 000, 192 000 Гц.
Приводить частоту дискретизации к нужному значению приходится не только музыкантам и профессиональным звукорежиссерам, но также в области домашнего аудио-видео. Например, при воспроизведении аудиофайлов медиапроигрыватель может незаметно для пользователя «подгонять» частоту дискретизации файла к частоте дискретизации, заданной в настройках звуковой карты.
Функциональные особенности устройств
функцию «абсолютной регулировки громкости»должно бытьподключение двух устройств одновременноФункция AVDTP 1.3 Delay Reporting
Двунаправленная связь через Bluetooth. Передача голоса.
mSBC
Пример записи в этом кодеке
FastStream
Пример записи в этом кодекезвук с микрофона, такой же, как у mSBCв виде патча для Linux’ового PulseAudio
aptX Low Latency
Проблемы устройств, сертификации и логотипов Bluetooth
- Отсутствует слово «Bluetooth» на коробке и устройстве, чаще всего используется «Wireless» и «BT»
- Отсутствует логотип Bluetooth на коробке или устройстве
- Нет синего мигающего светодиода
Модифицируем Bluetooth-стек для улучшения звука на наушниках без кодеков AAC, aptX и LDACSoundGuysSoundExpertБонус:референсный энкодер SBC, информация о битстриме A2DP и тестовые файлыДополнительная статьяBluetooth LC-SBC and SBC-HBR Explained
Фильтр ConvolverNode
линейную свёрткуимпульсную характеристикубыстрого преобразования Фурьестатьяреверберации
Материалы
- О понятии громкости в цифровом представлении звука и о методах её повышения
- Звук
- Амплитуда
- Частота
- Цифровой сигнал
- Аналоговый сигнал
- Цифровая обработка сигналов
- Интерактивный пример сложения волн и оцифровки сигнала
- Аналогово-цифровой преобразователь
- Цифро-аналоговый преобразователь
- Импульсно-кодовая модуляция
- Формат PCM WAV
- Сэмплирование (en)
- Частота дискретизации
- Теорема Котельникова
- Частота Найквиста
- Глубина дискретизации
- Alias
- Децибел
- Строение уха
- Звуковое давление
- Воспринимаемая громкость
- Клиппинг
- ReplayGain описание
- ReplayGain спецификация
- Быстрое преобразование Фурье, вики, wiki
- Импульсная характеристика
- Фазо-частотная характеристика
- Амплитудо-частотная характеристика
- Фильтр с бесконечной импульсной характеристикой
- Фильтр с конечной импульсной характеристикой
- Биквадратный фильтр (en)
- BiquadFilterNode
- Web Audio API
- Вейвшейпер
- Дисторшн
- Овердрайв
- Фузз
- Реверберации
- Свёртка
- Эквалайзер
AudiophileforgottenUPD. Поправил раздел про фильтрацию и добавил ссылки по разным типам фильтров
Спасибо Денису deniskreshikhin Крешихину и Никите merlin-vrn Киприянову за то, что обратили внимание.
О субдискретизации
Часто бывает, что, например, в системах связи, полезный сигнал занимает только узкую часть доступной полосы частот. Это относится к дискретизации сигнала на промежуточной частоте в приемниках. Выше мы рассматривали случаи дискретизации низкочастотных сигналов, которые полностью находятся в первой зоне Котельникова-Найквиста. На следующем рисунке показан случай, когда полоса частот полезного сигнала ограничена первой зоной дискретизации, а на выходе дискретизатора в остальных зонах появляются образы полезного сигнала, как уже об этом говорилось выше.
Теперь взглянем на случай, когда полоса сигнала находится во второй зоне Котельникова-Найквиста.
Именно такая ситуация возникает при обработке сигнала радиоприемника, где сигнал переносится на промежуточную частоту и гарантируется, что сигнал за пределами полосы пропускания фильтра промежуточной частоты отсутствует. Дадим еще раз определение субдискретизации:
Образ сигнала в первой зоне Котельникова-Найквиста содержит всю информацию об исходном сигнале, кроме его первоначального положения на оси частот. Для четных зон Котельникова-Найквиста, порядок частот в спектре образа сигнала в первой зоне обратный и это следует учитывать при обработке.
Рассмотрим образ сигнала в третьей зоне Котельникова-Найквиста, здесь уже на выходе дискретизатора в первой зоне, обращения частот не происходит. Таким образом, полоса частот сигнала, подлежащая дискретизации может лежать в любой зоне Котельникова-Найквиста и сигнала в первой зоне является точным образом исходного сигнала, за исключением обращения частот, которое проиходит в четных зонах Котельникова-Найквиста. Дадим еще одну формулировку:
В данной формулировке нет никакого упоминания о положении сигнала в частотном спектре относительно частоты дискретизации, главное, чтобы он был ограничен одной зоной Котельникова-Найквиста и его частотные компоненты не должны выходить за частоту Fs/2, что является задачей для антиалайзингового фильтра, который размещается до аналого-цифрового преобразователя.
Данная техника дискретизации используется в приемной аппаратуре, как я уже писал выше. Процесс эквивалентен аналоговой демодуляции с последующей цифровой обработкой сигнала. Это позволяет избавиться от демодулятора промежуточной частоты, однако накладывает определенные требования на производительность АЦП, который должен работать в более высокочастотных зонах Котельникова-Найквиста и вносить минимальные искажения во входной сигнал, именно такие АЦП используются для субдискретизации.
В следующей статье из данной серии рассмотрим некоторые практические примеры выбора частоты дискретизации, что-нибудь посчитаем, попробуем задействовать для этих целей GNU Octave, о котором я уже писал ранее. А пока подписывайтесь на обновления блога в Твиттер и ВК, а также заходите в наш чат Телеграм.
- Айфичер Э., Джервис Б. — Цифровая обработка сигналов. Практический подход (изд.2), 2008 г.
- Статья «Дискретизация сигнала на промежуточной частоте (субдискретизация)», 2013 г.
- Солонина А. Цифровая обработка сигналов в зеркале MATLAB, 2018 г.
Кодирование звуковой информации: частота дискретизации звука
Чтобы компьютерное устройство смогло преобразовать стандартный звук в цифровой формат (последовательность цифр), ему необходимо само звучание привести в соответствующий дискретный формат. Для этого применяется такое свойство, как «временная дискретизация».
Временная дискретизация представляет собой процесс разбивки и фиксации «привычного нам» звучания на небольшие промежутки по времени. В каждом зафиксированном промежутке измеряется показатель интенсивности звучания.
Частота дискретизации звука — это количественное значение фиксации интенсивности звучания в течение одной секунды. Чем больше частотность дискретизации звучания, тем четче оцифрованный звуковой сигнал будет отражать «привычный нашему уху» звук, соответственно, кодирование звуковой информации будет качественней. Частота дискретизации звука располагается в интервале от 8000 и до 48 000 измерительных фиксаций интенсивности в секунду. Вообще-то сегодняшние компьютерные звуковые системы смогут осуществлять куда большее количество фиксаций громкости в секунду, чем 48 000 (48кГц), некоторые могут вплоть до 192 000. Просто 48 кГц — это частота дискретизации стандарта DAT, который часто используется на компьютере, также есть стандарт CD со своими 44.1 кГц.
У вас может возникнуть такой вопрос. Мы же знаем, что, раз используется большая частота дискретизации звука, тогда и лучше будет само кодирование звуковой информации и, соответственно, оцифрованное звучание будет качественней. Это не совсем так. Чем интенсивней частота дискретизации, тем сильнее возрастает нагрузка на вычислительные мощности компьютера
Поэтому важно найти «золотую середину», чтобы и звук был хороший, и компьютер справлялся. Для этого оптимальную частоту дискретизации звука выбрали по-другому пути
Известно, что человеческое ухо улавливает частоты до 20 кГц. Опираясь на теорему Котельникова, можно посчитать, что, для того, чтобы цифровой звук соответствовал 20 кГц аналогового, то частотность его дискретизации должна составлять примерно в 2 раза больше, то есть около 40 кГц. Делать частотность дискретизации намного больше нет смысла, потому что человеческое ухо не рассчитано на такой диапазон.
Как теперь воспроизвести звук
Чтобы что-то зазвучало, нужно сделать следующие шаги:
- Взять колонки или наушники — что угодно, что умеет «толкать воздух», то есть создавать акустические волны. В колонках за это отвечают динамики, к которым подключены специальные мягкие конусы, которые, собственно, и создают колебания воздуха. Та круглая ерунда в колонке — это и есть конус.
- Подать на эти колонки некий ток. От того, насколько мощный этот ток, конус будет двигаться по-разному.
- Чтобы получить этот меняющийся ток, нужен специальный чип под названием ЦАП — цифро-аналоговый преобразователь. Он получает на вход число, а на выходе дает ток. У всех ваших смартфонов и компьютеров есть такие ЦАПы.
Итого:
- Процессор отправляет цифры из звукового файла в ЦАП.
- ЦАП получает числа и выдаёт меняющееся электричество по этим цифрам.
- Электричество попадает в колонку, передаётся на динамик.
- Динамик из-за электричества начинает двигать конус колонки.
- Конус начинает толкать воздух перед собой, создавая звуковые волны.
- Волны долетают до наших ушей, и мы воспринимаем их как звук.
Вроде все нормально, так чего же тут не так?
Начнем с частот, кратных частоте дискретизации. На частоте 441 Герц при нашей частоте дискретизации (44.1 кГц), на один период приходится 100 точек. Чтож, тут нет никаких претензий, синусоида идеальная. Если же повысить частоту на порядок, т.е. в 10 раз, то эти же 100 точек будут формировать уже не 1, а 10 периодов. И даже в этом случае Будет формироваться сигнал очень похожий на синусоиду.
А вот на частоте 22050, т.е. наивысшей частоте, удовлетворяющей теореме Котельникова (при частоте дискретизации 44.1кГц) на 100 точек приходится 50 периодов колебаний.
Чтож… приблизим и рассмотрим каждый период по отдельности:
Частота в 4410 Гц вполне себе достойная синусоида, чего никак не скажешь о частоте 22050Гц, с ее двумя точками на период. По факту это уже и не синусоида, а сигнал треугольной формы.
Ради эксперимента можете попробовать сгенерировать в Audcity сигналы одной и той же частоты но разных форм. У треугольной и прямоугольной форм из-за их “угловатости” и резких фронтов возникают дополнительные гармоники, а вот синусоидальный сигнал звучит гораздо более мягко и естественно.
Но даже и это не самое страшное. До этого момента рассматривались сигналы с частотами кратными частоте дискретизации.
Чем отличается hi-end конвертор частоты дискретизации аудио сигнала от конвертора среднего качества
Для внесения минимума искажений в сигнал при конвертации мы должны максимально точно интерполировать его. Точность интерполяции заключается в максимальной степени повторения дополнительными отсчетами интерполятора исходного аналогового сигнала. Следует помнить, что самый высококачественный интерполятор может достаточно точно восстановить исходный аналоговый сигнал. Но не со 100%-й точностью. Увы. При повышении частоты дискретизации обязательно появятся «паразитные» сигналы выше половины частоты дискретизации выходного сигнала.
При разработке hi-end конверторов частоты дискретизации уделяется особое внимание качеству фильтра низких частот. Если этот фильтр не подавит «артефакты», то при отбрасывании «лишних» отсчетов они попадут в полезный сигнал
Для демонстрации качества фильтрации посмотрим на диаграмму спектра во времени. Вдоль горизонтальной оси идет время, вдоль вертикальной оси частота. Уровень сигнала показан цветом (белый – самый высокий, черный – самый низкий – слабее минус 150 дБ). На вход конвертора частоты дискретизации подается синусоида с нарастающей частотой (высотой тона).
Вот такой результат будет на выходе hi-end конвертора:
Мы видим только повторение входного сигнала, без дополнительно появляющихся частотных составляющих — «артефактов» (они не превышают минус 150 дБ).
Аудио конвертор частоты дискретизации хорошего качества даст следующую картинку:
Синим цветом показаны «артефакты» имеющие уровень порядка минус 105-110 дБ. Эти «артефакты» возникают, как при интерполяции, так и при недостаточном подавлении «паразитных» сигналов, расположенных выше половины выходной частоты дискретизации.
Посмотрим для сравнения спектральную диаграмму конвертора невысокого качества:
В этом случае артефакты достигают уровня порядка минус 50 … 60 дБ.
Фильтр должен максимально без искажений пропускать полезный аудио сигнал от 0 до 20000 Гц. Для этого неравномерность частотной характеристики (изменение уровня громкости сигнала на разных частотах при прохождении через фильтр) не должна превышать 1 … 2 дБ.
Чтобы максимально сохранить форму преобразовываемого аудио сигнала требуется обеспечить одинаковую временную задержку для всех его спектральных составляющих при прохождении через фильтр. Это обеспечивается, если фильтр обладает линейной фазово-частотной характеристикой. Линейной – это значит в виде прямой наклонной линии.
При такой форме фазовой характеристики все спектральные составляющие имеют одинаковую задержку по времени. Сигнал проходит через фильтр неискаженным
Это особенно важно для обеспечения качества звучания инструментов с короткой атакой (ударные, фортепиано и т.д.)
Кроме того, фильтры имеют такой недостаток, как «звон». Это «размазывание» во времени резко изменяющихся сигналов. На вход подается импульс. На выходе импульс превращается в растянутое по времени колебание. Оно слышится, как щелчок.
Чем более «крутой» спад уровню между частотными полосами пропускания и подавления фильтра, тем выше по уровню этот «звон».
Поэтому разработчику конвертора частоты дискретизации необходимо выбрать компромисс между крутизной спада амплитудно-частотной характеристики фильтра (что самым положительным образом влияет на подавление «артефактов») и уровнем звона. Очень тяжелый случай, когда конечным результатом преобразования является частота дискретизации 44,1 кГц. Между максимальной частотой полезного сигнала (20 кГц) и половиной частоты дискретизации (22,05 кГц) разница по частоте составляет всего-навсего 2,05 кГц при желательной степени подавления артефактов около 140 дБ!!!
Итак, что такое ЦАП?
ЦАП преобразует цифровой сигнал в аналоговый, чтобы ваши наушники могли создавать звук. Вот так просто! Большинство чипов ЦАП находятся в источниках того, к чему вы подключаете наушники, и обычно стоит для производителя от 3 до 30 долларов США. Это очень простой и постоянный компонент любого смартфона, хотя разъем для наушников и пытаются убить, в основном компания Apple.
Подобно усилителям для наушников, отдельные ЦАП стали появляться в продаже для того, чтобы хоть как-то компенсировать низкий уровень качества воспроизведения звука. Вы удивитесь, но в 80-е и даже в 90-е годы далеко не всё потребительское оборудование могло справится даже с простыми наушниками, не говоря уже о более серьезном оборудовании. Довольно часто, даже если ЦАП был встроен в готовый прибор, он был неправильно к нему подключен или плохо экранирован, поэтому во время прослушивания вы могли слышать помехи или наводки от работы самого оборудования. Добавим сюда далеко не лучшее качество музыкального материала с низкой частотой дискретизацией первых mp3 файлов и вы можете вообразить на что была похожа музыка 90-х. Согласитесь, никто не захочет слушать такое для собственного удовольствия.
Но с тех пор цифровая музыка прошла долгий путь. Значительно возросшая культура производства музыкального оборудования привела к тому, что даже дешевые чипы стали давать довольно хорошее качество звучания, да и музыкальный материал стал гораздо более качественным. Сегодня музыка в формате mp3 почти везде записана с битрейтом в 320 кб/сек, а многие перешли на прослушивание материала в формате FLAC или в новомодном формате MQA. И там, где раньше требовалось серьезное оборудование для достижение хорошего качества звука, сейчас в большинстве случаев достаточно возможностей обычного хорошего смартфона.
2. 1-бит и шум
Как правило, этот формат имеет битовую глубину 1 бит. Поэтому уровнень шума значителен из-за ошибок квантования.
Для снижения уровня шума в низкочастотной слышимой области используется нойз-шейпинг. Нойз-шейпинг (noice shaping, управление формой спектра шума) — это перенос энергии шума из слышимой частотной области в область ультразвука.
Нойз-шейпинг (НШ) спектра 1-битного сигнала.
Сигма-дельта модуляция
В левой части изображения спектр шума имеет уровень соизмеримый с уровнем 1-битного музыкального сигнала. Устройство (или цифровая обработка), называемое сигма-дельта модулятор, «выдавливает» энергию шума из слышимой частотной области 0 … 20 кГц в область ультразвука.
Когда такая 1-битная запись проигрывается, низко-частотный фильтр вырезает «усиленный» высокочастотный шум.
DSD DAC (декодер , демодулятор)
Таким образом, уровень шума 1-битного сигнала после нойз-шейпинга (сигма-дельта модуляции) становится сравнимым с уровнем шума мультибитного сигнала PCM (импульсно-кодовая модуляция).
То есть 1-битная сигма-дельта модуляция может иметь разрешение аудио одинаковое с мультибитным сигналом. Читайте подробности и смотрите видео здесь
Читайте DSD или FLAC >
Основные определения
Для того чтобы разобраться в теме надо знать, что представляет собой звуковая информация (звук).
Звук – это непрерывная аналоговая волна, которая распространяется в окружающей среде. В роли среды может выступать воздух, жидкость, твердое тело, электричество и т.д.
Звук, как непрерывную волну, характеризуют две характеристики – частота и амплитуда.
От амплитуды зависит громкость аудио сигнала. Чем выше амплитуда, тем громкость больше.
Частота же характеризует тональность аудиоинформации. Чем больше частота, тем тональность выше. Человеческий слух улавливает волны от 20 Гц до 20 кГц. 1 Гц равен 1 колебанию аудио сигнала в секунду.
Заключение
На качество преобразования частоты дискретизации прежде всего влияют:
— качество интерполяции;
— частота оверсемплинга;
— качество фильтрации перед снижением частоты дискретизации.
Для большинства современных записей используется разрядность отсчетов 24 бит. Это соответствует теоретическому уровню шумов квантования минус 144 дБ. Соответственно уровень всех артефактов преобразования не должен превышать минус 144 дБ. Таким образом «артефакты» потонут в шумах квантования. Нет особого смысла опускать уровень «артефактов» ниже шумов квантования.
Достоверность передачи сигнала при конвертировании обеспечивается линейностью фазовой и равномерностью частотной характеристики фильтра.
Программы конвертирования файлов класса hi-end используют, как правило, ресурсоемкие точные алгоритмы конвертации.