Цифровой аудиоформат 24/192, и почему в нем нет смысла

Это перевод развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, что, по его мнению, является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов. «24/192 Music Downloads …and why they make no sense»*


В прошлом месяце [оригинальная статья написана в марте 2012] заголовки в прессе сообщали о том, что музыкант Нил Янг и основатель компании Apple Стив Джобс обсуждали возможный запуск сервиса для скачивания музыкальных форматов «бескомпромиссного студийного качества». Большинство газет, журналов и пользователей были настроены достаточно оптимистично касательно перспектив цифрового музыкального формата c квантованием сигнала в разрядность 24 бита, при частоте дискретизации 192 кГц.

К сожалению, нет никакого смысла записывать музыку в формате 24/192. Его точность воспроизведения немного уступает форматам 16/44 или 16/48, но при этом он занимает в 6 раз больше места.

На сегодняшний день существует несколько проблем, связанных с качеством аудио и «применением» распространяемой цифровой музыки. Формат 24/192 не решает ни одну из них. Пока все считают этот формат панацеей, мы не увидим никаких улучшений в музыкальной сфере.

###Начнем с плохих новостей
В течение прошедших нескольких недель я общался с разумными, не обделенными научными знаниями людьми, которые верят в музыкальный формат 24/192 и не понимают, как кто-то может не соглашаться с этим. Они задавали хорошие вопросы, которые стоят того, чтобы на них ответили подробно.

Я также задался вопросом, что могло вызвать такую активную поддержку высокочастотного цифрового аудио. Ответы показали, что немногие из людей понимают основы теории сигналов или теорему отсчетов (теорему Котельникова или Найквиста — Шеннона), что неудивительно. Недопонимание математики, технологий и физиологии проявлялись в речах многих профессионалов, которые обладают большим опытом сфере аудиотехнологий. Некоторые даже утверждали, что теорема Котельникова не объясняет, как работает цифровое аудио1.

Дезинформация и предрассудки на руку только шарлатанам. Давайте разберем основы того, почему же распространение формата 24/192 не имеет смысла, перед тем как выдвигать другие, более обоснованные идеи.

Господа, встречайте! Ваши уши!

Ухо слышит с помощью волосковых клеток, которые расположены на резонансной базилярной мембране в улитке внутреннего уха. Каждая волосковая клетка точно настроена на определенный узкий частотный диапазон, который определяется положением клетки на мембране. Пик чувствительности находится в середине частотного диапазона, который постепенно спадает в обоих направлениях и принимает ассиметричную конусовидную форму, перекрывающую частотные диапазоны соседних клеток. Мы не слышим звук, если нет волосковых клеток, настроенных на эту частоту.

С левой стороны рисунка изображена человеческая улитка с базилярной мембраной (она окрашена бежевым цветом) в разрезе. Мембрана устроена так, что она резонирует в различных местах на протяжении своей длины, в зависимости от входящей частоты: высокие частоты резонируют ближе к основанию, а низкие у противоположного конца. На рисунке отмечены приблизительные расположения нескольких частот.

На правой стороне схематически изображена диаграмма реакции волосковых клеток вдоль базилярной мембраны, в виде группы перекрывающихся сигналов.

Процесс схож с аналоговым радиоприемником, принимающим частотный сигнал, на который он настроен, с близлежащей радиостанции. Чем сильнее не совпадают частоты приемника и станции, тем более неустойчивым и искаженным будет сигнал, вне зависимости от его силы. Существуют верхний (и нижний) уровни частотного диапазона, за пределами которого волосковые клетки не способны принимать сигналы, и мы ничего не слышим.

Частота дискретизации и спектр слышимых частот

Я уверен, вы слышали множество раз, что частоты от 20 Гц до 20 кГц являются диапазоном слышимости человеческого уха. Очень важно понять, как ученые пришли именно к таким цифрам.

Сначала мы измеряем «порог слышимости» по всему звуковому диапазону у группы слушателей. Это дает нам возможность построить кривую, представляющую самый тихий звук, который может услышать человеческое ухо при любой заданной частоте, измеренной в идеальных условиях на здоровых ушах. Безэховое окружение, точность калибровки оборудования воспроизведения и строгость статистического анализа – это легкая часть эксперимента. Слуховая концентрация теряется очень быстро, поэтому тестирование нужно проводить, пока испытуемый не утомлен. Как следствие, возникает множество перерывов и пауз, и тестирование может занимать от нескольких часов до многих дней, в зависимости от методологии.

Затем мы собираем информацию в другой крайности – о «болевом пороге». В этой точке на графике амплитуда настолько высока, что перепонки и нервный аппарат уха перегружаются входным сигналом, и испытуемый начинает испытывать боль. Нужно следить, чтобы в ходе эксперимента не повредить никому слух, поэтому собрать эти данные гораздо сложнее.

На рисунке выше изображены аппроксимированные кривые равной громкости, которые получили Флетчер и Мансон (Fletcher and Munson) в 1933 году, а также показания для частот более 16 кГц, полученные из современных источников. Порог слышимости и болевой порог обозначены красными линиями. Ученые, занимающиеся этим вопросом в последующем, уточняли эти показания. Результатом стала единица измерения «фон» и стандарт ISO 226 для кривых равной громкости. Последние собранные данные показывают, что ухо значительно хуже воспринимает низкие частоты, чем считали Флетчер и Мансон.

Верхний предел диапазона слышимости человеческого уха находится в том месте, где кривая болевого порога пересекает кривую слышимости. В этой точке, или за её пределами, звук резко становится невыносимо громким.

На низких частотах улитка уха работает как рефлексный низкочастотный динамик. Геликотрема представляет собой отверстие на конце базилярной мембраны, которое выступает в роли канала, принимающего частоту от 40 Гц до 65 Гц, у разных людей по-разному. Ниже этой частоты характеристика реакции резко скатывается вниз.

Диапазон от 20 Гц до 20 кГц – это стандартный диапазон слышимости. Он полностью перекрывает слышимый звуковой спектр, что подтверждено практически столетним сбором экспериментальных данных.

Идеальный слух или наследственный дар

Получая множество писем, я вижу, что множество людей верит в существование уникумов с исключительным слухом. Действительно ли существуют такие люди с «золотыми ушами»?

Зависит от того, что называть исключительным слухом.

Здоровые уши молодых людей слышат лучше, чем уши пожилых людей или поврежденные уши. Некоторые люди исключительно хорошо натренированы слышать все нюансы звука и музыки, о существовании которых большинство людей даже не догадывается. Когда-то в 90х я мог распознать каждый mp3-кодировщик (в то время все они были довольно плохими) и мог продемонстрировать это в двойном слепом тесте2.

Если человек обладает здоровыми ушами и хорошо натренирован на распознавание звуков, я бы назвал его слух исключительным. Тем не менее, люди со слухом ниже среднего могут быть обучены замечать детали, которые ускользают от неподготовленных слушателей. Исключительный слух, по большей части, вопрос тренировки, а не способности слышать за пределами слухового диапазона обычных смертных.

Исследователи слуха очень бы хотели найти кого-либо как с исключительным слухом, так и со способностью слышать за пределами слухового диапазона, чтобы протестировать и записать результаты исследования. Ничего не имею против обычных людей, но каждый ученый хочет найти человека с генетическими причудами, чтобы написать первоклассную статью. Мы не нашли таких людей за 100 лет проведения испытаний, так что, вероятно, их не существует. Так что извините. Но мы продолжим искать дальше.

Любовь к цветовому спектру

Возможно, вы отнеслись скептично ко всему, что я только что написал, потому что это идет вразрез со всеми маркетинговыми ходами. Вместо этого, давайте предположим, что у людей возникла мания на расширение цветового диапазона, и отвлечёмся от звуковой тематики.

На рисунке выше изображена приблизительная шкала чувствительности палочек и колбочек человеческого глаза, сопоставленная с видимым спектром. Эти органы чувств реагируют на свет в перекрывающихся спектральных полосах, также как волосковые ячейки в ушах настроены на восприятие перекрывающихся полос звуковых частот.

Человеческий глаз видит ограниченный диапазон световых волн, называемый видимым излучением. Здесь прослеживается прямая аналогия с диапазоном слышимости звуковых волн. Также как и ухо, глаз имеет чувствительные клетки (палочки и колбочки) которые улавливают свет в различных, но перекрывающихся полосах частот.

Видимое излучение начинается с частоты около 400 ТГц (темно-красный) и простирается до 850 ТГц (темно-фиолетовый) [3], но острота зрения падает с течением жизни. За пределами этого приблизительного диапазона сила света, попадающая в глаза, может выжечь вам сетчатку. Таким образом, получается, что диапазон довольно приличный даже для молодых, здоровых, генетически одаренных личностей – диапазон, который аналогичен широкому диапазону звукового спектра.

Давайте предположим, что в нашем гипотетическом мире, где происходит повальное увлечение расширением видимого спектра видеозаписей, существует группа людей, которые считают, что эти ограничения недостаточно щедры. Они полагают, что видеозапись представляет собой не только зрительный спектр, но еще и инфракрасное и ультрафиолетовое излучения. Продолжив сравнение, предположим, что наиболее активная часть группы (которая гордится этим!) утверждает также, что и этого расширенного спектра недостаточно, и видео будет казаться наиболее естественным, если туда будут попадать микроволны и рентгеновское излучение. Для тех у кого «глаз – алмаз» разница будет огромная, просто день и ночь!

Разумеется, это просто смешно.

Никто не может увидеть рентгеновское излучение (или инфракрасное, или ультрафиолетовое, или микроволны). Неважно, насколько сильно человек верит в то, что он может, сетчатка просто не имеет необходимых инструментов для того, чтобы их воспринимать.

Вот эксперимент, который каждый может провести: сходите и возьмите ИК пульт от Apple [TV]. Светодиод излучает волны длиной 980 нм, примерно равные частоте в 306 ТГц, что близко к инфракрасному спектру. Волны такой длины находятся не так уж и далеко за пределами видимого диапазона. Возьмите пульт в подвал или в самую темную комнату с выключенным светом в своем доме посреди ночи и дайте своим глазам привыкнуть к темноте.

На картинке выше изображен инфракрасный пульт Apple [TV], сфотографированный с помощью цифровой камеры. Хотя излучатель достаточно яркий и частота излучения подходит довольно близко к частоте красной части видимого спектра, инфракрасное излучение абсолютно невидимо для человеческого глаза.

Можете ли вы увидеть, как загорается светодиод пульта, когда вы нажимаете на кнопку[4]? Нет? Даже небольшой проблеск? Попробуйте несколько других пультов, во многих из них используется инфракрасное излучение диапазона 310-350 ТГц, подходящее немного ближе к видимой полосе частот, но вы не сможете разглядеть и его тоже. Остальные пульты излучают свет на частотах 350-380 ТГц, находящихся прямо на краю видимого диапазона, и он едва различим в абсолютной темноте, когда глаза к ней привыкнут [5]. Если бы их частоты совпадали с частотами видимого диапазона, то они были бы ослепительно и болезненно яркими.

Спектр инфракрасных светодиодов составляет максимум 20% от видимого диапазона и находится за его пределами. Частота 193 КГц выходит за рамки диапазона слышимости на 400%. Чтобы меня не обвиняли в сравнении яблок с апельсинами, напомню, что звуковое и зрительное восприятие одинаково ухудшается на границах своих спектров.

Примечания к Части 1

  1. Как написал один разочарованный блогер:

«Теорема Котельникова не объясняет, как работает цифровое аудио, наоборот, цифровое аудио было изобретено как следствие теоремы, если вы не верите теореме, то вы не можете верить и в существование цифрового звука».

  1. Если это и не был самый скучный трюк, чтобы хвастаться им на вечеринках, то он был достаточно близок к этому.
  2. Более характерно говорить о видимом излучении как о длинах волн, измеренных в нанометрах или ангстремах. Я использую частоту, чтобы как-то сопоставить ее со звуком. Эти величины эквиваленты, потому что частота обратно пропорциональна длине волны.
  3. Эксперимент с индикатором пульта не сработает с ультрафиолетовыми диодами, в основном потому, что они на самом деле не ультрафиолетовые. Они достаточно фиолетовые, чтобы немного флюоресцировать, но все еще в пределах видимого диапазона. Реальные ультрафиолетовые светодиоды стоят около $100 – $1000 за штуку и нанесут ущерб глазам, если проводить такой тест. Потребительские недо-ультрафиолетовые светодиоды дополнительно излучают бледный белый свет, чтобы казаться ярче, так что вы можете их увидеть, даже если пик излучения находится в ультрафиолетовом диапазоне.
  4. В оригинальной версии статьи говорится, что ИК-светодиоды работают на частотах 300-325 ТГц (около 920-980 нм) длин волн, которые невидимы. Довольно много читателей написали мне, что они могут видеть слабое свечение в некоторых (или всех) их пультах. Некоторые из этих людей были достаточно любезны, и сообщили мне модели пультов. Кое-какие из них я проверил на спектрометре. И смотрите-ка! Эти пульты используют высокочастотные светодиоды, работающие на частотах 350-380 ТГц (800-850 нм), а они как раз перекрывают границы видимого диапазона.
11 лайка

Частота 192 КГц считается вредной

Музыкальные цифровые файлы с частотой 192 КГц не приносят никакой выгоды, но всё же оказывают кое-какое влияние. На практике оказывается, что их качество воспроизведения немного хуже, а во время воспроизведения возникают ультразвуковые волны.

И аудиопреобразователи, и усилители мощности подвержены влиянию искажений, а искажения, как правило, быстро нарастают на высоких и низких частотах. Если один и тот же динамик воспроизводит ультразвук наряду с частотами из слышимого диапазона, то любая нелинейная характеристика будет сдвигать часть ультразвукового диапазона в слышимый спектр в виде неупорядоченных неконтролируемых нелинейных искажений, охватывающих весь слышимый звуковой диапазон. Нелинейность в усилителе мощности приведет к такому же эффекту. Эти эффекты трудно заметить, но тесты подтвердили, что оба вида искажений можно расслышать.

График выше показывает искажения, полученные в результате интермодуляции звука частотой 30 кГц и 33к Гц в теоретическом усилителе с неизменным коэффициентом нелинейных искажений (КНИ) около 0.09%. Искажения видны на протяжении всего спектра, даже на меньших частотах.

Неслышимые ультразвуковые волны способствуют интермодуляционным искажениям в слышимом диапазоне (светло-синяя зона). Системы, не предназначенные для воспроизведения ультразвука, обычно имеют более высокие уровни искажений, около 20 кГц, дополнительно внося вклад в интермодуляцию. Расширение диапазона частот для включения в него ультразвука требует компромиссов, которые уменьшат шум и активность искажений в пределах слышимого спектра, но в любом случае ненужное воспроизведение ультразвуковой составляющей ухудшит качество воспроизведения.

Есть несколько способов избежать дополнительных искажений:

  1. Динамик, предназначенный только для воспроизведения ультразвука, усилитель и разделитель спектра сигнала, чтобы разделить и независимо воспроизводить ультразвук, который вы не можете слышать, чтобы он не влиял на другие звуки.
  2. Усилители и преобразователи, спроектированные для воспроизведения более широкого спектра частот так, чтобы ультразвук не вызывал слышимых нелинейных искажений. Из-за дополнительных затрат и сложности исполнения, дополнительный частотный диапазон будет уменьшать качество воспроизведения в слышимой части спектра.
  3. Качественно спроектированные динамики и усилители, которые совсем не воспроизводят ультразвук.
  4. Для начала можно не кодировать такой широкий диапазон частот. Вы не можете (и не должны) слышать ультразвуковые нелинейные искажения в слышимой полосе частот, если в ней нет ультразвуковой составляющей.

Все эти способы нацелены на решение одной проблемы, но только 4 способ имеет какой-то смысл.

Если вам интересны возможности вашей собственной системы, то нижеследующие сэмплы содержат: звук частотой 30кГц и 33 кГц в формате 24/96 WAV, более длинную версию в формате FLAC, несколько мелодий и нарезку обычных песен с частотой, приведенной к 24 кГц так, что они полностью попадают в ультразвуковой диапазон от 24 кГц до 46 кГц.

Тесты для измерения нелинейных искажений:

  • Звук 30 кГц + звук 33 кГц (24 бит / 96 кГц) — (5-секундный WAV) (30-секундный FLAC)
  • Мелодии 26 кГц – 48 кГц (24 бит / 96 кГц) — (10-секундный WAV)
  • Мелодии 26 кГц – 96 кГц (24 бит / 192 кГц) — (10-секундный WAV)
  • Нарезка из песен, приведенных к 24 кГц (24 бит / 96 кГц WAV) — (10-секундный WAV) (оригинальная версия нарезки) (16 бит / 44.1 кГц WAV)

Предположим, что ваша система способна воспроизводить все форматы с частотами дискретизации 96 кГц 6. При воспроизведении вышеуказанных файлов, вы не должны слышать ничего, ни шума, ни свиста, ни щелчков или каких других звуков. Если вы слышите что-то, то ваша система имеет нелинейную характеристику и вызывает слышимые нелинейные искажения ультразвука. Будьте осторожны при увеличении громкости, если вы попадете в зону цифрового или аналогового ограничения уровня сигнала, даже мягкого, то это может вызвать громкий интермодуляционный шум.

В целом, не факт, что нелинейные искажения от ультразвука будут слышимы на конкретной системе. Вносимые искажения могут быть как незначительны, так и довольно заметны. В любом случае, ультразвуковая составляющая никогда не является достоинством, и во множестве аудиосистем приведет к сильному снижению качества воспроизведения звука. В системах, которым она не вредит, возможность обработки ультразвука можно сохранить, а можно вместо этого пустить ресурс на улучшение качества звучания слышимого диапазона.

Недопонимание процесса дискретизации

Теория дискретизации часто непонятна без контекста обработки сигналов. И неудивительно, что большинство людей, даже гениальные доктора наук в других областях, обычно не понимают её. Также неудивительно, что множество людей даже не осознают, что понимают её неправильно.

Дискретизированные сигналы часто изображают в виде неровной лесенки, как на рисунке выше (красным цветом), которая выглядит как грубое приближение к оригинальному сигналу. Однако такое представление является математически точным, и когда происходит преобразование в аналоговый сигнал, его график становится гладким (голубая линия на рисунке).

Наиболее распространенное заблуждение заключается в том, что, якобы, дискретизация – процесс грубый и приводит к потерям информации. Дискретный сигнал часто изображается как зубчатая, угловатая ступенчатая копия оригинальной идеально гладкой волны. Если вы так считаете, то можете считать, что чем больше частота дискретизации (и чем больше бит на отсчет), тем меньше будут ступеньки и тем точнее будет приближение. Цифровой сигнал будет все больше напоминать по форме аналоговый, пока не примет его форму при частоте дискретизации, стремящейся к бесконечности.

По аналогии, множество людей, не имеющих отношения к цифровой обработке сигналов, взглянув на изображение ниже, скажут: «Фу!» Может показаться, что дискретный сигнал плохо представляет высокие частоты аналоговой волны, или, другими словами, при увеличении частоты звука, качество дискретизации падает, и частотная характеристика ухудшается или становится чувствительной к фазе входного сигнала.

Это только так выглядит. Эти убеждения неверны!

Комментарий от 04.04.2013: В качестве ответа на всю почту, касательно цифровых сигналов и ступенек, которую я получил, покажу реальное поведение цифрового сигнала на реальном оборудовании в нашем видео Digital Show & Tell, поэтому можете не верить мне на слово.

Все сигналы частотой ниже частоты Найквиста (половина частоты дискретизации) в ходе дискретизации будут захвачены идеально и полностью, и бесконечно высокая частота дискретизации для этого не нужна. Дискретизация не влияет на частотную характеристику или фазу. Аналоговый сигнал может быть восстановлен без потерь – таким же гладким и синхронным как оригинальный.

С математикой не поспоришь, но в чем же сложности? Наиболее известной является требование ограничения полосы. Сигналы с частотами выше частоты Найквиста должны быть отфильтрованы перед дискретизацией, чтобы избежать искажения из-за наложения спектров. В роли этого фильтра выступает печально известный сглаживающий фильтр. Подавление помехи дискретизации, на практике, не может пройти идеально, но современные технологии позволяют подойти к идеальному результату очень близко. А мы подошли к избыточной дискретизации.

Избыточная дискретизация

Частоты дискретизации свыше 48 кГц не имеют отношения к высокой точности воспроизведения аудио, но они необходимы для некоторых современных технологий. Избыточная дискретизация (передискретизация) – наиболее значимая из них 7.

Идея передискретизации проста и изящна. Вы можете помнить из моего видео «Цифровое мультимедиа. Пособие для начинающих гиков», что высокие частоты дискретизации обеспечивают гораздо больший разрыв между высшей частотой, которая нас волнует (20 кГц) и частотой Найквиста (половина частоты дискретизации). Это позволяет пользоваться более простыми и более надежными фильтрами сглаживания и увеличить точность воспроизведения. Это дополнительное пространство между 20 кГц и частотой Найквиста, по существу, просто амортизатор для аналогового фильтра.

На рисунке выше представлены диаграммы из видео «Цифровое мультимедиа. Пособие для начинающих гиков», иллюстрирующие ширину переходной полосы для ЦАП или АЦП при частоте 48 кГц (слева) и 96 кГц (справа).

Это только половина дела, потому что цифровые фильтры имеют меньше практических ограничений в отличие от аналоговых, и мы можем завершить сглаживание с большей точностью и эффективностью. Высокочастотный необработанный сигнал проходит сквозь цифровой сглаживающий фильтр, который не испытывает проблем с размещением переходной полосы фильтра в ограниченном пространстве. После того, как сглаживание завершено, дополнительные дискретные отрезки в амортизирующем пространстве просто откидываются. Воспроизведение передискретизированного сигнала проходит в обратном порядке.

Это означает, что сигналы с низкой частотой дискретизации (44.1 кГц или 48 кГц) могут обладать такой же точностью воспроизведения, гладкостью АЧХ и низким уровнем наложений, как сигналы с частотой дискретизации 192 кГц или выше, но при этом не будет проявляться ни один из их недостатков (ультразвуковые волны, вызывающие интермодуляционные искажения, увеличенный размер файлов). Почти все современные ЦАП и АЦП производят избыточную дискретизацию на очень высоких скоростях, и мало кто об этом знает, потому что это происходит автоматически внутри устройства.

ЦАП и АЦП не всегда умели передискретизировать. Тридцать лет назад некоторые звукозаписывающие консоли использовали для звукозаписи высокие частоты дискретизации, используя только аналоговые фильтры. Этот высокочастотный сигнал потом использовался для создания мастер-дисков. Цифровое сглаживание и децимация (повторная дискретизация с более низкой частотой для CD и DAT) происходили на последнем этапе создания записи. Это могло стать одной из ранних причин, почему частоты дискретизации 96 кГц и 192 кГц стали ассоциироваться с производством профессиональных звукозаписей.

16 бит против 24 бит

Хорошо, теперь мы знаем, что сохранять музыку в формате 192 кГц не имеет смысла. Тема закрыта. Но что насчет 16-битного и 24-битного аудио? Что же лучше?

16-битное аудио с импульсно-кодовой модуляцией действительно не полностью покрывает теоретический динамический звуковой диапазон, который способен слышать человек в идеальных условиях. Также есть (и будут всегда) причины использовать больше 16 бит для записи аудио.

Ни одна из этих причин не имеет отношения к воспроизведению звука – в этой ситуации 24-битное аудио настолько же бесполезно, как и дискретизация на 192 кГц. Хорошей новостью является тот факт, что использование 24-битного квантования не вредит качеству звучания, а просто не делает его хуже и занимает лишнее место.

Примечания к Части 2

6.Многие из систем, которые неспособны воспроизводить сэмплы 96 кГц, не будут отказываться их воспроизводить, а будут незаметно субдискретизировать их до частоты 48 кГц. В этом случае звук не будет воспроизводиться совсем, и на записи ничего не будет, вне зависимости от степени нелинейности системы.
7. Передискретизация – не единственный способ работы с высокими частотами дискретизации в обработке сигналов. Есть несколько теоретических способов получить ограниченный по полосе звук с высокой частотой дискретизации и избежать децимации, даже если позже он будет субдискретизирован для записи на диски. Пока неясно, используются ли такие способы на практике, поскольку разработки большинства профессиональных установок держатся в секрете.
8. Неважно, исторически так сложилось или нет, но многие специалисты сегодня используют высокие разрешения, потому что ошибочно полагают, что звук с сохраненным содержимым за пределами 20 кГц звучит лучше. Прямо как потребители.

5 лайка

###Вернемся к вашим ушам
Мы обсудили диапазон частот, который способны распознавать уши, но что насчет динамического диапазона (это диапазон от наиболее тихого звука до самого громкого)?

Один из способов точно определить динамический диапазон – это снова посмотреть на кривые болевого порога и порога слышимости. Расстояние от наивысшей точки кривой болевого порога до самой низкой точки кривой слышимости составляет около 140 децибел – для молодого и здорового человека. Правда, слушать звук на такой громкости долго не получится, поскольку +130 дБ уже достаточно, чтобы повредить слух за несколько минут или даже секунд. Для справки скажу, что громкость отбойного молотка на расстоянии одного метра составляет 100-110 дБ.

Интересный момент: порог слышимости увеличивается с возрастом и потерей слуха, а болевой порог с возрастом уменьшается. Волосковые клетки улитки в ухе захватывают только часть всего диапазона в 140 дБ, поэтому мускулатура уха непрерывно регулирует количество звука, достигающего улитку, путем сдвига слуховых косточек – как радужка регулирует количество света попадающего в глаз 9. Механизм костенеет с возрастом, что ограничивает слуховой динамический диапазон и снижает эффективность защитных механизмов.

###Окружающий шум
Немногие люди осознают, насколько тихим может быть звук на пороге слышимости человека.

Самое слабое звуковое давление, которое способен воспринимать человек, составляет -8 дБ SPL 11. По шкале А для измерения уровня шума, гул от лампы накаливания в 100 Вт на расстоянии одного метра составляет около 10 дБ SPL, что на 18 дБ громче. Гудение лампы будет намного громче, если подключить её к реостату.

Как пример звукового давления в 20 дБ SPL (что на 28 дБ громче самого тихого звука) часто приводится пустая студия звукозаписи или шумоизолированная комната. Найти место тише достаточно сложно, поэтому вы никогда не слышали шум, издаваемый лампочкой.

###Динамический диапазон 16 бит
16-битная линейная импульсно-кодовая модуляция имеет динамический диапазон в 96 дБ, в соответствии с наиболее общим способом подсчета, когда динамический диапазон вычисляется как (6*кол-во бит) дБ. Многие верят, что 16-битное аудио не передает произвольные звуки тише, чем -96 дБ. Это большое заблуждение.

Ниже я привел две ссылки на 16-битные аудиофайлы. Один содержит звук частотой 1 кГц, при громкости 0 дБ (где 0 дБ – самый громкий звук), а другой – также звук частотой 1 кГц, с громкостью -105 дБ.

  • Сэмпл 1: Звук 1 кГц при 0 dB (16 бит / 48 кГц WAV)
  • Сэмпл 2: Звук 1 кГц при -105 dB (16 бит / 48 кГц WAV)

Выше изображен график спектрального анализа звука громкостью -105 дБ перекодированный в формат 16/48 с помощью ИКМ. Громкость 16-битного аудио с применением ИКМ очевидно ниже 96 дБ, иначе -105 дБ нельзя было бы представить или услышать.

Как такое возможно? Закодировать этот сигнал без искажений так, чтобы он был значительно выше уровня шума, в то время как его амплитуда занимает треть бита?

Часть загадки разрешается за счет правильного псевдослучайного сигнала, что как бы делает шум квантования независимым от входного сигнала. Косвенно, это означает, что такой способ квантования не вносит искажений, а только некоррелированный шум. Это, в свою очередь, означает, что мы можем кодировать сигналы с произвольной битовой глубиной, включая сигналы с пиковыми амплитудами, менее чем одним битом 12. Тем не менее, псевдослучайный сигнал не меняет того факта, что если уровень сигнала опускается ниже уровня шума, то он практически исчезает. Как же звук громкостью -105 дБ по-прежнему различим на фоне шума в -96 дБ?

Ответ таков: мы неверно представляем характеристики шума в -96 дБ. Мы используем неприменимое определение динамического диапазона. Формула (6*кол-во бит) дБ дает нам среднеквадратичный шум всей полосы сигнала, а каждая волосковая клетка чувствительна только к узкому спектру от всей полосы частот. Поскольку каждая волосковая клетка слышит только часть общей энергии шумов, то уровень шума, принимаемый клеткой, будет намного ниже, чем весь диапазон частот громкостью -96 дБ.

16-битное аудио может обладать более глубокой модуляцией, чем 96 дБ, если использовать правильный псевдо-сигнал, который смещает энергию шума квантования в зону, где его сложнее расслышать. На практике 13 16-битное аудио может достигать громкости в 120 дБ.

120 дБ – это больше, чем разница между звуком комара в комнате и отбойным молотком в футе от вас. Или разница между пустой звуконепроницаемой комнатой и достаточно громким звуком, который способен повредить слух в секунды.

16 битов хватает, чтобы хранить весь слышимый спектр, и будет хватать всегда.

###Соотношение сигнал-шум
Стоит сделать небольшое замечание о том, что соотношение сигнал/шум для уха меньше, чем динамический слуховой диапазон. Внутри заданной критической полосы, обычно, сигнал/шум составляет лишь 30 дБ. Отношение сигнал/шум не достигнет рамок диапазона слышимости, даже при условии расширения полосы частот. Это гарантирует, что формат 16 бит ИКМ обеспечивает разрешающую способность сверх необходимого.

Также стоит отметить, что увеличение битовой глубины звука с 16 бит до 24 не увеличивает разрешающей способности и «качество» звука. Это всего лишь расширит динамический диапазон – расстояние между самым тихим и самым громким звуком, за счет снижения уровня шума. Как бы то ни было, 16 бит уже обеспечивают уровень шума, который мы не в состоянии услышать.

###Когда 24 бита имеют значение?
Профессионалы используют для записи музыки 24-битные сэмплы 14 из-за меньшего уровня шумов и по соображениям удобства.

16 бит достаточно, чтобы охватить весь слышимый диапазон с запасом. Но он не охватывает весь возможный диапазон аудио-оборудования. Основная причина использования 24 бит во время записи – это избежание ошибок. Вместо того, чтобы осторожничать, выравнивая 16 бит по центру диапазона, рискуя отрезать верхние частоты или добавить шума, 24 бита позволяют оператору установить примерный уровень и более не думать об этом. Промах на пару бит не влечет за собой никаких последствий, а эффекты, которые динамически сжимают записанный спектр, имеют большее пространство для маневра.

Также инженеру требуется большее 16 бит при смешении сигналов и мастеринге. Современные рабочие процессы могут включать, буквально, тысячи эффектов и операций. Шум квантования и уровень собственных шумов 16-битной выборки могут быть незаметны при воспроизведении, но при увеличении такого шума в несколько тысяч раз, он сразу становится заметным, а 24-битный формат сохраняет накапливающийся шум на очень низком уровне. После того, как музыка готова к записи на диски, нет никаких причин оставлять больше чем 16 бит.

###Тесты на прослушивание
Понимание живет там, где встречаются теория и реальность. Вопрос разрешается только тогда, когда они обе приходят в согласие.

Эмпирические данные, полученные из тестов на прослушивание позволили судить, что 44.1 кГц/16 бит обеспечивает максимально возможное качество воспроизведения. Множество контролируемых тестов подтвердили это, но я рекомендую недавнюю работу «Слышимость стандарта CD, аналогово-цифровое и цифро-аналоговое преобразование, использованное в воспроизведении аудио с высокой разрешающей способностью», проделанную местными ребятами из Бостонского аудио-сообщества.

К сожалению, для доступа к полному тексту работы нужно быть членом Общества звукоинженеров. Тем не менее, эта работа широко обсуждалась во многих статьях и на форумах, авторами, которые туда [в сообщество] входят. Вот несколько ссылок:

В ходе этой работы проводился эксперимент: были отобраны испытуемые, которые выбирали между записями на высококачественных аудио DVD/SACD, подобранными приверженцами звука высокой четкости, чтобы показать его превосходство, и теми же записями, но в CD формате 16/44.1 кГц. Слушателям нужно было выявить какие-либо различия между ними, используя методологию случайного выбора. Бостонское аудио-сообщество проводило эксперимент с использованием высокопрофессионального оборудования в шумоизолированной среде, как с обычными, так и с тренированными слушателями.

Среди 554 попыток, испытуемые выбирали «правильно» в 49.8% случаев. Другими словами, они пытались угадать. Ни один слушатель в течение всего теста не смог опознать, которая из записей была в формате 16/44.1, а какая была звуком высокой четкости 15. А 16-битный сигнал даже не был сглажен!

В еще одном недавнем исследовании 16 изучалась возможность расслышать ультразвук, как предполагали более ранние исследования. Тест был построен таким образом, чтобы максимизировать возможность распознавания, для этого были добавлены интермодуляционные составляющие в места, где они были бы наиболее слышны. Было установлено, что нельзя услышать ультразвуковые волны… но оказалось, что искажения от интермодуляционных составляющих распознать можно.

Эта статья породила череду дальнейших исследований, результаты большей части которых противоречили друг другу. Некоторые неясности были разрешены, когда обнаружилось, что ультразвук может вызывать большее количество интермодуляционных искажений в усилителях мощности, чем ожидалось. Например, Дэвид Гризингер (David Griesinger) провел этот эксперимент 17 и обнаружил, что его акустическая установка не вносила заметных интермодуляционных искажений, но зато их вносил усилитель.

###Читатель, будь осторожен
Очень важно не вырывать отдельные работы или «комментарии экспертов» из контекста или брать их только с ресурсов, интересных вам. Не все статьи полностью соглашаются с этими результатами (а несколько даже не соглашаются с большей частью), поэтому легко наткнуться на мнение меньшинства, которое может доказывать любую точку зрения, которую вы можете вообразить. Несмотря ни на что, статьи и ссылки, приведенные выше, представляют большую важность и серьезный объем знаний и экспериментальных записей. Нет ни одной известной статьи, которая бы прошла испытание временем и поставила бы под сомнение состоятельность этих результатов. Споры происходят только среди потребителей и внутри сообществ меломанов.

Во всяком случае, количество неоднозначных, незаконченных и откровенно несостоятельных экспериментальных результатов, доступных в поиске Google, подчеркивает, насколько сложно провести точное и объективное исследование. Различные ученые ищут всякие мелочи, требуют проводить строгий статистический анализ, чтобы выявить подсознательные выборы, которые непреднамеренно делали испытуемые. Таким образом, мы скорее пытаемся доказать что-то, чего в принципе не существует, что делает положение вещей еще сложнее. Доказательство нулевой гипотезы сродни разрешению проблемы остановки – это нереально. Единственный вариант подтвердить что-то в этом случае – собрать достаточно много эмпирических данных.

Несмотря на это, работы, подтверждающие нулевую гипотезу – это действительно серьезное доказательство; подтвердить «не слышимость» экспериментально гораздо сложнее, чем обсуждать её. Неизвестные ошибки в тестовых методиках и оборудовании почти всегда дают ложноположительные результаты (из-за случайного внесения звуковых различий), а не ложноотрицательные.

Если профессиональные исследователи с таким трудом проводят исследование отдельных аудио-различий, то вы можете представить, как это трудно для любителей.

###Как (ненарочно) испортить результаты звукового эксперимента
Самый «лучший» комментарий, который я слышал от людей, верящих в высококачественное аудио (перефразировано): «Я слышал высококачественный звук лично, и улучшение качества звучания очевидно. Вы серьезно хотите, чтобы я не верил своим ушам?»

Разумеется, вы можете верить собственным ушам. Но дело в том, что это мозг чересчур доверчив. Я не пытаюсь кого-то оскорбить, это проблема всех людей.
####Предвзятое мнение, эффект плацебо и двойное слепое тестирование
Любое испытание, где слушатель может опознать два варианта по любым признакам, кроме как на слух, обычно приводит к результатам, которые слушатель ожидал заранее. Это называется предвзятостью и имеет схожесть с эффектом плацебо. Это означает, что люди «слышат» различия, из-за подсознательных сигналов и предпочтений, которые не имеют отношения к звуку – это как предпочесть более дорогой (или более привлекательный) усилитель более дешевому.

Человеческий мозг устроен таким образом, чтобы подмечать особенности и различия там, где их нет. И эту особенность нельзя отключить, просто попросив человека принимать объективные решения – это происходит на подсознательном уровне. Предвзятость нельзя ликвидировать скепсисом. Контролируемые эксперименты доказывают, что осознание принятия предвзятых решений лишь усиливает эффект! Тест, во время которого не было устранено влияние предвзятых суждений, ничего не стоит 18.

При одностороннем слепом тестировании слушатель ничего не знает заранее о вариантах и не получает никакой обратной связи в ходе испытания. Такое тестирование лучше прямого сравнения, но не исключает предвзятости экспериментатора. Тот, кто проводит тест, может непреднамеренно повлиять на его ход или передать свою собственную предвзятость слушателю неосторожными репликами (например: «Вы уверены, что это то, что вы слышите?», язык тела также может указать на «неправильный» выбор, и заставить сомневаться, и так далее). Влияние предвзятости человека, проводящего тест, на результаты слушателя также было подтверждено экспериментально.

Двойные слепые тесты – это стандарт, в таких тестах ни экспериментатор, ни слушатель не получают какой либо информации о содержании теста и текущих результатах. Наиболее известный пример – это ABX-тесты, проводимые компьютером, которые есть в свободном доступе – их можно запустить на вашем собственном ПК [19]. ABX-тесты подразумевают минимальное количество результатов слухового теста, до достижения которых они считаются неполноценными. Имеющие хорошую репутацию аудио-форумы, такие как Hydrogen Audio, часто запрещают любые обсуждения результатов слуховых тестов, если они не соответствуют минимальным требованиям объективности [20].

Выше изображено рабочее окно Squishyball – простой командной строки инструмента ABX, запущенного в xterm.

Лично я не проводил ни одного качественного сравнительного теста в процессе исследований (неважно, насколько серьезных) без применения ABX. Наука есть наука, тут нет места нерадивости.

####Проделки громкости
Человеческое ухо может сознательно различать амплитудные различия громкости примерно в 1 дБ, и эксперименты показывают возможность определения различий в пределах 0,2 дБ на подсознательном уровне. Люди практически повсеместно считают громкий звук лучше, и 0,2 дБ достаточно, чтобы человек выказал предпочтение. По результатам любого сравнения, в котором неаккуратно выставлены амплитуды, будет наблюдаться явно выраженное предпочтение громкому звуку, даже если различия в громкости малы для того, чтобы осознать это. Продавцы аудио знают об этом трюке уже очень давно.

Профессиональный стандарт тестирования требует различия амплитуд на величину, не превышающую 0,1 дБ. Это часто требует использования осциллографа или анализатора сигналов, потому что подгадывать и крутить ручки, пока звук не совпадет, достаточно нерационально.

####Отсечение сигнала
Отсечение сигнала – это еще одна ошибка (иногда проявляющаяся только с течением времени), которую легко допустить. Может оказаться, что несколько обрезанных сэмплов и их производные сигналы сравниваются с необрезанным сигналом.

Опасность отсечения части сигнала особенно разрушительна в тестах, которые дискретизируют, передискретизируют цифровые сигналы и управляют ими «на лету». Допустим, мы хотим сравнить качество звучания сигналов с частотой дискретизации 48 кГц и 192 кГц. Обычный способ провести такой эксперимент – обеспечить субдискретизацию из 192 кГц в 48 кГц, а затем снова провести повышающую дискретизацию до 192 кГц, после чего сравнить два этих сигнала в ABX-тесте [21]. Такой порядок позволяет нам исключить любую возможность изменения параметров оборудования или подмены сэмплов, влияющую на результаты. Мы можем использовать тот же ЦАП для воспроизведения обоих сэмплов и переключаться между ними без каких-либо изменений в режиме работы оборудования.

К сожалению, большинство сэмплов используют весь цифровой диапазон. Невнимательное применение передискретизации часто может привести к случайному обрезанию звука. Очень важно или следить за отсечением (и отбрасывать обрезанный звук), или избегать его, применяя различные методы: например, ослабление (аттенуацию) звука.

####Другой носитель – другая мастер-копия
Я просмотрел несколько статей и блогов, которые утверждали о достоинствах 24 бит или 96/192 кГц, путем сравнения CD и аудио-DVD с «одинаковыми» записями. Такое сравнение несостоятельно, потому что для этих записей используются разные мастер-диски.

####Непреднамеренные сигналы
Непреднамеренные аудио-сигналы практически неизбежны в старых аналоговых и гибридных цифро-аналоговых тестовых установках. Очевидно, что цифровые установки могут полностью устранить проблему в некоторых формах тестирования, но могут и увеличить количество потенциальных ошибок программного обеспечения. Такие ограничения и баги уже достаточно давно дают ложноположительные результаты в тестированиях [22].

Статья «Цифровые испытания – больше о ABX-тестировании» рассказывает увлекательную историю об удивительном тестировании слуха, проведенном в 1984 году, призванном опровергнуть авторитет меломанов того времени, которые поначалу утверждали, что CD уступает винилу. Статья касается не столько результатов испытания (я подозреваю, вы сможете догадаться, какими они были), сколько хаотичности мира, вовлеченного в проведение такого теста. Например, ошибка со стороны организаторов теста случайно показала, что приглашенный эксперт по прослушиванию делал выбор, основываясь не на качестве звучания, а скорее на различных потрескиваниях, которые производили реле коммутаторов.

Анекдотические истории не заменяют реальные данные, но эта история показывает, с какой легкостью скрытые недостатки могут влиять на слуховые тесты. Некоторые из убеждений меломанов тоже довольно забавны, например кто-то надеется, что многие из современных исследований будут считаться глупыми через 20 лет.

#####Примечания к Части 3

  1. Все знают это чувство, когда перепонки «разжимаются» после выключения громкой музыки.

  2. Несколько отличных графиков можно найти на сайте HyperPhysics.

  3. 20 мПа обычно принимаются за 0 дБ для удобства измерения. Это приблизительно равно порогу слышимости на частоте 1 кГц. На частотах от 2 до 4 кГц ухо настолько же чувствительно как на 8 дБ.

  4. В приведенной ниже статье описано лучшее объяснение сглаживания, что я встречал, хотя она [статья] больше о сглаживании изображений. Но первая половина охватывает теорию и практику сглаживания в аудио, перед тем как перейти к теме изображений. Кэмерон Николас Кристов, статья «Оптимальное сглаживание и ограничение шума на изображениях».

  5. Инженеры, занятые в цифровой обработке сигналов, могли заметить, как это сделал мой всезнающий соотечественник, что 16-битное аудио, в теории, может иметь бесконечный динамический диапазон для чистого звука, если вы воспользуетесь бесконечным рядом Фурье, чтобы преобразовать его. Эта концепция очень важна для радиоастрономии.
    Хотя работа уха не сильно отличается от преобразования Фурье, его разрешение относительно ограничено. Это накладывает ограничение на максимально возможную битовую глубину 16-битных сигналов.

  6. В производстве цифровой музыки используют 32-битные числа с плавающей точкой, потому что это очень удобно для современных процессоров, и потому что это полностью устраняет вероятность того, что случайное обрезание останется незамеченным и погубит композицию.

  7. Несколько читателей хотели узнать как тест Майера и Морана в 2007 году мог дать нулевой результат, если ультразвук может вызывать интермодуляционные искажения?
    Должно быть очевидно, что «мог» и «иногда» не то же самое что «смог» и «всегда». Интермодуляционные искажения от ультразвуковых волн могут появиться, а могут и не появиться в любой системе, при любом наборе условий. Нулевой результат Майера и Морана означает, что интермодуляционные искажения были неслышны на системах, которые они использовали во время теста.
    Вниманию читателей предлагается ознакомиться с простым тестом на определение интермодуляционных искажений, и определить интермодуляционный потенциал их собственного оборудования.

  8. Кару и Шого (Karou and Shogo), статья «Определение порога для звука, частотой выше 22кГц» (2001). Материал номер 5401, представленный на 110 собрании 12-15 мая 2001 года в Амстердаме.

  9. Дэвид Грезингер, статья «Восприятие средних частот и интермодуляционные искажения высоких частот в динамиках, и их взаимодействие с аудиозаписями высокого разрешения».

  10. Со времени публикации несколько комментаторов отправили мне похожие версии одного анекдота (перефразировано): «Я как-то слушал какие-то наушники/ усилители/ записи ожидая результат А, но был очень удивлен, когда пришел к результату Б! Доказано: предвзятость – это чушь!» Я могу сказать две вещи. Во-первых, предвзятость суждения не заменяет все верные результаты на неверные. Она склоняет результаты в труднопредсказуемом направлении на неизвестную величину. Как вы можете утверждать, что верно, а что – нет, наверняка, если тест был сфальсифицирован вашим подсознанием? Скажем, вы ожидали услышать большую разницу, но были удивлены, услышав малую разницу. Что если там не было разницы совсем? Или разница есть, но будучи осведомлённым о возможной предвзятости, ваш благонамеренный скептицизм скомпенсировал ваше мнение? Или, может быть, вы были совершенно правы? Объективное тестирование, например ABX, устраняет все эти неопределенности. Во вторых: «Вы думаете, что вы не судите предвзято? Отлично! Докажите это!» Значимость объективного теста заключается не только в его способности убедить нас, но и в способности убедить в этом других. Заявления требуют доказательств. Чрезвычайные заявления требуют экстраординарных доказательств.

  11. Наверно, самые простые инструменты для ABX-тестирования: Foobar2000 с ABX-плагином
    Squishyball и инструмент командной строки Linux, которым пользуемся мы в Xiph

  12. На Hydrogen Audio, аббревиатура TOS8 (objective testing requirement) обозначает необходимое условие тестирования, цифра 8 обозначает восьмой пункт условий предоставления услуг.

  13. Принято считать, что передискретизация наносит непоправимый вред сигналу. Это совсем не так. По крайней мере, до тех пор, пока кто-то не допустит ошибку, например, обрезав сигнал. Субдискретизированный, а потом дискретизированный снова сигнал будет неотличим от оригинала. Это обычный тест, используемый для установки более высоких параметров дискретизации, что не обязательно.

  14. Это, может быть, не связано напрямую со звуком, но… нейтрино что, быстрее скорости света, серьезно?

4 лайка

Наконец, хорошие новости!

Что же нужно, чтобы улучшить качество цифрового звука, который мы слушаем?

Лучшие наушники

Самый простой способ – не цифровой. Наиболее сильным улучшением качества звука за деньги становится хорошая пара наушников. Накладные или внутриканальные наушники, наушники открытого или закрытого типов – по большей части это не имеет значения. Они даже не обязательно должны быть дорогими, хотя дорогие наушники могут стоить своих денег.

Помните, что некоторые наушники дорогие, потому что они хорошо сделаны, прочны и отлично звучат. Другие дорогие, потому что это наушники за $20, которые стилизованы на несколько сотен долларов, разрекламированы и носят название какого-нибудь бренда. Я не дам никаких конкретных рекомендаций, но скажу, что, скорее всего, вы не найдете хороших наушников в больших магазинах техники, даже если они специализируются на музыкальном оборудовании.

Формат со сжатием без потерь

Можно считать правдой, что правильно закодированный OGG-файл (или MP3, или AAC) будет неотличим от оригинала при умеренном уровне квантования.

Но что насчет плохо закодированных файлов?

Двадцать лет назад все MP3-кодировщики были очень плохими по современным стандартам. Множество этих плохих кодировщиков все еще используются, предположительно из-за того, что лицензии на них дешевы, а большинство людей не различает или не заботится о разнице звучания. Зачем компаниям тратить деньги и исправлять что-то, если люди даже не знают, что оно работает недостаточно хорошо?

Если перейти к более новым форматам, например Vorbis или AAC, то принципиально ничего не изменится. Например, множество компаний и отдельных людей использовали (и все еще используют) низкокачественный стандартный кодировщик Vorbis от FFmpeg, потому что он поставляется по умолчанию с FFmpeg, и им без разницы, насколько он плохой. У AAC еще более длинная история широко распространённых низкокачественных кодировщиков, которые использовали для сжатия с потерями всех основных форматов.

Форматы со сжатием без потерь, такие как FLAC исключают любую возможность навредить качеству звучания [23] плохим кодировщиком, или даже хорошим, но использованным неправильно.

Вторая причина распространения форматов без потерь – стремление избежать потерь в будущем. Каждое кодирование и перекодирование теряет все большее количество информации, даже если первое кодирование было идеальным, очень вероятно, что после второго кодирования появятся звуковые артефакты. Это важно для тех, кто хочет сделать ремикс или музыкальную выборку. В особенности это важно для нас, исследователей кодеков, нам нужен чистый звук для работы.

Лучшие мастер-диски

В тесте, проведенном БАС, о котором я говорил выше, вскользь упоминалось, что SACD-версия записи может звучать значительно лучше, чем CD. Так получается не из-за увеличенной частоты дискретизации или уровня квантования, а из-за того, что для создания SACD используется мастер-диск более высокого качества. При записи на CD-R, SACD все равно звучит так же хорошо как оригинальная SACD, и лучше чем CD, потому что оригинальный звук, примененный для записи SACD, был лучше. Хороший мастеринг и методики производства, очевидно, вносят свой вклад в качество музыки [24].

Недавно освещавшийся в прессе «Мастеринг для iTunes», и другие подобные инициативы от прочих лейблов несколько обнадеживают. Что еще предстоит увидеть, так это: действительно ли Apple и другие все-таки «займутся проблемой», или это – обычная приманка для того, чтобы продать потребителям музыку, которая у них уже есть, но подороже.

Окружение

Еще одна «уловка для повышения продаж», на которую купился бы и я – это «объемные» записи. К сожалению, здесь есть некоторые технические опасности.

Старомодный дискретный «объемный звук» с несколькими каналами (5.1, 7.1 и т.д.) – это техническая реликвия, использовавшаяся еще в 1960х годах в кинотеатрах. Однако объемная картинка ограничена, и звук ближних динамиков искажается, когда слушатель сдвигается с позиции или садится не туда изначально.

Мы можем восстановить и создать отличные и надёжные системы определения местоположения, используя такие инструменты как Ambisonics. Проблемами становятся стоимость оборудования для воссоздания объёмного звука и тот факт, что запись, закодированная для естественного звукового поля, звучит плохо при воспроизведении в стерео и не может быть воссоздана искусственно должным образом. Очень сложно подделать амбифонический звук или голографическое аудио, эффект будет как у 3D – оно превращается безвкусный трюк и укачивает 5% населения.

Бинауральный звук также очень сложен. Вы не можете сымитировать его, потому что он звучит для разных людей по-разному. Люди подсознательно двигают головой, чтобы лучше отследить источник звука, без этого они не могут определить его местоположение. Это нельзя учесть на бинауральной записи, хотя в зафиксированной обстановке добиться этого все же можно.

Это вряд ли непреодолимые технические препятствия. Дискретное объемное аудио уже доказало свою востребованность на рынке, и я сам лично восхищен возможностями, предлагаемыми Ambisonic.

Кода

«Меня никогда не беспокоила музыка как таковая,
Самый сок был в её качестве!»
– Фландерс и Свон, «Песнь воспроизведения»

Самое главное – это наслаждаться музыкой, так? Современное качество воспроизведения несравнимо лучше, чем хорошие аналоговые системы прошлого поколения. Неужели этот вопрос – еще одна проблема первого мира? Возможно, но плохие миксы и кодировки утомляют меня, отвлекают меня от музыки, и я такой не один.

Почему я выступаю против 24/192? Потому что это решение проблемы, которой нет – это бизнес-модель, построенная на невежестве, с целью обмануть людей. Более того, псевдонаука ходит по миру незамеченной, и тем сложнее правде затмить правдоподобность. Даже если это небольшой и совершенно незначительный пример.

«Мне кажется, что гораздо лучше понять вселенную, как она есть, чем упорствовать в заблуждении, пусть и удовлетворительном и обнадеживающем»
– Карл Саган (Carl Sagan)

Что еще почитать

Читатели дали мне ссылки на парочку отличных работ, о которых я не знал перед написанием моей собственной статьи. Они затрагивают многие из тех же вопросов, но более подробно.

Материал «Кодирование высококачественного цифрового звука» Боба Стюарта из Meridian Audio – невероятно ёмко, хотя и длинно. Наши выводы несколько отличаются (он принимает как должное немного более широкий частотный диапазон и битовую глубину без особых оснований), но мысль его ясна и ей легко следовать. [Правка: могу не согласиться со многими другими его работами, но эта мне сильно нравится]

Статья «Цифровое аудио. Теория дискретизации» Дэна Лаури (Dan Lavry) из Lavry Engineering – еще одна статья, которую выделили несколько читателей. Она объясняет мои две страницы о дискретизации, передискретизации и фильтрации более подробно на 27 страницах, с множеством графиков, примеров и ссылок.

Стефан Пиджен (Stephane Pigeon) с audiocheck.net написал слуховые тесты, доступные в браузере, и разместил их на сайте компании. Набор тестов пока относительно небольшой, но некоторые имеют непосредственное отношение к контексту данной статьи. Они хорошо работают, и я счел их качество довольно неплохим.

Примечания к Части 4

23.Журнал Wired полагает, что форматы со сжатием без потерь, такие как FLAC, не всегда являются действительно форматами без потерь:

Некоторые борцы за чистый звук вообще предложат не обращать внимания на FLAC и сразу купить WAV. […] Купив WAV, вы можете избежать потенциальных потерь, которые могут возникнуть при преобразовании во FLAC. Это редко, но случается.

Это неправда. Процесс сжатия без потерь никогда не изменяет исходные данные, ни при каких условиях, и FLAC не исключение.

В том случае, если Wired имели в виду аппаратные повреждения файлов (сбои дисков, потери памяти, пятна на солнце), то и WAV, и FLAC будут повреждены. Вот только FLAC имеет контрольные суммы, и повреждение может быть отслежено. Также FLAC занимает меньше места, чем WAV, что уменьшает возможность случайного повреждения, потому что данных, которые могут быть повреждены, меньше.

24.«Войны громкости» – это наиболее часто приводимый пример плохого мастеринга в современной индустрии, хотя далеко не единственный. Громкость – это гораздо более старый феномен, чем утверждает Википедия, ведь еще в 1950-е годы артисты и продюсеры настаивали на самых громких записях. Производители оборудования исследовали и создавали новые технологии, чтобы угодить производителям записей. Более продвинутое оборудование для мастеринга винила в 1970х и 1980х годах, например, отслеживало и уплотняло границы дорожек там, где это возможно, что давало возможность записывать более высокие амплитуды, чем обычно позволяло пространство пластинки.

Современные цифровые технологии позволяют поднять громкость до абсурдных уровней. Также существует разнообразие автоматических, очень сложных запатентованных модулей цифровых станций, которые развертываются повсеместно, без полного понимания того, как они работают или что же они делают на самом деле.

4 лайка

Но есть и альтернативные мнения :grin:

Люди реально упоролись и исписали 159 страниц, доказывая слышно или нет. На 156 странице есть ссылка на документ AES (Общество Аудио Инженеров) — “The audibility of typical digital audio filters in a high fidelity playback system” (Различимость типичных цифровых аудиофильтров в систамах проигрывания высокого разрешение). В

Эта работа описывает результаты прослушиваний, в которых исследовали различимость разных цифровых фильтров в аудио-системах высокого разрешения. Различия между отфильтрованных и исходным сигналом были проверены непосредственным сравнением через двойной слепой тест.

Результат работы фильтров ровно такой как после сглаживающих фильтров A/D (analog-to-digital), применяемых в мастеринге.
Последующие тесты выявляли различие 16-битного квантирования с и без прямоугольным дизернгом.
Результаты указавают на то, что слушатели восприимчивы к незначительным вариациям в сигнале, вызванными этими фильтрами и квантированием. Два главных вывода — существует различимые сигналы, которые не могут без потер переданными через стандартный CD, аудио-система для таких экспериментов должна обладать достаточной разрешающей способностью

1 лайк

А вы-то как? Слышите разницу :grin:

2 лайка

Я придерживаюсь мнения, что слышно только разницу в мастеринге. А от величины квантования и частоты дискретизации ничего не меняется. Особенно это заметно на винил-рипах. У некоторых и 16/44,1 звучит как надо, а другие делают 32/192 которые звучат не очень.

8 лайка

Вообще-то слышу. И дело не в мастеринге, так как использую один и тот же оригинал, но с высокой частотой дискретизации, которому делаю даунсемплинг.

Как говорят нам британские ученые, большинство не могут отличить 16 и 24 бита.
Сам я слышу повышенную лохматость 24-битного звука. Не знаю, насколько это лохматость полезная, нет у меня такой музыки.

1 лайк

Интересное выражение “лохматость звука”. Мне не совсем понятно.
У меня не было возможности сравнить один и тот же рип с разной битностью, но одинаковой частотой дискретизации, поэтому спорить не буду.
А вот повышение частоты дискретизации слышно, но до определённых пределов.

P.S.
ГЫ! “Британские учёные доказали, ну и молодцы”. Это выражение я слышу каждый день в рекламе Первого делового радио, которое часто слушаю.

1 лайк

Лохматость — это такая шершавость и раздвинутое пространство между звуками. Не уверен, что это хорошо. Вообще 16 против 24 — это уже сильно.

Можно начать теста Lossy против Lossless — http://test.tidalhifi.com/intro :grinning: и выбить там 5 из 5.

1 лайк

А еще один тест — «Слышите ли вы разницу / How Well Can You Hear Audio Quality?»

Пройти тест — http://www.npr.org/sections/therecord/2015/06/02/411473508/how-well-can-you-hear-audio-quality (подсказка — прибавьте громкость)

4 лайка

Я придерживаюсь мнения, что слышно только разницу в мастеринге. А от величины квантования и частоты дискретизации ничего не меняется. Особенно это заметно на винил-рипах. У некоторых и 16/44,1 звучит как надо, а другие делают 32/192 которые звучат не очень.

кач-во винил рипа так же зависит от тракта с которого все рипается. именно в тракте вся беда и кроется.

часто АЦП не виноваты в том что пользователь задал более хайрезный битрейт. И совсем не правило , что в той же самой системе оцифрованное в 16\44 будет звучать лучше, тк косяки и там и там прекрасно слышатся и ловятся оцифровочными железяками.
Эти цифровые АЦП железячки , если они и правда адекватные и приличные тупо делают свою работу, А именно цифруют шизанутый , дефектный, своеобразный, вывихнутый итд… тракт того или иного владельца. Именно поэтому битрейт и хайрезность тут не мирило адекватности звука.
И конечно же 44\16 для бытовых музыкальных нужд можно и не перешагивать. Но люди своим перфекционизмом выплескивают из звука самое основное и важное. А АЦП или магнитофоны просто фотографируют и фиксируют эти недостатки. Но и фотоаппаратом тоже надо уметь пользоваться. Короче причин много почему их оцифровки в хайрезе звучат странно. Часто причины это не поборенные косяки систем. Или следствия подачи того или иного компонента включая кабели итд… Короче надо увеличивать не битрейт и хайрезность оцифровки , а для начала отстроить тракт чтобы все рабьотало фигачело звучало и взаимодействовало внутри музыки. Чтобы мэссаджи не искажались итд… А потом уже цифровать. И все равно я не вижжу смысла переходить границы 16\44. Ну разве из за спортивного интереса и если гектаров на хард диске не жалко. Но думаю рано или поздно это должно отпустить.

Еще самое смешное порой бывает в том, что более простые и суровые парни в 16\44 на том же рутрекере делают более адекватные оцифровки используя например техникс 1210 с дж головой и пульт в качестве фонокоректора. Цифруя карточной типа джулия или майя 44 или другими многофункциональными полу-проф. интерфейcасми типа digidesign итд… сочленяя все без оглядки на кабельную аудиофилию (простые какие то провода)
. Короче везде нужны руки и голова или просто случайность, которая завсит часто от примененных отработанных в нужном порядке технических решений и совпадении звезд (это оч. редко конечно но бывает)

Я как то купил под стирание басфовские ленты на куатушник. Там был записан прогрессив рок в основном, то есть по мне идеальней варианта под стирание не найти. Так вот музыка на этих лентах не смотря на красивости и всякие гламурности и рассыпчатости вч итд. звучала не динамично и рыхло.
Мне кажется магнитофон прошлого владельца тут вряд ли виноват. Он просто сделал честно свою работу , записал на ленту тракт владельца со всеми его несовершенностями в динамическом плане. Баланс микро-макро был явно нарушен, а когда это происходит слушать ни чего не хочется. Стирать , переписывать и точка.

1 лайк

Круть! :grin:

Есть и другие мысли о Hi-rez, привожу ссылку, т.к. не смог скопировать сюда статью вместе с иллюстрациями, а только текст не так информативен.
http://pcaudiophile.ru/index.php?id=388

1 лайк

В разрезе хайреза интересно выглядит и MQA

http://www.dastereo.ru/t/ya-uslyshal-budushhee-potokovogo-audio-eto-meridian-mqa?source_topic_id=127

Думаю, выложат ли видео на Youtube с лекцию с RMAF 2015 идеолога этой штуки Bob Stuart.

Один определил только правильно.

Прошел, наконец-то, тест. 3 определил правильно.

Запутался с редактированием))) Да, громкость нужна побольше, но КДП пока не позволяет, особенно по НЧ. Нет, я давно знаю чем болеет комната. Тест хорошо так напомнил, что пора ремонт делать)))

WAV угадал 1 раз
Остальные 5 уверенно 320 кб/с.
Это с планшета. :slight_smile: