🏯 ЦАПы без передискретизации и цифровых фильтров (1996-1997)

CCCiP · 16.Январь.2020 11:39:35

Концепт ЦАПа без передискретизации и цифровых фильтров

Риохеи Кусуноки

Главное - оригинальный CD формат 44.1кГц/16 бит

Довольно захватывающе создавать что-то новое. Кто-то сразу хватается за паяльник, другие же сознательно начинают с моделирования. У каждого есть свой собственный подход. В моем случае это началось с азов, изучения истории и воссоздания в своей голове целой картины. В самом начале этого проекта я проштудировал почти все доступные мне источники до которых смог только добраться.
Так как на горизонте начало появляться новое поколение CD формата (вероятней всего имеется в виду SACD), я подумал что базовым концептом будет “оригинальный CD формат 44.1кГц/16 бит”. CD у нас в руках содержит в точности те же данные, бит в бит, как и мастер, подготовленный на студии. Это конечно несколько утрированно, но довольно верно. Любые много битные или высоко сэмплированные данные не имеют смысла, если только не превосходят этот уровень точности.

Насчет отсутствия передискретизации (NOS)

После изучения утверждения выше, я пришел к заключению что довольно сложно осуществить нужную передискретизации даже теоретически, используя современные технологии.

1) Передискретизация и Джиттер

Оцифровку звука можно представить как функцию с двумя осями. ВременнУю ось и амплитудную. В случае CD формата они будут 44.1кГц и 16 бит. Проще говоря, мы размещаем данные амплитуды на одну из “ступенек” 16 битной оси каждые 22.7мкс. Это даст нам максимальную погрешность в +0.5 LSB (самого последнего и малозначительного бита из 16) и наш цифровой звук будет оцифрован с этой погрешностью изначально. Но эта погрешность будет существовать только по оси амплитуды и никак не будет влиять на ось времени. Давайте представим что точность 16 бит означает как точно передается акустическая энергия (время помноженное на амплитуду), т.е. разложена на каждую из ступенек 16и бит. Затем, что бы сделать данные амплитуды более точными, мы можем распределить нашу погрешность и по оси времени. Даже если мы распределим половину возможной погрешности, то 1 ÷ 44.1kHz ÷ 2^16 ÷ 2 = 1.73 (пс). Это и будет максимальное значение приемлемой погрешности (или же максимальным значением джиттера)

[диаграмма 1]
приемлемая погрешность 44.1/16

Это то что касается нашей базовой частоты и битности сэмплирования. Если же мы будем использовать например 8и кратную передискретизацию и 20 бит данных, то это значение составит уже 1.35пс:

[диаграмма 2]
приемлемая погрешность 44.1*8=352.8/20

Это уже будет невозможно достичь отдельным ЦАПом, которому нужно восстанавливать клок из ФАПЧ (PLL). Это значит что при передаче данных со средним значением джиттера, передискретизация даже теоретически не может работать и будет приводить к понижению точности исходных данных. Или же коротко - при использовании такого оверсэмплинга входных данных, 16 бит точности уже не достаточно.

2) Передискретизация и большая битность

Изначально оверсэмплинг был разработан для возможности использования аналогового фильтра с плавным спадом в качестве пост-фильтра и что бы не увеличивать количество входной информации. Многие это до сих пор не понимают.
Принцип самого популярного цифрового фильтра с конечной импульсной характеристикой (FIR) это сдвиг поступающих данных и наложение их друг на друга, а не создание новых.

[диаграмма 3]
Принцип работы цифрового фильтра с конечной импульсной характеристикой (FIR)

Когда такой фильтр накладывается на оригинальные данные умножая их по сути на коэффициент наложения, появляется новая информация не укладывающаяся в 16 бит и для ее извлечения нам нужна большая битность обработки.
Для примера возьмем хороший цифровой фильтр SM5842. Он обрабатывает данные в 32 битах и округляет своим собственным выходным фильтром до 20и бит, создавая большее количество ошибок в процессе повторного квантования. Сравнительно недавно с этой проблемой справились, создав фильтр который работает с 8-кратным оверсэмплингом. Но даже с ним, до тех пор пока вы не будете выводить длину поступающих данных как есть, без изменения, вы не сможете избежать ошибок квантования. Звучит довольно резко, но если учитывать эти ошибки, то 16 бит без оверсэмплинга будут точнее чем 8и кратных оверсэмплинг и 20 бит.

А что же будет если мы откажемся от оверсэмплинга? В теории, шумовая составляющая будет повторяться бесконечно все дальше и дальше по частоте и обычный ответ будет “звучать это будет плохо”.

[диаграмма 4]
шумовая картина

Но так ли это? Это не имеет никакого отношения к “теореме Шэннона” и я не собираюсь ее опровергать. Теорема Шэннона оперирует с теорией сэмплирования при передаче информации. Я же говорю о восприятии информации. Это было бы так, если бы я сказал “наш слуховой аппарат ограничен мощным низко-частотным фильтром и к нему применима теорема Шеннона”. Моя же задача скорее для тех, кто слушает звук расчетами и осциллографами.
Альтернативный способ мышления, что если человеческое ухо не может слышать шумы квантования, то специальное оборудование может и ощутит на себе такое влияние.
Однако, 8и кратный оверсэмплинг и цифровой фильтр может отрезать частоты между 22.05кГц и 330кГц. Все что выше 330кГц будет проходить без фильтрации, и это будет значить что эффект будет определяться реакцией такого оборудования на составляющие выше 330кГц. Предполагаю, что если не будет влияния от 100кГц синуса, то не будет никаких проблем.

Проблемы цифровых фильтров

Следующая диаграмма показывает принцип работы самого популярного цифрового фильтра типа FIR.

[диаграмма 5]
Цифровой фильтр с конечной импульсной характеристикой (FIR)

“T” является блоком задержки для каждого интервала сэмплирования, “а” - коэффициент умножения и “+” - сумматором. После задержки входных данных, они умножаются с выбранным коэффициентом и этот процесс повторяется “n” раз. Эта “n” называется “количеством отсчетов”. Чем большее у нее значение, тем точнее будет работа фильтра. Блоки задержки на данной схеме не рассчитывают время новых данных, а ждут прихода следующих данных. Инстинктивно эту диаграмму сложно понять, я в общем-то тоже не смог. Но однажды, я просто представил на ее месте реализацию в железе.

[диаграмма 6]
Цифровой фильтр с конечной импульсной характеристикой (FIR), в этом случае SM5842

Блок задержки заменил на задержку скорости распространения звука, умножители на аттенюаторы, а сумматор просто синтезировал в пространстве. Количество динамиков показывает количество отсчетов. Эта диаграмма показывает вычисления при прохождении сигнала от CD, через высокоточный SM5842. Приведенные на диаграмме значения соответствуют реальным, при прохождении таких данных в железе. Т.к. частота семплирования CD у нас 44.1кГц, каждая задержка при однократном семплировании равна 22мс на отсчет. Для достижения восьмикратного сэмплирования, SM5842 повторяет двухкратное сэмплирование 3 раза, где каждый шаг включает в себя сдвиги фазы на 169 градусов (2х кратное), 29 градусов (4х кратное) и 17 градусов (8и кратное). Суммарная задержка для каждого шага будет равна 1.92мс, 0.16мс и 0.05мс, т.е. в итоге получаем 2.13мс.
Наша слуховая система делает частотный анализ с интервалом в 2мс и задержка в 2.13мс уже может быть услышана.
Если взять скорость звука (346м/с), тогда длинна такой цепочки динамиков с диаграммы 6 составит 737мм. В ней расстояние между соседними динамиками показано как общая задержка, поделенная на общее количество отсчетов.
Теперь представьте как такая система будет воспроизводить музыку. Все воспроизводимые ноты будут смешиваться, перекрывать друг друга и рассеиваться. Я бы выразил подобное распространение звука по оси времени как “размытие звуковой согласованности”. К сожалению, эта проблема касается не только систем воспроизведения, но так же повсеместно и при записи.

[диаграмма 7]
Когда SM5815A используется как половинчатый делитель

Диаграмма 7 - это то что получится если в диаграмме 5 заменить оборудование на записывающее. Если вы когда-либо слышали что цифровая запись не содержит самой сути музыки, посмотрите на нее внимательнее. В принципе, одно микрофонная запись с использованием цифрового фильтра является нонсенсом. Придет время, когда в будущем когда качество работы цифрового фильтра будет оцениваться не по его характеристике спада, но так же насколько мало в нем отсчетов. Если цифровой фильтр это необходимое зло, то мы должны хотя бы ограничить общую задержку меньше 2мс при записи и воспроизведении, так что бы его не почувствовал наш слух.

Звучание при отсутствии передискретизации (NOS)

Мы сможем контролировать то самое “размытие звуковой согласованности” только если будем использовать меньшее количество отсчетов. С этой точки зрения Wadia decoding computer (13 отсчетов) или бывший Luxmann’овский Fluency DAC, DA-07 (3 отсчета) считаются очень удачными машинками. Они обе получили (Wadia до сих пор получает) выдающиеся оценки в свое время за их чувственную подачу музыки. А звучание NOS ЦАПа будет дальнейшем их развитием и в теории может быть еще лучше.
Разница между NOS ЦАПом и обычным ЦАПом с цифровым фильтром кроется в том, придаете ли вы значение точности работы их временной или частотной составляющей. Т.е. другими словами - вы предпочитаете музыкальные способности или делаете упор на качество воспроизведения. Линия разграничения и определяет границы современного формата цифрового звука.
Натуральное и ненапряжное воспроизведение, которое передает замысел музыканта прямо к вам. Это и есть NOS. Ощущение от такого звука весьма похожи на аналоговую подачу.

Представляем клок без ФАПЧ (Non-PLL)

Мы все еще можем слышать характеристики каждого цифрового транспорта, даже если сведем чувствительность к джиттеру на минимум используя NOS. Это пока мало исследованная область сегодняшнего формата цифрового аудио. Фундаментальное преимущество цифры, как качества звука не зависящего от формы передачи здесь просто рассыпается в пух и прах. Но это потому, что создание временной оси из наших входящих данных происходит на принимающей стороне из ФАПЧ (PLL). Это неизбежная данность текущих форматов цифрового звука, которая требует слова синхронизации. Часто этот факт неверно воспринимается, как будто ось времени тоже цифровая, потому как принимает дискретные значения после сэмплирования, но на самом деле она полностью аналоговая. Когда временная ось искажается, то так же искажается аналоговая и сама форма сигнала.
Но что произойдет, если мы будем читать данные используя собственный клок на приемнике? В таком случае синхронизации с передатчиком не получится и наш сигнал распадется на части. Я пробовал делать ре-клок с отдельным клоком без PLL, после того как цепь была синхронизирована с помощью PLL.

[диаграмма 8]
Комбинированный ре-клок

Клок без PLL 50МГц
Клок PLL на 2.8224Мгц (44.1кГц * 64фс)
Пульсации ре-клока

При такой схеме, колебания PLL клока в 1 цикл полностью поглощены и не передаются в итоговую форму сигнала. Но любые колебания больше, даже длительностью в 1пс усиливаются до одного полного цикла. Это происходит довольно часто, из-за разницы частот между PLL и не-PLL клоков. В случае наших 50Мгц не-PLL клока, это 20нс на каждые 0.1мс. Ну или больше чем 100 раз 16 битной разрядности.
Но как это звучит? Ноты разбиваются или прыгают вперед друг друга и это невозможно слушать? Вообще-то как раз напротив, и не только это; получается очень реалистичное звуковое поле. Определенная звуковая атмосфера разворачивается в КДП, заставляя вас думать что вы на одной сцене с исполнителями, передает вам даже напряжение и расслабление музыкантов.
Этот опыт заставил меня задуматься что возможно человеческое ухо нечувствительно к джиттеру. Вне зависимости от того, будет ли у нас большой или маленький джиттер - это не является проблемой. Настоящая проблема - четкие колебания временной оси, вызванные работой PLL. Получается что наиболее важна сама структура джиттера, включая временную ось, а не его количество.
Однако вернемся к теме слышимости разных характеристик цифровых транспортов. Я подозреваю что мы слышим эффект оригинального джиттера, обнаруживаемого клоком без PLL и его наложением на ритмическую составляющую.

Измерения

Диаграмма 9 показывает частотные характеристики (с эмфазисом и без)

[диаграмма 9]
Частота

Выглядит как измерения лампового усилителя. Спад на НЧ вызван узким диапазоном самого анализатора, потому как я получал одинаковые результаты с разнообразными CD плеерами, которые у меня были (хотя спецификация прибора заявляет 20Гц-100кГц). Спад на ВЧ вызван апертурным эффектом (искажении формы сигнала и уменьшении глубины модуляции при переходе к мелким деталям).

Диаграмма 10 показывает нам синус 1кГц по уровню -20дБ

[диаграмма 10]
ЦАП NOS

Для сравнения, тот же самый синус через обычный цап с цифровым фильтром на диаграмме 11

https://www.sakurasystems.com/image/figure11.jpg
[диаграмма 11]
Обычный ЦАП

Заметные ступеньки, которые можно видеть, сформированы гармониками свыше 20кГц и не могут быть услышаны нашим слухом.

Далее у нас синус 20кГц по уровню 0дБ на диаграмме 12

https://www.sakurasystems.com/image/fig12.gif
[диаграмма 12]
ЦАП NOS

И для сравнения то же самое на обычном ЦАПе с цифровым фильтром

https://www.sakurasystems.com/image/fig13.gif
[диаграмма 13]
Обычный ЦАП

На диаграмме 12, похоже что прямоугольный сигнал на 22кГц находится под амплитудной модуляцией на частоте 4 кГц и мы не видим именно 20кГц. Я не уверен что он будут восприниматься как 20кГц, когда будет отфильтрован нашим слухом. Хотелось бы услышать мнение на этот счет от профессионалов психо-акустики. Берите во внимание и ограничение частотного восприятия человека (около 200Гц), так что не стоит переживать об амплитудных модуляциях в 4кГц.

https://www.sakurasystems.com/image/fig14.gif
[диаграмма 14]
Импульсный отклик

Теперь посмотрим на импульсный отклик на диаграмме 14. Здесь для сравнения наложены друг на друга оба сравниваемых ЦАПа.
Сверху, где импульсный отклик смотрит вниз у нас NOS ЦАП. С пассивным преобразованием I/V, только если вы не инвертировали данные где-то раньше в схеме, он идет в противофазе. Не смотря на то что сравниваемые ЦАПы показывают знакомую форму сигнала, NOS ЦАП показывает отличные результаты. Срез сверху (снизу?) вызван применением НЧ фильтра (160кГц во время измерений). Колебания или “эхо” до и после пика на нижнем графике как раз и вызывают то самое “размытие звуковой согласованности”. Я не говорю что вы услышите настоящее эхо как есть, а имею в виду что процесс образования сигнала сам по себе является проблемой. Если изучите этот сигнал более пристально, то увидите еще больше волнистых колебаний до и после каждого “эхо”.
* Диаграммы представленные здесь сделаны на прототипе ЦАПа Мистера Кусуноки, а не ЦАПа PROGRESSION

Комментарий о новых цифровых форматах

Связь между звучанием и измерениями до сих пор остается загадкой. Вы не добьетесь хорошего звучания, просто гоняясь за количеством нулей после запятой в коэффициенте искажений или сильно задирая частотный диапазон. Однако в цифровых форматах звука следующего поколения, главным преимуществом для лучшего звучания будет объявляться квантование разрядности и частоты сэмплирования. Но это будет означать лишь снижение искажений и расширение частотного диапазона.
Появление CD как нового формата хранения музыки было эпохальным событием после эры виниловых пластинок. Он позволял получить качество студийных мастер лент у себя дома. Это была спайка усилий многих инженеров того времени. По сравнению с этим, новое поколение CD предлагаемых сегодня, всего лишь задрать скорость передачи данных, несколько напоминающая идею элькассет (формат записи на ленту от Sony, который был представлен как «высококачественная» альтернатива компакт-кассете). Жизненный цикл такого формата будет довольно коротким. То что нам по настоящему нужно, это точно понимать достоинства и недостатки текущего CD формата и на основании их создать новый, который будет соответствовать нашему слуху.

(эта отредактированная версия статьи Мистера Кусуноки из 3 частей, которая была опубликована в журнале MJ с Ноября 1996 по Декабрь 1997, оригинальный перевод Йоши и Айрин Сегоши)
Оригинал:
https://www.sakurasystems.com/articles/Non-oversampling-DAC.html

Dmitry · 16.Январь.2020 11:43:59

Как раз пару недель назад оригинал изучал

Всё бы хорошо с NOS, но искажения и (соответственно) окрас звука - слишком велики (речь о 16/44 конечно, выше - лучше).

CCCiP · 16.Январь.2020 11:46:35

Но звучат-то хорошие NOS цапы действительно отменно, этого не отнять.
Ну и сама статья довольно прорывная, особенно в 1996 году-то

odessa · 16.Январь.2020 11:58:43

Это очень интересная тема, спасибо.
И сегодня, не менее актуальна и интересна. Т.к. по мему скромному мнению, все пошло совсем не так. Интерфейсы больше похожи на компромиссы а не правильную передачу информации, дельтасигма цапы, на огромных частотах, вымеренные, посчитанные но играющие искусственно.
Для себя пытаюсь слушать систему где 16/44 информация законсервированная в CD, по самому короткому пути без потерь без ресемплинга, без оверсемплинга переводится в аналог. По результатом, точно слышу это самое правильное направление. Так для себя решил и слышу. Так играет правильно. У меня нет проблем что семплов мало, мне важно чтоб те что есть, были в аналоговом сигнале на своих местах как и записаны. Не больше, не меньше. Не добавлены новые (ни один алгоритм не добавит их точно). Готов терпеть не оптимальный, не вылизанный не отфильтрованный звук, но правильный. Как винил, и шум и щелчки, по барабану, его хочется слушать и в нем растворявшся. С CD (цифроой) все тоже самое, семплов меньше, но копия точная. И любые манипуляции над ней ее портят! Конечно, это мое личное мнение.

Dmitry · 16.Январь.2020 12:15:23

Ну да, как раз окрашивание (в данном случае добавление гармоник) субъективно многими воспринимается как более “богатый”,“насыщенный” саунд. Но по факту - это работа иксайтера и строго говря - искажение и кривизна

ЗЫ
У меня есть NOS цапчик и на некоторых записях он мне нравится

odessa · 16.Январь.2020 12:17:54

Подскажите пожалуйста о каких искажениях, в каком месте тракта идет речь?
Интересует строго NOS в мультибит или R2R системе.

Vit_S · 16.Январь.2020 12:28:00

Формально - так, и действительно, изловчившись, можно зафиксировать несколько (несущественно) большие гармонические грядки… Но остается самый интересный вопрос: хвосты должны были бы лишь «дошуметь», создавая дополнительную тембральную насыщенность, «разлохматить бабуш… обертона»))) … однако они совершенно не объясняют субъективных, но одинаково описываемых эффектов: большого зального пространства, ясности, интимности, слюней-соплей и прочих эмоционально-выразительных глюков про «здесь и сейчас».

Равно как и странного феномена, который наблюдал много раз: когда человек первый раз «получает» NOS, он произносит (в разных вариациях) такую фразу: «так вооот что они хотели сказать!..». Это о музыкантах.

То есть формально должно было быть хуже. А по факту наоборот.

odessa · 16.Январь.2020 12:41:27

Просто интересно, как вы по умолчанию вот так вот сразу связываете эти два феномена )
Гармоники и то что звук интереснее. А если допустить что одно другого не касается?
Ведь сами пишете их поискать еще надо и они не значительные. Как то и в прям не складывается причина - следствия. Я правда не для спора. Мне интересно мнение. И всегда хочу понять сколько в том или ином понятии, догмы а сколько реальности. Спасибо за дискуссию…

Vit_S · 16.Январь.2020 12:42:48

Если это мне, то никак не связываю)))
А с гармониками у меня свои отношения, такскаать. Я люблю винил с лампаме

odessa · 16.Январь.2020 12:44:00

Вам и вообще )
мы же беседуем… про ощущения от NOS вы точно подметили

Vit_S · 16.Январь.2020 12:47:44

И не первый раз, поверьте. Вывод, возможно: гармоники свой дорогой, а то, что описано в статье выше, – и более важное, уверен — своей…

Ivan_Nikitin · 16.Январь.2020 12:52:19

Кажется ошибка. При частоте дискретизации 44100 семплов в секунду отсчёт ставится каждые 22.7 микросекунд (мкс), а не миллисекунд (мс).

CCCiP · 16.Январь.2020 12:53:36

В оригинальном тексте все круче попутано, но спасибо, поправлю.
Это ведь перевод перевода

Ivan_Nikitin · 16.Январь.2020 12:55:06

И правда:

amplitude data into one of the 16bit stage at every 22.7 s

Ivan_Nikitin · 16.Январь.2020 12:57:16

Кто-то понял почему невозможно?

CCCiP · 16.Январь.2020 12:57:52

Невозможно в 1996 году. Наверное

dmitre · 16.Январь.2020 17:58:44

Бояре, а кто ретроспективой владеет?
Почему только к 1996 году NOS поднял голову?

Ведь уже первое поколение cd-плееров на TDA1540 работало вместе с ЦФ, только так достигалась псевдо 16-битность.

Karakodil · 16.Январь.2020 20:14:12

tda1540 это 14бит DAC, тем не менее может звучать гораздо натуральнее новомодных DAC работающих с 32 битным словом

dmitre · 16.Январь.2020 20:37:29

Ну на старте у Philips был подход 2 x TDA1540D – c оверсемплингом M4551 (SAA7030).
У первого Sony CDP-101 — 16-битный чип ЦАПа CX20133 и аналоговый фильтр brickwall.

CCCiP · 16.Январь.2020 21:25:11

Есть мнение, что в 90х вмешался рынок и для того что бы продать необходимы были более высокие цифры - 2х кратный OS, 4х, 8и и т.д. Но в какой-то момент наступил технический потолок, сложность схем уже была очень серьезной, т.к. высокие значения OS требовали все более и более сложных фильтров, тогда и задумались «а куда дальше». Вот тогда и появилась идея NOS, когда в качестве фильтра выступали наши уши