что такое dsee hx

Что такое DSEE HX на смартфонах и наушниках от Sony. Или разговор о дискретизации и разрядности

Последнее обновление:
Оценка этой статьи по мнению читателей:
4.8
(44)

Работая над обзором новых TWS-наушников Sony WF-1000XM3, я столкнулся с одним интересным явлением. Эти наушники, как и многие другие устройства от Sony, поддерживают фирменную технологию DSEE HX, которая, согласно заявлениям самой компании, «творит чудеса» со звуком.

Но мой интерес вызвала не столько технология, сколько отношение к ней популярных ресурсов с обзорами техники.

Если какой-то автор не забывал упомянуть о DSEE HX, то это обязательно был хвалебный отзыв, повторяющий описание, прочитанное на официальном сайте Sony, которое гласит:

DSEE HX улучшает качество сжатого с потерями MP3-файла до уровня Hi-Res Audio, восстанавливая утерянные параметры оригинальной записи.

Официальное «объяснение» технологии DSEE HX

Другими словами, больше не нужны lossless-файлы в формате 24 бит/96 кГц (или 24/192), достаточно взять обычный сжатый mp3-файл в формате 16 бит/44.1 кГц, включить функцию DSEE HX и на выходе получаем тот же Hi-Res-аудио формат!

Сразу сделаю небольшую оговорку. Если вы не понимаете, о чем я только что написал и все эти «биты» и «килогерцы» ни о чем вам не говорят — прекрасно! К концу статьи вы будете очень хорошо во всем этом разбираться.

Но прежде, чем говорить о технологии Sony DSEE HX, нужно кое-что прояснить.

Как выглядит цифровой звук

Обычный (не цифровой) звук — это не более, чем столкновение молекул воздуха друг с другом. Когда, к примеру, мы хлопаем в ладоши, молекулы воздуха разделаются в разные стороны и ударяют по соседним молекулам:

хлопаем в ладоши и звук

Те, получив импульс, толкают следующие молекулы и так до тех пор, пока эти столкновения не попадут к нам в ухо и не ударят по барабанной перепонке. Если вы об этом не знали, тогда можете почитать вот эту нашу статью.

В результате таких столкновений в пространстве создаются области сжатого и разреженного воздуха (где молекулы сбились в кучу — это сжатый воздух, а где между ними образовалось много свободного пространства — разреженный).

Такие участки сжатия и разряжения мы обозначаем в виде волны — чем выше волна, тем сильнее в этом участке сжатие воздуха и наоборот, чем ниже опускается волна, тем более разрежен воздух:

как динамик смартфона издает звук
Черные точки — это молекулы воздуха

Теперь представьте следующую звуковую волну, которую нам необходимо оцифровать (записать в виде нулей и единичек), чтобы сохранить на смартфоне и в дальнейшем воспроизводить:

звуковая волна

Черная линия на картинке — это промежуток времени, равный 1 секунде. Когда микрофон записывает звук, в его мембрану ударяются те самые молекулы, что бьют и по нашей барабанной перепонке. И это движение мембраны преобразовывается в электрическое напряжение.

Всё, что нам нужно сделать — это записать значение напряжения в каждый конкретный отрезок времени и сохранить в бинарном виде (нули и единицы). Но как часто это делать?

Для простоты решим, что мы будем делать 5 замеров или «снимков» (сэмплов) и сохранять их в файл. В течение одной секунды мы 5 раз измерим напряжение через ровные промежутки времени, т.е. каждые 200 миллисекунд будем проверять напряжение и сохранять его значение:

запись сэмплов звука

Розовым цветом показаны те значения амплитуды (силы удара молекул о мембрану или, по-простому, громкости звука), которые мы запишем. В результате, если в течение секунды сделать всего 5 замеров, тогда в цифровой записи от красивой плавной звуковой волны у нас останется лишь это недоразумение (мы просто соединили розовые точки):

цифровая запись звука с низкой частотой дискретизации

Согласитесь, это не совсем то, что было в оригинале. И если теперь такую запись попытаться снова преобразовать в аналоговый сигнал, качество звука будет совершенно неприемлимым.

Что же делать? Естественно, нужно чаще делать «снимки» (сэмплы) звуковой волы, то есть, за одну секунду записывать значение напряжения в 2 раза чаще:

более высокая частота дискретизации

Теперь на записи мы получим немножко более детализированную картинку, которая будет больше похожа на оригинал, но все еще далека от него:

цифровая запись звука с более высокой частотой дискретизации

Чтобы максимально приблизиться к оригиналу и записать все звуки в точности, как они звучали в реальной жизни, нам нужно гораздо чаще делать сэмплы (снимки) аналогового сигнала.

Так вот, частота, с которой мы записываем напряжение сигнала, называется частотой дискретизации. Если мы говорим, что частота дискретизации равняется 100 Гц (1 Гц = 1 раз в секунду), это означает, что за секунду мы делаем 100 замеров (сэмплов) звуковой волны. Если будем записывать значение напряжения 1000 раз в секунду, получим частоту дискретизации 1 кГц и т.д.

Если частота дискретизации будет не достаточно высокой, мы можем часто пропускать пики и впадины звуковой волны, что в итоге отразится на качестве звука. То есть, низкая частота дискретизации главным образом разрушает информацию и детализацию верхнего частотного диапазона, где длина волны очень короткая и между двумя замерами может запросто вместится несколько волн.

Так какая же частота дискретизации у обычного MP3-файла? Сколько «снимков» в секунду хранится в таком формате? Для начала нужно понимать, что MP3-файл — это уже сжатый с потерями Audio CD. Стандартом для CD-качества является частота дискретизации 44.1 кГц (44 100 сэмплов в секунду). Соответственно, MP3-файл имеет такую же частоту дискретизации, то есть, 44 100 Гц.

Разрядность или глубина кодирования звука

Но есть еще один важный параметр, влияющий на качество записи звука, под названием разрядность. Чтобы понять, что это такое, давайте еще раз вернемся к примеру нашей звуковой волны:

запись сэмплов звука

Здесь мы устанавливали розовые точки прямо по линии звуковой волны через определенные промежутки времени. Образно говоря, мы смогли поставить розовую точку на любой высоте, то есть, каждую пятую часть секунды мы считывали сигнал очень точно.

Но теперь представьте, что вы не можете поставить точку по высоте в любом месте, не можете считать сигнал с идеальной точностью. Вместо этого у вас есть всего 3 возможных варианта (зеленые отметки по оси Y):

что такое разрядность звука

И теперь нужно ставить точку не прямо на волне, то есть, считывать не идеально точно, а приблизительно, по вертикальным зеленым отметкам. В итоге у нас получится оцифровать аналоговый сигнал следующим образом:

примерная оцифровка звука

Теперь удалим все лишнее и полюбуемся цифровой записью (слева — аналоговый оригинал, а справа — то, что получилось в итоге):

дискретизация звука с низкой разрядностью

Не нужно быть специалистом, чтобы понять, что цифровая копия не очень соответствует оригиналу.

И здесь мы подходим к понятию разрядности или глубины звука, которая выражается в битах. Разрядность и показывает, с какой детализацией мы можем записать значение напряжения (или амплитуды) в каждый конкретный момент. Недостаточно лишь увеличивать частоту считывания аналогового сигнала, нужно делать это с высокой детализацией.

Представьте, что теперь у нас на оси ординат не 3 отметки, а 300 или 3000 отметок. Это позволит нам с высочайшей точностью записать значение сигнала и параллельно увеличит динамический диапазон записи.

Именно поэтому разрядность (битность) еще называют динамическим диапазоном звука, так как чем выше эта разрядность, тем сильнее будет разница между самым громким и самым тихим звуком на записи.

Небольшой итог

К этому моменту вы уже должны хорошо представлять себе разницу между файлом, записанным в формате 16 бит/44.1 кГц и 24 бита/96 кГц.

В первом случае при записи использовалась разрядность 16 бит. То есть, при записи амплитуды (напряжения) было доступно ~65 тыс. возможных значений (это и есть 16 бит или 2 в 16 степени). А частота дискретизации равнялась 44.1 кГц, то есть, оборудование записывало значение напряжения 44 100 раз в секунду.

Во втором случае при записи использовалась разрядность 24 бита (всего ‬~16 млн возможных значений для каждого сэмпла) и частота сэмплирования составляла 96 тысяч раз в секунду.

Другими словами, запись в формате 24 бита/96 кГц содержит гораздо больше реальной информации о звуке, чем та, что записывалась в формате 16 бит/44.1 кГц. При использовании 24 бит нам доступно 16 млн значений для записи громкости. Это и есть динамический диапазон или разница в 16 млн раз между самым тихим значением громкости (условно единица) и самым высоким (условно 16 777 216 единиц). Вопрос лишь в том, нужна ли вся эта дополнительная информация. Но об этом чуть позже.

Что же такое Sony DSEE HX на самом деле?

Теперь, когда мы разобрались со всеми этими терминами, пришло время ответить на главный вопрос — что же такое в действительности технология DSEE HX?

DSEE HX — это алгоритм повышения частоты дискретизации сжатого mp3-файла с 44.1 до 96 кГц и разрядности с 16 до 24 бит

Другими словами, после обработки самого простого mp3 файла алгоритмом DSEE HX, аудиозапись будет содержать в 2 раза больше информации (только не в самом файле, а в оперативной памяти)!

Представьте, что у вас появилась возможность каким-то чудом вернуться в момент записи оригинальной песни и перезаписать ее с гораздо более высокой детализацией, чтобы она содержала всю ту информацию, что была потеряна при записи с более низкой частотой дискретизации и разрядностью, а также сжатием файла.

Думаю, каждый понимает, что сделать это невозможно. Если какой-то информации в файле нет (скажем, после сжатия с потерями), она там и не появится. По крайней мере, при современном развитии технологий. Возможно, в будущем искусственный интеллект и нейросети смогут это делать, анализируя композицию и добавляя реальную информацию, которая была потеряна. Но, не сегодня и не «на лету», как это делает DSEE HX.

Откуда же DSEE HX берет информацию?

Примерно оттуда же, откуда и все другие апскейлеры — математика. То есть, для вычисления промежуточных значений используется интерполяция. Мы также умеем интерполировать — если мы видим 2 высокие ступеньки, поднимающиеся вверх, нам ничего не мешает добавить между ними еще 2 ступеньки размером поменьше:

как выглядит интерполяция dsee hx

Что изменилось? Общая высота подъема или угол подъема? Ничего! Только ступенек стало в два раза больше. Примерно то же делает и DSEE HX, увеличивая частоту дискретизации и разрядность, но не добавляя никакой полезной информации в звук, тем более той, что была утрачена при сжатии.

Проблема в том, что делать простое сглаживание не означает оцифровывать звук с более высокой частотой. В реальности между двумя ступеньками мы могли пропустить целую волну очень высокой частоты. А алгоритм просто сгладил эти ступеньки, даже не догадываясь о ее существовании.

Так что же это получается, все дело в маркетинге? Давайте перед ответом на этот вопрос обсудим кое-что еще.

Какой может быть максимальная частота дискретизации и разрядности?

Можно ли увеличивать частоту дискретизации до бесконечности, улучшая тем самым качество звука? Вот мы считываем аналоговый сигнал 44 тысячи раз в секунду и оцифровываем звук. А если сэмплировать сигнал 1 миллион раз в секунду, будет ли от этого качество звука выше в 20 раз? Ведь, по идее, даже разница в 2 раза будет слышна каждому, а в 20 и подавно!

К сожалению, так это не работает. Вернее, работает, только толку нам, как слушателям, от этого никакого нет. Дело в том, что человек теоретически способен слышать звуки в диапазоне от 20 Гц до 20 кГц (20 000 Гц), причем с возрастом верхняя граница постоянно снижается.

Подавляющее большинство авторов, которые успели «насладиться» работой DSEE HX, к сожалению, физически не способны были услышать никаких звуков с частотой свыше 16 кГц. Да и вы с вероятностью в 99% не услышите ничего на частоте 17 кГц и выше. Если, конечно, вам не 6 лет.

Тут еще очень важно отметить тот факт, что DSEE HX, как и высокая частота дискретизации в целом, имеет дело именно с верхней границей частотного диапазона. То есть, увеличивая частоту дискретизации, мы добавляем детализацию исключительно в верхних частотах. Но как бы мы не детализировали ультразвук, приятнее от этого композиция звучать не будет, а вот размер файла увеличится заметно.

Какие частоты звукового диапазона сохраняются в mp3-файле?

А теперь самое интересное. Как вы считаете, какую максимальную частоту звука возможно оцифровать и записать в файл (сэмплировать), используя стандартную для многих mp3-файлов частоту дискретизации 44.1 кГц?

К счастью, нам не нужно ничего высчитывать и доказывать, с этим успешно справились Гарри Найквист в 1928 году и Владимир Котельников в 1933 году. Так вот, согласно теореме Котельникова, при оцифровке аналогового сигнала (при дискретизации), частота дискретизации должна быть в два раза выше частоты звука, которую мы хотим записать.

Перефразирую еще по-другому. Для того, чтобы без единой потери записать звуки определенной частоты в цифровом виде, нужно считывать значение напряжения в 2 раза выше этой частоты.

Если предположить, что существуют взрослые люди со сверхспособностью слышать звук на частоте 20 000 Гц, тогда частота дискретизации при сэмплировании должна равняться минимум 40 000 Гц (40 кГц). А теперь еще раз вспомним, что частота дискретизации у mp3 — 44 100 Гц (44.1 кГц), что заметно превышает необходимую частоту для подавляющего большинства слушателей. То есть, используя частоту дискретизации 44.1 кГц мы можем записать весь слышимый частотный диапазон, вплоть до ультразвука на частоте 22 000 Гц.

Другими словами, записав аналоговый звук в цифровом виде с частотой дискретизации 44.1 кГц, мы можем заново воспроизвести оригинал без малейших искажений. И пусть в цифровом виде будет «лесенка», а не плавная звуковая волна. После прохождения реконструкционного фильтра любого ЦАПа (цифро-аналогового преобразователя), мы получим идеально гладкий аналоговый сигнал, который будет в точности соответствовать оригиналу.

Но, повторюсь, весь смысл mp3-формата в том, чтобы сжать аудиоданные, внося определенные потери. И если мы говорим про mp3-файлы с битрейтом 320 кбит/с, тогда услышать разницу между mp3 и оригиналом (16 бит/44.1 кГц) очень тяжело. Даже если использовать дорогое оборудование, люди, занимающиеся звуком профессионально, при очень внимательном прослушивании, далеко не всегда смогут определить на слух хоть какую-то разницу.

Ну всё, теперь Sony нас точно обманула!

Не только люди неидеальны, но и аппаратура. Если бы мы записывали звук с частотой дискретизации 44.1 кГц и разрядностью 16 бит, его качество оставляло бы желать лучшего.

Каждый человек мог бы слышать разницу в звучании композиции, записанной в формате 44.1 кГц/16 бит и 96 кГц/24 бита. И суть не в том, что одна запись содержала бы больше полезной (слышимой) информации. Все дело в искажениях и ошибках, которые вносит аппаратура (фильтры) и программное обеспечение при работе со звуком.

Здесь мы совершенно не будем касаться этого вопроса, просто следует знать, что именно для работы со звуком важно иметь «запас прочности» — более высокую частоту дискретизации и разрядность.

Что же касается воспроизведения музыки, здесь также не обойтись без апсемплинга (повышения частоты дискретизации). То есть, фактически Sony DSEE HX — это и есть апсемплинг, который нужен для того, чтобы композиция, пройдя конвертацию из цифрового сигнала в аналоговый, содержала минимальное количество искажений.

Но проблема с DSEE HX состоит в том, что буквально все современные цифровые ЦАПы и без помощи сторонних алгоритмов автоматически повышают дискретизацию. То есть, эта функция сама по себе не имеет смысла.

За одним важным исключением — эффект плацебо. Стоит вам лишь активировать эту опцию и увидеть на экране смартфона загоревшуюся надпись DSEE HX, как звук «действительно» становится более прозрачным, кристально чистым и объемным. Хотя бы в вашем воображении.

 

P.S. Не забудьте подписаться в Telegram на первый научно-популярный сайт о мобильных технологиях — Deep-Review, чтобы не пропустить очень интересные материалы, которые мы сейчас готовим!

 

Как бы вы оценили эту статью?

Нажмите на звездочку для оценки

Внизу страницы есть комментарии...

Напишите свое мнение там, чтобы его увидели все читатели!

Если Вы хотите только поставить оценку, укажите, что именно не так?

Подписаться
Уведомить о
18 комментариев
Новые
Старые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
A_V_P
2 месяцев назад

Очень доходчивая статья о цифровом звуке. Браво. Также достаточно понятно изложены основы оверсэмплинга. Но вот с технологией DSEE, увы, вышла промашка. Как и с описанием восприятия звука человеком с опорой на диапазон 20-20к. Напоминаю о существовании теоремы Фурье, следствием которой является утверждение, что конечный сигнал имеет бесконечный спектр. Следовательно для прохождения сигнала любой частоты по тракту без искажений, требуется бесконечная полоса тракта, что, естественно, невозможно. Но чем шире полоса тракта, тем меньше будет искажен сигнал в рабочей полосе. Именно для этого и пытаются расширить полосу тракта, а не для того, чтобы слышать звук с частотой 20к. И технология DSEE тоже призвана для того, чтобы снизить искажения звука в рабочей полосе (именно в той, в которой вы уверенно слышите звук), путем синтеза неслышимых ультразвуковых «хвостов» и дополнения ими обрезанного сверху спектра CD и mp3 сигнала. Естественно, надо предварительно расширить полосу минимум до 40к, чтобы хвосту было где располагаться. В цифровой технике это означает, что частота дискретизации должна быть не менее 2Fs, т.е. 88к, согласно той же теореме Котельникова/Найквиста.
Такой способ улучшения звука придумали еще в 1982 году и под названием К2 пытались внедрить в оборот, но только в 21 веке с появлением широкополосных трактов это стало востребованным. DSEE это всего лишь проприетарный программный алгоритм от Sony на основе старой доброй К2.

A_V_P
2 месяцев назад
Ответить на  Алексей (Deep-Review)

Sony все правильно пишет. DSEE именно «воссоздает» утраченный кусок ВЧ спектра в высокочастотной области (ультразвук). Т.к. амплитуда звука в рабочей области носит случайный характер, то искусственный ультразвуковой «хвост» будет случайным образом «достраивать» звук в рабочей области. На слух это очень благотворно влияет на звук, несмотря на абсолютную искусственность хвостов, именно потому, что «хвост» и представляет собой частичную замену утраченным обертонам. Тут вся фишка в том, что эти обертоны по определению несышимые, а слышен только эффект от «достраивания» звука в рабочей полосе. Алгоритм, по которому синтезируются хвосты, конечно зависит от контента, и собственно и является ноу-хау метода. А то, что Sony немного приукрашивает описание своей технологии, так это только на словах. На графиках все правильно указано.

A_V_P
2 месяцев назад
Ответить на  Алексей (Deep-Review)

Уважаемый Алексей.
Вся необходимая информация по данной теме есть в сети. Но не в концентрированном, а в рассеянном виде. Начните с теоремы Фурье и ее следствий. Вам необходимо сначала усвоить понятие «спектр» и осознать, что это графическое изображение распределения энергии колебания по частотам. Спектр конечного сигнала (например, для конкретики тональной посылки 1 кГц (очень важно понять, что это посылка, а не непрерывный сигнал)) будет иметь множество гармоник или обертонов (которых непрерывный сигнал 1 кГц иметь не будет). При записи на CD все гармоники выше 22 кГц будут подавлены фильтром типа «кирпичная стена» (т.е. обертона выше 22 кГц просто исчезнут и вместе с ними исчезнет часть энергии нашей тональной посылки). Подумайте, как это скажется на форме волны тональной посылки 1 кГц. В середине она практически не исказится, но начальный и конечный участки посылки, которые и дают основной вклад в обертона будут искажены значительно. И это будет заметно на слух, если такая посылка встретится в составе музыкального сигнала, а реальный музыкальный сигнал и есть совокупность тональных посылок. Теперь подмешаем к сигналу искусственные обертона (это и будет тот самый «хвост» выше 22 кГц). В результате случайного совпадения с реальными, но отсутствующими в CD сигнале обертонами тональная посылка 1 кГц «достроится» и станет гораздо более походить на неискаженную. А так как из-за работы фильтра «кирпичная стена» аналогичным образом будут искажены тональные посылки любых частот до 22 кГц, то хвост из искусственных обертонов практически достроит большую часть из них, что чрезвычайно благотворно скажется на звуке, в чем мы и можем легко убедиться, прослушав сигнал с включенной и выключенной функцией DSEE. Естественно форма искусственного «хвоста» должна максимально походить на реальный утраченный «хвост», о чем и должен заботится алгоритм DSEE.
Так что я призываю Вас не волноваться и не писать тут опрометчивых заявлений, а заняться прослушиванием и подначечь на теорию.
Мне кажется, что тут я уже несколько раз дал достаточно подробные объяснения одного и того же и в дальнейшем мне бы хотелось воздержаться от столь пространных и трудоемких комментариев на эту тему. Читателям будет скучно.

A_V_P
2 месяцев назад
Ответить на  Алексей (Deep-Review)

Рад, что, хотя бы вызвал умиление, не так это и плохо. Но по остальным позициям опускаю руки. Ваш последний ответ кажется мне бессвязным и отвечать на каждый выпад письменно выше моих сил. Видимо я плохой педагог. Хотя, честно говоря, я первый раз встречаю человека, отрицающего теорему Фурье.
И насчет опыта прослушивания, согласен, это я погорячился. Не буду скрывать, мне попадались люди, которые слышали не только подставки под провода, но и магнитный поток и даже на слух различали направление тока в проводниках. Почему бы не предположить, что кто-то, наоборот, не что-то слышит, а что-то не слышит. Слава Богу это касается всего лишь алгоритма DSEE HX. Как говорил Иисус на горе Елеонской: «имеющий уши да услышит». Нет ничего военного в том, чтобы не слышать эффекта от DSEE HX, беда-то небольшая. Тем более, что эффект проявляется явно только на очень качественной аппаратуре. Реальная беда в том, что из этого ноуменального факта делаются скоропалительные выводы о полной неработоспособности DSEE HX. Это как минимум нарушение формальной логики. И даже не за Sony обидно, а за сам алгоритм, который весьма неплохо себя показывает при прослушивании CD. Помните фильм Качанова «ДМБ»:
— Видишь суслика?
— Нет
— И я не вижу. А он есть.
Спорить в такой ситуации просто глупо. Я и не буду. Оставайтесь при своем. Извините, что отнял столько времени, но после прочтения статьи я надеялся на понимание. Ошибся. Бывает.
Выхожу из дискуссии.

Иван
4 месяцев назад

Спасибо! Узнал много нового и интересного! Эффект плацебо в моем случае не сработал, поэтому и стал искать инфу об DSEE.

Дмитрий
7 месяцев назад

Спасибо за интересную статью.
В тексте присутствует несколько опечаток:

«…где молекулы сбились в кусу — это сжатый воздух…»

«…мы обозначаем в виде волы — чем выше волна…»

«…чем ниже опускает волна…»

Последний раз редактировалось 7 месяцев назад Дмитрий ем
Михаил
9 месяцев назад

Буду ссылаться на эту статью при рассказах школьникам об оцифровке сигналов. Спасибо!

Али
1 год назад

Автору сначала стоит прочитать про технологию Super Resolution, прежде чем описывать про то что внутри DSEE HX.

Мастер
1 год назад

Спасибо. Теперь знаю как устроена запись аудиофайлов. За картинки спасибо отдельное (благодаря им все понял).

Leron
1 год назад

Если бы не прочитал, так бы и думал, что у flac, cd глубина и детализация все же получше,чем у мп3, а оказывается — Плацебо