Цифровий аудіоформат 24/192, і чому в ньому немає сенсу

### Повернемося до ваших вух
Ми обговорили діапазон частот, який здатні розпізнавати вуха, але що щодо динамічного діапазону (це діапазон від найбільш тихого звуку до найгучнішого)?

Один із способів точно визначити динамічний діапазон - це знову подивитися на криві больового порогу і порога чутності. Відстань від найвищої точки кривої больового порогу до найнижчої точки кривої чутності складає близько 140 децибел - для молодого і здорової людини. Правда, слухати звук на такий гучності довго не вийде, оскільки +130 дБ вже досить, щоб пошкодити слух за кілька хвилин або навіть секунд. Для довідки скажу, що гучність відбійного молотка на відстані одного метра становить 100-110 дБ.

Цікавий момент: поріг чутності збільшується з віком і втратою слуху, а больовий поріг з віком зменшується. Волоскові клітини равлики в вусі захоплюють тільки частина всього діапазону в 140 дБ, тому мускулатура вуха безперервно регулює кількість звуку, що досягає равлика, шляхом зсуву слухових кісточок - як райдужка регулює кількість світла потрапляє в око 9 . Механізм костеніє з віком, що обмежує слуховий динамічний діапазон і знижує ефективність захисних механізмів.

### Навколишній шум
Небагато людей усвідомлюють, наскільки тихим може бути звук на порозі чутності людини.

Найслабше звуковий тиск, який здатний сприймати людина, становить -8 дБ SPL 11 . За шкалою А для вимірювання рівня шуму, гул від лампи розжарювання в 100 Вт на відстані одного метра становить близько 10 дБ SPL, що на 18 дБ голосніше. Гудіння лампи буде набагато голосніше, якщо підключити її до реостата.

Як приклад звукового тиску в 20 дБ SPL (що на 28 дБ голосніше самого тихого звуку) часто наводиться порожня студія звукозапису або шумоізоліровать кімната. Знайти місце тихіше досить складно, тому ви ніколи не чули шум, видаваний лампочкою.

### Динамічний діапазон 16 біт
16-бітна лінійна імпульсно-кодова модуляція має динамічний діапазон в 96 дБ, відповідно до найбільш загальним способом підрахунку, коли динамічний діапазон обчислюється як (6 * к-ть біт) дБ. Багато хто вірить, що 16-бітове аудіо залишають поза передачею довільні звуки тихіше, ніж -96 дБ. Це велика помилка.

Нижче я навів два посилання на 16-бітові аудіофайли. Один містить звук частотою 1 кГц, при гучності 0 дБ (де 0 дБ - найгучніший звук), а інший - також звук частотою 1 кГц, з гучністю -105 дБ.

  • семпл 1 : Звук 1 кГц при 0 dB (16 біт / 48 кГц WAV)
  • семпл 2 : Звук 1 кГц при -105 dB (16 біт / 48 кГц WAV)
### Повернемося до ваших вух   Ми обговорили діапазон частот, який здатні розпізнавати вуха, але що щодо динамічного діапазону (це діапазон від найбільш тихого звуку до найгучнішого)

Вище зображено графік спектрального аналізу звуку гучністю -105 дБ перекодований в формат 16/48 за допомогою ІКМ. Гучність 16-бітного аудіо із застосуванням ІКМ очевидно нижче 96 дБ, інакше -105 дБ можна було б уявити або почути.

Як таке можливо? Закодувати цей сигнал без спотворень так, щоб він був значно вищий за рівень шуму, в той час як його амплітуда займає третину біта?

Частина загадки дозволяється за рахунок правильного псевдослучайного сигналу, що як би робить шум квантування незалежним від вхідного сигналу. Побічно, це означає, що такий спосіб квантування не вносить спотворень, а тільки некорреліровани шум. Це, в свою чергу, означає, що ми можемо шифрувати з довільної бітової глибиною, включаючи сигнали з піковими амплітудами, менш ніж одним бітом 12 . Проте, псевдовипадковий сигнал не змінює того факту, що якщо рівень сигналу опускається нижче рівня шуму, то він практично зникає. Як же звук гучністю -105 дБ і раніше помітний на тлі шуму в -96 дБ?

Відповідь така: ми невірно уявляємо характеристики шуму в -96 дБ. Ми використовуємо не застосовується визначення динамічного діапазону. Формула (6 * к-ть біт) дБ дає нам середньоквадратичний шум всієї смуги сигналу, а кожна волосковая клітина чутлива тільки до вузького спектру від усієї смуги частот. Оскільки кожна волосковая клітина чує тільки частина загальної енергії шумів, то рівень шуму, який приймає кліткою, буде набагато нижче, ніж весь діапазон частот гучністю -96 дБ.

16-бітове аудіо може володіти більш глибокої модуляцією, ніж 96 дБ, якщо використовувати правильний псевдо-сигнал, який зміщує енергію шуму квантування в зону, де його складніше розчути. На практиці 13 16-бітове аудіо може досягати гучності в 120 дБ.

120 дБ - це більше, ніж різниця між звуком комара в кімнаті і відбійним молотком за фут від вас. Або різниця між порожній звуконепроникній кімнатою і досить гучним звуком, який здатний пошкодити слух в секунди.

16 бітів вистачає, щоб зберігати весь чутний спектр, і буде вистачати завжди.

### Співвідношення сигнал-шум
Варто зробити невелике зауваження про те, що співвідношення сигнал / шум для вуха менше, ніж динамічний слуховий діапазон. Усередині заданої критичної смуги, зазвичай, сигнал / шум становить лише 30 дБ. Відношення сигнал / шум не досягне рамок діапазону чутності, навіть за умови розширення смуги частот. Це гарантує, що формат 16 біт ІКМ забезпечує роздільну здатність понад необхідне.

Також варто відзначити, що збільшення бітової глибини звуку з 16 біт до 24 не збільшує роздільної здатності і «якість» звуку. Це всього лише розширить динамічний діапазон - відстань між самим тихим і найгучнішим звуком, за рахунок зниження рівня шуму. Як би там не було, 16 біт вже забезпечують рівень шуму, який ми не в змозі почути.

### Коли 24 біта мають значення?
Професіонали використовують для запису музики 24-бітові семпли 14 через меншого рівня шумів і з міркувань зручності.

16 біт досить, щоб охопити весь чутний діапазон з запасом. Але він не охоплює весь можливий діапазон аудіо-обладнання. Основна причина використання 24 біт під час запису - це уникнути помилок. Замість того, щоб бути обережним, вирівнюючи 16 біт по центру діапазону, ризикуючи відрізати верхні частоти або додати шуму, 24 біта дозволяють оператору встановити приблизний рівень і більш не думати про це. Промах на пару біт не тягне за собою ніяких наслідків, а ефекти, які динамічно стискають записаний спектр, мають більший простір для маневру.

Також інженеру потрібна більша 16 біт при змішуванні сигналів і мастерингу. Сучасні робочі процеси можуть включати, буквально, тисячі ефектів і операцій. Шум квантування і рівень власних шумів 16-бітної вибірки можуть бути непомітні при відтворенні, але при збільшенні такого шуму в кілька тисяч разів, він відразу стає помітним, а 24-бітний формат зберігає накопичується шум на дуже низькому рівні. Після того, як музика готова до запису на диски, немає ніяких причин залишати більше ніж 16 біт.

### Тести на прослуховування
Розуміння живе там, де зустрічаються теорія і реальність. Питання дозволяється тільки тоді, коли вони обидві приходять в згоду.

Емпіричні дані, отримані з тестів на прослуховування дозволили судити, що 44.1 кГц / 16 біт забезпечує максимально можливу якість відтворення. Безліч контрольованих тестів підтвердили це, але я рекомендую недавню роботу « Чутність стандарту CD, аналогово-цифрове і цифро-аналогове перетворення, використане в відтворенні аудіо з високою роздільною здатністю », Виконану місцевими хлопцями з Бостонського аудіо-спільноти .

На жаль, для доступу до повного тексту роботи потрібно бути членом Товариства звукоинженеров. Проте, ця робота широко обговорювалася в багатьох статтях і на форумах, авторами, які туди [в співтовариство] входять. Ось кілька посилань:

В ході цієї роботи проводився експеримент: були відібрані випробовувані, які вибирали між записами на високоякісних аудіо DVD / SACD, підібраними прихильниками звуку високої чіткості, щоб показати його перевага, і тими самими записами, але в CD форматі 16 / 44.1 кГц. Слухачам потрібно було виявити будь-які відмінності між ними, використовуючи методологію випадкового вибору. Бостонське аудіо-спільнота проводило експеримент з використанням високопрофесійного обладнання в шумоізольованій середовищі, як зі звичайними, так і з тренованими слухачами.

Серед 554 спроб, випробовувані вибирали «правильно» в 49.8% випадків. Іншими словами, вони намагалися вгадати. Жоден слухач протягом всього тесту не зміг впізнати, яка із записів була в форматі 16 / 44.1, а яка була звуком високої чіткості 15 . А 16-бітний сигнал навіть не був згладжений!

У ще одному недавньому дослідженні 16 вивчалася можливість розчути ультразвук, як припускали більш ранні дослідження. Тест був побудований таким чином, щоб максимізувати можливість розпізнавання, для цього були додані інтермодуляційні складові в місця, де вони були б найбільш чутні. Було встановлено, що не можна почути ультразвукові хвилі ... але виявилося, що спотворення від інтермодуляционних складових розпізнати можна.

Ця стаття породила низку подальших досліджень, результати здебільшого яких суперечили один одному. Деякі неясності були дозволені, коли виявилося, що ультразвук може викликати більшу кількість інтермодуляционних спотворень в підсилювачах потужності, ніж очікувалося. Наприклад, Девід Грізінгер (David Griesinger) провів цей експеримент 17 і виявив, що його акустична установка не вносила помітних інтермодуляціонних спотворень, але зате їх вносив підсилювач.

### Читач, будь обережний
Дуже важливо не виривати окремі роботи або «коментарі експертів» з контексту або брати їх тільки з ресурсів, цікавих вам. Не всі статті повністю погоджуються з цими результатами (а дещо навіть не погоджуються з більшою частиною), тому легко наштовхнутися на думку меншості, яке може доводити будь-яку точку зору, яку ви можете уявити. Незважаючи ні на що, статті та посилання, наведені вище, становлять велику важливість і серйозний обсяг знань і експериментальних записів. Немає жодної відомої статті, яка б пройшла випробування часом і поставила б під сумнів спроможність цих результатів. Спори відбуваються тільки серед споживачів і всередині спільнот меломанів.

У всякому разі, кількість неоднозначних, незакінчених і відверто неспроможних експериментальних результатів, доступних в пошуку Google, підкреслює, наскільки складно провести точне і об'єктивне дослідження. Різні вчені шукають всякі дрібниці, вимагають проводити суворий статистичний аналіз, щоб виявити підсвідомі вибори, які ненавмисно робили випробовувані. Таким чином, ми радше намагаємося довести щось, чого в принципі не існує, що робить стан речей ще складніше. Доказ нульової гіпотези схоже вирішенню проблеми зупинки - це нереально. Єдиний варіант підтвердити щось в цьому випадку - зібрати досить багато емпіричних даних.

Незважаючи на це, роботи, що підтверджують нульову гіпотезу - це дійсно серйозний доказ; підтвердити «Не чутність» експериментально набагато складніше, ніж обговорювати її. Невідомі помилки в тестових методиках і обладнанні майже завжди дають хибнопозитивні результати (через випадкове внесення звукових відмінностей), а не помилково негативні.

Якщо професійні дослідники з таким трудом проводять дослідження окремих аудіо-відмінностей, то ви можете уявити, як це важко для любителів.

### Як (ненавмисне) зіпсувати результати звукового експерименту
Самий «кращий» коментар, який я чув від людей, які вірять в високоякісне аудіо (перефразовано): «Я чув високоякісний звук особисто, і поліпшення якості звучання очевидно. Ви серйозно хочете, щоб я не вірив своїм вухам? »

Зрозуміло, ви можете вірити власним вухам. Але справа в тому, що це мозок надто довірливий. Я не намагаюся когось образити, це проблема всіх людей.
#### Упереджене думку, ефект плацебо і подвійне сліпе тестування
Будь-яке випробування, де слухач може впізнати два варіанти за ознаками, крім як на слух, зазвичай призводить до результатів, які слухач очікував заздалегідь. Це називається упередженістю і має схожість з ефектом плацебо . Це означає, що люди «чують» відмінності, через підсвідомих сигналів і переваг, які не мають відношення до звуку - це як перевагу дорожчій (або більш привабливий) підсилювач більш дешевому.

Людський мозок влаштований таким чином, щоб помічати особливості і відмінності там, де їх немає. І цю особливість можна відключити, просто попросивши людини приймати об'єктивні рішення - це відбувається на підсвідомому рівні. Упередженість можна ліквідувати скепсисом. Контрольовані експерименти доводять, що усвідомлення прийняття упереджених рішень лише підсилює ефект! Тест, під час якого не було усунуто вплив упереджених суджень, нічого не варто 18 .

При односторонньому сліпому тестуванні слухач нічого не знає заздалегідь про варіанти і не отримує ніякої зворотного зв'язку в ході випробування. Таке тестування краще прямого порівняння, але не виключає упередженість експериментатора. Той, хто проводить тест, може ненавмисно вплинути на хід слідства або передати свою власну упередженість слухачеві необережними репліками (наприклад: «Ви впевнені, що це те, що ви чуєте?», Мова тіла також може вказати на «неправильний» вибір, і змусити сумніватися, і так далі). Вплив упередженості людини, яка проводить тест, на результати слухача також було підтверджено експериментально.

Подвійні сліпі тести - це стандарт, в таких тестах ні експериментатор, ні слухач не отримують будь-якої інформації про зміст тесту і поточних результатах. Найбільш відомий приклад - це ABX-тести, проведені комп'ютером, які є у вільному доступі - їх можна запустити на вашому власному ПК [19]. ABX-тести мають на увазі мінімальну кількість результатів слухового тесту, до досягнення яких вони вважаються неповноцінними. Ті, хто має хорошу репутацію аудіо-форуми, такі як Hydrogen Audio, часто забороняють будь-які обговорення результатів слухових тестів, якщо вони не відповідають мінімальним вимогам об'єктивності [20].

Вище зображено робоче вікно Squishyball - простий командного рядка інструменту ABX, запущеного в xterm.

Особисто я не проводив жодного якісного порівняльного тесту в процесі досліджень (неважливо, наскільки потужних) без застосування ABX. Наука є наука, тут немає місця недбайливості.

#### Витівки гучності
Людське вухо може свідомо розрізняти амплітудні відмінності гучності приблизно в 1 дБ, і експерименти показують можливість визначення відмінностей в межах 0,2 дБ на підсвідомому рівні. Люди практично повсюдно вважають гучний звук краще, і 0,2 дБ досить, щоб людина виявив перевагу. За результатами будь-якого порівняння, в якому неакуратно виставлені амплітуди, буде спостерігатися явно виражене перевагу голосного звуку, навіть якщо відмінності в гучності малі для того, щоб усвідомити це. Продавці аудіо знають про це трюк уже дуже давно.

Професійний стандарт тестування вимагає відмінності амплітуд на величину, яка не перевищує 0,1 дБ. Це часто вимагає використання осцилографа або аналізатора сигналів, тому що підгадується і крутити ручки, поки звук не співпаде, досить нераціонально.

#### Отсечение сигналу
Відсікання сигналу - це ще одна помилка (іноді виявляється тільки з плином часу), яку легко допустити. Може виявитися, що кілька обрізаних семплів і їх похідні сигнали порівнюються з необрізаних сигналом.

Небезпека відсікання частини сигналу особливо руйнівна в тестах, які діскретізіруется, передіскретізіруют цифрові сигнали і керують ними «на льоту». Припустимо, ми хочемо порівняти якість звучання сигналів з частотою дискретизації 48 кГц і 192 кГц. Звичайний спосіб провести такий експеримент - забезпечити Субдіскретізація з 192 кГц в 48 кГц, а потім знову провести підвищує дискретизацию до 192 кГц, після чого порівняти два цих сигналу в ABX-тесті [21]. Такий порядок дозволяє нам виключити будь-яку можливість зміни параметрів обладнання або підміни семплів, яка впливає на результати. Ми можемо використовувати той же ЦАП для відтворення обох семплів і перемикатися між ними без будь-яких змін в режимі роботи обладнання.

На жаль, більшість семплів використовують весь цифровий діапазон. Неуважне застосування передискретизации часто може привести до випадкового обрізання звуку. Дуже важливо чи стежити за відсіканням (і відкидати обрізаний звук), або уникати його, застосовуючи різні методи: наприклад, ослаблення (аттенуація) звуку.

#### Інший носій - інша майстер-копія
Я переглянув кілька статей і блогів, які стверджували про достоїнства 24 біт або 96/192 кГц, шляхом порівняння CD і аудіо-DVD з «однаковими» записами. Таке порівняння не має сенсу, тому що для цих записів використовуються різні майстер-диски.

#### Ненавмісні сигналі
Ненавмисні аудіо-сигнали практично неминучі в старих аналогових і гібридних цифро-аналогових тестових установках. Очевидно, що цифрові установки можуть повністю усунути проблему в деяких формах тестування, але можуть і збільшити кількість потенційних помилок програмного забезпечення. Такі обмеження і баги вже досить давно дають хибнопозитивні результати в тестуваннях [22].

Стаття « Цифрові випробування - більше про ABX-тестуванні »Розповідає захоплюючу історію про дивовижний тестуванні слуху, проведеному в 1984 році, покликаному спростувати авторитет меломанів того часу, які спочатку стверджували, що CD поступається вінілу. Стаття стосується не стільки результатів випробування (я підозрюю, ви зможете здогадатися, якими вони були), скільки хаотичності світу, залученого в проведення такого тесту. Наприклад, помилка з боку організаторів тесту випадково показала, що запрошений експерт з прослуховування робив вибір, базуючись не на якості звучання, а скоріше на різних потріскування, які виробляли реле комутаторів.

Анекдотичні історії не замінюють реальні дані, але ця історія показує, з якою легкістю приховані недоліки можуть впливати на слухові тести. Деякі з точки зору меломанів теж досить забавні, наприклад хтось сподівається, що багато хто з сучасних досліджень будуть вважатися безглуздими через 20 років.

##### Примітки до Частини 3

  1. Всі знають це почуття, коли перетинки «розпрямляються» після виключення гучної музики.

  2. Кілька відмінних графіків можна знайти на сайті HyperPhysics .

  3. 20 мПа зазвичай приймаються за 0 дБ для зручності вимірювання. Це приблизно дорівнює порогу чутності на частоті 1 кГц. На частотах від 2 до 4 кГц вухо настільки ж відчутно як на 8 дБ.

  4. У наведеній нижче статті описано краще пояснення згладжування, що я зустрічав, хоча вона [стаття] більше про згладжування зображень. Але перша половина охоплює теорію і практику згладжування в аудіо, перед тим як перейти до теми зображень. Кемерон Ніколас Крістов, стаття « Оптимальне згладжування і обмеження шуму на зображеннях ».

  5. Інженери, зайняті в цифровій обробці сигналів, могли помітити, як це зробив мій всезнаючий співвітчизник, що 16-бітове аудіо, в теорії, може мати нескінченний динамічний діапазон для чистого звуку, якщо ви скористаєтеся нескінченним рядом Фур'є, щоб перетворити його. Ця концепція дуже важлива для радіоастрономії.
    Хоча робота вуха не сильно відрізняється від перетворення Фур'є, його дозвіл щодо обмежена. Це накладає обмеження на максимально можливу бітову глибину 16-бітних сигналів.

  6. У виробництві цифрової музики використовують 32-бітові числа з плаваючою точкою, тому що це дуже зручно для сучасних процесорів, і тому що це повністю усуває ймовірність того, що випадкове обрізання залишиться непоміченим і погубить композицію.

  7. Кілька читачів хотіли дізнатися як тест Майера і Морана в 2007 році міг дати нульовий результат, якщо ультразвук може викликати інтермодуляційні спотворення?
    Повинно бути очевидно, що «міг» і «іноді» не те ж саме що «зміг» і «завжди». Інтермодуляційні спотворення від ультразвукових хвиль можуть з'явитися, а можуть і не з'явитися в будь-якій системі, при будь-якому наборі умов. Нульовий результат Майера і Морана означає, що інтермодуляційні спотворення були нечутно на системах, які вони використовували під час тесту.
    До уваги читачів пропонується ознайомитися з простим тестом на визначення інтермодуляционних спотворень, і визначити інтермодуляционную потенціал їх власного обладнання.

  8. Кару і шого (Karou and Shogo), стаття «Визначення порога для звуку, частотою вище 22кГц» (2001). Матеріал номер 5401, поданий на 110 зборах 12-15 травня 2001 року в Амстердамі.

  9. Девід Грезінгер, стаття « Сприйняття середніх частот і інтермодуляційні спотворення високих частот в динаміках, і їх взаємодію з аудіозаписами з високою роздільною здатністю ».

  10. З часу публікації кілька коментаторів відправили мені схожі версії одного анекдоту (перефразовано): «Я якось слухав якісь навушники / підсилювачі / запису чекаючи результат А, але був дуже здивований, коли прийшов до результату Б! Доведено: упередженість - це нісенітниця! »Я можу сказати дві речі. По-перше, упередженість судження не замінює всі вірні результати на невірні. Вона схиляє результати в труднопредсказуемости напрямку на невідому величину. Як ви можете стверджувати, що вірно, а що - ні, напевно, якщо тест був сфальсифікований вашою підсвідомістю? Скажімо, ви очікували почути велику різницю, але були здивовані, почувши малу різницю. Що якщо там не було різниці зовсім? Або різниця є, але будучи обізнаним про можливу упередженість, ваш благонамірений скептицизм компенсував ваша думка? Або, може бути, ви мали цілковиту рацію? Об'єктивне тестування, наприклад ABX, усуває всі ці невизначеності. По-друге: «Ви думаєте, що ви не судіть упереджено? Відмінно! Доведіть це! »Значимість об'єктивного тесту полягає не тільки в його здатності переконати нас, але і в здатності переконати в цьому інших. Заяви вимагають доказів. Надзвичайні заяви вимагають екстраординарних доказів.

  11. Напевно, найпростіші інструменти для ABX-тестування: Foobar2000 з ABX-плагіном
    Squishyball і інструмент командного рядка Linux, яким користуємося ми в Xiph

  12. На Hydrogen Audio, абревіатура TOS8 (objective testing requirement) позначає необхідна умова тестування, цифра 8 позначає восьмий пункт умов надання послуг.

  13. Прийнято вважати, що передискретизація завдає непоправної шкоди сигналу. Це зовсім не так. По крайней мере, до тих пір, поки хтось не припуститься помилки, наприклад, обрізавши сигнал. Субдіскретізірованний, а потім Дискретизований знову сигнал буде не відрізняється від оригіналу. Це звичайний тест, який використовується для установки більш високих параметрів дискретизації, що не обов'язково.

  14. Це, може бути, не пов'язане безпосередньо зі звуком, але ... нейтрино що, швидше за швидкість світла, серйозно?

Як таке можливо?
Закодувати цей сигнал без спотворень так, щоб він був значно вищий за рівень шуму, в той час як його амплітуда займає третину біта?
Як же звук гучністю -105 дБ і раніше помітний на тлі шуму в -96 дБ?
Коли 24 біта мають значення?
Ви серйозно хочете, щоб я не вірив своїм вухам?
Наприклад: «Ви впевнені, що це те, що ви чуєте?
Кілька читачів хотіли дізнатися як тест Майера і Морана в 2007 році міг дати нульовий результат, якщо ультразвук може викликати інтермодуляційні спотворення?
Як ви можете стверджувати, що вірно, а що - ні, напевно, якщо тест був сфальсифікований вашою підсвідомістю?
Що якщо там не було різниці зовсім?
Або різниця є, але будучи обізнаним про можливу упередженість, ваш благонамірений скептицизм компенсував ваша думка?