Українська

Дослідіть психоакустику, науку про сприйняття звуку, та її вирішальну роль у перцептивному аудіокодуванні, що забезпечує ефективне стиснення та високоякісне прослуховування.

Психоакустика та перцептивне кодування аудіо: як наш мозок формує звуки, які ми чуємо

Світ наповнений звуками — яскравою симфонією частот та амплітуд, що постійно атакує наші вуха. Але те, що ми *чуємо*, — це не лише те, що потрапляє у вуха; це також продукт інтерпретації нашим мозком. Ця захоплива взаємодія між фізичними властивостями звуку та нашим суб'єктивним сприйняттям лежить в основі психоакустики — науки про те, як ми сприймаємо звук. Розуміння психоакустики — це не просто академічне заняття; це ключ до створення високоякісних аудіовражень, від стрімінгу музики на телефоні до імерсивного звуку в кінотеатрі.

Що таке психоакустика?

Психоакустика — це вивчення взаємозв'язку між фізичними характеристиками звуку та нашим суб'єктивним його сприйняттям. Вона долає розрив між об'єктивним світом звукових хвиль та суб'єктивним світом нашого слухового досвіду. Ця галузь поєднує аспекти акустики, психології та нейронауки для дослідження того, як люди сприймають звук, включаючи гучність, висоту тону, тембр та просторове розташування.

Ключові напрямки психоакустичних досліджень включають:

Слухова система людини

Перш ніж заглиблюватися в конкретні психоакустичні принципи, важливо зрозуміти базову структуру слухової системи людини. Звукові хвилі збираються зовнішнім вухом, проходять по слуховому каналу і змушують барабанну перетинку вібрувати. Ці вібрації посилюються кісточками середнього вуха (молоточок, коваделко і стремінце) і передаються у внутрішнє вухо, зокрема в завитку. Завитка, заповнена рідиною структура у формі равлика, містить тисячі крихітних волоскових клітин, які перетворюють механічні вібрації на електричні сигнали. Потім ці сигнали надсилаються до мозку через слуховий нерв, де вони обробляються та інтерпретуються як звук.

Цей складний процес показує, наскільки чутливим може бути людське вухо. Вухо може виявляти величезний діапазон частот, зазвичай від 20 Гц (циклів за секунду) до 20 000 Гц. Однак цей діапазон варіюється від людини до людини і зменшується з віком (пресбіакузис). Вухо також неймовірно чутливе до змін інтенсивності, здатне сприймати звуки від найслабшого шепоту до реву реактивного двигуна.

Ключові психоакустичні принципи

Кілька ключових принципів визначають наше розуміння того, як ми сприймаємо звук:

1. Гучність і шкала фонів

Гучність — це суб'єктивне сприйняття інтенсивності звуку. Для вимірювання гучності використовується шкала фонів. Один фон визначається як гучність тону частотою 1 кГц на певному рівні децибел. Людське вухо не сприймає всі частоти з однаковою гучністю; ми найбільш чутливі до звуків у середньочастотному діапазоні (близько 2-5 кГц). Рівні звуку можна виміряти за допомогою шкали децибел (дБ), але гучність є суб'єктивною, що робить шкалу фонів корисною.

2. Висота тону і мел-шкала

Висота тону — це суб'єктивне сприйняття частоти звуку. Мел-шкала — це перцептивна шкала висот, які слухачі оцінюють як рівновіддалені одна від одної. Мел-шкала ґрунтується на тому, що зв'язок між сприйнятою висотою тону та фактичною частотою не є лінійним. Хоча наше сприйняття висоти тону безпосередньо пов'язане з частотою звукової хвилі, цей зв'язок не є простим відображенням один до одного. Наприклад, ми більш чутливі до змін висоти тону на низьких частотах, ніж на високих. Мел-шкала використовується в розпізнаванні мови та інших застосуваннях.

3. Критичні смуги

Завитка діє як частотний аналізатор, ефективно розкладаючи складні звуки на їхні складові частоти. Базилярна мембрана в завитці вібрує в різних місцях у відповідь на різні частоти. Цей процес ділить чутний частотний спектр на ряд перекриваючихся частотних смуг, які називаються критичними смугами. Кожна критична смуга представляє діапазон частот, що сприймаються як єдина слухова подія. Ширина цих смуг змінюється залежно від частоти: вужчі смуги на низьких частотах і ширші на високих. Розуміння критичних смуг є вирішальним для перцептивного кодування аудіо, оскільки воно дозволяє ефективно стискати дані, відкидаючи інформацію, яка навряд чи буде сприйнята.

4. Маскування

Маскування — це фундаментальне психоакустичне явище, за якого наявність одного звуку (маскера) ускладнює або унеможливлює сприйняття іншого звуку (цілі). Цей ефект залежить від частоти; гучніший звук на частоті, близькій до частоти цільового звуку, маскуватиме його ефективніше, ніж звук на значно відмінній частоті. Маскування є одним з найважливіших принципів, що використовуються перцептивними аудіокодеками. Аналізуючи аудіосигнал та ідентифікуючи замасковані частоти, кодек може вибірково відкидати інформацію, яка є несприйнятною для слухача, значно зменшуючи розмір файлу без відчутного погіршення якості звуку. Типи маскування включають:

5. Часові ефекти

Наше сприйняття звуку також може залежати від часових характеристик подій. Наприклад, ефект пріоритету описує явище, за якого ми сприймаємо напрямок джерела звуку на основі першого звуку, що надходить, навіть якщо пізніші відбиття надходять з різних напрямків. Цей ефект дозволяє нам локалізувати звуки в складних акустичних середовищах.

Перцептивне кодування аудіо: використання психоакустики для стиснення

Перцептивне кодування аудіо, також відоме як психоакустичне кодування аудіо, — це техніка, яка використовує обмеження людського слуху для ефективного стиснення аудіоданих. Замість того, щоб просто зменшувати розмір файлу, відкидаючи інформацію, перцептивні аудіокодеки використовують психоакустичні принципи для виявлення та відкидання аудіоінформації, яка є несприйнятною або менш важливою для слухача. Це дозволяє досягти значних коефіцієнтів стиснення, зберігаючи при цьому високий рівень сприйнятої якості звуку. Прикладами є MP3, AAC, Opus та інші.

Загальний процес перцептивного кодування аудіо включає кілька ключових кроків:

  1. Аналіз сигналу: Аудіосигнал аналізується для визначення його спектрального складу та часових характеристик.
  2. Психоакустичне моделювання: Психоакустична модель використовується для аналізу сигналу та визначення, які частини аудіо є перцептивно важливими, а які можна відкинути без значного впливу на враження від прослуховування. Ця модель зазвичай враховує такі фактори, як маскування та критичні смуги.
  3. Квантування та кодування: Решта перцептивно важливих частин аудіосигналу квантується та кодується. Квантування передбачає зменшення точності аудіоданих, а кодування перетворює дані у стислий формат.
  4. Декодування: На стороні відтворення стиснуті дані декодуються для відновлення наближення до оригінального аудіосигналу.

Як маскування уможливлює стиснення

Маскування є наріжним каменем перцептивного кодування аудіо. Оскільки наявність гучнішого звуку може маскувати тихіший, кодеки використовують це, виконуючи такі дії:

Практичні приклади: MP3 та AAC

Двома найпопулярнішими перцептивними аудіокодеками є MP3 (MPEG-1 Audio Layer III) та AAC (Advanced Audio Coding). Ці кодеки використовують різні психоакустичні моделі та техніки кодування, але обидва спираються на ті самі фундаментальні принципи. Обидва формати аналізують аудіо для виявлення компонентів, що маскуються, і видаляють або значно зменшують точність цих замаскованих частот. MP3 використовується десятиліттями і змінив спосіб споживання аудіо. AAC є більш сучасним і часто вважається таким, що забезпечує вищу якість при аналогічних або нижчих бітрейтах, особливо для складних аудіосигналів. Обидва кодеки продовжують широко використовуватися в усьому світі в різних застосуваннях, від музичних стрімінгових сервісів, таких як Spotify та Apple Music, до подкастів та цифрового мовлення.

Ось спрощена ілюстрація:

Застосування та вплив перцептивного кодування аудіо

Перцептивне кодування аудіо революціонізувало спосіб, у який ми споживаємо та поширюємо аудіо. Воно уможливило численні технологічні досягнення та покращило аудіовраження мільярдів людей у всьому світі:

Вплив перцептивного кодування аудіо є далекосяжним, від полегшення безперебійного спілкування між континентами до надання високоякісних розважальних вражень.

Виклики та майбутні напрямки

Хоча перцептивне кодування аудіо досягло значного прогресу, існують поточні виклики та напрямки для майбутнього розвитку:

Висновок

Психоакустика дає фундаментальне розуміння того, як люди сприймають звук. Ці знання є важливими для створення ефективних стратегій кодування аудіо. Розуміючи людську слухову систему, психоакустичні моделі та такі техніки, як маскування, інженери розробили перцептивні аудіокодеки, які забезпечують надзвичайно ефективне стиснення, покращуючи враження людей у всьому світі. Оскільки технології продовжують розвиватися, синергія між психоакустикою та кодуванням аудіо й надалі буде вирішальною у формуванні того, як ми будемо сприймати звук у майбутньому. Від найменших навушників до найбільших концертних залів, психоакустика відіграє життєво важливу роль, дозволяючи нам насолоджуватися музикою, фільмами та всіма формами аудіоконтенту більш ефективно та приємно.