2025. gada 21. jūlijsLatviešu

Atklājiet psihoakustiku, zinātni par skaņas uztveri, un tās lomu uztveres audiokodēšanā, kas nodrošina efektīvu kompresiju un augstas kvalitātes audio.

Psihoakustika un uztveres audiokodēšana: kā mūsu smadzenes veido skaņas, ko dzirdam

Pasaule ir skaņu pilna – vibrējoša frekvenču un amplitūdu simfonija, kas nepārtraukti bombardē mūsu ausis. Bet tas, ko mēs *dzirdam*, nav tikai tas, kas nonāk mūsu ausīs; tas ir arī mūsu smadzeņu interpretācijas produkts. Šī aizraujošā mijiedarbība starp skaņas fizikālajām īpašībām un mūsu subjektīvo uztveri veido psihoakustikas pamatu – zinātni par to, kā mēs uztveram skaņu. Psihoakustikas izpratne nav tikai akadēmisks mērķis; tā ir atslēga uz augstas kvalitātes audio pieredzes radīšanu, sākot ar mūzikas straumēšanu tālrunī un beidzot ar visaptverošu skaņu kinoteātrī.

Kas ir psihoakustika?

Psihoakustika ir pētījums par saistību starp skaņas fizikālajām īpašībām un mūsu subjektīvo tās uztveri. Tā savieno plaisu starp objektīvo skaņas viļņu pasauli un subjektīvo mūsu dzirdes pieredzes pasauli. Šī joma apvieno akustikas, psiholoģijas un neirozinātnes aspektus, lai izpētītu, kā cilvēki uztver skaņu, ieskaitot skaļumu, augstumu, tembru un telpisko atrašanās vietu.

Galvenās psihoakustikas pētniecības jomas ietver:

Skaļuma uztvere: Kā mēs uztveram skaņas intensitāti.
Augstuma uztvere: Kā mēs uztveram skaņas frekvenci un spēju atšķirt augstus toņus no zemiem.
Tembra uztvere: Kā mēs uztveram skaņas unikālās īpašības, piemēram, atšķirību starp klavierēm un vijoli, kas spēlē vienu un to pašu noti.
Telpiskā dzirde: Kā mēs uztveram skaņas avota atrašanās vietu.
Maskēšana: Fenomens, kurā viena skaņa apgrūtina citas skaņas sadzirdēšanu.

Cilvēka dzirdes sistēma

Pirms iedziļināties specifiskos psihoakustikas principos, ir svarīgi izprast cilvēka dzirdes sistēmas pamatstruktūru. Skaņas viļņus savāc ārējā auss, novada pa auss eju un liek bungādiņai vibrēt. Šīs vibrācijas pastiprina vidusauss kauliņi (āmuriņš, laktiņa un kāpslītis) un pārraida uz iekšējo ausi, konkrēti uz gliemezi. Gliemezis, ar šķidrumu pildīta, gliemežnīcas formas struktūra, satur tūkstošiem sīku matu šūnu, kas mehāniskās vibrācijas pārvērš elektriskos signālos. Pēc tam šie signāli pa dzirdes nervu tiek nosūtīti uz smadzenēm, kur tie tiek apstrādāti un interpretēti kā skaņa.

Šis sarežģītais process atklāj, cik jūtīga var būt cilvēka auss. Auss spēj uztvert plašu frekvenču diapazonu, parasti no 20 Hz (ciklus sekundē) līdz 20 000 Hz. Tomēr šis diapazons katram cilvēkam ir atšķirīgs un ar vecumu samazinās (presbiakūze). Auss ir arī neticami jūtīga pret intensitātes izmaiņām, spējot uztvert skaņas no klusākā čuksta līdz reaktīvās lidmašīnas rēkoņai.

Galvenie psihoakustikas principi

Vairāki galvenie principi vada mūsu izpratni par to, kā mēs uztveram skaņu:

1. Skaļums un fonu skala

Skaļums ir subjektīva skaņas intensitātes uztvere. Fonu skala tiek izmantota skaļuma mērīšanai. Viens fons ir definēts kā 1 kHz toņa skaļums noteiktā decibelu līmenī. Cilvēka auss neuztver visas frekvences vienādā skaļuma līmenī; mēs esam visjutīgākie pret skaņām vidējo frekvenču diapazonā (ap 2–5 kHz). Skaņas līmeni var mērīt, izmantojot decibelu (dB) skalu, bet skaļums ir subjektīvs, kas padara fonu skalu noderīgu.

2. Augstums un melu skala

Augstums ir subjektīva skaņas frekvences uztvere. Melu skala ir uztveres skala augstumiem, kurus klausītāji uzskata par vienādā attālumā vienu no otra. Melu skala balstās uz faktu, ka attiecība starp uztverto augstumu un faktisko frekvenci nav lineāra. Lai gan mūsu augstuma uztvere ir tieši saistīta ar skaņas viļņa frekvenci, šī saistība nav vienkārša viens pret vienu atbilstība. Piemēram, mēs esam jutīgāki pret augstuma izmaiņām zemākās frekvencēs nekā augstākās. Melu skala tiek izmantota runas atpazīšanā un citos pielietojumos.

3. Kritiskās joslas

Gliemezis darbojas kā frekvenču analizators, efektīvi sadalot sarežģītas skaņas to sastāvdaļu frekvencēs. Bazilārā membrāna gliemezī vibrē dažādās vietās, reaģējot uz dažādām frekvencēm. Šis process sadala dzirdamo frekvenču spektru vairākās pārklājošās frekvenču joslās, ko sauc par kritiskajām joslām. Katra kritiskā josla apzīmē frekvenču diapazonu, kas tiek uztverts kā viens dzirdes notikums. Šo joslu platums mainās atkarībā no frekvences – tās ir šaurākas zemākās frekvencēs un platākas augstākās frekvencēs. Kritisko joslu izpratne ir būtiska uztveres audiokodēšanai, jo tā ļauj veikt efektīvu kompresiju, atmetot informāciju, kuru, visticamāk, neuztvers.

4. Maskēšana

Maskēšana ir fundamentāls psihoakustikas fenomens, kurā vienas skaņas (maskētāja) klātbūtne apgrūtina vai padara neiespējamu sadzirdēt citu skaņu (mērķi). Šis efekts ir atkarīgs no frekvences; skaļāka skaņa ar līdzīgu frekvenci kā mērķa skaņai to maskēs efektīvāk nekā skaņa ar būtiski atšķirīgu frekvenci. Maskēšana ir viens no svarīgākajiem principiem, ko izmanto uztveres audio kodeki. Analizējot audio signālu un identificējot maskētās frekvences, kodeks var selektīvi atmest informāciju, kas klausītājam nav uztverama, ievērojami samazinot faila izmēru, nemazinot uztverto audio kvalitāti. Maskēšanas veidi ietver:

Vienlaicīgā maskēšana: Notiek, kad maskētājs un mērķis parādās vienlaikus.
Laika maskēšana: Notiek, kad maskētājs ir pirms vai pēc mērķa.

5. Laika efekti

Mūsu skaņas uztveri var ietekmēt arī notikumu laiks. Piemēram, prioritātes efekts apraksta fenomenu, kurā mēs uztveram skaņas avota virzienu, pamatojoties uz pirmo ienākošo skaņu, pat ja vēlāki atspulgi nāk no dažādiem virzieniem. Šis efekts ļauj mums lokalizēt skaņas sarežģītās akustiskās vidēs.

Uztveres audiokodēšana: psihoakustikas izmantošana kompresijai

Uztveres audiokodēšana, pazīstama arī kā psihoakustiskā audiokodēšana, ir tehnika, kas izmanto cilvēka dzirdes ierobežojumus, lai efektīvi saspiestu audio datus. Tā vietā, lai vienkārši samazinātu faila izmēru, atmetot informāciju, uztveres audio kodeki izmanto psihoakustikas principus, lai identificētu un atmestu audio informāciju, kas klausītājam nav uztverama vai ir mazāk svarīga. Tas nodrošina ievērojamus kompresijas koeficientus, vienlaikus saglabājot augstu uztvertās audio kvalitātes līmeni. Piemēri ietver MP3, AAC, Opus un citus.

Vispārējais uztveres audiokodēšanas process ietver vairākus galvenos soļus:

Signāla analīze: Audio signāls tiek analizēts, lai identificētu tā spektrālo saturu un laika raksturlielumus.
Psihoakustiskā modelēšana: Tiek izmantots psihoakustiskais modelis, lai analizētu signālu un noteiktu, kuras audio daļas ir uztveres ziņā svarīgas un kuras var atmest, būtiski neietekmējot klausīšanās pieredzi. Šis modelis parasti ņem vērā tādus faktorus kā maskēšana un kritiskās joslas.
Kvantēšana un kodēšana: Atlikušās, uztveres ziņā svarīgās, audio signāla daļas tiek kvantētas un kodētas. Kvantēšana ietver audio datu precizitātes samazināšanu, un kodēšana pārvērš datus saspiestā formātā.
Dekodēšana: Atskaņošanas pusē saspiestie dati tiek dekodēti, lai rekonstruētu sākotnējā audio signāla tuvinājumu.

Kā maskēšana nodrošina kompresiju

Maskēšana ir uztveres audiokodēšanas stūrakmens. Tā kā skaļākas skaņas klātbūtne var maskēt klusāku skaņu, kodeki to izmanto, veicot šādas darbības:

Maskēšanas sliekšņu identificēšana: Kodeks analizē audio signālu, lai noteiktu maskēšanas sliekšņus – līmeņus, kuros noteiktas frekvences kļūst nedzirdamas citu skaņu klātbūtnes dēļ.
Maskēto frekvenču atmešana: Frekvences, kas ir zem maskēšanas sliekšņa, tiek atmestas. Tā kā klausītājs tās tik un tā nespēs sadzirdēt, to noņemšana no kodētajiem datiem ievērojami samazina faila izmēru.
Stratēģiska bitu sadale: Kodeks piešķir vairāk bitu, lai kodētu audio informāciju uztveres ziņā svarīgos reģionos, piemēram, frekvencēs, kas nav maskētas un ir tuvu sākotnējiem datiem.

Praktiski piemēri: MP3 un AAC

Divi no populārākajiem uztveres audio kodekiem ir MP3 (MPEG-1 Audio Layer III) un AAC (Advanced Audio Coding). Šie kodeki izmanto dažādus psihoakustiskos modeļus un kodēšanas tehnikas, bet abi balstās uz tiem pašiem pamatprincipiem. Abi formāti analizē audio, lai identificētu maskējamus komponentus un noņemtu vai ievērojami samazinātu šo maskēto frekvenču precizitāti. MP3 tiek izmantots jau gadu desmitiem un ir pārveidojis veidu, kā cilvēki patērē audio. AAC ir modernāks un bieži tiek uzskatīts par kvalitatīvāku pie līdzīgiem vai zemākiem bitu pārraides ātrumiem, īpaši sarežģītiem audio signāliem. Abi kodeki joprojām tiek plaši izmantoti visā pasaulē dažādos pielietojumos, sākot no mūzikas straumēšanas pakalpojumiem, piemēram, Spotify un Apple Music, līdz podkāstiem un digitālajai apraidei.

Šeit ir vienkāršota ilustrācija:

Sākotnējais audio: Simfoniskā orķestra ieraksts.
Kodeka analīze: Kodeks analizē audio, lai noteiktu skaņas komponentus un identificētu maskēšanas efektus. Piemēram, skaļš šķīvja sitiens var maskēt klusākas skaņas ar līdzīgām frekvencēm.
Maskēšanas sliekšņa pielietošana: Kodeks aprēķina maskēšanas sliekšņus, pamatojoties uz psihoakustiskajiem modeļiem.
Datu samazināšana: Audio dati, kas ir zem maskēšanas sliekšņa, tiek vai nu pilnībā noņemti, vai kodēti ar ievērojami mazāku precizitāti.
Saspiestā izvade: Rezultāts ir saspiests audio fails (piemēram, MP3 vai AAC fails), kas ir ievērojami mazāks par oriģinālu, bet joprojām saglabā labu sākotnējās audio kvalitātes pakāpi.

Psihoakustiskās audiokodēšanas pielietojumi un ietekme

Uztveres audiokodēšana ir radikāli mainījusi veidu, kā mēs patērējam un izplatām audio. Tā ir nodrošinājusi daudzus tehnoloģiskus sasniegumus un uzlabojusi audio pieredzi miljardiem cilvēku visā pasaulē:

Mūzikas straumēšanas pakalpojumi: Platformas, piemēram, Spotify, Apple Music un YouTube, lielā mērā paļaujas uz audio kompresiju, lai nodrošinātu augstas kvalitātes audio internetā. Spēja efektīvi straumēt mūziku ir padarījusi to viegli pieejamu pēc pieprasījuma gandrīz jebkurā vietā pasaulē.
Digitālā audio apraide (DAB): Digitālais radio izmanto audio kompresiju, lai pārraidītu vairāk kanālu ar augstāku audio kvalitāti nekā tradicionālais analogais radio. DAB kļūst par globālu standartu apraides radio.
Video konferences un VoIP: Kompresijas tehnikas ir būtiskas reāllaika audio pārraidei video konferencēs, tiešsaistes sanāksmēs un balss pārraides interneta protokola (VoIP) zvanos. Tas ir svarīgi gan biznesa, gan personīgai saziņai visā pasaulē.
Digitālā video izplatīšana: Audio kompresija ir neatņemama digitālo video formātu, piemēram, MP4 un Blu-ray, sastāvdaļa, kas nodrošina efektīvu augstas izšķirtspējas video un audio uzglabāšanu un izplatīšanu.
Failu glabāšana: Audio kompresija ļauj glabāt lielus audio failus un ir vitāli svarīga ierīcēm ar ierobežotu atmiņas apjomu.

Psihoakustiskās audiokodēšanas ietekme ir tālejoša, sākot ar nevainojamas saziņas veicināšanu starp kontinentiem un beidzot ar augstas precizitātes izklaides pieredzes nodrošināšanu.

Izaicinājumi un nākotnes virzieni

Lai gan uztveres audiokodēšana ir guvusi ievērojamus panākumus, pastāv pastāvīgi izaicinājumi un jomas turpmākai attīstībai:

Uztveres caurspīdīgums: Perfekta uztveres caurspīdīguma sasniegšana (kur saspiestais audio nav atšķirams no oriģināla) joprojām ir mērķis daudziem pielietojumiem, īpaši ļoti zemu bitu pārraides ātrumu gadījumā.
Sarežģīta audio apstrāde: Sarežģīti audio signāli, piemēram, no dzīvajiem koncertiem vai ierakstiem ar plašu dinamisko diapazonu, var radīt izaicinājumu kodekiem.
Uzlaboti psihoakustiskie modeļi: Nepārtrauktie pētījumi par cilvēka dzirdes niansēm veicina sarežģītāku psihoakustisko modeļu izstrādi, kas var uzlabot kompresijas efektivitāti un audio kvalitāti.
Objektu bāzes audio: Jaunās tehnoloģijas, piemēram, Dolby Atmos un MPEG-H, ietver objektu bāzes audio, kam nepieciešamas jaunas kompresijas tehnikas, lai efektīvi kodētu telpiskos un visaptverošos audio datus.
Pielāgošanās jaunām tehnoloģijām: Attīstoties audio formātiem un atskaņošanas ierīcēm (piemēram, pieaugot bezzudumu straumēšanai un augstas izšķirtspējas audio), uztveres audio kodekiem ir jāpielāgojas, lai apmierinātu audiofilu un klausītāju prasības pēc augstākās klases klausīšanās pieredzes.

Noslēgums

Psihoakustika sniedz fundamentālu izpratni par to, kā cilvēki uztver skaņu. Šīs zināšanas ir būtiskas efektīvu audiokodēšanas stratēģiju izveidē. Izprotot cilvēka dzirdes sistēmu, psihoakustiskos modeļus un tādas metodes kā maskēšana, inženieri ir izstrādājuši uztveres audio kodekus, kas nodrošina ievērojami efektīvu kompresiju, uzlabojot pieredzi visā pasaulē. Tehnoloģijām turpinot attīstīties, sinerģija starp psihoakustiku un audiokodēšanu arī turpmāk būs izšķiroša, veidojot to, kā mēs nākotnē pieredzēsim skaņu. No mazākajām austiņām līdz lielākajām koncertzālēm psihoakustikai ir būtiska loma, ļaujot mums baudīt mūziku, filmas un visa veida audio saturu efektīvāk un patīkamāk.