2025 m. rugsėjo 6 d.Lietuvių

Atskleiskite teksto vertimo į kalbą (TTS) galią savo žiniatinklio programose. Išsamus vadovas, kaip pagerinti prieinamumą ir vartotojo patirtį.

Frontend žiniatinklio kalbos sintezė: išsamus teksto vertimo į kalbą įgyvendinimo vadovas

Šiuolaikiniame skaitmeniniame pasaulyje prieinamų ir įtraukiančių žiniatinklio programų kūrimas yra nepaprastai svarbus. Viena galinga priemonė, kuri žymiai pagerina vartotojo patirtį, ypač asmenims su regos sutrikimais ar tiems, kurie teikia pirmenybę garsiniam mokymuisi, yra žiniatinklio kalbos sintezė, dar žinoma kaip teksto vertimas į kalbą (TTS). Ši technologija leidžia svetainėms ir programoms paversti rašytinį tekstą sakytiniais žodžiais, suteikdama vartotojams galimybę naudotis turiniu laisvų rankų režimu ir įtraukiai.

Kas yra žiniatinklio kalbos sintezė?

Žiniatinklio kalbos sintezė – tai technologija, leidžianti interneto naršyklėms paversti tekstą girdima kalba. Ji dažniausiai įgyvendinama naudojant „Web Speech API“ – „JavaScript“ pagrindu veikiančią sąsają, kuri kūrėjams suteikia įrankius tiesiogiai valdyti kalbos išvestį savo žiniatinklio programose. Ši API leidžia nurodyti tekstą, kurį reikia pasakyti, pasirinkti naudojamą balsą, reguliuoti kalbėjimo greitį, toną ir garsumą, ir netgi įterpti pauzes ar kitus su kalba susijusius efektus.

Kodėl verta naudoti žiniatinklio kalbos sintezę?

Teksto vertimo į kalbą funkcijų integravimas į jūsų žiniatinklio projektus suteikia daugybę privalumų:

Prieinamumas: Padaro jūsų svetainę ar programą prieinamesnę vartotojams su regos sutrikimais, skaitymo sunkumais ar kognityvinėmis negaliomis.
Pagerinta vartotojo patirtis: Suteikia alternatyvų būdą vartotojams vartoti turinį, ypač situacijose, kai skaityti gali būti sunku ar nepatogu (pvz., keliaujant, gaminant maistą ar sportuojant).
Daugiakalbis palaikymas: „Web Speech API“ palaiko platų kalbų spektrą, leidžiantį prisitaikyti prie pasaulinės auditorijos.
Didesnis įsitraukimas: Prideda interaktyvų elementą į jūsų svetainę, padarydamas ją labiau įtraukiančią ir įsimintiną vartotojams.
Mokymasis ir švietimas: Padeda mokytis kalbų, pateikdama tarimo pavyzdžių, ir leidžia vartotojams klausytis edukacinio turinio.
Sumažinta akių įtampa: Suteikia vartotojams pertrauką nuo teksto skaitymo ekranuose.

Pradžia su „Web Speech API“

„Web Speech API“ yra palyginti paprasta naudoti. Štai pagrindinis pavyzdys, kaip įdiegti teksto vertimo į kalbą funkciją „JavaScript“:

            
// Check if the Web Speech API is supported
if ('speechSynthesis' in window) {
  console.log('Web Speech API is supported');

  // Create a new SpeechSynthesisUtterance object
  const msg = new SpeechSynthesisUtterance();

  // Set the text to be spoken
  msg.text = 'Hello, world! This is a text-to-speech example.';

  // Optionally, set the voice (language)
  msg.lang = 'en-US'; // English (United States)

  // Speak the text
  window.speechSynthesis.speak(msg);
} else {
  console.log('Web Speech API is not supported in this browser.');
  // Provide a fallback for browsers that don't support the API
}

Paaiškinimas:

Palaikymo tikrinimas: Kodas pirmiausia patikrina, ar `window` objekte egzistuoja `speechSynthesis` savybė. Tai užtikrina, kad naršyklė palaiko „Web Speech API“.
`SpeechSynthesisUtterance` sukūrimas: `SpeechSynthesisUtterance` objektas atstovauja kalbos užklausą. Jame yra tekstas, kuris turi būti ištartas, ir kitos su kalbos sinteze susijusios savybės.
Teksto nustatymas: `SpeechSynthesisUtterance` objekto `text` savybė nustatoma į tekstą, kurį norite ištarti.
Kalbos nustatymas (neprivaloma): `lang` savybė leidžia nurodyti teksto kalbą. Tai padeda naršyklei pasirinkti tinkamą balsą nurodytai kalbai. Jei nenustatysite `lang` savybės, naršyklė naudos savo numatytąją kalbą. Kalbų kodų sąrašą galite rasti internete (pvz., 'en-US' anglų (JAV), 'es-ES' ispanų (Ispanija), 'fr-FR' prancūzų (Prancūzija), 'de-DE' vokiečių (Vokietija), 'ja-JP' japonų (Japonija), 'zh-CN' kinų (Kinija), 'ru-RU' rusų (Rusija), 'ar-SA' arabų (Saudo Arabija)).
Teksto ištarimas: `window.speechSynthesis.speak()` metodas naudojamas kalbos sintezės procesui pradėti. Jis priima `SpeechSynthesisUtterance` objektą kaip argumentą.
Atsarginis variantas: Jei „Web Speech API“ nepalaikoma, kodas pateikia atsarginį pranešimą, informuojantį vartotoją. Galite apsvarstyti galimybę pasiūlyti alternatyvius turinio pasiekimo būdus, pavyzdžiui, rodyti tekstinę versiją arba pateikti nuorodą į garso įrašą.

Kalbos išvesties pritaikymas

„Web Speech API“ siūlo įvairių savybių, kurios leidžia pritaikyti kalbos išvestį pagal jūsų konkrečius poreikius.

Balso nustatymas

Galite pasirinkti iš vartotojo sistemoje esančių balsų sąrašo. Štai kaip gauti ir nustatyti balsą:

            
window.speechSynthesis.onvoiceschanged = () => {
  const voices = window.speechSynthesis.getVoices();
  // Log the available voices
  console.log(voices);

  // Choose a specific voice (e.g., the first available voice)
  msg.voice = voices[0];

  // Or, choose a voice based on language and name
  const englishVoice = voices.find(voice => voice.lang === 'en-US' && voice.name.includes('Google'));
  if (englishVoice) {
    msg.voice = englishVoice;
  }
};

Svarbu: `voiceschanged` įvykis suaktyvinamas, kai pasikeičia galimų balsų sąrašas. Turėtumėte gauti balsus šio įvykio apdorojimo funkcijoje, kad užtikrintumėte, jog turite naujausią sąrašą.

Atminkite, kad galimi balsai priklauso nuo vartotojo operacinės sistemos, naršyklės ir įdiegtų kalbos sintezatorių.

Greičio, tono ir garsumo reguliavimas

Taip pat galite reguliuoti kalbos išvesties greitį, toną ir garsumą naudodami šias savybes:

rate: Kalbėjimo greitis, kur 1 yra normalus greitis, 0,5 – pusė greičio, o 2 – dvigubas greitis.
pitch: Balso tonas, kur 1 yra normalus tonas.
volume: Kalbos garsumas, kur 1 yra maksimalus garsumas, o 0 – tyla.

            
msg.rate = 1.0;  // Normal speaking rate
msg.pitch = 1.0; // Normal pitch
msg.volume = 1.0; // Maximum volume

Įvykių apdorojimas

„Web Speech API“ pateikia kelis įvykius, kurie leidžia stebėti kalbos sintezės proceso eigą:

onstart: Suaktyvinamas, kai prasideda kalbos sintezė.
onend: Suaktyvinamas, kai kalbos sintezė baigiasi.
onerror: Suaktyvinamas, kai įvyksta klaida kalbos sintezės metu.
onpause: Suaktyvinamas, kai kalbos sintezė pristabdoma.
onresume: Suaktyvinamas, kai kalbos sintezė atnaujinama.
onboundary: Suaktyvinamas, kai kalbos sintezė pasiekia žodžio ar sakinio ribą.

            
msg.onstart = () => {
  console.log('Speech synthesis started');
};

msg.onend = () => {
  console.log('Speech synthesis finished');
};

msg.onerror = (event) => {
  console.error('Speech synthesis error:', event.error);
};

Pažangios technikos: kalbos sintezės žymėjimo kalba (SSML)

Norėdami gauti pažangesnę kalbos išvesties kontrolę, galite naudoti kalbos sintezės žymėjimo kalbą (SSML). SSML yra XML pagrindu sukurta žymėjimo kalba, leidžianti pridėti išsamias instrukcijas prie teksto, pavyzdžiui, nurodyti tarimą, pridėti pauzes, pabrėžti žodžius ir keisti balsą.

Pastaba: SSML palaikymas skiriasi priklausomai nuo naršyklių ir kalbos sintezės variklių. Svarbu kruopščiai išbandyti savo SSML kodą, kad įsitikintumėte, jog jis veikia kaip tikėtasi jūsų tikslinėse aplinkose.

SSML naudojimo pavyzdys

            
<speak>
  Hello, my name is <voice name="Google US English Female">Alice</voice>.
  I am going to <emphasis level="strong">read</emphasis> this sentence with emphasis.
  <break time="3s"/>
  And now, I will pause for three seconds.
</speak>

Norėdami naudoti SSML, turite apgaubti savo tekstą `<speak>` žymėmis ir `SpeechSynthesisUtterance` objekto `text` savybę nustatyti į SSML kodą.

            
msg.text = '<speak>Hello, my name is <voice name="Google US English Female">Alice</voice>.</speak>';

Dažniausios SSML žymės

<speak>: Pagrindinis SSML dokumento elementas.
<voice>: Nurodo balsą, kuris bus naudojamas pridėtam tekstui.
<emphasis>: Pabrėžia pridėtą tekstą. `level` atributas gali būti nustatytas kaip `strong`, `moderate` arba `reduced`.
<break>: Įterpia pauzę. `time` atributas nurodo pauzės trukmę sekundėmis arba milisekundėmis (pvz., `time="3s"` arba `time="500ms"`).
<prosody>: Kontroliuoja kalbos greitį, toną ir garsumą. Galite naudoti `rate`, `pitch` ir `volume` atributus, norėdami koreguoti šias savybes.
<say-as>: Nurodo, kaip turėtų būti interpretuojamas pridėtas tekstas. Pavyzdžiui, galite jį naudoti, kad kalbos sintezatorius ištartų skaičių kaip datą arba žodį kaip raides.
<phoneme>: Pateikia fonetinį tarimą pridėtam tekstui. Tai naudinga žodžiams, turintiems neįprastą ar dviprasmišką tarimą.

Naršyklių suderinamumas ir atsarginiai variantai

„Web Speech API“ plačiai palaiko šiuolaikinės naršyklės, įskaitant „Chrome“, „Firefox“, „Safari“ ir „Edge“. Tačiau senesnės naršyklės gali nepalaikyti API arba turėti ribotą funkcionalumą. Todėl svarbu pateikti atsarginius variantus naršyklėms, kurios nepalaiko API.

Štai keletas strategijų naršyklių suderinamumui tvarkyti:

Funkcijų aptikimas: Naudokite funkcijų aptikimą, kad patikrintumėte, ar `window` objekte egzistuoja `speechSynthesis` savybė. Jei ne, pateikite alternatyvų turinio pasiekimo būdą.
„Polyfills“: Apsvarstykite galimybę naudoti „polyfill“ biblioteką, kuri teikia „Web Speech API“ įgyvendinimą senesnėms naršyklėms. Tačiau atminkite, kad „polyfill“ gali būti nevisiškai suderinami su visomis naršyklėmis ar kalbos sintezės varikliais.
Alternatyvus turinio pateikimas: Suteikite vartotojams alternatyvių būdų pasiekti turinį, pavyzdžiui, rodydami tekstinę versiją, pateikdami nuorodą į garso įrašą arba siūlydami vaizdo įrašą su subtitrais.

Prieinamumo aspektai

Įgyvendinant žiniatinklio kalbos sintezę, svarbu atsižvelgti į prieinamumo gaires, kad jūsų svetainė ar programa būtų naudojama visiems.

Pateikite aiškius valdiklius: Įsitikinkite, kad vartotojai gali lengvai paleisti, sustabdyti, pristabdyti ir atnaujinti kalbos sintezę. Naudokite aiškius ir intuityvius valdiklius, pvz., mygtukus ar piktogramas su etiketėmis.
Prieinamumas klaviatūra: Užtikrinkite, kad visi valdikliai būtų pasiekiami naudojant klaviatūrą.
ARIA atributai: Naudokite ARIA atributus, kad pateiktumėte semantinę informaciją apie valdiklius pagalbinei technologijai. Pavyzdžiui, galite naudoti `aria-label` atributą, kad pateiktumėte aprašomąją etiketę mygtukui.
Pritaikymo parinktys: Leiskite vartotojams pritaikyti kalbos išvestį pagal savo individualius poreikius. Pavyzdžiui, pateikite parinktis reguliuoti kalbėjimo greitį, toną ir garsumą.
Testuokite su pagalbinėmis technologijomis: Išbandykite savo svetainę ar programą su pagalbinėmis technologijomis, tokiomis kaip ekrano skaitytuvai, kad užtikrintumėte, jog ji yra prieinama vartotojams su negalia.

Saugumo aspektai

Naudojant žiniatinklio kalbos sintezę, svarbu žinoti apie galimas saugumo rizikas.

Įvesties patvirtinimas: Visada patvirtinkite vartotojo įvestį, kad išvengtumėte įterpimo atakų. Pavyzdžiui, jei leidžiate vartotojams įvesti tekstą, kuris bus ištartas, būtinai išvalykite įvestį, kad pašalintumėte bet kokį kenkėjišką kodą.
Tarpvietinis scenarijų kūrimas (XSS): Būkite atsargūs rodydami vartotojų sukurtą turinį, nes jame gali būti kenkėjiško kodo, kuris gali pakenkti jūsų svetainės ar programos saugumui.
Duomenų privatumas: Atsižvelkite į duomenų privatumo taisykles, tokias kaip GDPR, renkant ir apdorojant vartotojų duomenis.

Praktiniai pavyzdžiai ir naudojimo atvejai

Žiniatinklio kalbos sintezė gali būti naudojama įvairiose programose ir pramonės šakose.

El. mokymosi platformos: Suteikite studentams garsinio mokymosi patirtis. Studentai visame pasaulyje gali gauti naudos iš garsiai skaitomo teksto, ypač tie, kurie mokosi naujų kalbų arba turi skaitymo sunkumų.
Naujienų svetainės: Leiskite vartotojams klausytis naujienų straipsnių keliaujant ar atliekant kelis darbus vienu metu. Įsivaizduokite vartotoją Tokijuje, klausantį BBC naujienų straipsnio pakeliui į darbą.
El. prekybos svetainės: Pateikite produktų aprašymus ir apžvalgas garso formatu. Vartotojui Berlyne gali būti lengviau klausytis produkto aprašymo naršant mobiliajame įrenginyje.
Prieinamumo įrankiai: Sukurkite pagalbines technologijas asmenims su regos sutrikimais ar skaitymo negalia. Tai apima pasaulinę prieigą, neatsižvelgiant į geografinę padėtį ar kalbos barjerus.
Interaktyviosios balso atsakymo (IVR) sistemos: Kurkite balsu valdomas sąsajas žiniatinklio programoms. Įmonės Mumbajuje gali tai naudoti klientų aptarnavimo portalams, pasiekiamiems visame pasaulyje.
Kalbos mokymosi programėlės: Padėkite besimokantiesiems su tarimu ir supratimu. Kalbų besimokantieji Buenos Airėse gali naudoti TTS, kad pagerintų savo ispanų kalbos tarimą.
Audioknygos ir transliacijos: Automatizuokite garso turinio kūrimą iš tekstinių šaltinių. Nepriklausomi autoriai visur gali lengviau kurti savo knygų garso versijas.

Išvada

Žiniatinklio kalbos sintezė yra galinga technologija, galinti žymiai pagerinti jūsų žiniatinklio programų prieinamumą ir vartotojo patirtį. Suprasdami „Web Speech API“ ir jos galimybes, galite sukurti įtraukiančias ir įtraukias patirtis vartotojams visame pasaulyje. Įgyvendindami žiniatinklio kalbos sintezę savo projektuose, nepamirškite teikti pirmenybę prieinamumui, saugumui ir naršyklių suderinamumui.

Tobulėjant žiniatinklio technologijoms, galime tikėtis dar pažangesnių funkcijų ir galimybių teksto vertimo į kalbą srityje. Sekite naujausius pokyčius ir tyrinėkite galimybes integruoti šią technologiją į savo būsimus projektus!

Papildomi ištekliai

Mozilla Developer Network (MDN) Web Speech API dokumentacija
W3C kalbos sintezės žymėjimo kalbos (SSML) 1.1 versija
Google Cloud Text-to-Speech (Debesijos pagrindu veikianti TTS paslauga)
Amazon Polly (Debesijos pagrindu veikianti TTS paslauga)