۲۶ مرداد ۱۴۰۴فارسی

با API گفتار وب، قابلیت‌ها، روش‌های یکپارچه‌سازی، کاربردهای عملی و روندهای آینده در فناوری تشخیص صدا برای توسعه‌دهندگان وب و کسب‌وکارها آشنا شوید.

مهار کردن صدا: راهنمای جامع API گفتار وب و یکپارچه‌سازی تشخیص صدا

API گفتار وب (Web Speech API) ابزاری قدرتمند است که به توسعه‌دهندگان وب امکان می‌دهد تا قابلیت‌های تشخیص گفتار و ترکیب گفتار (متن به گفتار) را در برنامه‌های وب خود ادغام کنند. این امر دنیایی از امکانات را برای ایجاد تجربیات کاربری دسترسی‌پذیرتر، تعاملی‌تر و جذاب‌تر فراهم می‌کند. این راهنمای جامع به بررسی دقیق API گفتار وب، قابلیت‌ها، روش‌های یکپارچه‌سازی، کاربردهای عملی و روندهای آینده آن می‌پردازد.

API گفتار وب چیست؟

API گفتار وب یک API جاوا اسکریپت است که مرورگرهای وب را قادر می‌سازد کلمات گفتاری را تشخیص داده و به متن تبدیل کنند (تشخیص گفتار) و گفتار را از متن ترکیب کنند (متن به گفتار). این API به گونه‌ای طراحی شده که استفاده از آن نسبتاً آسان باشد و بسیاری از پیچیدگی‌های مربوط به پردازش گفتار را پنهان می‌کند.

این API به دو بخش اصلی تقسیم می‌شود:

SpeechRecognition: برای تبدیل گفتار به متن.
SpeechSynthesis: برای تبدیل متن به گفتار.

این راهنما عمدتاً بر روی SpeechRecognition و نحوه یکپارچه‌سازی تشخیص صدا در پروژه‌های وب شما تمرکز خواهد کرد.

چرا از API گفتار وب استفاده کنیم؟

ادغام تشخیص صدا در برنامه‌های وب شما مزایای قانع‌کننده‌ای را ارائه می‌دهد:

دسترسی‌پذیری: برنامه‌های وب را برای کاربران دارای معلولیت، مانند کسانی که دارای اختلالات حرکتی یا بینایی هستند، دسترسی‌پذیرتر می‌کند. کنترل صوتی می‌تواند یک روش ورودی جایگزین برای کسانی باشد که نمی‌توانند از ماوس یا کیبورد استفاده کنند.
تجربه کاربری بهبود یافته: روشی بدون نیاز به دست و بصری برای تعامل کاربران با برنامه‌های وب فراهم می‌کند. این ویژگی می‌تواند به ویژه در سناریوهایی که کاربران در حال انجام چند کار هستند یا تحرک محدودی دارند، مفید باشد.
افزایش بهره‌وری: به کاربران امکان می‌دهد تا وظایف را سریع‌تر و کارآمدتر انجام دهند. به عنوان مثال، جستجوی صوتی می‌تواند سریع‌تر از تایپ یک عبارت باشد.
نوآوری: امکانات جدیدی برای ایجاد برنامه‌های وب نوآورانه که به دستورات صوتی پاسخ می‌دهند، تجربیات شخصی‌سازی شده ارائه می‌دهند و از رابط‌های محاوره‌ای بهره می‌برند، فراهم می‌کند. بازی‌های کنترل صوتی، دستیاران مجازی و پلتفرم‌های یادگیری تعاملی را تصور کنید.
دسترسی جهانی: از چندین زبان پشتیبانی می‌کند و به شما امکان می‌دهد برنامه‌هایی ایجاد کنید که به مخاطبان جهانی پاسخ دهند. این API به طور مداوم در حال تکامل است و پشتیبانی از زبان و دقت آن بهبود می‌یابد.

درک SpeechRecognition

رابط SpeechRecognition هسته اصلی قابلیت تشخیص صدا است. این رابط متدها و ویژگی‌های مورد نیاز برای شروع، توقف و کنترل فرآیند تشخیص گفتار را فراهم می‌کند.

ویژگی‌ها و متدهای کلیدی

SpeechRecognition.grammars: یک شیء SpeechGrammarList که مجموعه‌ای از گرامرها را نشان می‌دهد که توسط جلسه فعلی SpeechRecognition درک خواهد شد. گرامرها کلمات یا عبارات خاصی را که موتور تشخیص باید به آنها گوش دهد، تعریف می‌کنند و دقت و عملکرد را بهبود می‌بخشند.
SpeechRecognition.lang: یک رشته که تگ زبان BCP 47 را برای جلسه فعلی SpeechRecognition نشان می‌دهد. به عنوان مثال، en-US برای انگلیسی آمریکایی یا es-ES برای اسپانیایی (اسپانیا). تنظیم این ویژگی برای تشخیص دقیق زبان بسیار مهم است.
SpeechRecognition.continuous: یک مقدار بولی که نشان می‌دهد آیا موتور تشخیص باید به طور مداوم به گفتار گوش دهد یا پس از اولین گفته متوقف شود. تنظیم این مقدار روی true امکان تشخیص مداوم گفتار را فراهم می‌کند که برای دیکته یا برنامه‌های محاوره‌ای مفید است.
SpeechRecognition.interimResults: یک مقدار بولی که نشان می‌دهد آیا نتایج موقت باید برگردانده شوند یا خیر. نتایج موقت، رونویس‌های اولیه از گفتار هستند که قبل از در دسترس قرار گرفتن نتیجه نهایی ارائه می‌شوند. این نتایج می‌توانند برای ارائه بازخورد در لحظه به کاربر استفاده شوند.
SpeechRecognition.maxAlternatives: حداکثر تعداد رونویس‌های جایگزین که باید برای هر نتیجه برگردانده شود را تنظیم می‌کند. موتور محتمل‌ترین تفاسیر از گفتار را ارائه می‌دهد.
SpeechRecognition.start(): فرآیند تشخیص گفتار را شروع می‌کند.
SpeechRecognition.stop(): فرآیند تشخیص گفتار را متوقف می‌کند.
SpeechRecognition.abort(): فرآیند تشخیص گفتار را لغو می‌کند و هرگونه تشخیص در حال انجام را متوقف می‌سازد.

رویدادها (Events)

رابط SpeechRecognition همچنین چندین رویداد را فراهم می‌کند که می‌توانید برای نظارت بر پیشرفت فرآیند تشخیص گفتار و مدیریت خطاها به آنها گوش دهید:

onaudiostart: زمانی فعال می‌شود که سرویس تشخیص گفتار شروع به گوش دادن به صدای ورودی می‌کند.
onspeechstart: زمانی فعال می‌شود که گفتار تشخیص داده شود.
onspeechend: زمانی فعال می‌شود که دیگر گفتاری تشخیص داده نشود.
onaudioend: زمانی فعال می‌شود که سرویس تشخیص گفتار گوش دادن به صدا را متوقف کند.
onresult: زمانی فعال می‌شود که سرویس تشخیص گفتار نتیجه‌ای را برمی‌گرداند — یک کلمه یا عبارت به طور مثبت تشخیص داده شده و این به برنامه اطلاع داده شده است.
onnomatch: زمانی فعال می‌شود که سرویس تشخیص گفتار نتیجه نهایی را بدون هیچ تشخیص منطبقی برمی‌گرداند. این ممکن است زمانی اتفاق بیفتد که کاربر کلمات نامفهوم یا کلماتی که در گرامر مشخص شده نیستند را به کار ببرد.
onerror: زمانی فعال می‌شود که خطایی در حین تشخیص گفتار رخ دهد. این رویداد اطلاعاتی در مورد خطا، مانند کد خطا و توضیحات آن، ارائه می‌دهد. خطاهای رایج شامل مشکلات اتصال به شبکه، مشکلات دسترسی به میکروفون و مشخصات گرامر نامعتبر است.
onstart: زمانی فعال می‌شود که سرویس تشخیص گفتار با موفقیت شروع به گوش دادن به صدای ورودی کرده است.
onend: زمانی فعال می‌شود که سرویس تشخیص گفتار قطع شده است.

یکپارچه‌سازی تشخیص صدا: راهنمای گام به گام

در اینجا یک راهنمای گام به گام برای یکپارچه‌سازی تشخیص صدا در برنامه وب شما آورده شده است:

مرحله ۱: بررسی پشتیبانی مرورگر

ابتدا، باید بررسی کنید که آیا API گفتار وب توسط مرورگر کاربر پشتیبانی می‌شود یا خیر. این مهم است زیرا همه مرورگرها از این API به طور کامل پشتیبانی نمی‌کنند.

            
if ('webkitSpeechRecognition' in window) {
  // Web Speech API is supported
} else {
  // Web Speech API is not supported
  alert('Web Speech API is not supported in this browser. Please try Chrome or Safari.');
}

مرحله ۲: ایجاد یک شیء SpeechRecognition

سپس، یک شیء جدید SpeechRecognition ایجاد کنید. شما از این شیء برای کنترل فرآیند تشخیص گفتار استفاده خواهید کرد.

            
const recognition = new webkitSpeechRecognition(); // Use webkitSpeechRecognition for Chrome/Safari compatibility

توجه: برای سازگاری بین مرورگرها، بسته به مرورگر از webkitSpeechRecognition یا SpeechRecognition استفاده کنید.

مرحله ۳: پیکربندی شیء SpeechRecognition

شیء SpeechRecognition را با تنظیم ویژگی‌هایی مانند lang، continuous و interimResults پیکربندی کنید.

            
recognition.lang = 'en-US'; // Set the language
recognition.continuous = false; // Set to true for continuous recognition
recognition.interimResults = true; // Set to true to get interim results
recognition.maxAlternatives = 1; // Set the maximum number of alternative transcriptions

مثال: تنظیم زبان برای کاربران بین‌المللی

برای پشتیبانی از کاربران مناطق مختلف، می‌توانید ویژگی lang را به صورت پویا بر اساس تنظیمات یا ترجیحات مرورگر کاربر تنظیم کنید:

            
// Example: Get user's preferred language from browser settings
const userLanguage = navigator.language || navigator.userLanguage; 

recognition.lang = userLanguage; // Set the language based on user's preference

console.log('Language set to: ' + userLanguage);

این کار تضمین می‌کند که موتور تشخیص گفتار برای درک زبان مادری کاربر پیکربندی شده است، که منجر به رونویس‌های دقیق‌تر می‌شود.

مرحله ۴: افزودن Event Listeners

Event listener ها را برای مدیریت رویدادهای مختلفی که توسط شیء SpeechRecognition فعال می‌شوند، اضافه کنید. اینجاست که شما نتایج تشخیص گفتار را پردازش کرده و خطاها را مدیریت خواهید کرد.

            
recognition.onresult = (event) => {
  const transcript = Array.from(event.results)
    .map(result => result[0])
    .map(result => result.transcript)
    .join('');

  console.log('Transcript: ' + transcript);
  // Update the UI with the transcript
  document.getElementById('output').textContent = transcript;
};

recognition.onerror = (event) => {
  console.error('Error occurred in recognition: ' + event.error);
  document.getElementById('output').textContent = 'Error: ' + event.error;
};

recognition.onstart = () => {
  console.log('Speech recognition service has started');
  document.getElementById('status').textContent = 'Listening...';
};

recognition.onend = () => {
  console.log('Speech recognition service has disconnected');
  document.getElementById('status').textContent = 'Idle';
};

مرحله ۵: شروع و توقف تشخیص گفتار

از متدهای start() و stop() برای کنترل فرآیند تشخیص گفتار استفاده کنید.

            
const startButton = document.getElementById('start-button');
const stopButton = document.getElementById('stop-button');

startButton.addEventListener('click', () => {
  recognition.start();
});

stopButton.addEventListener('click', () => {
  recognition.stop();
});

مثال: یک برنامه ساده جستجوی صوتی

بیایید یک برنامه ساده جستجوی صوتی ایجاد کنیم که به کاربران امکان می‌دهد با استفاده از صدای خود در وب جستجو کنند.

ساختار HTML

            
<div>
  <h1>Voice Search</h1>
  <p>Click the button and speak your search query.</p>
  <button id="start-button">Start Voice Search</button>
  <p id="output"></p>
  <p id="status"></p>
</div>

کد جاوا اسکریپت

            
if ('webkitSpeechRecognition' in window) {
  const recognition = new webkitSpeechRecognition();
  recognition.lang = 'en-US';
  recognition.continuous = false;
  recognition.interimResults = false;

  recognition.onresult = (event) => {
    const transcript = event.results[0][0].transcript;
    console.log('Transcript: ' + transcript);
    // Perform the search
    window.location.href = 'https://www.google.com/search?q=' + encodeURIComponent(transcript);
  };

  recognition.onerror = (event) => {
    console.error('Error occurred in recognition: ' + event.error);
    document.getElementById('output').textContent = 'Error: ' + event.error;
  };

  recognition.onstart = () => {
    console.log('Speech recognition service has started');
    document.getElementById('status').textContent = 'Listening...';
  };

  recognition.onend = () => {
    console.log('Speech recognition service has disconnected');
    document.getElementById('status').textContent = 'Idle';
  };

  document.getElementById('start-button').addEventListener('click', () => {
    recognition.start();
  });
} else {
  alert('Web Speech API is not supported in this browser. Please try Chrome or Safari.');
}

این کد یک برنامه ساده جستجوی صوتی ایجاد می‌کند که از API گفتار وب برای تشخیص صدای کاربر استفاده کرده و سپس با متن تشخیص داده شده یک جستجوی گوگل انجام می‌دهد. این مثال نشان می‌دهد که چگونه می‌توان تشخیص صدا را در یک برنامه کاربردی واقعی ادغام کرد.

تکنیک‌ها و ملاحظات پیشرفته

استفاده از گرامرها برای بهبود دقت

برای برنامه‌هایی که نیاز به تشخیص کلمات یا عبارات خاص دارند، می‌توانید از گرامرها برای بهبود دقت استفاده کنید. گرامرها مجموعه‌ای از کلمات یا عباراتی را که موتور تشخیص باید به آنها گوش دهد، تعریف می‌کنند.

            
const grammar = '#JSGF V1.0; grammar colors; public <color> = red | green | blue;';
const speechRecognitionList = new webkitSpeechGrammarList();
speechRecognitionList.addFromString(grammar, 1);
recognition.grammars = speechRecognitionList;

این کد یک گرامر تعریف می‌کند که به موتور تشخیص می‌گوید فقط به کلمات "red"، "green" و "blue" گوش دهد. این می‌تواند دقت را در برنامه‌هایی که انتظار می‌رود کاربر دستورات خاصی را بیان کند، به طور قابل توجهی بهبود بخشد.

مدیریت زبان‌ها و لهجه‌های مختلف

API گفتار وب از طیف گسترده‌ای از زبان‌ها و لهجه‌ها پشتیبانی می‌کند. می‌توانید از ویژگی lang برای مشخص کردن زبانی که موتور تشخیص باید استفاده کند، استفاده کنید. در نظر بگیرید که زبان را بر اساس مکان یا ترجیحات کاربر تطبیق دهید.

            
recognition.lang = 'es-ES'; // Spanish (Spain)
recognition.lang = 'fr-FR'; // French (France)
recognition.lang = 'ja-JP'; // Japanese (Japan)

انتخاب زبان و لهجه صحیح برای اطمینان از تشخیص دقیق بسیار مهم است. اگر برنامه شما به مخاطبان جهانی خدمات می‌دهد، گزینه‌هایی برای انتخاب زبان ترجیحی کاربران فراهم کنید.

رسیدگی به مشکلات تأخیر و عملکرد

تشخیص صدا می‌تواند از نظر محاسباتی سنگین باشد و تأخیر می‌تواند یک نگرانی باشد، به خصوص در دستگاه‌های تلفن همراه. در اینجا چند نکته برای رسیدگی به مشکلات تأخیر و عملکرد آورده شده است:

استفاده از گرامرها: همانطور که قبلاً ذکر شد، گرامرها می‌توانند با محدود کردن دایره واژگانی که موتور تشخیص باید پردازش کند، عملکرد را به طور قابل توجهی بهبود بخشند.
بهینه‌سازی ورودی صوتی: اطمینان حاصل کنید که ورودی صوتی واضح و بدون نویز است. از یک میکروفون با کیفیت بالا استفاده کنید و در صورت لزوم تکنیک‌های حذف نویز را پیاده‌سازی کنید.
استفاده از Web Workers: پردازش تشخیص گفتار را به یک web worker منتقل کنید تا از مسدود شدن رشته اصلی و تأثیر بر پاسخگویی رابط کاربری جلوگیری شود.
نظارت بر عملکرد: از ابزارهای توسعه‌دهنده مرورگر برای نظارت بر عملکرد برنامه خود و شناسایی گلوگاه‌ها استفاده کنید.

ایمن‌سازی برنامه‌های تشخیص صدا

هنگام پیاده‌سازی تشخیص صدا در برنامه‌های وب، امنیت یک ملاحظه حیاتی است. داده‌های صوتی منتقل شده از طریق اینترنت در صورت عدم ایمن‌سازی مناسب می‌توانند رهگیری شوند. این بهترین شیوه‌های امنیتی را دنبال کنید:

استفاده از HTTPS: اطمینان حاصل کنید که وب‌سایت شما از طریق HTTPS ارائه می‌شود تا تمام ارتباطات بین کلاینت و سرور، از جمله داده‌های صوتی، رمزگذاری شود.
مدیریت دقیق داده‌های حساس: از انتقال اطلاعات حساس (مانند رمز عبور، شماره کارت اعتباری) از طریق صدا خودداری کنید. اگر مجبور به این کار هستید، از مکانیزم‌های رمزگذاری و احراز هویت قوی استفاده کنید.
احراز هویت کاربر: احراز هویت کاربر قوی را برای جلوگیری از دسترسی غیرمجاز به برنامه خود و محافظت از داده‌های کاربر پیاده‌سازی کنید.
حریم خصوصی داده‌ها: در مورد نحوه جمع‌آوری، ذخیره و استفاده از داده‌های صوتی شفاف باشید. قبل از ضبط یا پردازش صدای کاربر، رضایت او را جلب کنید. از مقررات مربوط به حریم خصوصی داده‌ها مانند GDPR و CCPA پیروی کنید.
ممیزی‌های امنیتی منظم: ممیزی‌های امنیتی منظم را برای شناسایی و رفع آسیب‌پذیری‌های بالقوه در برنامه خود انجام دهید.

کاربردهای عملی API گفتار وب

API گفتار وب درهای نوآوری را در زمینه‌های مختلف باز می‌کند:

رابط‌های وب دسترسی‌پذیر: امکان ناوبری در وب‌سایت‌ها و برنامه‌ها با استفاده از دستورات صوتی برای کاربران دارای معلولیت. به عنوان مثال، یک کاربر کم‌بینا می‌تواند از صدا برای پر کردن فرم‌ها، مرور کاتالوگ محصولات یا خواندن مقالات استفاده کند.
دستیاران کنترل صوتی: ساخت دستیاران مجازی شخصی‌سازی شده که به دستورات صوتی پاسخ می‌دهند و اطلاعات ارائه می‌دهند، وظایف را مدیریت می‌کنند و دستگاه‌های خانه هوشمند را کنترل می‌کنند. یک دستیار مبتنی بر وب را تصور کنید که می‌تواند قرار ملاقات‌ها را تنظیم کند، یادآوری‌ها را تنظیم کند یا بر اساس درخواست‌های صوتی موسیقی پخش کند.
پلتفرم‌های یادگیری تعاملی: ایجاد تجربیات آموزشی جذاب که در آن دانش‌آموزان می‌توانند از طریق صدا با مطالب آموزشی تعامل داشته باشند. به عنوان مثال، یک برنامه یادگیری زبان می‌تواند بازخورد در لحظه در مورد تلفظ ارائه دهد، یا یک آزمون تاریخ را می‌توان با استفاده از دستورات صوتی پاسخ داد.
برنامه‌های بدون نیاز به دست: توسعه برنامه‌ها برای سناریوهایی که کاربران تحرک محدودی دارند یا نیاز دارند دستان خود را آزاد نگه دارند. این می‌تواند شامل دستور پخت‌های کنترل صوتی در آشپزخانه یا سیستم‌های مدیریت موجودی فعال با صدا در انبارها باشد.
جستجو و ناوبری صوتی: بهبود عملکرد جستجو و امکان ناوبری در وب‌سایت‌ها با استفاده از دستورات صوتی. این می‌تواند به ویژه در دستگاه‌های تلفن همراه یا سیستم‌های سرگرمی داخل خودرو مفید باشد.
ابزارهای دیکته و یادداشت‌برداری: ارائه روشی راحت برای کاربران برای دیکته کردن متن و یادداشت‌برداری با استفاده از صدای خود. این می‌تواند برای روزنامه‌نگاران، نویسندگان یا هر کسی که نیاز به ثبت سریع افکار دارد، مفید باشد.
بازی: گنجاندن دستورات صوتی در بازی‌ها برای گیم‌پلی فراگیرتر و تعاملی‌تر. بازیکنان می‌توانند از صدا برای کنترل شخصیت‌ها، صدور دستورات یا تعامل با محیط بازی استفاده کنند.
چت‌بات‌های خدمات مشتری: ادغام تشخیص صدا در چت‌بات‌ها برای امکان تعاملات طبیعی‌تر و محاوره‌ای‌تر با مشتریان. این می‌تواند رضایت مشتری را بهبود بخشد و بار کاری را از روی دوش نمایندگان انسانی کاهش دهد.
برنامه‌های کاربردی در حوزه سلامت: امکان ثبت اطلاعات بیمار و یادداشت‌های پزشکی توسط پزشکان و پرستاران با استفاده از دیکته صوتی. این می‌تواند باعث صرفه‌جویی در وقت و بهبود دقت در ثبت سوابق شود.

روندهای آینده در تشخیص صدا

حوزه تشخیص صدا به سرعت در حال تکامل است و چندین روند هیجان‌انگیز در افق دیده می‌شود:

دقت بهبود یافته و درک زبان طبیعی: پیشرفت‌ها در یادگیری ماشین و یادگیری عمیق منجر به سیستم‌های تشخیص صدای دقیق‌تر و ظریف‌تری می‌شود که می‌توانند زبان طبیعی را بهتر درک کنند. این شامل بهبود در تشخیص لهجه‌ها، گویش‌ها و اصطلاحات عامیانه است.
آگاهی متنی: سیستم‌های تشخیص صدا به طور فزاینده‌ای از نظر متنی آگاه می‌شوند، به این معنی که می‌توانند قصد کاربر را بر اساس محیط اطراف و تعاملات قبلی درک کنند. این امکان پاسخ‌های شخصی‌سازی شده و مرتبط‌تری را فراهم می‌کند.
محاسبات لبه (Edge Computing): پردازش داده‌های تشخیص صدا در لبه (یعنی روی دستگاه کاربر) به جای ابر می‌تواند تأخیر را کاهش دهد، حریم خصوصی را بهبود بخشد و عملکرد آفلاین را امکان‌پذیر سازد.
پشتیبانی چند زبانه: سیستم‌های تشخیص صدا به طور فزاینده‌ای از چندین زبان و گویش پشتیبانی می‌کنند و آنها را برای مخاطبان جهانی دسترسی‌پذیرتر می‌سازند.
ادغام با هوش مصنوعی و یادگیری ماشین: تشخیص صدا به طور فزاینده‌ای با سایر فناوری‌های هوش مصنوعی و یادگیری ماشین، مانند پردازش زبان طبیعی (NLP) و ترجمه ماشینی، برای ایجاد برنامه‌های قدرتمندتر و هوشمندتر ادغام می‌شود.
بیومتریک صوتی: استفاده از صدا به عنوان یک شناسه بیومتریک برای اهداف احراز هویت و امنیتی. این می‌تواند جایگزین راحت‌تر و ایمن‌تری برای رمزهای عبور سنتی فراهم کند.
دستیاران صوتی شخصی‌سازی شده: دستیاران صوتی در حال شخصی‌سازی شدن بیشتر هستند، ترجیحات کاربر را یاد می‌گیرند و با نیازهای فردی سازگار می‌شوند.
دستگاه‌های اینترنت اشیاء (IoT) با قابلیت صوتی: گسترش دستگاه‌های اینترنت اشیاء با قابلیت صوتی (مانند بلندگوهای هوشمند، لوازم خانگی هوشمند) تقاضا برای فناوری تشخیص صدای پیچیده‌تر را افزایش می‌دهد.

نتیجه‌گیری

API گفتار وب روشی قدرتمند و در دسترس برای ادغام تشخیص صدا در برنامه‌های وب شما فراهم می‌کند. با درک قابلیت‌های API، روش‌های یکپارچه‌سازی و بهترین شیوه‌ها، می‌توانید تجربیات کاربری جذاب‌تر، دسترسی‌پذیرتر و نوآورانه‌تری ایجاد کنید. با ادامه تکامل فناوری تشخیص صدا، امکانات استفاده از آن در توسعه وب بی‌پایان است.

قدرت صدا را در آغوش بگیرید و امکانات جدیدی را برای برنامه‌های وب خود باز کنید. همین امروز با API گفتار وب شروع به آزمایش کنید و پتانسیل تحول‌آفرین فناوری تشخیص صدا را کشف کنید.