۱۱ شهریور ۱۴۰۴فارسی

با Shape Detection API، ابزاری قدرتمند برای افزودن قابلیت‌های بینایی کامپیوتر به اپلیکیشن‌های فرانت‌اند خود آشنا شوید. یاد بگیرید چگونه چهره‌ها، بارکدها و متن را مستقیماً در مرورگر تشخیص دهید.

API تشخیص شکل در فرانت‌اند: راهنمای ادغام بینایی کامپیوتر در مرورگر

مرورگر وب در حال تبدیل شدن به یک پلتفرم قدرتمند برای کارهایی فراتر از نمایش محتوای ثابت است. با پیشرفت‌های جاوا اسکریپت و APIهای مرورگر، اکنون می‌توانیم وظایف پیچیده‌ای را مستقیماً در سمت کلاینت انجام دهیم. یکی از این پیشرفت‌ها Shape Detection API است، یک API مرورگر که به توسعه‌دهندگان اجازه می‌دهد اشکال مختلفی را در تصاویر و ویدیوها، از جمله چهره‌ها، بارکدها و متن، تشخیص دهند. این امر دنیایی از امکانات را برای ایجاد اپلیکیشن‌های وب تعاملی و هوشمند باز می‌کند، همه این‌ها بدون نیاز به پردازش سمت سرور برای وظایف اولیه بینایی کامپیوتر.

Shape Detection API چیست؟

Shape Detection API یک روش استاندارد برای دسترسی مستقیم به الگوریتم‌های بینایی کامپیوتر در مرورگر فراهم می‌کند. این API سه آشکارساز اصلی را ارائه می‌دهد:

FaceDetector: چهره‌های انسان را در تصاویر و ویدیوها تشخیص می‌دهد.
BarcodeDetector: فرمت‌های مختلف بارکد را تشخیص داده و رمزگشایی می‌کند.
TextDetector: نواحی متنی را در تصاویر تشخیص می‌دهد. (توجه: هنوز در همه مرورگرها به طور گسترده پیاده‌سازی نشده است)

این آشکارسازها مستقیماً روی دستگاه کاربر عمل می‌کنند، به این معنی که داده‌های تصویر یا ویدیو برای پردازش نیازی به ارسال به سرور ندارند. این امر چندین مزیت دارد، از جمله:

حریم خصوصی: داده‌های حساس روی دستگاه کاربر باقی می‌ماند.
عملکرد: کاهش تأخیر به دلیل عدم نیاز به رفت و برگشت به سرور.
قابلیت آفلاین: برخی پیاده‌سازی‌ها ممکن است امکان تشخیص آفلاین را فراهم کنند.
کاهش هزینه‌های سرور: بار پردازشی کمتر بر روی زیرساخت بک‌اند شما.

پشتیبانی مرورگرها

پشتیبانی مرورگرها از Shape Detection API هنوز در حال تکامل است. در حالی که این API در برخی مرورگرهای مدرن مانند Chrome و Edge در دسترس است، پشتیبانی در مرورگرهای دیگر مانند Firefox و Safari ممکن است محدود باشد یا نیاز به فعال‌سازی ویژگی‌های آزمایشی داشته باشد. همیشه قبل از استفاده از این API در محیط پروداکشن، آخرین جداول سازگاری مرورگرها را بررسی کنید. می‌توانید از وب‌سایت‌هایی مانند caniuse.com برای بررسی پشتیبانی فعلی هر ویژگی استفاده کنید.

استفاده از FaceDetector API

بیایید با یک مثال عملی از استفاده از FaceDetector API برای تشخیص چهره در یک تصویر شروع کنیم.

تشخیص چهره پایه

در اینجا یک قطعه کد ساده برای نمایش نحوه استفاده از FaceDetector آورده شده است:


const faceDetector = new FaceDetector();

const image = document.getElementById('myImage'); // Assume this is an <img> element

faceDetector.detect(image)
  .then(faces => {
    faces.forEach(face => {
      console.log('Face detected at:', face.boundingBox);
      // You can draw a rectangle around the face using canvas
    });
  })
  .catch(error => {
    console.error('Face detection failed:', error);
  });

توضیحات:

ما یک نمونه جدید از کلاس FaceDetector ایجاد می‌کنیم.
یک ارجاع به یک عنصر تصویر (<img>) در HTML خود دریافت می‌کنیم.
ما متد detect() از FaceDetector را فراخوانی کرده و عنصر تصویر را به آن پاس می‌دهیم.
متد detect() یک Promise برمی‌گرداند که با آرایه‌ای از اشیاء Face، که هر کدام نمایانگر یک چهره شناسایی شده هستند، resolve می‌شود.
ما روی آرایه اشیاء Face پیمایش کرده و کادر محدودکننده (bounding box) هر چهره را در کنسول لاگ می‌کنیم. خاصیت boundingBox شامل مختصات مستطیل دور چهره است.
همچنین یک بلوک catch() برای مدیریت خطاهایی که ممکن است در طول فرآیند تشخیص رخ دهند، قرار می‌دهیم.

سفارشی‌سازی گزینه‌های تشخیص چهره

سازنده FaceDetector یک آبجکت اختیاری با گزینه‌های پیکربندی را می‌پذیرد:

maxDetectedFaces: حداکثر تعداد چهره برای تشخیص. پیش‌فرض آن 1 است.
fastMode: یک مقدار boolean که نشان می‌دهد آیا از حالت تشخیص سریع‌تر، اما بالقوه با دقت کمتر، استفاده شود یا خیر. پیش‌فرض آن false است.

مثال:


const faceDetector = new FaceDetector({ maxDetectedFaces: 5, fastMode: true });

رسم مستطیل دور چهره‌های تشخیص داده شده

برای برجسته کردن بصری چهره‌های شناسایی شده، می‌توانید با استفاده از HTML5 Canvas API دور آن‌ها مستطیل رسم کنید. در اینجا نحوه انجام آن آمده است:


const canvas = document.getElementById('myCanvas');
const context = canvas.getContext('2d');

const image = document.getElementById('myImage');

faceDetector.detect(image)
  .then(faces => {
    faces.forEach(face => {
      const { x, y, width, height } = face.boundingBox;

      context.beginPath();
      context.rect(x, y, width, height);
      context.lineWidth = 2;
      context.strokeStyle = 'red';
      context.stroke();
    });
  })
  .catch(error => {
    console.error('Face detection failed:', error);
  });

مهم: مطمئن شوید که عنصر canvas به درستی روی عنصر تصویر قرار گرفته باشد.

استفاده از BarcodeDetector API

BarcodeDetector API به شما امکان می‌دهد بارکدها را در تصاویر و ویدیوها شناسایی و رمزگشایی کنید. این API از طیف گسترده‌ای از فرمت‌های بارکد پشتیبانی می‌کند، از جمله:

EAN-13
EAN-8
UPC-A
UPC-E
Code 128
Code 39
Code 93
Codabar
ITF
QR Code
Data Matrix
Aztec
PDF417

تشخیص بارکد پایه

در اینجا نحوه استفاده از BarcodeDetector آمده است:


const barcodeDetector = new BarcodeDetector();

const image = document.getElementById('myBarcodeImage');

barcodeDetector.detect(image)
  .then(barcodes => {
    barcodes.forEach(barcode => {
      console.log('Barcode detected:', barcode.rawValue);
      console.log('Barcode format:', barcode.format);
      console.log('Bounding Box:', barcode.boundingBox);
    });
  })
  .catch(error => {
    console.error('Barcode detection failed:', error);
  });

توضیحات:

ما یک نمونه جدید از کلاس BarcodeDetector ایجاد می‌کنیم.
یک ارجاع به عنصر تصویری که حاوی بارکد است دریافت می‌کنیم.
ما متد detect() را با پاس دادن عنصر تصویر فراخوانی می‌کنیم.
متد detect() یک Promise برمی‌گرداند که با آرایه‌ای از اشیاء DetectedBarcode resolve می‌شود.
هر شیء DetectedBarcode شامل اطلاعاتی در مورد بارکد شناسایی شده است، از جمله:

rawValue: مقدار رمزگشایی شده بارکد.
format: فرمت بارکد (مثلاً 'qr_code', 'ean_13').
boundingBox: مختصات کادر محدودکننده بارکد.

ما این اطلاعات را در کنسول لاگ می‌کنیم.
ما مدیریت خطا را نیز شامل می‌شویم.

سفارشی‌سازی فرمت‌های تشخیص بارکد

شما می‌توانید فرمت‌های بارکدی را که می‌خواهید تشخیص دهید، با پاس دادن یک آرایه اختیاری از راهنماهای فرمت به سازنده BarcodeDetector مشخص کنید:


const barcodeDetector = new BarcodeDetector({ formats: ['qr_code', 'ean_13'] });

این کار تشخیص را به کدهای QR و بارکدهای EAN-13 محدود می‌کند که به طور بالقوه عملکرد را بهبود می‌بخشد.

استفاده از TextDetector API (آزمایشی)

TextDetector API برای تشخیص نواحی متنی در تصاویر طراحی شده است. با این حال، توجه به این نکته مهم است که این API هنوز آزمایشی است و ممکن است در همه مرورگرها پیاده‌سازی نشده باشد. در دسترس بودن و رفتار آن می‌تواند متناقض باشد. قبل از تلاش برای استفاده از آن، سازگاری مرورگر را با دقت بررسی کنید.

تشخیص متن پایه (در صورت وجود)

در اینجا مثالی از نحوه استفاده *احتمالی* از TextDetector آورده شده است، اما به یاد داشته باشید که ممکن است کار نکند:


const textDetector = new TextDetector();

const image = document.getElementById('myTextImage');

textDetector.detect(image)
  .then(texts => {
    texts.forEach(text => {
      console.log('Text detected:', text.rawValue);
      console.log('Bounding Box:', text.boundingBox);
    });
  })
  .catch(error => {
    console.error('Text detection failed:', error);
  });

اگر TextDetector در دسترس باشد و تشخیص موفقیت‌آمیز باشد، آرایه texts حاوی اشیاء DetectedText خواهد بود که هر کدام دارای rawValue (متن شناسایی شده) و یک boundingBox هستند.

ملاحظات و بهترین شیوه‌ها

عملکرد: در حالی که پردازش سمت کلاینت در برخی موارد مزایای عملکردی دارد، تحلیل پیچیده تصاویر هنوز هم می‌تواند منابع زیادی مصرف کند. تصاویر و ویدیوهای خود را برای تحویل در وب بهینه کنید تا زمان پردازش را به حداقل برسانید. برای تشخیص سریع‌تر، هرچند با دقت کمتر، از گزینه fastMode در FaceDetector استفاده کنید.
حریم خصوصی: بر مزایای حریم خصوصی پردازش سمت کلاینت برای کاربران خود تأکید کنید. در مورد نحوه استفاده از API و نحوه مدیریت (یا عدم مدیریت) داده‌های آن‌ها شفاف باشید.
مدیریت خطا: همیشه مدیریت خطای قوی را برای مدیریت مواردی که API پشتیبانی نمی‌شود یا تشخیص با شکست مواجه می‌شود، در نظر بگیرید. پیام‌های خطای آموزنده به کاربر ارائه دهید.
تشخیص ویژگی: قبل از استفاده از Shape Detection API، بررسی کنید که آیا در مرورگر کاربر پشتیبانی می‌شود یا خیر:


if ('FaceDetector' in window) {
  // FaceDetector پشتیبانی می‌شود
} else {
  console.warn('FaceDetector is not supported in this browser.');
  // یک پیاده‌سازی جایگزین ارائه دهید یا ویژگی را غیرفعال کنید
}

دسترسی‌پذیری: پیامدهای دسترسی‌پذیری استفاده از Shape Detection API را در نظر بگیرید. به عنوان مثال، اگر از تشخیص چهره برای فعال کردن ویژگی‌های خاصی استفاده می‌کنید، راه‌های جایگزینی برای کاربرانی که چهره‌شان قابل تشخیص نیست برای دسترسی به آن ویژگی‌ها فراهم کنید.
ملاحظات اخلاقی: از پیامدهای اخلاقی استفاده از تشخیص چهره و سایر فناوری‌های بینایی کامپیوتر آگاه باشید. از استفاده از این فناوری‌ها به روش‌هایی که می‌تواند تبعیض‌آمیز یا مضر باشد، خودداری کنید. به عنوان مثال، از سوگیری‌های بالقوه در الگوریتم‌های تشخیص چهره که ممکن است منجر به نتایج نادرست یا ناعادلانه برای گروه‌های جمعیتی خاصی شود، آگاه باشید و برای کاهش این سوگیری‌ها فعالانه تلاش کنید.

موارد استفاده و مثال‌ها

Shape Detection API طیف گسترده‌ای از امکانات هیجان‌انگیز را برای توسعه اپلیکیشن‌های وب باز می‌کند. در اینجا چند نمونه آورده شده است:

ویرایش تصویر و ویدیو: تشخیص خودکار چهره‌ها در تصاویر و ویدیوها برای اعمال فیلترها، افکت‌ها یا پوشاندن بخش‌هایی از تصویر.
واقعیت افزوده (AR): استفاده از تشخیص چهره برای قرار دادن اشیاء مجازی روی چهره کاربران به صورت زنده.
دسترسی‌پذیری: کمک به کاربران دارای اختلالات بینایی با تشخیص و توصیف خودکار اشیاء در تصاویر. به عنوان مثال، یک وب‌سایت می‌تواند از تشخیص چهره برای اعلام حضور یک شخص در استریم وب‌کم استفاده کند.
امنیت: پیاده‌سازی اسکن بارکد سمت کلاینت برای احراز هویت امن یا ورود داده. این امر به ویژه برای اپلیکیشن‌های وب موبایل می‌تواند مفید باشد.
بازی‌های تعاملی: ایجاد بازی‌هایی که به حالات چهره یا حرکات کاربران پاسخ می‌دهند. یک بازی را تصور کنید که در آن یک شخصیت را با پلک زدن یا لبخند زدن کنترل می‌کنید.
اسکن اسناد: تشخیص خودکار نواحی متنی در اسناد اسکن شده برای پردازش OCR (تشخیص نوری کاراکترها). در حالی که خود TextDetector ممکن است OCR را انجام ندهد، می‌تواند به مکان‌یابی نواحی متنی برای پردازش بیشتر کمک کند.
تجارت الکترونیک: امکان اسکن بارکد محصولات در فروشگاه‌های فیزیکی برای یافتن سریع آن‌ها در یک وب‌سایت تجارت الکترونیک. برای مثال، یک کاربر می‌تواند بارکد یک کتاب را در کتابخانه اسکن کند تا آن را برای فروش آنلاین پیدا کند.
آموزش: ابزارهای یادگیری تعاملی که از تشخیص چهره برای سنجش میزان مشارکت دانش‌آموز و تنظیم تجربه یادگیری بر اساس آن استفاده می‌کنند. به عنوان مثال، یک برنامه آموزشی می‌تواند حالات چهره دانش‌آموز را برای تشخیص گیجی یا ناامیدی او زیر نظر بگیرد و کمک مناسب را ارائه دهد.

مثال جهانی: یک شرکت تجارت الکترونیک جهانی می‌تواند اسکن بارکد را در وب‌سایت موبایل خود ادغام کند تا به مشتریان در کشورهای مختلف اجازه دهد محصولات را به سرعت پیدا کنند، صرف‌نظر از زبان محلی یا قراردادهای نام‌گذاری محصول. بارکد یک شناسه جهانی فراهم می‌کند.

جایگزین‌های Shape Detection API

در حالی که Shape Detection API یک راه راحت برای انجام وظایف بینایی کامپیوتر در مرورگر فراهم می‌کند، رویکردهای جایگزین دیگری نیز برای در نظر گرفتن وجود دارد:

پردازش سمت سرور: می‌توانید تصاویر و ویدیوها را برای پردازش به سرور ارسال کنید و از کتابخانه‌ها و فریمورک‌های اختصاصی بینایی کامپیوتر مانند OpenCV یا TensorFlow استفاده کنید. این رویکرد انعطاف‌پذیری و کنترل بیشتری ارائه می‌دهد اما به زیرساخت بیشتری نیاز دارد و تأخیر ایجاد می‌کند.
WebAssembly (Wasm): می‌توانید کتابخانه‌های بینایی کامپیوتر نوشته شده به زبان‌هایی مانند C++ را به WebAssembly کامپایل کرده و در مرورگر اجرا کنید. این رویکرد عملکردی نزدیک به نیتیو ارائه می‌دهد اما به تخصص فنی بیشتری نیاز دارد و ممکن است حجم دانلود اولیه اپلیکیشن شما را افزایش دهد.
کتابخانه‌های جاوا اسکریپت: چندین کتابخانه جاوا اسکریپت مانند tracking.js یا face-api.js قابلیت‌های بینایی کامپیوتر را ارائه می‌دهند. استفاده از این کتابخانه‌ها ممکن است آسان‌تر از WebAssembly باشد اما ممکن است به همان اندازه کارآمد نباشند.

نتیجه‌گیری

API تشخیص شکل در فرانت‌اند ابزاری قدرتمند برای افزودن قابلیت‌های بینایی کامپیوتر به اپلیکیشن‌های وب شما است. با بهره‌گیری از پردازش سمت کلاینت، می‌توانید عملکرد را بهبود بخشید، حریم خصوصی کاربر را حفظ کنید و هزینه‌های سرور را کاهش دهید. در حالی که پشتیبانی مرورگرها هنوز در حال تکامل است، این API نگاهی به آینده توسعه وب می‌اندازد، جایی که وظایف پیچیده می‌توانند مستقیماً در مرورگر انجام شوند. با بهبود پشتیبانی مرورگرها و بلوغ این API، می‌توان انتظار داشت که شاهد کاربردهای نوآورانه‌تر و هیجان‌انگیزتری از این فناوری باشیم. با این API آزمایش کنید، امکانات آن را کشف کنید و در تکامل آن برای شکل دادن به آینده وب مشارکت کنید.

به یاد داشته باشید که هنگام کار با فناوری‌های بینایی کامپیوتر، همیشه ملاحظات اخلاقی و حریم خصوصی کاربر را در اولویت قرار دهید.