2 вересня 2025 р.Українська

Ознайомтеся з Shape Detection API — потужним інструментом для комп'ютерного зору у фронтенді. Навчіться розпізнавати обличчя, штрих-коди та текст у браузері.

API для розпізнавання форм у фронтенді: Посібник з інтеграції комп'ютерного зору в браузері

Веб-браузер еволюціонує, перетворюючись на потужну платформу не лише для відображення статичного контенту. Завдяки досягненням у JavaScript та браузерних API, ми тепер можемо виконувати складні завдання безпосередньо на стороні клієнта. Одним з таких досягнень є Shape Detection API — браузерний API, який дозволяє розробникам розпізнавати різноманітні форми на зображеннях та відео, включаючи обличчя, штрих-коди та текст. Це відкриває світ можливостей для створення інтерактивних та інтелектуальних веб-застосунків, і все це без необхідності серверної обробки для базових завдань комп'ютерного зору.

Що таке Shape Detection API?

Shape Detection API надає стандартизований спосіб доступу до алгоритмів комп'ютерного зору безпосередньо в браузері. Він пропонує три основні детектори:

FaceDetector: Розпізнає людські обличчя на зображеннях та відео.
BarcodeDetector: Розпізнає та декодує різні формати штрих-кодів.
TextDetector: Розпізнає текстові області на зображеннях. (Примітка: ще не має широкої підтримки в браузерах)

Ці детектори працюють безпосередньо на пристрої клієнта, що означає, що дані зображення чи відео не потрібно надсилати на сервер для обробки. Це дає кілька переваг, зокрема:

Конфіденційність: Чутливі дані залишаються на пристрої користувача.
Продуктивність: Зменшена затримка завдяки відсутності звернень до сервера.
Можливість роботи в офлайн-режимі: Деякі реалізації можуть дозволяти розпізнавання в офлайні.
Зменшення витрат на сервер: Менше навантаження на вашу бекенд-інфраструктуру.

Підтримка браузерами

Підтримка Shape Detection API браузерами все ще розвивається. Хоча API доступний у деяких сучасних браузерах, таких як Chrome та Edge, підтримка в інших, наприклад Firefox та Safari, може бути обмеженою або вимагати активації експериментальних функцій. Завжди перевіряйте останні таблиці сумісності браузерів перед використанням API у продакшені. Ви можете використовувати сайти, як-от caniuse.com, щоб перевірити поточну підтримку кожної функції.

Використання FaceDetector API

Почнемо з практичного прикладу використання FaceDetector API для розпізнавання облич на зображенні.

Базове розпізнавання облич

Ось базовий фрагмент коду, що демонструє, як використовувати FaceDetector:


const faceDetector = new FaceDetector();

const image = document.getElementById('myImage'); // Припустимо, що це елемент <img>

faceDetector.detect(image)
  .then(faces => {
    faces.forEach(face => {
      console.log('Обличчя розпізнано за координатами:', face.boundingBox);
      // Ви можете намалювати прямокутник навколо обличчя за допомогою canvas
    });
  })
  .catch(error => {
    console.error('Не вдалося розпізнати обличчя:', error);
  });

Пояснення:

Ми створюємо новий екземпляр класу FaceDetector.
Ми отримуємо посилання на елемент зображення (<img>) у нашому HTML.
Ми викликаємо метод detect() об'єкта FaceDetector, передаючи йому елемент зображення.
Метод detect() повертає Promise, який вирішується масивом об'єктів Face, кожен з яких представляє розпізнане обличчя.
Ми перебираємо масив об'єктів Face і виводимо в консоль обмежувальну рамку (bounding box) кожного обличчя. Властивість boundingBox містить координати прямокутника, що оточує обличчя.
Ми також додаємо блок catch() для обробки будь-яких помилок, які можуть виникнути під час процесу розпізнавання.

Налаштування параметрів розпізнавання облич

Конструктор FaceDetector приймає необов'язковий об'єкт з опціями конфігурації:

maxDetectedFaces: Максимальна кількість облич для розпізнавання. За замовчуванням 1.
fastMode: Логічне значення, що вказує, чи використовувати швидший, але потенційно менш точний режим розпізнавання. За замовчуванням false.

Приклад:


const faceDetector = new FaceDetector({ maxDetectedFaces: 5, fastMode: true });

Малювання прямокутників навколо розпізнаних облич

Щоб візуально виділити розпізнані обличчя, ви можете намалювати навколо них прямокутники за допомогою HTML5 Canvas API. Ось як це зробити:


const canvas = document.getElementById('myCanvas');
const context = canvas.getContext('2d');

const image = document.getElementById('myImage');

faceDetector.detect(image)
  .then(faces => {
    faces.forEach(face => {
      const { x, y, width, height } = face.boundingBox;

      context.beginPath();
      context.rect(x, y, width, height);
      context.lineWidth = 2;
      context.strokeStyle = 'red';
      context.stroke();
    });
  })
  .catch(error => {
    console.error('Не вдалося розпізнати обличчя:', error);
  });

Важливо: Переконайтеся, що елемент canvas правильно розташований над елементом зображення.

Використання BarcodeDetector API

BarcodeDetector API дозволяє розпізнавати та декодувати штрих-коди на зображеннях та відео. Він підтримує широкий спектр форматів штрих-кодів, зокрема:

EAN-13
EAN-8
UPC-A
UPC-E
Code 128
Code 39
Code 93
Codabar
ITF
QR Code
Data Matrix
Aztec
PDF417

Базове розпізнавання штрих-кодів

Ось як використовувати BarcodeDetector:


const barcodeDetector = new BarcodeDetector();

const image = document.getElementById('myBarcodeImage');

barcodeDetector.detect(image)
  .then(barcodes => {
    barcodes.forEach(barcode => {
      console.log('Розпізнано штрих-код:', barcode.rawValue);
      console.log('Формат штрих-коду:', barcode.format);
      console.log('Обмежувальна рамка:', barcode.boundingBox);
    });
  })
  .catch(error => {
    console.error('Не вдалося розпізнати штрих-код:', error);
  });

Пояснення:

Ми створюємо новий екземпляр класу BarcodeDetector.
Ми отримуємо посилання на елемент зображення, що містить штрих-код.
Ми викликаємо метод detect(), передаючи йому елемент зображення.
Метод detect() повертає Promise, який вирішується масивом об'єктів DetectedBarcode.
Кожен об'єкт DetectedBarcode містить інформацію про розпізнаний штрих-код, зокрема:

rawValue: Декодоване значення штрих-коду.
format: Формат штрих-коду (наприклад, 'qr_code', 'ean_13').
boundingBox: Координати обмежувальної рамки штрих-коду.

Ми виводимо цю інформацію в консоль.
Ми додаємо обробку помилок.

Налаштування форматів розпізнавання штрих-кодів

Ви можете вказати формати штрих-кодів, які потрібно розпізнавати, передавши необов'язковий масив підказок форматів до конструктора BarcodeDetector:


const barcodeDetector = new BarcodeDetector({ formats: ['qr_code', 'ean_13'] });

Це обмежить розпізнавання QR-кодами та штрих-кодами EAN-13, що потенційно може покращити продуктивність.

Використання TextDetector API (експериментально)

API TextDetector призначений для виявлення областей з текстом на зображеннях. Однак важливо зазначити, що цей API все ще є експериментальним і може бути не реалізований у всіх браузерах. Його доступність і поведінка можуть бути непослідовними. Ретельно перевіряйте сумісність з браузерами перед тим, як намагатися його використовувати.

Базове розпізнавання тексту (за наявності)

Ось приклад того, як ви *могли б* використовувати TextDetector, але пам'ятайте, що він може не спрацювати:


const textDetector = new TextDetector();

const image = document.getElementById('myTextImage');

textDetector.detect(image)
  .then(texts => {
    texts.forEach(text => {
      console.log('Розпізнано текст:', text.rawValue);
      console.log('Обмежувальна рамка:', text.boundingBox);
    });
  })
  .catch(error => {
    console.error('Не вдалося розпізнати текст:', error);
  });

Якщо TextDetector доступний і розпізнавання пройшло успішно, масив texts буде містити об'єкти DetectedText, кожен з яких має rawValue (розпізнаний текст) і boundingBox.

Приклади використання

Shape Detection API відкриває широкий спектр захоплюючих можливостей для розробки веб-застосунків. Ось кілька прикладів:

Редагування фото та відео: Автоматично розпізнавайте обличчя на зображеннях та відео для застосування фільтрів, ефектів або ретушування.
Доповнена реальність (AR): Використовуйте розпізнавання облич для накладання віртуальних об'єктів на обличчя користувачів у реальному часі.
Доступність: Допомагайте користувачам із вадами зору, автоматично розпізнаючи та описуючи об'єкти на зображеннях. Наприклад, веб-сайт може використовувати розпізнавання облич для повідомлення, коли в потоці з вебкамери присутня людина.
Безпека: Впроваджуйте сканування штрих-кодів на стороні клієнта для безпечної автентифікації або введення даних. Це може бути особливо корисним для мобільних веб-застосунків.
Інтерактивні ігри: Створюйте ігри, які реагують на вирази обличчя або рухи користувачів. Уявіть гру, де ви керуєте персонажем, кліпаючи або посміхаючись.
Сканування документів: Автоматично виявляйте текстові області в сканованих документах для обробки OCR (оптичне розпізнавання символів). Хоча сам TextDetector може не виконувати OCR, він може допомогти знайти текстові області для подальшої обробки.
Електронна комерція: Дозвольте користувачам сканувати штрих-коди товарів у фізичних магазинах, щоб швидко знаходити їх на сайті електронної комерції. Наприклад, користувач може відсканувати штрих-код книги в бібліотеці, щоб знайти її для продажу в Інтернеті.
Освіта: Інтерактивні навчальні інструменти, які використовують розпізнавання облич для оцінки залученості студентів та відповідного коригування навчального процесу. Наприклад, програма-репетитор може відстежувати вирази обличчя студента, щоб визначити, чи він збентежений або розчарований, і надати відповідну допомогу.

Глобальний приклад: Міжнародна компанія електронної комерції може інтегрувати сканування штрих-кодів у свій мобільний веб-сайт, дозволяючи клієнтам у різних країнах швидко знаходити товари незалежно від місцевої мови чи назв продуктів. Штрих-код слугує універсальним ідентифікатором.

Альтернативи Shape Detection API

Хоча Shape Detection API надає зручний спосіб виконання завдань комп'ютерного зору в браузері, існують також альтернативні підходи, які варто розглянути:

Серверна обробка: Ви можете надсилати зображення та відео на сервер для обробки за допомогою спеціалізованих бібліотек та фреймворків комп'ютерного зору, таких як OpenCV або TensorFlow. Цей підхід пропонує більшу гнучкість і контроль, але вимагає більшої інфраструктури та вносить затримку.
WebAssembly (Wasm): Ви можете компілювати бібліотеки комп'ютерного зору, написані такими мовами, як C++, у WebAssembly і запускати їх у браузері. Цей підхід пропонує продуктивність, близьку до нативної, але вимагає більше технічних знань і може збільшити початковий розмір завантаження вашого застосунку.
JavaScript бібліотеки: Декілька бібліотек JavaScript надають функціональність комп'ютерного зору, наприклад tracking.js або face-api.js. Ці бібліотеки можуть бути простішими у використанні, ніж WebAssembly, але можуть бути не такими продуктивними.

Висновок

Frontend Shape Detection API — це потужний інструмент для впровадження можливостей комп'ютерного зору у ваші веб-застосунки. Використовуючи обробку на стороні клієнта, ви можете покращити продуктивність, захистити конфіденційність користувачів та зменшити витрати на сервер. Хоча підтримка браузерами все ще розвивається, API дає уявлення про майбутнє веб-розробки, де складні завдання можна буде виконувати безпосередньо в браузері. З покращенням підтримки браузерами та розвитком API ми можемо очікувати на ще більш інноваційні та захоплюючі застосування цієї технології. Експериментуйте з API, досліджуйте його можливості та долучайтеся до його еволюції, щоб формувати майбутнє Інтернету.

Пам'ятайте, що при роботі з технологіями комп'ютерного зору завжди слід надавати пріоритет етичним міркуванням та конфіденційності користувачів.