2025年9月2日中文

探索 Shape Detection API，这款强大的工具可将计算机视觉功能引入您的前端应用程序。学习如何直接在浏览器中检测人脸、条形码和文本。

前端形状检测 API：浏览器中的计算机视觉集成指南

Web 浏览器正在演变为一个强大的平台，其功能远不止显示静态内容。随着 JavaScript 和浏览器 API 的进步，我们现在可以直接在客户端执行复杂的任务。Shape Detection API (形状检测 API) 就是这样一项进步，它是一个浏览器 API，允许开发者检测图像和视频中的各种形状，包括人脸、条形码和文本。这为创建交互式和智能化的 Web 应用程序开辟了一个充满可能性的世界，所有这些都无需依赖服务器端处理来完成基本的计算机视觉任务。

什么是形状检测 API？

Shape Detection API 提供了一种直接在浏览器内部访问计算机视觉算法的标准化方法。它公开了三个主要的检测器：

FaceDetector：检测图像和视频中的人脸。
BarcodeDetector：检测并解码各种条形码格式。
TextDetector：检测图像中的文本区域。（注意：尚未在所有浏览器中广泛实现）

这些检测器直接在客户端的设备上运行，这意味着图像或视频数据不需要发送到服务器进行处理。这带来了几个优势，包括：

隐私：敏感数据保留在用户的设备上。
性能：由于没有服务器往返，延迟得以降低。
离线能力：某些实现可能允许离线检测。
降低服务器成本：减轻后端基础设施的处理负载。

浏览器支持

浏览器对 Shape Detection API 的支持仍在发展中。虽然该 API 在一些现代浏览器（如 Chrome 和 Edge）中可用，但在其他浏览器（如 Firefox 和 Safari）中的支持可能有限或需要启用实验性功能。在生产环境中使用该 API 之前，请务必检查最新的浏览器兼容性表。您可以使用像 caniuse.com 这样的网站来检查每个功能的当前支持情况。

使用 FaceDetector API

让我们从一个使用 FaceDetector API 在图像中检测人脸的实际例子开始。

基本人脸检测

这是一个演示如何使用 FaceDetector 的基本代码片段：


const faceDetector = new FaceDetector();

const image = document.getElementById('myImage'); // 假设这是一个 <img> 元素

faceDetector.detect(image)
  .then(faces => {
    faces.forEach(face => {
      console.log('Face detected at:', face.boundingBox);
      // 您可以使用 canvas 在人脸周围绘制一个矩形
    });
  })
  .catch(error => {
    console.error('Face detection failed:', error);
  });

说明：

我们创建 FaceDetector 类的一个新实例。
我们获取 HTML 中一个图像元素（<img>）的引用。
我们调用 FaceDetector 的 detect() 方法，并传入该图像元素。
detect() 方法返回一个 Promise，该 Promise 会解析为一个 Face 对象数组，每个对象代表一个检测到的人脸。
我们遍历 Face 对象数组，并将每个人脸的边界框记录到控制台。boundingBox 属性包含了围绕人脸的矩形坐标。
我们还包含一个 catch() 块来处理检测过程中可能发生的任何错误。

自定义人脸检测选项

FaceDetector 构造函数接受一个可选的配置选项对象：

maxDetectedFaces：要检测的最大人脸数。默认为 1。
fastMode：一个布尔值，指示是否使用更快但可能不太准确的检测模式。默认为 false。

示例：


const faceDetector = new FaceDetector({ maxDetectedFaces: 5, fastMode: true });

在检测到的人脸周围绘制矩形

为了在视觉上突出显示检测到的人脸，您可以使用 HTML5 Canvas API 在它们周围绘制矩形。方法如下：


const canvas = document.getElementById('myCanvas');
const context = canvas.getContext('2d');

const image = document.getElementById('myImage');

faceDetector.detect(image)
  .then(faces => {
    faces.forEach(face => {
      const { x, y, width, height } = face.boundingBox;

      context.beginPath();
      context.rect(x, y, width, height);
      context.lineWidth = 2;
      context.strokeStyle = 'red';
      context.stroke();
    });
  })
  .catch(error => {
    console.error('Face detection failed:', error);
  });

重要提示：确保 canvas 元素正确定位在图像元素之上。

使用 BarcodeDetector API

BarcodeDetector API 允许您检测和解码图像及视频中的条形码。它支持多种条形码格式，包括：

EAN-13
EAN-8
UPC-A
UPC-E
Code 128
Code 39
Code 93
Codabar
ITF
QR Code
Data Matrix
Aztec
PDF417

基本条形码检测

以下是如何使用 BarcodeDetector：


const barcodeDetector = new BarcodeDetector();

const image = document.getElementById('myBarcodeImage');

barcodeDetector.detect(image)
  .then(barcodes => {
    barcodes.forEach(barcode => {
      console.log('Barcode detected:', barcode.rawValue);
      console.log('Barcode format:', barcode.format);
      console.log('Bounding Box:', barcode.boundingBox);
    });
  })
  .catch(error => {
    console.error('Barcode detection failed:', error);
  });

说明：

我们创建 BarcodeDetector 类的一个新实例。
我们获取一个包含条形码的图像元素的引用。
我们调用 detect() 方法，并传入该图像元素。
detect() 方法返回一个 Promise，该 Promise 会解析为一个 DetectedBarcode 对象数组。
每个 DetectedBarcode 对象都包含有关检测到的条形码的信息，包括：

rawValue：解码后的条形码值。
format：条形码格式（例如，'qr_code'、'ean_13'）。
boundingBox：条形码的边界框坐标。

我们将这些信息记录到控制台。
我们包含了错误处理。

自定义条形码检测格式

您可以通过向 BarcodeDetector 构造函数传递一个可选的格式提示数组来指定要检测的条形码格式：


const barcodeDetector = new BarcodeDetector({ formats: ['qr_code', 'ean_13'] });

这将把检测范围限制为 QR 码和 EAN-13 条形码，从而可能提高性能。

使用 TextDetector API（实验性）

TextDetector API 旨在检测图像中的文本区域。然而，需要注意的是，该 API 仍处于实验阶段，可能并未在所有浏览器中实现。其可用性和行为可能不一致。在尝试使用它之前，请仔细检查浏览器兼容性。

基本文本检测（如果可用）

这是一个您*可能*如何使用 TextDetector 的示例，但请记住它可能无法工作：


const textDetector = new TextDetector();

const image = document.getElementById('myTextImage');

textDetector.detect(image)
  .then(texts => {
    texts.forEach(text => {
      console.log('Text detected:', text.rawValue);
      console.log('Bounding Box:', text.boundingBox);
    });
  })
  .catch(error => {
    console.error('Text detection failed:', error);
  });

如果 TextDetector 可用且检测成功，texts 数组将包含 DetectedText 对象，每个对象都有一个 rawValue（检测到的文本）和一个 boundingBox。

注意事项与最佳实践

性能：虽然客户端处理在某些情况下具有性能优势，但复杂的图像分析仍然可能占用大量资源。优化您的图像和视频以进行 Web 交付，以最大限度地减少处理时间。考虑在 FaceDetector 中使用 fastMode 选项以获得更快但可能不太准确的检测。
隐私：向您的用户强调客户端处理的隐私优势。透明地说明您如何使用该 API 以及他们的数据是如何被处理（或在这种情况下，不被处理）的。
错误处理：始终包含稳健的错误处理，以优雅地处理 API 不受支持或检测失败的情况。向用户提供信息丰富的错误消息。
功能检测：在使用 Shape Detection API 之前，请检查用户的浏览器是否支持它：


if ('FaceDetector' in window) {
  // 支持 FaceDetector
} else {
  console.warn('FaceDetector is not supported in this browser.');
  // 提供替代实现或禁用该功能
}

可访问性：考虑使用 Shape Detection API 的可访问性影响。例如，如果您使用人脸检测来启用某些功能，请为无法被检测到的用户提供访问这些功能的替代方式。
伦理考量：注意使用人脸检测和其他计算机视觉技术的伦理影响。避免以可能具有歧视性或有害的方式使用这些技术。例如，要注意人脸检测算法中可能存在的偏见，这些偏见可能导致对某些人口群体的结果不准确或不公平。积极努力减轻这些偏见。

用例与示例

Shape Detection API 为 Web 应用程序开发开辟了广泛的令人兴奋的可能性。以下是一些示例：

图像和视频编辑：自动检测图像和视频中的人脸以应用滤镜、效果或进行涂抹编辑。
增强现实 (AR)：使用人脸检测将虚拟对象实时叠加到用户的脸上。
可访问性：通过自动检测和描述图像中的对象来帮助有视觉障碍的用户。例如，一个网站可以使用人脸检测来宣布网络摄像头流中有人出现。
安全性：实施客户端条形码扫描以进行安全身份验证或数据输入。这对于移动 Web 应用程序尤其有用。
互动游戏：创建能够响应用户面部表情或动作的游戏。想象一个通过眨眼或微笑来控制角色的游戏。
文档扫描：自动检测扫描文档中的文本区域以进行 OCR（光学字符识别）处理。虽然 TextDetector 本身可能不执行 OCR，但它可以帮助定位文本区域以进行进一步处理。
电子商务：允许用户扫描实体店中产品的条形码，以便在电子商务网站上快速找到它们。例如，用户可以在图书馆扫描一本书的条形码，以便在网上找到并购买。
教育：使用人脸检测来衡量学生参与度并相应调整学习体验的互动学习工具。例如，一个辅导程序可以监控学生的面部表情，以判断他们是否感到困惑或沮丧，并提供适当的帮助。

全球示例：一家全球电子商务公司可以在其移动网站中集成条形码扫描功能，使不同国家/地区的客户能够快速找到产品，而不受当地语言或产品命名约定的影响。条形码提供了一个通用的标识符。

Shape Detection API 的替代方案

虽然 Shape Detection API 提供了一种在浏览器中执行计算机视觉任务的便捷方法，但也有其他替代方法可以考虑：

服务器端处理：您可以使用专门的计算机视觉库和框架（如 OpenCV 或 TensorFlow）将图像和视频发送到服务器进行处理。这种方法提供了更大的灵活性和控制力，但需要更多的基础设施并会引入延迟。
WebAssembly (Wasm)：您可以将用 C++ 等语言编写的计算机视觉库编译成 WebAssembly 并在浏览器中运行。这种方法提供接近本机的性能，但需要更多的技术专长，并可能增加应用程序的初始下载大小。
JavaScript 库：有几个 JavaScript 库提供计算机视觉功能，例如 tracking.js 或 face-api.js。这些库可能比 WebAssembly 更易于使用，但性能可能稍逊一筹。

结论

前端形状检测 API 是一个强大的工具，可为您的 Web 应用程序带来计算机视觉能力。通过利用客户端处理，您可以提高性能、保护用户隐私并降低服务器成本。尽管浏览器支持仍在不断发展，但该 API 让我们得以一窥 Web 开发的未来，即复杂的任务可以直接在浏览器中执行。随着浏览器支持的改善和 API 的成熟，我们可以期待看到这项技术更多创新和激动人心的应用。尝试使用该 API，探索其可能性，并为其发展做出贡献，共同塑造 Web 的未来。

在处理计算机视觉技术时，请记住始终优先考虑伦理因素和用户隐私。