2025年9月3日中文

探索 WebXR 物体遮挡技术，该技术能让虚拟物体与现实世界进行逼真交互。了解其工作原理、挑战及未来潜力。

超越表面：深入探讨 WebXR 物体遮挡技术，实现逼真的 AR 交互

无缝的幻觉：为什么一个简单的技巧能改变 AR 的一切

想象一下，您用智能手机在客厅里放置一个虚拟的、与实物等大的新沙发模型。您绕着它走动，欣赏它的质感和设计。但当您移动时，总感觉有些……不对劲。沙发不自然地漂浮着，像一张贴纸一样叠加在您的现实世界上。当您从真实的咖啡桌后面看它时，虚拟沙发却渲染在了桌子的前面，彻底打破了它作为您空间中一个物理对象的幻觉。这个常见的增强现实（AR）失误，就是遮挡问题。

多年来，这一直是阻碍 AR 带来真实感的最大障碍之一。不遵守我们世界物理边界的虚拟物体，仍然只是数字幽灵，是有趣的新奇事物，而不是我们环境的有机组成部分。但一项强大的技术正走向开放网络，并改变着游戏规则：物体遮挡。

本文将全面探讨物体遮挡技术，特别是在WebXR（在 Web 上创建沉浸式虚拟和增强现实体验的开放标准）的背景下。我们将解析什么是遮挡，为什么它是 AR 真实感的基石，在 Web 浏览器中实现它的技术魔法，它在各行各业的变革性应用，以及这项基础技术的未来前景。准备好超越表面，理解 AR 是如何最终学会遵守现实世界规则的。

增强现实中的物体遮挡是什么？

在深入探讨 WebXR 的技术细节之前，掌握遮挡的基本概念至关重要。它的核心是我们每时每刻都在经历却无需思考的想法。

一个简单的类比：分层的世界

想象一下看着一个站在大柱子后面的人。您的大脑不需要有意识地处理柱子在人前面的事实。您只是看不到被人遮挡住的那部分。柱子正在遮挡您对那个人的视线。这种根据物体与您的距离而形成的层次感，是我们感知三维空间的基础。我们的视觉系统是深度感知和理解物体前后关系的专家。

在增强现实中，挑战在于当其中一个物体（虚拟物体）并非物理存在时，如何复制这种自然现象。

技术定义

在计算机图形学和 AR 的背景下，物体遮挡是指确定哪些物体或物体的哪些部分从特定视点不可见，因为它们被其他物体挡住了。在 AR 中，这特指现实世界物体能够正确阻挡虚拟物体视图的能力。

当一个虚拟 AR 角色走到一棵真实的树后面时，遮挡确保了角色被树干隐藏的部分不会被渲染。仅这一个效果，就将体验从“屏幕上的虚拟物体”提升到了“您世界中的虚拟物体”。

为什么遮挡是沉浸感的基石

没有恰当的遮挡，用户的大脑会立即将 AR 体验标记为假的。这种认知失调打破了存在感和沉浸感。以下是为什么正确实现遮挡如此关键的原因：

增强真实感和可信度： 遮挡可以说是将数字内容融入物理空间最重要的视觉线索。它巩固了虚拟物体具有体积、占据空间并与真实物体共存的幻觉。
改善用户体验（UX）： 它使交互更加直观。如果用户可以将一个虚拟花瓶放在桌上一本真实的书的后面，这种交互感觉更加踏实和可预测。它消除了虚拟内容不自然地漂浮在所有物体之上的突兀感。
实现复杂交互： 高级应用依赖于遮挡。想象一个 AR 培训模拟，用户必须伸手到一根真实的管道后面与一个虚拟阀门互动。没有遮挡，这种互动在视觉上会很混乱，难以执行。
提供空间背景： 遮挡帮助用户更好地理解虚拟物体相对于其环境的大小、比例和位置。这对于设计、建筑和零售等应用至关重要。

WebXR 的优势：将遮挡技术引入浏览器

很长一段时间以来，高保真度的 AR 体验，特别是那些具有可靠遮挡效果的体验，都是为特定操作系统（如 iOS 的 ARKit 和 Android 的 ARCore）构建的原生应用的专属领域。这造成了很高的入门门槛：用户必须为每次体验寻找、下载和安装一个专门的应用程序。WebXR 正在拆除这道屏障。

什么是 WebXR？快速回顾

WebXR 设备 API 是一个开放标准，允许开发者创建直接在 Web 浏览器中运行的引人入胜的 AR 和 VR 体验。无需应用商店，无需安装——只需一个 URL。这种“触达能力”是 WebXR 的超能力。它使沉浸式内容的访问民主化，使其可在从智能手机、平板电脑到专用的 AR/VR 头显等各种设备上使用。

在 Web 上实现遮挡的挑战

在浏览器环境中实现稳健的遮挡是一项重大的技术壮举。与原生应用开发者相比，Web 开发者面临着一系列独特的挑战：

性能限制： Web 浏览器在比原生应用更受限的性能范围内运行。实时深度处理和着色器修改必须高度优化，才能在不耗尽设备电池的情况下流畅运行。
硬件碎片化： Web 必须适应一个庞大的、功能各异的设备生态系统。一些手机拥有先进的 LiDAR 扫描仪和飞行时间（ToF）传感器，非常适合深度感应，而另一些则仅依赖于标准的 RGB 摄像头。WebXR 解决方案需要足够稳健以处理这种多样性。
隐私与安全： 访问用户环境的详细信息，包括实时深度图，会引发重大的隐私问题。WebXR 标准的设计遵循“隐私优先”的原则，需要用户明确授权才能访问摄像头和传感器。

实现遮挡的关键 WebXR API 和模块

为了克服这些挑战，万维网联盟（W3C）和浏览器供应商一直在为 WebXR API 开发新模块。我们故事的主角是 `depth-sensing` 模块。

`depth-sensing` 模块和 `XRDepthInformation`： 这是实现遮挡的核心组件。当用户授予权限时，此模块会向应用程序提供来自设备传感器的实时深度信息。这些数据以 `XRDepthInformation` 对象的形式传递，其中包含一个深度图。深度图本质上是一张灰度图像，其中每个像素的亮度对应于其与摄像头的距离——较亮的像素更近，较暗的像素更远（或反之，取决于实现方式）。
`hit-test` 模块： 虽然不直接负责遮挡，但 `hit-test` 模块是一个重要的前置条件。它允许应用程序向现实世界投射一条射线，并找出它与现实世界表面的交点。这用于将虚拟物体放置在地板、桌子和墙壁上。早期的 AR 严重依赖于此进行基本的环境理解，但 `depth-sensing` 模块提供了对整个场景更丰富、逐像素的理解。

从简单的平面检测（寻找地板和墙壁）到完整的、密集的深度图的演变，是使 WebXR 中高质量、实时遮挡成为可能的技术飞跃。

WebXR 物体遮挡的工作原理：技术分解

现在，让我们拉开帷幕，看看渲染管线。浏览器是如何获取深度图并用它来正确隐藏虚拟物体部分的？这个过程通常涉及三个主要步骤，并且每秒发生多次以创造流畅的体验。

步骤 1：获取深度数据

首先，应用程序在初始化 WebXR 会话时必须请求访问深度信息。

请求带有 depth-sensing 功能的会话示例：

const session = await navigator.xr.requestSession('immersive-ar', { requiredFeatures: ['hit-test'], optionalFeatures: ['dom-overlay', 'depth-sensing'], depthSensing: { usagePreference: ['cpu-optimized', 'gpu-optimized'], dataFormatPreference: ['luminance-alpha', 'float32'] } });

一旦会话激活，对于渲染的每一帧，应用程序都可以向 `XRFrame` 请求最新的深度信息。

在渲染循环中获取深度信息的示例：

const depthInfo = xrFrame.getDepthInformation(xrViewerPose.views[0]); if (depthInfo) { // 我们有深度图了！ // depthInfo.texture 包含 GPU 上的深度数据 // depthInfo.width 和 depthInfo.height 给出其尺寸 // depthInfo.normDepthFromNormView 将纹理坐标映射到视图 }

depthInfo 对象以 GPU 纹理的形式提供深度图，这对性能至关重要。它还提供了正确地将深度值映射到相机视图所需的矩阵。

步骤 2：将深度信息集成到渲染管线中

这是真正神奇的地方，几乎总是在片元着色器（也称为像素着色器）中完成。片元着色器是一个在 GPU 上运行的小程序，它为绘制到屏幕上的 3D 模型的每个像素运行一次。

目标是修改我们虚拟物体的着色器，使其能够为它尝试绘制的每个像素检查，“我是否在真实世界物体的后面？”

以下是着色器逻辑的概念分解：

获取像素位置： 着色器首先确定它将要绘制的虚拟物体当前像素的屏幕空间位置。
采样真实世界深度： 使用这个屏幕空间位置，它在 WebXR API 提供的深度图纹理中查找相应的值。这个值代表了该确切像素处真实世界物体的距离。
获取虚拟物体深度： 着色器已经知道它当前正在处理的虚拟物体像素的深度。这个值来自 GPU 的 Z 缓冲区。
比较并丢弃： 然后着色器执行一个简单的比较：
真实世界的深度值是否小于虚拟物体的深度值？
如果答案是是，则意味着一个真实物体在前面。着色器然后丢弃该像素，有效地告诉 GPU 不要绘制它。如果答案是否，则虚拟物体在前面，着色器继续照常绘制该像素。

这个逐像素的深度测试，在每一帧中为数百万个像素并行执行，创造了无缝的遮挡效果。

步骤 3：处理挑战和优化

当然，现实世界是复杂的，数据也绝非完美。开发者需要考虑几个常见问题：

深度图质量： 来自消费级设备的深度图并非完美无瑕。它们可能有噪声、空洞（缺失数据）和低分辨率，尤其是在物体边缘。这可能导致遮挡边界出现“闪烁”或“伪影”效果。高级技术包括模糊或平滑深度图以减轻这些影响，但这会带来性能成本。
同步与对齐： RGB 相机图像和深度图由不同的传感器捕获，必须在时间和空间上完美对齐。任何未对齐都可能导致遮挡出现偏移，虚拟物体被真实物体的“幽灵”所隐藏。WebXR API 提供了必要的校准数据和矩阵来处理这个问题，但必须正确应用。
性能： 如前所述，这是一个要求很高的过程。为了保持高帧率，开发者可能会使用较低分辨率的深度图版本，避免在着色器中进行复杂计算，或者仅对靠近可能产生遮挡的表面的物体应用遮挡。

跨行业的实际应用与用例

有了技术基础，真正的兴奋点在于 WebXR 遮挡所能实现的功能。这不仅仅是一个视觉噱头；它是一项基础技术，为全球受众解锁了实用而强大的应用。

电子商务与零售

“先试后买”的能力是家居用品、家具和电子产品在线零售的圣杯。遮挡使这些体验变得更具说服力。

全球家具零售商： 东京的一位顾客可以使用他们的浏览器在公寓里放置一个虚拟沙发。通过遮挡，他们可以清楚地看到沙发部分被现有真实扶手椅遮挡的样子，从而真实地感受到它如何融入他们的空间。
消费电子产品： 巴西的一位购物者可以在墙上预览一台新的 85 英寸电视。遮挡确保了电视柜上方的室内植物能够正确地遮挡部分虚拟屏幕，从而确认电视尺寸合适且不会被阻挡。

建筑、工程与施工（AEC）

对于 AEC 行业，WebXR 提供了一种强大的、无需应用的方式，可以直接在现场可视化和协作项目。

现场可视化： 迪拜的一位建筑师可以走过正在施工的建筑，举起平板电脑。通过浏览器，他们可以看到完成的数字蓝图的 WebXR 叠加层。通过遮挡，现有的混凝土柱和钢梁会正确地遮挡虚拟的管道和电气系统，使他们能够以惊人的准确性发现冲突和错误。
客户漫游： 德国的一家建筑公司可以向国际客户发送一个简单的 URL。客户可以使用他们的手机“走过”他们未来办公室的虚拟模型，虚拟家具会逼真地出现在真实的结构支撑后面。

教育与培训

当数字信息与物理世界在情境中结合时，沉浸式学习变得更加有效。

医学培训： 加拿大的一名医学生可以将他们的设备对准一个培训人体模型，看到内部一个虚拟的、解剖学上正确的骨骼。当他们移动时，人体模型的塑料“皮肤”会遮挡骨骼，但他们可以靠近以“透视”表面，理解内部和外部结构之间的关系。
历史重现： 埃及的一位博物馆参观者可以通过手机观看一座古庙废墟，并看到原始结构的 WebXR 重建。现存的、破碎的柱子会正确地遮挡曾经在它们后面的虚拟墙壁和屋顶，创造出一种强烈的“今昔”对比。

游戏与娱乐

对于娱乐来说，沉浸感就是一切。遮挡让游戏角色和效果以一种新的可信度居住在我们的世界里。

基于位置的游戏： 城市公园里的玩家可以寻找虚拟生物，它们会逼真地在真实的树木、长凳和建筑物后面飞奔和躲藏。这创造了比生物简单地漂浮在空中更具动态和挑战性的游戏体验。
互动叙事： 一个 AR 叙事体验可以让一个虚拟角色带领用户穿过他们自己的家。角色可以从真实的门口探出头，或者坐在真实的椅子上，遮挡使这些互动感觉亲切而踏实。

工业维护与制造

遮挡为处理复杂机械的技术人员和工程师提供了关键的空间背景。

指导性维修： 苏格兰一个偏远风电场的现场技术员可以启动一个 WebXR 体验，以获取涡轮机的维修说明。数字叠加层会高亮一个特定的内部组件，但涡轮机的外壳会正确地遮挡叠加层，直到技术员物理打开检修面板，确保他们在正确的时间查看正确的部件。

WebXR 遮挡的未来：下一步是什么？

WebXR 物体遮挡已经非常强大，但技术仍在不断发展。全球开发者社区和标准机构正在推动在浏览器中实现可能性的边界。以下是未来激动人心的发展方向。

实时动态遮挡

目前，大多数实现方案擅长用环境中静态、不移动的部分来遮挡虚拟物体。下一个主要前沿是动态遮挡——让移动的真实世界物体，如人或宠物，能够实时遮挡虚拟内容。想象一下，当您的朋友从前面走过时，您房间里的一个 AR 角色被逼真地隐藏起来。这需要极其快速和准确的深度感应与处理，并且是当前积极研究和开发的关键领域。

场景语义理解

除了仅仅知道一个像素的深度，未来的系统将理解该像素代表什么。这被称为语义理解。

识别人： 系统可以识别出一个人正在遮挡虚拟物体，并应用更柔和、更逼真的遮挡边缘。
理解材质： 它可以识别出一扇玻璃窗，并知道它应该部分而非完全遮挡放置在其后面的虚拟物体，从而实现逼真的透明度和反射效果。

改进的硬件和 AI 驱动的深度

遮挡的质量与深度数据的质量直接相关。

更好的传感器： 我们可以期待看到更多消费级设备推出集成的、高分辨率的 LiDAR 和 ToF 传感器，为 WebXR 提供更清晰、更准确的深度图。
AI 推断深度： 对于数十亿没有专门深度传感器的设备来说，最有前途的路径是使用人工智能（AI）和机器学习（ML）。先进的神经网络正在被训练，以从单个标准 RGB 摄像头画面中推断出惊人准确的深度图。随着这些模型变得更高效，它们可以通过浏览器为更广泛的设备带来高质量的遮挡。

标准化和浏览器支持

为了让 WebXR 遮挡无处不在，`webxr-depth-sensing` 模块需要从一个可选功能发展成为一个完全被批准的、普遍支持的 Web 标准。随着越来越多的开发者用它来构建引人入胜的体验，浏览器供应商将更有动力在所有平台上提供稳健、优化和一致的实现。

入门指南：致开发者的行动号召

逼真的、基于 Web 的增强现实时代已经到来。如果您是一名 Web 开发者、3D 艺术家或创意技术专家，现在是开始实验的最佳时机。

探索框架： 领先的 WebGL 库如 Three.js 和 Babylon.js，以及声明式框架 A-Frame，都在积极开发和改进对 WebXR `depth-sensing` 模块的支持。查看它们的官方文档和示例以获取入门项目。
参考示例： Immersive Web 工作组在 GitHub 上维护了一套官方 WebXR 示例。这些是理解原始 API 调用和查看遮挡等功能参考实现的宝贵资源。
在兼容设备上测试： 要看到遮挡效果，您需要一个兼容的设备和浏览器。支持谷歌 ARCore 和最新版本 Chrome 的现代安卓手机是一个很好的起点。随着技术的成熟，支持范围将继续扩大。

结论：将数字世界编织进现实的肌理

物体遮挡不仅仅是一项技术特性；它是一座桥梁。它连接了数字与物理之间的鸿沟，将增强现实从一种新奇事物转变为一种真正有用、可信和集成的媒介。它允许虚拟内容尊重我们世界的规则，并因此在其中赢得了一席之地。

通过将此功能引入开放网络，WebXR 不仅使 AR 更加逼真——它还使其在全球范围内变得更容易访问、更公平、更具影响力。虚拟物体尴尬地漂浮在空中的日子屈指可数了。AR 的未来是一个数字体验无缝地编织到我们现实肌理中的未来，它们隐藏在我们的家具后面，从我们的门口窥视，等待着我们去发现，一次一个被遮挡的像素。工具现在掌握在全球 Web 创造者社区的手中。问题是，我们将构建怎样的新现实？