DepthAI v2 has been superseded by DepthAI v3. You are viewing legacy documentation.
此页面由 AI 自动翻译。查看英文原版

本页目录

  • 神经网络推理与深度图融合
  • 3D 物体定位
  • 3D 地标定位
  • 语义深度
  • 立体神经网络推理

空间人工智能

空间人工智能使机器人或计算机能够像人类一样感知世界——感知物体或特征是什么,以及它们在物理世界中的位置。DepthAI 平台通过将 神经网络与 OAK 摄像头本身的 深度感知相结合,来利用空间人工智能有几种不同的方法可以实现人工智能 + 深度融合:
  1. 神经网络推理与深度图融合
  2. 语义深度
  3. 立体神经网络推理

神经网络推理与深度图融合

DepthAI 可以将神经网络推理(物体/地标检测)结果与深度图融合,以估计场景中所有物体/地标的空间坐标(XYZ)。这种技术对于现有的(预训练的)2D 物体/特征检测器非常有效,因为它在彩色/单色帧上运行推理,并使用产生的边界框来确定 ROI(感兴趣区域)。然后,DepthAI 对这些 ROI 内的深度图进行平均深度计算,并从中计算出空间坐标。

3D 物体定位

首先,让我们定义什么是 物体检测。它是指在图像的像素空间(即像素坐标)中查找感兴趣物体的边界框的技术术语。
Object Detection
3D 物体定位(或 3D 物体检测)旨在物理空间中而非像素空间中查找物体。当需要实时测量或与物理世界交互时,它非常有用。下面是一个可视化图,展示了物体检测和 3D 物体定位之间的区别:
Spatial AI Visualization
DepthAI 扩展了这些 2D 神经网络(例如 MobileNet、Yolo),并加入了空间信息,为它们提供 3D 上下文。
Object localization
在上图中,DepthAI 应用程序在 RGB 摄像头流上运行 MobileNet 物体检测器,并将其与深度图 MobileNetSpatialDetectionNetwork 融合,以估计每个检测到的物体的 3D 位置(有关更多详细信息,请参阅 MobileNetSpatialDetectionNetwork 节点)。

3D 地标定位

地标定位也遵循类似的过程。在这里,神经网络检测的是地标(手部/位置/特征),而不是单独的物体。一个例子是 DepthAI 上的手部地标检测器(下方演示)。使用普通摄像头,该网络会返回所有 21 个手部地标(手指所有关节的轮廓)的 2D(XY)坐标。使用 DepthAI 和同一个网络,这 21 个手部地标就变成了物理空间中的 3D 点,而不是像素空间中的 2D 点。
Hand Landmark Detection
演示:手部地标(上方)、人体姿态地标面部地标 检测演示。

语义深度

自动机器人导航/驱动中的一个经典问题是未知物体。已知物体是在安装前指定的,可能会遇到——例如工具、其他机器、工人、设备和设施。我们无法预料未知物体——包括那些无法预料或从未见过的物体。训练物体检测器足以应对已知物体,因为这是一种“正面”的物体检测形式:“路径中有堆积物,停止。”“路径中有铲子,停止。”等等。这种通用的避障场景需要一个“负面”物体检测系统,而一种非常有效的方法是使用 RGB、深度或 RGB+深度图像的语义分割
Segmentation
在这种“负面”系统中,语义分割系统在非物体表面上进行训练。因此,任何不是该表面的东西都被视为物体——允许导航知道其位置并采取相应的行动(停止、绕行、掉头等)。因此,语义深度对于物体避让导航规划应用非常有价值。在上图中,一个人形语义分割模型在 RGB 帧上运行,并根据结果,仅裁剪深度图以包含该人的深度。
在上例中,自动割草机将仅在草地区域内导航,并避开所有其他物体(树木、树根、人孔盖、路径等)。

立体神经网络推理

在此模式下,神经网络推理(地标检测)在左右摄像头上运行,以产生立体推理结果。与单目神经网络推理与立体深度融合不同——没有最大视差搜索限制——因此最小距离完全受限于以下两者中的较大者:(a)立体摄像头本身的水平视场(HFOV)和(b)摄像头的超焦距(物体清晰对焦的最小距离)。在我们获得来自左右摄像头的地标的 2D 位置后,我们可以计算结果的视差,然后将其与校准的相机内参进行三角测量,以获得所有检测到的特征的 3D 位置。
Triangulation Demo
有关更多信息,请查看 立体神经网络推理演示示例包括查找以下内容的 3D 位置:
  • 面部地标(眼睛、耳朵、鼻子、嘴唇边缘等)
  • 产品上的特征(螺丝孔、瑕疵等)
  • 人体上的关节(例如,肘部、膝盖、臀部等)
  • 车辆上的特征(例如,后视镜、前灯等)
  • 植物上的害虫或疾病(即,对于物体检测 + 立体深度来说太小的特征)
此模式不需要神经网络使用深度数据进行训练。DepthAI 使用标准的、现成的 2D 网络(这些网络更常见),并利用这种立体推理来产生准确的 3D 结果。

需要帮助?

请前往 Discussion Forum 获取技术支持或提出您可能有的任何其他问题。