空间人工智能

空间人工智能使机器人或计算机能够像人类一样感知世界——感知物体或特征是什么，以及它们在物理世界中的位置。DepthAI 平台通过将神经网络与 OAK 摄像头本身的深度感知相结合，来利用空间人工智能。有几种不同的方法可以实现人工智能 + 深度融合：

神经网络推理与深度图融合
语义深度
立体神经网络推理

神经网络推理与深度图融合

DepthAI 可以将神经网络推理（物体/地标检测）结果与深度图融合，以估计场景中所有物体/地标的空间坐标（XYZ）。这种技术对于现有的（预训练的）2D 物体/特征检测器非常有效，因为它在彩色/单色帧上运行推理，并使用产生的边界框来确定 ROI（感兴趣区域）。然后，DepthAI 对这些 ROI 内的深度图进行平均深度计算，并从中计算出空间坐标。

3D 物体定位

首先，让我们定义什么是物体检测。它是指在图像的像素空间（即像素坐标）中查找感兴趣物体的边界框的技术术语。

3D 物体定位（或 3D 物体检测）旨在物理空间中而非像素空间中查找物体。当需要实时测量或与物理世界交互时，它非常有用。下面是一个可视化图，展示了物体检测和 3D 物体定位之间的区别：

DepthAI 扩展了这些 2D 神经网络（例如 MobileNet、Yolo），并加入了空间信息，为它们提供 3D 上下文。

在上图中，DepthAI 应用程序在 RGB 摄像头流上运行 MobileNet 物体检测器，并将其与深度图 MobileNetSpatialDetectionNetwork 融合，以估计每个检测到的物体的 3D 位置（有关更多详细信息，请参阅 MobileNetSpatialDetectionNetwork 节点）。

神经网络解码

DepthAI API 提供了一种简单的方法来解码神经网络结果，包括边界框、标签和置信度分数。这对于 Yolo 和 MobileNet 神经网络架构是可行的。对于任何自定义神经网络，您都可以使用标准的 NeuralNetwork 节点，但您需要自己解码结果。

3D 地标定位

地标定位也遵循类似的过程。在这里，神经网络检测的是地标（手部/位置/特征），而不是单独的物体。一个例子是 DepthAI 上的手部地标检测器（下方演示）。使用普通摄像头，该网络会返回所有 21 个手部地标（手指所有关节的轮廓）的 2D（XY）坐标。使用 DepthAI 和同一个网络，这 21 个手部地标就变成了物理空间中的 3D 点，而不是像素空间中的 2D 点。

演示：手部地标（上方）、人体姿态地标和面部地标检测演示。

语义深度

自动机器人导航/驱动中的一个经典问题是未知物体。已知物体是在安装前指定的，可能会遇到——例如工具、其他机器、工人、设备和设施。我们无法预料未知物体——包括那些无法预料或从未见过的物体。训练物体检测器足以应对已知物体，因为这是一种“正面”的物体检测形式：“路径中有堆积物，停止。”“路径中有铲子，停止。”等等。这种通用的避障场景需要一个“负面”物体检测系统，而一种非常有效的方法是使用 RGB、深度或 RGB+深度图像的语义分割。

在这种“负面”系统中，语义分割系统在非物体表面上进行训练。因此，任何不是该表面的东西都被视为物体——允许导航知道其位置并采取相应的行动（停止、绕行、掉头等）。因此，语义深度对于物体避让和导航规划应用非常有价值。在上图中，一个人形语义分割模型在 RGB 帧上运行，并根据结果，仅裁剪深度图以包含该人的深度。

在上例中，自动割草机将仅在草地区域内导航，并避开所有其他物体（树木、树根、人孔盖、路径等）。

立体神经网络推理

在此模式下，神经网络推理（地标检测）在左和右摄像头上运行，以产生立体推理结果。与单目神经网络推理与立体深度融合不同——没有最大视差搜索限制——因此最小距离完全受限于以下两者中的较大者：（a）立体摄像头本身的水平视场（HFOV）和（b）摄像头的超焦距（物体清晰对焦的最小距离）。在我们获得来自左右摄像头的地标的 2D 位置后，我们可以计算结果的视差，然后将其与校准的相机内参进行三角测量，以获得所有检测到的特征的 3D 位置。

有关更多信息，请查看立体神经网络推理演示。示例包括查找以下内容的 3D 位置：

面部地标（眼睛、耳朵、鼻子、嘴唇边缘等）
产品上的特征（螺丝孔、瑕疵等）
人体上的关节（例如，肘部、膝盖、臀部等）
车辆上的特征（例如，后视镜、前灯等）
植物上的害虫或疾病（即，对于物体检测 + 立体深度来说太小的特征）

此模式不需要神经网络使用深度数据进行训练。DepthAI 使用标准的、现成的 2D 网络（这些网络更常见），并利用这种立体推理来产生准确的 3D 结果。

需要帮助？

请前往 Discussion Forum 获取技术支持或提出您可能有的任何其他问题。

本页目录