基于深度学习的3D目标检测在自动驾驶中的应用与挑战

hwyzw · 发表于 2025-1-22 02:15:35

转载自：基于深度学习的图像目标检测（第二部分）大牛讲座 |基于深度学习的目标检测在自动驾驶中的应用前言

CNN（）在目标检测方面大放异彩，R-CNN系列、YOLO、SSD等各种优秀方法层出不穷。在二维图像中的目标检测方面，学术界提出的许多框架已经投入商业使用。然而，当应用于自动驾驶、机器人等应用场景时，2D场景中的目标检测仍然不足以描述3D真实场景。

目标检测问题实际上包含两个任务：定位和分类。定位任务中3D目标检测的目标是返回3D框，需要的信息不仅是2D RGB图像，还需要对应的深度信息Depth Map：

RGB-D=普通RGB三通道彩色图像+深度图

在 3D 计算机图形学中，深度图是图像或图像通道，其中包含有关从视点到场景对象表面的距离的信息。其中，深度图类似于灰度图像，只不过每个像素值是传感器与物体之间的实际距离。通常RGB图像和Depth图像是配准的，因此像素之间存在一一对应的关系。

本文以时间为主轴，带您回顾2014年以来RGB-D图像目标检测的典型论文。

纸

2014：丰富的 RGB-D 和 (ECCV'14)

本文是rbg大师的作品。 “基于CNN，它在图像分类、目标检测、语义分割和细粒度分类等方面表现出了相当大的优势。许多作品将CNN引入到RGB-D图像上的视觉任务中。其中一些作品直接使用4-图像进行语义分割任务（不是），其中一部分只是在非常理想的环境下对小物体进行目标检测”。

作者的方法是基于2D目标检测框架R-CNN，并添加了Depth Map的使用。整体结构如下：

（1）根据RGB图像和Depth Map，检测图像中的轮廓并生成2.5D（从上面可以看出，所谓的2.5D实际上包括每个像素的视差、高度、倾斜角度的目标）

(2)使用CNN进行特征提取。这里的网络包括两个：Depth CNN学习深度图上的特征，RGB CNN学习2D图像上的特征，最后使用SVM进行分类。

在Depth Map的使用上，论文中描述的方法并不是直接使用CNN来学习它，而是深度图像在每个像素处有三个：（水平视差）、上方（高度）、以及像素局部与的角度（相对于重力的倾斜角）。

2015 年：课堂 3D (NIPS'15)

作品出自清华陈晓志大师之手（大师同时也是《Multi-View 3D for》的作者，对不起）。

作者首先指出目前state-of-the-art的RCNN方法在自动驾驶数据集KITTI上表现不佳。原因之一是KITTI上的测试图像包含许多小物体、遮挡和阴影，使得实际包含的物体被认为不合适。包括。另外，KITTI对区域的精细度要求较高（），目前大多数区域推荐都是基于强度和纹理超，无法获得高质量。

文章提出了一种针对自动驾驶场景的新方法。对于每个3D盒子（记为y），用一个元组来表示（x,y,z,θ,c,t），（x,y,z）代表3D盒子的中心，θ代表其方位角度，c代表类别，t代表对应的3D盒子模板集。

令x代表点云，y代表点云。作者认为y应该具有以下特征：

基于这些特点，作者列出了能量方程，以最小化E(x,y)为目标，并使用上一篇文章中描述的SVM进行训练。

文章中介绍的方法的效果、代码和数据：3D for Class

2016：RGB-D 中的 3D 深度 (CVPR'16)

文章来自普林斯顿大学。提出的方法是 R-CNN 的 3D 版本，专注于场景。

目前，针对3D目标检测任务的方法，有的使用2D方法来组合深度图，有的使用3D空间中的检测。这让笔者不禁要问：3D、2D还是3D，哪个是针对的？他随后指出，当前2D方法之所以表现更好，可能是因为它的CNN模型更多（well-&pre-with），而不是由于它的2D表达。

作者的方法是设计一个名为Deep的3D CNN，输入3D立体场景，输出3D框，从而提出Multi-scale 3D RPN（）：

与R-CNN中的RPN网络类似，对于每个滑动窗口，作者定义了N=19个框：

然后，为了检测不同尺寸的目标，作者添加了多尺度检测方法。具体来说，滑动窗口是在不同的卷积层上执行的。这里的滑动窗口是3D的，因为接收到了整个网络结构。为了细化区域，作者改进了bbox，提出了3D box：一个3D box可以用中心坐标[cx,cy,cz]，长宽高[s1,s2,s3]来表示。最终结果是6部分Shift量：

然后使用与 2D 框相同的 L1 损失。

补充：如何从深度图获取3D输入？

3D：与Depth RCNN的++angle表达不同，作者这里使用了TSDF方法。你可以看到下面的引用：

在世界坐标系中定义一个立方体，将立方体按照一定的分辨率切割成小立方体（体素）。以图8为例，定义了一个3x3x3米的立方体，并将立方体划分为不同分辨率的小立方体网格。换句话说，这个大立方体限制了扫描和重建模型的体积。然后，使用一种称为“截断符号距离函数”（简称TSDF）的方法来更新每个小网格中的一个值，该值代表网格到模型表面的最近距离，也称为TSDF值（底部）图 8）。对于每个网格，每一帧都会更新并记录TSDF值，然后通过TSDF值恢复重建的模型。例如，通过图8下面两张图中网格的TSDF数值分布，我们可以快速恢复模型表面的形状和位置。这种方法通常称为基于体积的方法（-based）。该方法的核心思想是，通过不断更新和“融合”（）TSDF这种类型的测量，我们可以越来越接近所需要的真实值。

2017：跨模式深度（CVPR'17）

虽然这篇文章是针对一个专门的任务，但它的方法非常有启发性，所以也贴在这里。

作者指出，“行人检测任务在深度学习的帮助下取得了重大突破，同时新的传感器（例如和深度）也为解决不良光照和遮挡提供了新的机会。然而，绝大多数现有的监控系统仍然使用传统的 RGB 传感器，因此在、和低

光还是很有挑战性的。 ”

对于不利光照条件下的行人检测任务，文章描述了一个交叉依赖的学习框架，由两个网络组成：

(1) (RRN)

RRN用于学习RGB图像与图像之间的映射，然后可以使用学习到的模型来生成基于RGB的图像。 RRN接收RGB+行人，在ROI后面添加重建网络（全卷积）。这里的重建网络并不重建整个图像，而仅重建行人区域。

(2) 多尺度（MSDN）

MSDN使用RRN学习到的跨模态进行检测。它包含两个子网（子网A和子网B），其中子网B中的参数从RRN迁移而来，最终的fc执行多任务：bbox和.

2017：3D：从 2D 盒子到 RGB 深度的 3D 盒子（CVPR'17）

天普大学的文章。这里作者与2016年Deep的想法不同，回到了2.5D方法进行3D目标检测。所谓2.5D方法，其实就是从RGB-D中提取出合适的表达方式，然后到2D到3D空间。 “虽然利用三维几何特征检测有着光明的前景，但在实际应用中，由于遮挡、反射等原因，重建的三维形状往往是不完整的，并且包含各种噪声。”

整个系统如下，基于Fast R-CNN实现：

对于每个2D（这里的2D方法是Depth R-CNN中的方法），根据分类结果和深度初始化一个3D box（图中黄色虚线框），然后也使用一个3D box。区域细化。专注于 3D 盒子以及：

该图片是 3D 盒子的示例。每个 3D 框由向量 [xcam, ycam, zcam, l, w, h, θ] 表示。 [xcam, ycam, zcam]表示中心位置，[l,w,h]表示大小，θε[− π/2,π/2]表示方位角，即图中黄色箭头所成的角度图形和 z 轴。初始化时，大小由某类对象的类别决定。最后输出7个调整值[δx, δy, δz, δl, δw, δh, δθ]，损失函数采用L1 Loss。

结论

3D目标检测对于自动驾驶、机器人等领域具有重要意义。本文按时间顺序重点分析基于RGB-D的3D方法。从Depth R-CNN到3D-RCNN，看起来基于2D的目标检测框架正在不断完善。我们希望将来会出现更优雅的方法。

感谢您的阅读。文中如有遗漏和错误，敬请批评指正。

参考

[1] Gupta S、R、Arbeláez P 等人。丰富的 RGB-D 和 [C]// 。，湛，2014：345-360。

[2] 陈晓，昆杜柯，朱岩，等。 3D 类 [C]// 上 .麻省理工学院出版社，2015：424-432。

[3] 宋S, 肖静. RGB-D中的3D Deep技术[J]. 2015, 139(2):808-816。

[4] Deng Z, L J. of 3D : 3D Boxes from 2D Ones in RGB-Depth [C]// IEEE on 和 . IEEE，2017：398-406。

[5] 徐东，W，Ricci E，等。跨模态深度分析[J]． 2017年。

基于深度学习的3D目标检测在自动驾驶中的应用与挑战

更多帖子推荐

浏览过的版块