官方服务微信:dat818 购买与出租对接

基于深度学习的3D目标检测在自动驾驶中的应用与挑战

2万

主题

2

回帖

8万

积分

管理员

积分
86434
发表于 2025-1-22 02:15:35 | 显示全部楼层 |阅读模式
    转载自:基于深度学习的图像目标检测(第二部分)大牛讲座 |基于深度学习的目标检测在自动驾驶中的应用前言

    CNN()在目标检测方面大放异彩,R-CNN系列、YOLO、SSD等各种优秀方法层出不穷。在二维图像中的目标检测方面,学术界提出的许多框架已经投入商业使用。然而,当应用于自动驾驶、机器人等应用场景时,2D场景中的目标检测仍然不足以描述3D真实场景。

    目标检测问题实际上包含两个任务:定位和分类。定位任务中3D目标检测的目标是返回3D框,需要的信息不仅是2D RGB图像,还需要对应的深度信息Depth Map:

    RGB-D=普通RGB三通道彩色图像+深度图

    在 3D 计算机图形学中,深度图是图像或图像通道,其中包含有关从视点到场景对象表面的距离的信息。其中,深度图类似于灰度图像,只不过每个像素值是传感器与物体之间的实际距离。通常RGB图像和Depth图像是配准的,因此像素之间存在一一对应的关系。

    本文以时间为主轴,带您回顾2014年以来RGB-D图像目标检测的典型论文。

    纸

    2014:丰富的 RGB-D 和 (ECCV'14)

    本文是rbg大师的作品。 “基于CNN,它在图像分类、目标检测、语义分割和细粒度分类等方面表现出了相当大的优势。许多作品将CNN引入到RGB-D图像上的视觉任务中。其中一些作品直接使用4-图像进行语义分割任务(不是),其中一部分只是在非常理想的环境下对小物体进行目标检测”。

    作者的方法是基于2D目标检测框架R-CNN,并添加了Depth Map的使用。整体结构如下:

    (1)根据RGB图像和Depth Map,检测图像中的轮廓并生成2.5D(从上面可以看出,所谓的2.5D实际上包括每个像素的视差、高度、倾斜角度的目标)

    (2)使用CNN进行特征提取。这里的网络包括两个:Depth CNN学习深度图上的特征,RGB CNN学习2D图像上的特征,最后使用SVM进行分类。

    在Depth Map的使用上,论文中描述的方法并不是直接使用CNN来学习它,而是深度图像在每个像素处有三个:(水平视差)、上方(高度)、以及像素局部与的角度(相对于重力的倾斜角)。

    2015 年:课堂 3D (NIPS'15)

    作品出自清华陈晓志大师之手(大师同时也是《Multi-View 3D for》的作者,对不起)。

    作者首先指出目前state-of-the-art的RCNN方法在自动驾驶数据集KITTI上表现不佳。原因之一是KITTI上的测试图像包含许多小物体、遮挡和阴影,使得实际包含的物体被认为不合适。包括。另外,KITTI对区域的精细度要求较高(),目前大多数区域推荐都是基于强度和纹理超,无法获得高质量。

    文章提出了一种针对自动驾驶场景的新方法。对于每个3D盒子(记为y),用一个元组来表示(x,y,z,θ,c,t),(x,y,z)代表3D盒子的中心,θ代表其方位角度,c代表类别,t代表对应的3D盒子模板集。

    令x代表点云,y代表点云。作者认为y应该具有以下特征:

    基于这些特点,作者列出了能量方程,以最小化E(x,y)为目标,并使用上一篇文章中描述的SVM进行训练。

    文章中介绍的方法的效果、代码和数据:3D for Class

    2016:RGB-D 中的 3D 深度 (CVPR'16)

    文章来自普林斯顿大学。提出的方法是 R-CNN 的 3D 版本,专注于场景。

    目前,针对3D目标检测任务的方法,有的使用2D方法来组合深度图,有的使用3D空间中的检测。这让笔者不禁要问:3D、2D还是3D,哪个是针对的?他随后指出,当前2D方法之所以表现更好,可能是因为它的CNN模型更多(well-&pre-with),而不是由于它的2D表达。

    作者的方法是设计一个名为Deep的3D CNN,输入3D立体场景,输出3D框,从而提出Multi-scale 3D RPN( ):

    与R-CNN中的RPN网络类似,对于每个滑动窗口,作者定义了N=19个框:

    然后,为了检测不同尺寸的目标,作者添加了多尺度检测方法。具体来说,滑动窗口是在不同的卷积层上执行的。这里的滑动窗口是3D的,因为接收到了整个网络结构。为了细化区域,作者改进了bbox,提出了3D box:一个3D box可以用中心坐标[cx,cy,cz],长宽高[s1,s2,s3]来表示。最终结果是6部分Shift量:

    然后使用与 2D 框相同的 L1 损失。

    补充:如何从深度图获取3D输入?

    3D:与Depth RCNN的++angle表达不同,作者这里使用了TSDF方法。你可以看到下面的引用:

    在世界坐标系中定义一个立方体,将立方体按照一定的分辨率切割成小立方体(体素)。以图8为例,定义了一个3x3x3米的立方体,并将立方体划分为不同分辨率的小立方体网格。换句话说,这个大立方体限制了扫描和重建模型的体积。然后,使用一种称为“截断符号距离函数”(简称TSDF)的方法来更新每个小网格中的一个值,该值代表网格到模型表面的最近距离,也称为TSDF值(底部)图 8)。对于每个网格,每一帧都会更新并记录TSDF值,然后通过TSDF值恢复重建的模型。例如,通过图8下面两张图中网格的TSDF数值分布,我们可以快速恢复模型表面的形状和位置。这种方法通常称为基于体积的方法(-based)。该方法的核心思想是,通过不断更新和“融合”()TSDF这种类型的测量,我们可以越来越接近所需要的真实值。

    2017:跨模式深度(CVPR'17)

    虽然这篇文章是针对一个专门的任务,但它的方法非常有启发性,所以也贴在这里。

    作者指出,“行人检测任务在深度学习的帮助下取得了重大突破,同时新的传感器(例如和深度)也为解决不良光照和遮挡提供了新的机会。然而,绝大多数现有的监控系统仍然使用传统的 RGB 传感器,因此在 、 和 低

    光还是很有挑战性的。 ”

    对于不利光照条件下的行人检测任务,文章描述了一个交叉依赖的学习框架,由两个网络组成:

    (1) (RRN)

    RRN用于学习RGB图像与图像之间的映射,然后可以使用学习到的模型来生成基于RGB的图像。 RRN接收RGB+行人,在ROI后面添加重建网络(全卷积)。这里的重建网络并不重建整个图像,而仅重建行人区域。

    (2) 多尺度(MSDN)

    MSDN使用RRN学习到的跨模态进行检测。它包含两个子网(子网A和子网B),其中子网B中的参数从RRN迁移而来,最终的fc执行多任务:bbox和.

    2017:3D:从 2D 盒子到 RGB 深度的 3D 盒子(CVPR'17)

    天普大学的文章。这里作者与2016年Deep的想法不同,回到了2.5D方法进行3D目标检测。所谓2.5D方法,其实就是从RGB-D中提取出合适的表达方式,然后到2D到3D空间。 “虽然利用三维几何特征检测有着光明的前景,但在实际应用中,由于遮挡、反射等原因,重建的三维形状往往是不完整的,并且包含各种噪声。”

    整个系统如下,基于Fast R-CNN实现:

    对于每个2D(这里的2D方法是Depth R-CNN中的方法),根据分类结果和深度初始化一个3D box(图中黄色虚线框),然后也使用一个3D box。区域细化。专注于 3D 盒子以及:

    该图片是 3D 盒子的示例。每个 3D 框由向量 [xcam, ycam, zcam, l, w, h, θ] 表示。 [xcam, ycam, zcam]表示中心位置,[l,w,h]表示大小,θε[− π/2,π/2]表示方位角,即图中黄色箭头所成的角度图形和 z 轴。初始化时,大小由某类对象的类别决定。最后输出7个调整值[δx, δy, δz, δl, δw, δh, δθ],损失函数采用L1 Loss。

    结论

    3D目标检测对于自动驾驶、机器人等领域具有重要意义。本文按时间顺序重点分析基于RGB-D的3D方法。从Depth R-CNN到3D-RCNN,看起来基于2D的目标检测框架正在不断完善。我们希望将来会出现更优雅的方法。

    感谢您的阅读。文中如有遗漏和错误,敬请批评指正。

    参考

    [1] Gupta S、R、Arbeláez P 等人。丰富的 RGB-D 和 [C]// 。 ,湛,2014:345-360。

    [2] 陈晓,昆杜柯,朱岩,等。 3D 类 [C]// 上 .麻省理工学院出版社,2015:424-432。

    [3] 宋S, 肖静. RGB-D中的3D Deep技术[J]. 2015, 139(2):808-816。

    [4] Deng Z, L J. of 3D : 3D Boxes from 2D Ones in RGB-Depth [C]// IEEE on 和 . IEEE,2017:398-406。

    [5] 徐东,W,Ricci E,等。跨模态深度分析[J]. 2017年。

更多帖子推荐

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-4-23 03:23 , Processed in 0.148174 second(s), 18 queries .