YOLOP: You Only Look Once for Panoptic Driving Perception文章自读自译(稍后代码理解)

为了限制车辆的机动,视觉感知系统应该能够理解场景,然后向决策系统提供信息,包括:障碍物的位置、道路是否可行驶的判断、,全景驾驶感知系统通常涉及车道位置等目标检测,以帮助车辆避开障碍物并遵守交通规则。

还需要驾驶区域分割和车道检测。

不同任务不同处理:

  • Faster R-CNN[24]和YOLOv4[1]处理目标检测;
  • 提出了ENet[19]和PSPNet[30]来执行语义分割
  • SCNN[18]和SADENet[9]用于检测车道

尽管这些方法取得了优异的性能,但一个接一个地处理这些任务比一次处理所有任务花费的时间更长。

交通场景理解中的不同任务往往有很多相关信息。如图1所示,车道通常是可行驶区域的边界,可行驶区域通常紧密围绕交通对象。
在这里插入图片描述
图1。我们模型的输入和输出。该模型的目的是在一幅输入图像中同时处理交通对象检测、可驾驶区域分割和车道检测。在(b)中,棕色边界框表示交通对象,绿色区域表示可驾驶区域,蓝色线表示车道线。

多任务网络更适合这种情况,因为 :

  • (1) 它可以通过同时处理多个任务而不是顺序处理来加速图像分析过程。
  • (2) 由于多任务网络通常共享同一个特征提取主干,因此它可以在多个任务之间共享信息。

架构:

我们使用轻型CNN[26]作为编码器从图像中提取特征。然后将这些特征映射馈送到三个解码器以完成各自的任务。

我们的检测解码器基于当前性能最佳的单级检测网络[YOLOv4],主要原因有两个:

  • 单级检测网络比两级检测网络更快。
  • 单级检测器的基于网格的预测机制与其他两个语义分割任务更相关,而实例分割通常与基于区域的检测器相结合[7]。

除了端到端的训练策略外,我们还尝试了一些交替优化范例,逐步训练我们的模型。

  1. 一方面,我们可以将不相关的任务放在不同的训练步骤中,以防止交叉模仿。
  2. 另一方面,首先训练的任务可以指导其他任务。因此,这种范式有时很有效,尽管很麻烦。

实验表明,我们的模型没有必要这样做,因为经过训练的端到端模型可以很好地执行。我们的全景驾驶感知系统在单个NVIDIA TITAN XP上达到41 FPS,在Jetson TX2上达到23 FPS;同时,它在BDD100K数据集的三个任务上达到了最先进的水平[28]。

相关工作:

Traffic Object Detection:

比较传统。

可行驶区域分割 :

FCN,PSPNet,ENet,EdgeNet

车道检测 :

SCNN,ENet-SAD

多任务方法 :

多任务学习的目标是通过在多个任务之间共享信息来学习更好的表示。基于CNN的多任务学习方法也可以实现网络结构的卷积共享。

Mask RCNN,LSNet,MultiNet,DLT Net

方法论:

我们提出了一种简单高效的前馈网络,可以同时完成交通目标检测、可驾驶区域分割和车道检测任务。如图2所示,我们的全景驾驶感知单拍网络(称为YOLOP)包含一个共享编码器和三个后续解码器,用于解决特定任务。不同解码器之间没有复杂和冗余的共享块,这减少了计算消耗,并允许我们的网络易于端到端训练。

我们的网络共享一个编码器,该编码器由backbone和neck组成。
在这里插入图片描述

Encoder:
主干网:

主干网络用于提取输入图像的特征。通常,一些经典的图像分类网络作为主干。由于YOLOv4[1]在目标检测方面的出色性能,我们选择CSPDarknet[26]作为主干,解决了优化过程中的梯度复制问题[27]。它支持特征传播和特征重用,从而减少参数和计算量。因此,有利于保证网络的实时性能。

Neck:

颈部用于融合主干生成的特征。我们的颈部主要由空间金字塔池(SPP)模块[8]和特征金字塔网络(FPN)模块[11]组成。SPP生成并融合不同尺度的特征,FPN融合不同语义层次的特征,使生成的特征包含多尺度和多语义层次的信息。在我们的工作中,我们采用了级联的方法来融合特征。

Decoder:
检测头:

与YOLOv4类似,我们采用了基于锚的多尺度检测方案。

PAN融合FPN,将为多尺度特征地图的每个网格分配三个具有不同纵横比的先验锚,检测头将预测位置偏移、高度和宽度的缩放,以及每个类别的相应概率和预测的置信度。

可行驶区域段头和车道线段头 :

可行驶区域段头和车道线段头采用相同的网络结构。

我们将FPN的底层馈送到分割分支,大小为(W /8,H /8,256)。

我们的分割分支非常简单。经过三次上采样过程后,我们将输出特征映射恢复为(W,H,2)的大小,这表示输入图像中每个像素在可驾驶区域/车道线和背景中的概率。

损失函数:

由于我们的网络中有三个解码器,我们的多任务丢失包含三个部分。对于检测损失Ldet,它是分类损失、目标损失和包围盒损失的加权和,如等式1所示。

Ldet = α1Lclass + α2Lobj + α3Lbox

Lclass和Lobj是focal loss,Lclass用于惩罚分类,Lobj用于一个预测的置信度。Lbox是LCIoU[31]。

两种损失的可驱动区域分割Lda−seg和车道线分割Lll−seg包含交叉熵损失和Logits Lce,其目的是最小化网络输出像素和目标之间的分类错误。

IoU loss:已添加到 Lll−seg,因为它对于车道线稀疏类别的预测特别有效。
1 − T P T P + F P + F N 1 - \frac{TP}{TP+FP+FN} 1TP+FP+FNTP
Lda和Lll−seg分别定义为等式(2)、(3):
在这里插入图片描述
总之,我们的最终损失是三部分的加权和,如等式(4)所示。
在这里插入图片描述
其中,α1、α2、α3、γ1、γ2、γ3可以调节以平衡总损耗的所有部分。

训练范式:

我们尝试不同的范式来训练我们的模型。最简单的方法是端到端的训练,然后可以联合学习三个任务。当所有任务确实相关时,这种训练范式很有用。此外,还尝试了一些交替优化算法,逐步训练我们的模型。在每个步骤中,该模型可以专注于一个或多个相关任务,而不管那些不相关的任务。即使不是所有的任务都是相关的,我们的模型仍然可以在这个范例中充分学习每个任务。算法1说明了一种逐步训练方法的过程。

算法1:一步一步的训练方法。首先,我们只训练编码器并检测头部。然后冻结编码器,检测头部,并训练两个分割头。最后,针对这三项任务对整个网络进行联合训练。 

实验:

BDD100K数据集[28]支持自主驾驶领域的多任务学习研究。它有10万帧图片和10个任务的注释,是最大的驱动视频数据集。由于数据集具有地理、环境和天气的多样性,在BDD100k数据集上训练的算法足够健壮,可以迁移到新环境。因此,我们选择BDD100k数据集来训练和评估我们的网络。BDD100K数据集包括三个部分,70K图像的训练集、10K图像的验证集和20K图像的测试集。由于测试集的标签不是公共的,我们在验证集上评估我们的网络。

图4显示了更快的R-CNN和YOLOP之间的定性比较。由于多任务的信息共享,YOLOP的预测结果更加合理。例如,YOLOP不会将远离道路的物体误认为是车辆。此外,假阴性的例子更少,边界框更精确。

结果:

在本节中,我们只需端到端地训练我们的模型,然后将其与其他代表性模型在所有三个任务上进行比较。

交通目标检测结果

Multinet和DLT网络只能检测车辆,只考虑BDD100K数据集上五个模型的车辆检测结果。使用召回和mAP50作为检测准确性的评估指标。我们的模型在检测精度上超过了更快的R-CNN、MultiNet和DLT网络,并且与实际使用比我们更多技巧的YOLOv5s相当。

我们的模型可以实时推断。YOLOv5s比我们的更快,因为它没有车道线段头和可行驶区域段头。
在这里插入图片描述

图4显示了更快的R-CNN和YOLOP之间的定性比较。由于多任务的信息共享,YOLOP的预测结果更加合理。例如,YOLOP不会将远离道路的物体误认为是车辆。此外,假阴性的例子更少,边界框更精确。
在这里插入图片描述

可行驶区域分割结果

可驾驶区域分割的可视化结果如图5所示。在本文中,BDD100K数据集中的“区域/可驱动”和“区域/替代”类都被不加区分地归类为“可驱动区域”。我们的模型只需要区分图像中的可驾驶区域和背景。mIoU用于评估不同模型的分割性能。结果如表2所示。可以看出,我们的模型分别比MultiNet、DLT Net和PSPNet好19.9%、20.2%和1.9%。此外,我们的推理速度是他们的4到5倍。PSPNet和YOLOP结果的比较如图6所示。PSPNet和YOLOP在这项任务中都表现良好。但YOLOP在分割靠近车辆或车道线的边缘区域方面明显更好。我们认为这主要是因为其他两个任务都为该任务提供了边缘信息。同时,YOLOP犯下的愚蠢错误更少,例如将对面车道区域误判为可驾驶区域

在这里插入图片描述

车道检测结果

图8显示了ENet-SAD和YOLOP车道线检测结果的比较。与ENet-SAD相比,YOLOP的分割结果更为准确和连续。由于其他两个任务共享信息,YOLOP不会将一些车辆所在的区域或可驾驶的区域误认为车道线,但ENet-SAD总是这样。

消融实验:

看文章,讲得很细致。

DP_CVwhite
关注 关注
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习论文: You Only Look at Once for Panoptic driving Perception及其PyTorch实现
mingo_敏
09-02 392
深度学习论文: You Only Look at Once for Panoptic driving Perception及其PyTorch实现 You Only Look at Once for Panoptic driving Perception PDF: https://arxiv.org/pdf/2108.11250.pdf 1 概述 2 Architecture 2-1 Encoder Backbone: Neck: 2-2 Decoders Detect Head Drivable Are
深度学习实战66-基于计算机视觉自动驾驶技术,利用YOLOP模型实现车辆区域检测框、可行驶区域和车道线分割图
weixin_42878111的博客
12-07 2072
大家好,我是微学AI,今天给大家介绍一下深度学习实战65-基于计算机视觉自动驾驶技术,利用YOLOP模型实现车辆区域检测框、可行驶区域和车道线分割图。本文我将介绍自动驾驶技术及其应用场景,并重点阐述了基于计算机视觉技术下的自动驾驶自动驾驶技术是一种利用人工智能和计算机科学实现无人驾驶的技术,通过感知技术、定位技术、规划技术和控制技术等多个方面的技术来实现汽车的运动控制和路线规划。
【论文笔记】---YOLOP: You Only Look Once for Panoptic Driving Perception
weixin_52820633的博客
10-31 353
YOLO全景驾驶感知 概论   全景驾驶感知网络(YOLOP)来同时进行交通目标检测、可驾驶区域分割和车道检测。它由一个用于特征提取的编码器和三个用于处理特定任务的解码器组成。   车道通常是可行驶区域的边界,可行驶区域通常紧密围绕交通对象。多任务网络更适合这种情况,因为(1)它可以通过一次处理多个任务而不是一个接一个地处理多个任务来加速图像分析过程(2)它可以在多个任务之间共享信息,这可以提高每个任务的性能,因为多任务网络通常共享相同的特征提取主干。   使用轻量级CNN作为编码器从图像中提取特征。然后将
YOLOP: You Only Look Once for Panoptic Driving Perception
weixin_42714574的博客
03-20 1178
YOLOP 论文标题:YOLOP: You Only Look Once for Panoptic Driving Perception 论文地址:https://arxiv.org/abs/2108.11250 论文源码:https://github.com/hustvl/YOLOP CVPR2022 华中科技大学 Introduction ​ 全景驾驶感知系统(panoptic driving perception system)是自动驾驶的重要组成部分。一个高精度、实时的感知系统可以帮助车辆在驾
【论文阅读】<YOLOP: You Only Look Once for PanopticDriving Perception
weixin_44001371的博客
05-09 1290
全视驾驶感知系统是自动驾驶的重要组成部分。一个高精度的实时感知系统可以帮助车辆在驾驶时做出合理的决策。我们提出了一个全视驾驶感知网络(您只需寻找一次全视驾驶感知网络(YOLOP)),以同时执行交通目标检测、可驾驶区域分割和车道检测。它由一个用于特征提取的编码器和三个用于处理特定任务的解码器组成。我们的模型在具有挑战性的BDD100K数据集上表现得非常好,在准确性和速度方面,在所有三个任务上都实现了最先进的水平。此外,我们通过消融研究验证了我们的多任务学习模型对联合训练的有效性。
YOLOP 解读】You Only Look Once for Panoptic Driving Perception
不积跬步,无以至千里!
09-06 5325
自动驾驶全景视觉感知
YOLOP:全景驾驶感知
ManiacLook的博客
12-03 1776
文章目录YOLOP: You Only Look Once for Panoptic Driving Perception摘要1.导论2.相关工作A.交通目标检测B.可行驶区域分割C.车道线检测D.多任务方法3.方法A.编码器B.解码器C.损失函数D.训练范式4.实验A.设置B.结果C.消融实验(Ablation Study)5.结论参考文献 YOLOP: You Only Look Once for Panoptic Driving Perception 摘要 ​ 全景驾驶感知系统是自动驾驶的重要组成部分
论文阅读:Fully Convolutional Networks for Panoptic Segmentation
weixin_43572595的博客
01-22 2067
标题:用于全景分割的全卷积网络 作者:Yanwei Li, Hengshuang Zhao, Xiaojuan Qi, Liwei Wang, Zeming Li, Jian Sun, Jiaya Jia 机构:Chinese University of Hong Kong University of Oxford University of Hong Kong MEGVII Technology 论文地址:https://arxiv.org/pdf/2012.00720.pdf 项目地址:https://
YOLOv3 论文翻译及解读
I good vegetable a!
07-02 2万+
YOLOv3: An Incremental Improvement(一项渐进式的更新)
论文阅读笔记——YOLOP: You Only Look Once for Panoptic Driving Perception
python_plus的博客
05-10 238
SPP生成并融合不同尺度的特征,FPN融合不同语义层次的特征,使得生成的特征包含多尺度和多语义层次的信息。②one-stage的预测机制更适合语义分割任务,编码器输出的feature map融合了不同尺度的语义信息,分割分支可利用这些特征图完成像素级的语义预测。Backbone:用于提取图像特征,选用CSPDarknet,解决了优化过程中的梯度复制问题,支持特征传播和特征重用,从而减少了参数和计算量,利于保证网络的实时性能。Grid-based 的检测任务预测机制与语义分割任务的预测机制更相关。
YOLOP详解
weixin_42351754的博客
03-12 3738
YOLOP 全景驾驶感知 同时处理三大视觉任务
YOLO(You Only Look Once)算法详解
热门推荐
AI之路
05-21 15万+
这篇博客主要介绍下YOLO v1算法(CVPR2016的文章)。YOLO是目前比较流行的object detection算法,速度快且结构简单,其他的object detection算法如faster RCNN,SSD相信大家也不陌生,以后有机会再介绍。另外提一下,这里算法部分介绍的是YOLO的第一个版本,而现在YOLO的官网上已经有YOLO v2的实现了,这个后续再介绍。 论文名称:You o...
YOLOP 论文笔记
Tianchao龙虾
10-18 777
YOLOP: You Only Look Once for Panoptic Driving Perception YOLOP 论文链接: https://arxiv.org/abs/2108.11250v5 一、 Problem Statement 自动驾驶中,如果使用一个接一个模型来进行图像分析,比如目标检测,语义分割和车道线检测,会增大消耗资源,也有可能无法达到实时性能。 二、 Direction 提出一个通用范式: one encoder backbone + three prediction
YOLO详解(You Only Look Once)
咖啡味儿的咖啡
08-15 4770
本文将从五个方面解读CVRP2016目标检测论文YOLO:Unified,Real-Time Object Detection 1.创新 2.网络结构 3.效果 4.改进 5.实践 1、创新 改革了区域建议框式检测框架: RCNN系列均需要生成建议框,在建议框上进行分类与回归,但建议框之间有重叠,这会带来很多重复工作。YOLO将全图划分为SXS的格子,每个格子负责中心在该格子的目标检...
论文阅读-多任务(2021)-YOLOP:用于自动驾驶目标检测与语义分割的实时多任务模型
kevin_zhao_zl的博客
04-24 1734
全景驾驶场景感知网络YOLOP包括一个共享的编码器和三个特定的解码器处理不同任务,解码器之间没有复杂的共享机制,保证网络的端到端高效训练。
YOLOP——全景驾驶感知理论解读与实践上手
兴趣使然的创作者
08-11 4145
YOLOP是华中科技大学研究团队在2021年开源的研究成果,其将目标检测/可行驶区域分割和车道线检测三大视觉任务同时放在一起处理,并且在Jetson TX2开发板子上能够达到23FPS。
yolop代码解读
sinat_39307513的博客
10-14 6016
一、训练--train.py 1、设置DDP参数 DDP及其在pytorch中应用_cdknight_happy的专栏-CSDN博客 pytorch中DDP使用 (1)参数加载 (2)模型转换成DDP模型 (3)训练数据sampler,来使得各个进程上的数据各不相同 (4)分布式模型的保存 ...
深度学习速通系列:什么是文本数据标注
最新发布
Ven%的博客
09-22 369
标注过程中可能需要使用多种工具和方法,完成后还需进行质量检查和验收,最终将数据转换为适合模型使用的格式并进行交付。整个过程需要细致的态度和严谨的流程,以确保数据的质量和模型的性能。文本数据标注是机器学习和人工智能领域中的一个重要环节,它涉及将文本中的信息进行分类、识别和标记,以便机器学习模型能够更好地理解和处理这些数据。标注后的数据通常用于训练机器学习模型,如自然语言处理(NLP)模型,以提高模型在文本分类、情感分析、问答系统等任务上的性能。
写文章

热门文章

  • YOLOP: You Only Look Once for Panoptic Driving Perception文章自读自译(稍后代码理解) 502
  • Flask的入门第一个Demo,简单易学 118
  • 深度学习与Tensorflow入门-9.10 87

大家在看

  • 【开题报告】基于Springboot+vue农村农作物售卖微信小程序管理系统(程序+源码+论文) 计算机毕业设计
  • 前端框架对比和选择
  • Linux 常见命令 955
  • 基于jspm高校工会信息管理系统的设计与实现 471
  • 单片机实战项目|基于stm32单片机的智能衣柜设计

最新文章

  • 深度学习与Tensorflow入门-9.10
  • Flask的入门第一个Demo,简单易学
2023年2篇
2022年1篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家成都佛像玻璃钢雕塑定做价格广东周年庆典商场美陈价格延庆玻璃钢花盆小品玻璃钢动物雕塑费用浙江常见商场美陈供应商徐汇区玻璃钢花盆组合临汾新春商场美陈广州欧式玻璃钢雕塑定做兴化玻璃钢雕塑生产厂家常州人物玻璃钢雕塑定制玻璃钢葫芦雕塑厂家牛耕田玻璃钢雕塑高端商场美陈玻璃钢雕塑用滑石粉太原商场创意美陈上海景区玻璃钢雕塑制作大型商场创意商业美陈作品山西特色玻璃钢雕塑批发泰州玻璃钢人物雕塑多少钱苏州玻璃钢广场雕塑厂家供应重庆万州玻璃钢雕塑昌邑玻璃钢卡通人物雕塑定做玻璃钢仿铜蜗牛雕塑深圳玻璃钢兔子雕塑镇江玻璃钢仿真水果雕塑山东户外玻璃钢雕塑哪家便宜合肥卡通玻璃钢雕塑公司山东玻璃钢大公鸡雕塑丽江玻璃钢雕塑零售南京大型主题商场美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化