首页科学研究科研成果成果展示 | 新闻详情

基于双注意力机制的单目场景流估计技术

来源：自动化科研发布时间：2024-10-29

成果名称	基于双注意力机制的单目场景流估计技术
成果联系人	翟明亮	职称	讲师		所在单位		英国威廉希尔公司官网
联系电话			Email		zhaimingliang@njupt.edu.cn
技术成熟度	基本原理		技术分类		信息网络
核心专利号	无
所属学科方向	一级学科	计算机科学与技术		二级学科		计算机应用技术
应用行业	自动驾驶
项目概况：场景流估计是计算机视觉领域中的重要课题。近年来，受到深度学习技术的推动作用，从时序数据中提取场景流的算法取得了巨大的成功。相对于二维光流，场景流能够提供的运动信息更加充足，其可为上层视觉理解任务以及车辆控制系统提供丰富的底层三维运动信息，这些信息有助于车辆进行后续的判断与决策。因此，研究场景流估计技术对于自动驾驶十分关键。目前，随着场景流估计技术的发展，从单目图像序列中恢复场景流成为国内外关注和研究的热点。与基于双目图像的场景流估计方法相比，单目场景流估计方法无需复杂的双目立体匹配操作，仅利用单目相机采集到的数据即可估计场景流。虽然现有的单目场景流估计方法能够从单目图像序列中提取三维运动信息，但是仍然存在真实场景适应能力不足、复杂特征之间的交互关系推理能力不足、损失函数权重自适应调节能力不足的问题。现有的单目场景流估计模型缺乏对于特征的判别能力，其无法自适应地判别特征的重要性。对此，本项目引入双注意力机制用于区分出场景中重要信息并对其进行增强。整体框架包含两部分，一部分为刚性运动估计子模型，由单目深度估计子网络和相机运动姿态估计子网络构成。另一部分为非刚性运动估计子模型。本文将该通道与空间联合注意力模块嵌入到单目深度估计以及残差流估计子模型中，用于从通道以及空间两个方面对特征图进行细化求精。在训练过程中，针对训练数据难获取的问题，使用大量无标注的数据引导模型进行无监督学习。
关键技术：翟明亮所在的研究团队近年来一直从事光流估计和场景流估计等方面的研究，对基于深度学习的光流与场景流估计方法进行了系统的理论和实验研究，并取得了一系列与本项目相关的研究成果。团队自主研究了基于目标上下文感知的双目场景流估计模型，该模型在一个共享框架下对立体匹配和光流估计两个任务进行联合学习。为了提取出图像数据中的目标上下文信息，该方法在联合学习框架中融入目标上下文感知子模型，使得模型能够根据像素点之间的相似性自适应地从全局视图中获取目标上下文信息。该项研究成果中已实现双目场景流估计深度学习模型，这为相关场景流估计技术的推广应用打下了坚实基础。在此基础上，团队研究了基于双注意力机制的单目场景流估计技术，该项技术能够从单目图像序列中恢复出场景深度、相机运动姿态以及光流信息。其中，双注意力机制用于自适应地区分出场景中对当前任务有用的特征信息并对其进行增强，并从通道以及空间两个方面对特征图进行细化求精。另外，团队将场景中的运动拆解为刚性运动和非刚性运动分别进行求解。通过在刚性运动估计子网络和非刚性运动估计子网络中引入双注意力机制，增强深度以及光流估计子网络对于特征的判别与表达能力，进而提升了深度以及光流的估计精度。基于双注意力机制的单目场景流估计技术
应用领域和市场前景：据国家交通运输管理部门的统计分析，近年来我国交通事故虽呈下降趋势，但仍然频繁发生，全国平均每年发生约20万起交通事故，减少交通事故的发生始终任重道远。据调查结果显示，大多数事故都是由人为主观因素导致。因此，自动驾驶技术成为当前国内外关注和研究的热点。由于自动驾驶车辆配备了多种环境感知设备，所以在面对突发情况时的反应速度要远远高于人类。此外，自动驾驶车辆不会发生醉驾或疲劳驾驶等问题，极大提高了车辆的安全性。计算机视觉技术作为自动驾驶中的关键技术，其能够模拟人眼的视觉效果，并为上层决策系统提供丰富的视觉信息，如目标位置、大小、距离和速度等。上层控制系统能够根据这些信息做出相应的决策，如启车、加速、变向、刹车以及自动规划最优线路等。由于自动驾驶过程中往往涉及动态场景且运动较为复杂，所以高效、准确地获取环境中的运动信息是行车安全性和智能性的保障，也是决策与控制环节的前提。因此，场景流估计是自动驾驶中的重要环节。本项目的相关研究成果促进了单目场景流估计技术的发展，并在自动驾驶领域具有重要的学术意义和工程应用价值。
合作方式（技术转让，技术开发，技术服务，技术咨询，技术入股）：技术转让技术开发技术咨询技术服务 *技术入股
图片：（1-5张，文件大小不低于1MB，图片清晰，并标注图片说明）自动驾驶场景深度结果展示自动驾驶场景光流结果展示