面向随动小车夜间工况下的多模态目标跟随方法和系统技术方案

技术编号：39191421 阅读：14 留言：0更新日期：2023-10-27 08:38

本发明专利技术涉及一种面向随动小车夜间工况下的多模态目标跟随方法和系统，方法包括在小车进行目标跟随过程中，分别采集RGB图像、深度图像和红外图像，将RGB图像和红外图像载入预先建立并训练好的YOLOv5

全部详细技术资料下载

【技术实现步骤摘要】
面向随动小车夜间工况下的多模态目标跟随方法和系统

[0001]本专利技术涉及计算机视觉领域，尤其是涉及面向随动小车夜间工况下的多模态目标跟随方法和系统。

技术介绍

[0002]近些年，功能性车辆领域集成了越来越多的技术，也使得功能性车辆越来越多样化。目前智能跟随小车是一个热门领域，传统的跟随方式是有激光跟随技术、GPS跟随技术、蓝牙跟随技术、视觉跟随技术等。激光跟随技术功耗较大，且常常受到室内墙体或物体的阻隔，实用性较差；GPS跟随技术在信号比较差的地方定位精度较低；蓝牙跟随技术虽然受环境干扰较小，但作用距离短，通信能力不强，不便于整合到其它系统中；对于视觉目标跟随方法借助视觉传感器完成，机器人借助单目、双目摄像头、深度摄像机、视频信号数字化设备或基于DSP的快速信号处理器等其他外部设备获取图像，同时随着深度学习的迅速发展，卷积神经网络可以自动发现检测及分类目标所需要的特征，同时通过卷积神经网络能够将原始输入信息转化为更抽象、更高维的特征，这种高维特征具有强大的特征表达能力和泛化性，在复杂场景下的表现较好。
[0003]基于深度学习的视觉跟随方法，主要分成两类：基于生成式模型的跟随方法和基于目标检测的跟随方法。其中基于生成式模型的跟随方法主要通过构建待检测的目标模型来实现跟随，例如，通过视觉传感器来获取待检测目标的特征信息，接着通过相机寻找视野范围内且与狗检测模型匹配的区域，并且使用基于生成式的目标跟踪算法跟踪目标。但是基于生成式模型的跟随方法通常只关注目标本身，而忽略了北京等信息，经常出现目标跟踪丢失的情况...

【技术保护点】

【技术特征摘要】
1.一种面向随动小车夜间工况下的多模态目标跟随方法，其特征在于，包括以下步骤：在小车移动过程中，通过相机和红外成像仪采集待检测目标的各种姿态图，并进行图像标注，制作成训练数据集；将所述训练数据集中的数据输入预先构建的YOLOv5
‑
RTFT目标检测网络进行训练，得到训练好的目标检测模型，所述YOLOv5
‑
RTFT目标检测网络为基于YOLOv5的双路网络结构，并引入RTFT结构，该RTFT结构在Transformer架构的基础上，删除Decoder结构，将图像信息分割成多个patches，从而融合RGB图像特征以及红外图像特征；在小车进行目标跟随过程中，通过相机采集RGB图像以及深度图像，通过红外成像仪采集红外图像；将采集的RGB图像和红外图像输入训练好的目标检测模型中，获取检测结果；根据所述检测结果得到跟踪目标的中心坐标与取景框中心坐标的差值，从而判断小车的转向角，使得跟踪目标的中心点保持为取景框的中心点；将RGB图上跟踪目标的坐标映射到所述深度图像上，得到跟踪目标与小车之间的距离，用来判断是否前进，实现目标跟随。2.根据权利要求1所述的一种面向随动小车夜间工况下的多模态目标跟随方法，其特征在于，所述YOLOv5
‑
RTFT目标检测网络包括输入端模块、Backbone模块、Neck模块和Prediction模块。3.根据权利要求2所述的一种面向随动小车夜间工况下的多模态目标跟随方法，其特征在于，所述输入端模块利用Mosaic技术进行数据增强，并采用自适应的Anchor计算方式，调整计算出的Anchor；所述利用Mosaic技术进行数据增强的过程包括：采用Mosaic技术对输入的数据集中的四张图片进行随即裁剪、缩放后再随机拼接成一张图片，实现数据集扩充；所述自适应的Anchor计算方式的过程包括：在训练开始前，计算输入网络的数据集中所有目标的宽和高，从而计算此数据集标注信息针对默认Anchor的最佳召回率，若最佳召回率满足预设的召回率要求，则不更新Anchor，否者重新计算该数据集的Anchor。4.根据权利要求2所述的一种面向随动小车夜间工况下的多模态目标跟随方法，其特征在于，所述Backbone模块包括CBS结构、RTFT结构以及BottleNeck结构；所述CBS结构包括依次串联的Conv层、Batch Normalization层以及SiLU层；所述Conv层包括1
×
1卷积层和3
×
3卷积层，所述1
×
1卷积层和3
×
3卷积层均用于对RGB图像以及深度图像的特征图进行扩展；所述Batch Normalization层用于利用权值共享策略，把一整张特征图当作一个神经元进行归一化处理；所述SiLU层为基于的SiLU的激活函数层；所述RTFT结构用于以Vision Transformer结构为基础，将RGB图像以及深度图像的特征进行融合；所述BottleNeck结构为BottleNeckTrue结构或BottleNeckFalse结构，所述BottleNeckTrue结构先通过1
×
1的CBS结构进行卷积，然后通过3
×
3的CBS结构进行卷积，最后通过残差结构与BottleNeckTrue结构的初始输入进行相加；所述BottleNeckFalse结构先通过1
×
1的CBS结构进行卷积，然后通过3
...

【专利技术属性】
技术研发人员：董志岩，闫哲，胡博，邓文清，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人