当前位置: 首页 > 专利查询>清华大学专利>正文

基于深度哈希算法的雷达-图像跨模态检索方法技术

技术编号:22817160 阅读:46 留言:0更新日期:2019-12-14 13:10
本发明专利技术属于机器学习、智能控制领域,提出了基于深度哈希算法的雷达‑图像跨模态检索方法。该方法首先利用移动机器人上的传感器获取点云文件和图像,以此来构建训练集和测试集;分别将训练集中点云和图像文件输入到构建的深度哈希网络中,进行特征学习并分别得到各自的二进制哈希码,以此训练深度哈希网络。检索时,根据训练完毕的深度哈希网络得到测试集中点云文件和图像各自的二进制哈希码,在公共汉明空间计算二者的汉明距离从而得到与待测试点云文件最相似的图像即为要检索的结果。本发明专利技术能够在摄像头由于环境因素造成的图像模糊或者不完整情况下,实现从点云检索出与之最相似的图像文件,从而能够更好的感知周围环境,获取丰富的图像信息。

Radar image cross modal retrieval method based on depth hash algorithm

【技术实现步骤摘要】
基于深度哈希算法的雷达-图像跨模态检索方法
本专利技术属于机器学习、智能控制领域,涉及了一种基于深度哈希算法的雷达-图像跨模态检索方法。
技术介绍
随着现代科技的飞速发展,移动机器人也在迅猛发展中。伴随着人机交互而来的是传感器发展,其中传感器一般包括激光雷达、摄像头、GPS、超声波雷达。虽然传感器只是移动机器人的一部分,但其发挥的作用却超乎想象。当移动机器人在使用单一传感器进行环境感知时,其采集的数据信息会不可避免的存在一些误差。而且在复杂变化的环境中时,这些误差会更大。因此需要将多个传感器结合起来使用。人们对于传感器技术在移动机器人上的应用与研究越来越深入。由于外部传感器为集多种学科于一身的产品,有些方面还在探索之中,随着外部传感器的进一步完善,移动机器人的功能越来越强大,将在许多领域为人类做出更大贡献,其中移动机器人主要依靠摄像头和激光雷达来感知周围的环境。目前通过摄像头进行拍摄,再对拍摄的图像进行分析来确定周围的环境,是移动机器人主要的感知途径之一。通过摄像头可以获取丰富的信息,而且价格低廉、携带方便、实时性更强和有利于后期图像的处理,但是摄像头很容易受到光照的影响并且它的测量距离比较近,大约10m。而由激光雷达获取的点云可以观测的距离相对较远(100m左右)而且点云的精度可以达到厘米级别,不受光照条件的影响,在夜间也可以正常工作。激光雷达所采集的点云数据具有图像所不具备的3D立体信息以及反射强度信息。在光照不足或者夜晚的情况下,摄像头所采集的图像会受到极大的干扰,造成图像部分丢失。这时候移动机器人主要依靠激光雷达获取的点云数据来进行场景的感知,此时激光雷达的存在就显得尤为重要。因此基于跨模态检索对移动机器人场景感知具有重要意义。也使得人机交互变得更加直观形象。在已有的点云-图像跨模态检索中,如本申请人提出的一种移动机器人视觉-雷达图像跨模态检索方法(申请号201810729617.5),该方法利用子空间学习的方法进行跨模态检索,首先通过深度学习网络提取点云和图像的特征,然后通过典型相关分析将两种模态的特征映射到子空间,最后计算欧式距离进行检索。虽然该方法实现了点云-图像的跨模态检索,但该方法不是一个端到端的学习过程,而且需要的存储空间较高,检索速率相对较慢。基于哈希变换的跨模态方法的基本思想是利用不同模态的样本对信息,学习不同模态的哈希变换,将不同模态特征映射到一个汉明(Hamming)二值空间,然后在汉明空间实现快速的跨模态匹配。哈希映射学习的基本依据是相似样本的哈希编码是相似的。哈希类检索算法具有存储空间小、检索速度快等特点。目前现有的哈希算法主要应用在图像-文字的跨模态检索中,点云-图像的跨模态检索中还未见该算法的应用。
技术实现思路
本专利技术的目的是为了解决移动机器人在夜晚或者光线比较暗时,通过摄像头获取的图像模糊或者不完整的情况下,提出一种基于深度哈希算法的雷达-图像跨模态检索方法。本专利技术可以实现从测试点云数据检索出最相似的图像,以此来使移动机器人更加直观的感受周围环境,获取丰富的图像信息。且本方法具有所占存储空间小、检索速度快等优点。为了实现上述目的,本专利技术采用如下技术方案:本专利技术提出的一种基于深度哈希算法的雷达-图像跨模态检索方法,其特征在于,包括以下步骤:1)利用移动机器人获取不同场景下包含有点云文件和对应图像的路线集合,从路线集合中分别选取训练集和测试集,分别将训练集和测试集中的点云和图像进行配,并将测试集中的所有图像作为检索库;具体步骤如下:1-1)获取不同场景下包含有点云文件和对应图像信息的路线集合;具体方法如下:在移动机器人上分别安装激光雷达、摄像机和GPS;设定多种不同场景,移动机器人在每种场景下的行进过程中,激光雷达持续360度扫描周围环境采集行进过程中每个采集点对应的点云文件,摄像机实时拍摄采集行进过程中每个采集点相应的图像,GPS记录点云文件和图像采集的经纬度坐标,分别得到每种场景下多条路线,将所有场景下获取的路线组成路线集合;1-2)将采集到的设定距离内的点云文件和图像进行配对,创建相同标签,并分为训练集和测试集;其中测试集中所有的图像作为检索库;具体步骤如下:1-2-1)在同一场景下,将其中一部分路线上采集到的点云文件和图像作为训练集,其余路线上采集到的点云文件和图像作为测试集;1-2-2)根据GPS获取到的经纬度坐标,将训练集中设定距离内的点云文件和图像进行配对,并创建相同的标签;1-2-3)根据GPS获取到的经纬度坐标,将测试集中设定距离内的点云文件和图像进行配对,作为后期检索任务的点云文件和图像输入;同时将测试集中所有的图像作为检索库;2)建立深度哈希网络,包含点云深度学习子网络、图像深度学习子网络及哈希码学习部分;对训练集和测试集的点云文件和图像进行预处理,得到能够适应所述深度哈希网络的数据格式,具体步骤如下:2-1)删除点云文件中的反射强度信息,使每个采集点的点云文件仅含有直角坐标的特性;2-2)对删除反射强度信息的训练集和测试集中的点云文件进行随机采样,将采样后的点云文件进行归一化处理;2-3)将训练集和测试集中所有的图像下采样至224x224;3)对深度哈希网络进行训练,将步骤2)中预处理后的点云文件和图像输入到深度哈希网络中,同时构造相似性矩阵S,使不同模态间数据相互关联,从而得到图像深度学习子网络参数θx和点云深度学习子网络参数θy;具体方法如下:点云深度学习子网络的输入为单个点云文件,输出为输入点云文件对应的c维特征向量,令训练集包含n个点云文件,将n个点云文件输入到点云深度学习子网络中,经过前向传播共得到n个c维特征向量;图像深度学习子网络的输入大小是224x224x3,输出为c维特征向量,令训练集包含n个图像,将n个图像输入到图像深度学习子网络中,经过前向传播共得到n个c维特征向量;令将训练集的图像和点云文件分别输入图像深度学习子网络和点云深度学习子网络学习到的特征如下:F*i=f(xi;θx),F∈Rc×nG*j=g(yj;θy),G∈Rc×n式中,F*i是输入的训练集中第i个图像xi学习到的图像特征,F为所有图像特征构成的集合;第G*j是输入的训练集中第j个点云文件yj学习到点云特征,G为所有点云特征构成的集合;c是哈希码的长度;将得到的各特征集合进行哈希码学习;表达式如下:Bx=sign(a(F))By=sign(b(G))其中a和b是超参数,Bx为图像学习到的二进制哈希码,By为点云学习到的二进制哈希码;sign(·)是一个符号函数,表示为:令图像深度学习子网络参数θx和点云深度学习子网络参数θy的目标函数α的表达式如下:其中Sij为相似性矩阵S中的元素,若图像深度学习子网络输入的训练集中第i个图像xi和点云深度学习子网络输入的训练集中第j个点云文件yj数据的标签相同,则Sij=1,否则Sij=0;θij=0本文档来自技高网
...

【技术保护点】
1.一种基于深度哈希算法的雷达-图像跨模态检索方法,其特征在于,包括以下步骤:/n1)利用移动机器人获取不同场景下包含有点云文件和对应图像的路线集合,从路线集合中分别选取训练集和测试集,分别将训练集和测试集中的点云和图像进行配,并将测试集中的所有图像作为检索库;具体步骤如下:/n1-1)获取不同场景下包含有点云文件和对应图像信息的路线集合;具体方法如下:/n在移动机器人上分别安装激光雷达、摄像机和GPS;设定多种不同场景,移动机器人在每种场景下的行进过程中,激光雷达持续360度扫描周围环境采集行进过程中每个采集点对应的点云文件,摄像机实时拍摄采集行进过程中每个采集点相应的图像,GPS记录点云文件和图像采集的经纬度坐标,分别得到每种场景下多条路线,将所有场景下获取的路线组成路线集合;/n1-2)将采集到的设定距离内的点云文件和图像进行配对,创建相同标签,并分为训练集和测试集;其中测试集中所有的图像作为检索库;具体步骤如下:/n1-2-1)在同一场景下,将其中一部分路线上采集到的点云文件和图像作为训练集,其余路线上采集到的点云文件和图像作为测试集;/n1-2-2)根据GPS获取到的经纬度坐标,将训练集中设定距离内的点云文件和图像进行配对,并创建相同的标签;/n1-2-3)根据GPS获取到的经纬度坐标,将测试集中设定距离内的点云文件和图像进行配对,作为后期检索任务的点云文件和图像输入;同时将测试集中所有的图像作为检索库;/n2)建立深度哈希网络,包含点云深度学习子网络、图像深度学习子网络及哈希码学习部分;对训练集和测试集的点云文件和图像进行预处理,得到能够适应所述深度哈希网络的数据格式,具体步骤如下:/n2-1)删除点云文件中的反射强度信息,使每个采集点的点云文件仅含有直角坐标的特性;/n2-2)对删除反射强度信息的训练集和测试集中的点云文件进行随机采样,将采样后的点云文件进行归一化处理;/n2-3)将训练集和测试集中所有的图像下采样至224x224;/n3)对深度哈希网络进行训练,将步骤2)中预处理后的点云文件和图像输入到深度哈希网络中,同时构造相似性矩阵S,使不同模态间数据相互关联,从而得到图像深度学习子网络参数θ...

【技术特征摘要】
1.一种基于深度哈希算法的雷达-图像跨模态检索方法,其特征在于,包括以下步骤:
1)利用移动机器人获取不同场景下包含有点云文件和对应图像的路线集合,从路线集合中分别选取训练集和测试集,分别将训练集和测试集中的点云和图像进行配,并将测试集中的所有图像作为检索库;具体步骤如下:
1-1)获取不同场景下包含有点云文件和对应图像信息的路线集合;具体方法如下:
在移动机器人上分别安装激光雷达、摄像机和GPS;设定多种不同场景,移动机器人在每种场景下的行进过程中,激光雷达持续360度扫描周围环境采集行进过程中每个采集点对应的点云文件,摄像机实时拍摄采集行进过程中每个采集点相应的图像,GPS记录点云文件和图像采集的经纬度坐标,分别得到每种场景下多条路线,将所有场景下获取的路线组成路线集合;
1-2)将采集到的设定距离内的点云文件和图像进行配对,创建相同标签,并分为训练集和测试集;其中测试集中所有的图像作为检索库;具体步骤如下:
1-2-1)在同一场景下,将其中一部分路线上采集到的点云文件和图像作为训练集,其余路线上采集到的点云文件和图像作为测试集;
1-2-2)根据GPS获取到的经纬度坐标,将训练集中设定距离内的点云文件和图像进行配对,并创建相同的标签;
1-2-3)根据GPS获取到的经纬度坐标,将测试集中设定距离内的点云文件和图像进行配对,作为后期检索任务的点云文件和图像输入;同时将测试集中所有的图像作为检索库;
2)建立深度哈希网络,包含点云深度学习子网络、图像深度学习子网络及哈希码学习部分;对训练集和测试集的点云文件和图像进行预处理,得到能够适应所述深度哈希网络的数据格式,具体步骤如下:
2-1)删除点云文件中的反射强度信息,使每个采集点的点云文件仅含有直角坐标的特性;
2-2)对删除反射强度信息的训练集和测试集中的点云文件进行随机采样,将采样后的点云文件进行归一化处理;
2-3)将训练集和测试集中所有的图像下采样至224x224;
3)对深度哈希网络进行训练,将步骤2)中预处理后的点云文件和图像输入到深度哈希网络中,同时构造相似性矩阵S,使不同模态间数据相互关联,从而得到图像深度学习子网络参数θx和点云深度学习子网络参数θy;具体方法如下:
点云深度学习子网络的输入为单个点云文件,输出为输入点云文件对应的c维特征向量,令训练集包含n个点云文件,将n个点云文件输入到点云深度学习子网络中,经过前向传播共得到n个c维特征向量;
图像深度学习子网络的输入大小是224x224x3,输出为c维特征向量,令训练集包含n个图像,将n个图像输入到图像深度学习子网络中,经过前向传播共得到n个c维特征向量;
令将训练集的图像和点云文件分别输入图像深度学习子网络和点云深度学习子网络学习到的特征如下:
F*i=f(xi;θx),F∈Rc×n
G*j=g(yj;θy),G∈Rc×n
式中,F*i是输入的训练集中第i个图像xi学习到的图像特征,F为所有图像特征构成的集合;第G*j是输入的训练集中第j个点云文件yj学习到点云特征,G为所有点云特征构成的集合;c是哈希码的长度;
将得到的各特征集合进行哈希码学习;表达式如下:
Bx=sign(a(F))
By=sign(b(G))...

【专利技术属性】
技术研发人员:刘华平徐明浩张新钰孙富春
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1