基于自然语言描述的三维场景目标检测建模及检测方法技术

技术编号:29048923 阅读:13 留言:0更新日期:2021-06-26 06:09
本发明专利技术公开了一种基于自然语言描述的三维场景目标检测的建模及检测方法。方法包括:

【技术实现步骤摘要】
基于自然语言描述的三维场景目标检测建模及检测方法


[0001]本专利技术属于人工智能与计算机视觉领域,具体涉及一种基于自然语言描述的三维场景目标检测建模及检测方法。

技术介绍

[0002]近年来,随着激光雷达和深度相机等的广泛应用,移动机器人可以更好地获得工作场景的三维信息,基于深度学习的三维点云场景理解引起了很多关注。人类通过自然语言的方式对移动机器人发出指令,移动机器人根据自然语言描述信息在所处的三维场景中定位出目标物体,将大幅度提升移动机器人的智能化水平。依据自然语言描述进行三维点云目标定位存在如何抽象出自由式语言描述关系特征、如何跨模态地对自然语言和三维点云信息进行融合处理等问题。
[0003]目前基于文本语言描述引导的三维点云目标检测方法只提取语言描述的全局特征,忽略了自由式语言描述中长距离名词的上下文关系,且没有深度融合跨语言和三维点云模态之间的抽象信息,限制了三维目标定位精度,制约了移动机器人以更智能的方式理解人类自然语言并执行相应的后续任务。

技术实现思路

[0004]本专利技术的目的在于提供一种基于自然语言描述的三维场景目标检测建模及检测方法,用以解决现有技术中的三维目标定位精度不足的问题。
[0005]为了实现上述任务,本专利技术采用以下技术方案:
[0006]一种基于自然语言描述的三维场景目标检测建模方法,包括如下步骤:
[0007]步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;
[0008]步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;
[0009]步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为基于自然语言描述的三维场景目标检测模型;
[0010]所述的图网络构建方法,包括如下步骤:
[0011]步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;
[0012]步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;
[0013]步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;
[0014]步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;
[0015]步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;
[0016]步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候选框的视觉特征和存在关系短语的每对候选框的最小联合区域的几何特征,将存在关系短语的每对候选框的视觉特征和几何特征进行级联得到存在关系短语的每对候选框的级联关系特征;
[0017]以候选框为节点,以关系短语为边,以候选框的目标特征为节点特征,以存在关系短语的每对候选框的级联关系特征为边特征,构建初始三维目标候选框视觉关系图网络;
[0018]步骤7:采用注意力机制对初始三维目标候选框视觉关系图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得三维目标候选框视觉关系图网络。
[0019]进一步的,步骤三进行训练时,每次迭代后对语言场景图和三维目标候选框视觉关系图进行图匹配,并根据图匹配结果计算损失函数并进行下次迭代,包括如下子步骤:
[0020]计算语言场景图中的每个名词短语节点和三维目标候选框视觉关系图中的每个目标候选框节点的节点图匹配得分,计算语言先验图中每条边和三维目标视觉关系图中每条边的边图匹配得分;
[0021]获取边图匹配得分值最高的三维目标视觉关系图中边作为目标候选框关系边,选取该目标候选框关系边连接的两个目标候选框节点中节点图匹配得分值最高的目标候选框作为本次迭代得到的最终目标候选框,根据目标候选框与真实目标候选框计算损失函数,更新模型参数并进行下次迭代。
[0022]更进一步的,所述的损失函数为:
[0023][0024]其中为目标候选框裁剪中名词短语与候选框相似匹配得分计算的损失,为目标候选框更新中候选框偏移量计算的损失,为图匹配最终目标定位中边的相似性得分计算的损失,为图匹配的相似性得分计算的损失,L
det
为三维目标候选框初始化的损失,τ1,τ2,τ3,τ4为加权系数且取值范围均为0

1。
[0025]一种基于自然语言描述的三维场景目标检测方法,包括如下步骤:
[0026]步骤Ⅰ:获取待检测三维场景点云及待检测三维场景点云的一条自然语言描述;
[0027]步骤Ⅱ:将待检测三维场景点云及待检测三维场景点云的一条自然语言描述输入任一种基于自然语言描述的三维场景目标检测建模方法得到的基于自然语言描述的三维场景目标检测模型中得到目标候选框。
[0028]本专利技术与现有技术相比具有以下技术特点:
[0029](1)本专利技术通过对自由式自然语言描述进行针对性的解析,利用解析得到的名词短语和关系短语构建自然语言先验图网络,通过基于注意力机制的特征更新策略,有效地提取自然语言描述中的目标信息及关系信息,克服了现有技术中对复杂语言描述无法提取长距离上下文信息的问题,使得本专利技术具有能够更好地理解自然语言描述,进而为目标的定位提供准确的引导先验信息的优点。
[0030](2)本专利技术通过自然语言描述引导从复杂三维点云场景中定位出目标物体,利用自然语言先验图的节点特征作为先验进行目标候选框的冗余裁剪及更新,有效提升了初始化目标候选框的精度,客服了现有技术中视觉场景图构建中由于冗余造成的运算量大且候选框精度低的问题,使得本专利技术具有能够建立具有更强特征表示能力的三维目标视觉场景图的优点。
[0031](3)本专利技术基于自然语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自然语言描述的三维场景目标检测建模方法,其特征在于,包括如下步骤:步骤一:获取自然语言描述集合和三维场景点云集合,所述的自然语言描述集合中每条自然语言描述包括名词短语集和关系短语集,每条自然语言描述对应三维场景点云集合中的一个三维场景点云,根据每条自然语言描述其对应的三维场景点云进行候选框标注,获得每个三维场景点云的真实目标候选框;步骤二:根据图网络构建方法获得语言先验图网络和三维目标候选框视觉关系图网络;步骤三:将自然语言描述集合和三维场景点云集合作为训练集,将所有三维场景点云的真实目标候选框作为标签集,训练语言先验图网络和三维目标候选框视觉关系图网络,将训练好的语言先验图网络和三维目标候选框视觉关系图网络作为基于自然语言描述的三维场景目标检测模型;所述的图网络构建方法,包括如下步骤:步骤1:获取自然语言描述,所述的自然语言描述包括名词短语集和关系短语集,对名词短语集和关系短集语进行编码得到名词短语特征集和关系短语特征集;以名词短语为节点,以关系短语为边,以名词短语特征为节点特征并以关系短语特征为边特征构建初始语言先验图网络;步骤2:采用注意力机制对初始语言先验图网络中每个节点的临近节点的节点特征和边特征进行加权聚合,获得语言先验图网络;步骤3:获取三维场景点云,所述的三维场景点云与步骤1的自然语言描述相关,采用PointNet++提取三维场景点云的点云特征,根据三维场景点云的点云特征采用VoteNet生成三维场景点云的初始化候选框集合,所述的初始化候选框集合包括多个候选框;步骤4:通过多层感知机运算提取步骤3得到的初始化候选框集合中每个候选框的目标特征,根据每个候选框的目标特征和步骤2得到的语言先验图网络的每个节点特征计算每个候选框和每个名词短语节点的偏移量;步骤5:计算每个名词短语和每个候选框的相似性匹配得分,将同一个名词短语的相似性匹配得分降序排列,获得同一个名词短语的前K个相似性匹配得分所对应的候选框,并对同一个名词短语的K个候选框分别依据步骤4得到的每个候选框和每个名词短语节点的偏移量进行更新,将更新后的同一个名词短语的K个候选框作为该名词短语的候选框集,其中,K为正整数;步骤6:获取每个名词短语的候选框集中存在关系短语的所有对候选框,提取存在关系短语的每对候...

【专利技术属性】
技术研发人员:冯明涛张亮朱光明宋娟沈沛意
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1