基于人工智能的视觉关系识别方法、装置及电子设备制造方法及图纸

技术编号:26891648 阅读:18 留言:0更新日期:2020-12-29 16:10
本申请提供了一种基于人工智能的视觉关系识别方法、装置、电子设备及计算机可读存储介质;涉及人工智能的图像识别技术;方法包括:确定待识别图像中包括多个对象的联合包围框;提取联合包围框的视觉特征,将视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布;提取每个视觉关系标签的语义特征,将语义特征转化为对应视觉关系标签的语义特征高斯分布;在与多个视觉关系标签一一对应的多个语义特征高斯分布中,确定与视觉特征高斯分布匹配的语义特征高斯分布;将匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系,确定为多个对象之间的视觉关系。通过本申请,能够提升视觉关系的检测准确率。

【技术实现步骤摘要】
基于人工智能的视觉关系识别方法、装置及电子设备
本申请涉及人工智能技术,尤其涉及一种基于人工智能的视觉关系识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。随着深度学习的发展,图像识别技术应用到越来越多的领域以及产品中,针对于图像视觉关系检测领域,通常仅采用分类的思路来进行视觉关系标签的预测,即将融合后的视觉特征输入到最大似然函数层,以输出属于各个视觉关系标签的预测概率,该预测方式无法适应于具有语义复杂性的视觉关系标签,从而导致视觉关系检测准确率较低。
技术实现思路
本申请实施例提供一种基于人工智能的视觉关系识别方法、装置、电子设备及计算机可读存储介质,能够提升视觉关系的检测准确率。本申请实施例的技术方案是这样实现的:本申请实施例提供一种基于人工智能的视觉关系识别方法,包括:确定待识别图像中包括多个对象的联合包围框;提取所述联合包围框的视觉特征,将所述视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布;提取每个所述视觉关系标签的语义特征,将所述语义特征转化为对应所述视觉关系标签的语义特征高斯分布;在与所述多个视觉关系标签一一对应的多个语义特征高斯分布中,确定与所述视觉特征高斯分布匹配的语义特征高斯分布;将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系,确定为所述多个对象之间的视觉关系。本申请实施例提供一种基于人工智能的视觉关系识别装置,包括:联合包围框确定模块,用于确定待识别图像中包括多个对象的联合包围框;视觉转化模块,用于提取所述联合包围框的视觉特征,将所述视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布;语义转化模块,用于提取每个所述视觉关系标签的语义特征,将所述语义特征转化为对应所述视觉关系标签的语义特征高斯分布;匹配模块,用于在与所述多个视觉关系标签一一对应的多个语义特征高斯分布中,确定与所述视觉特征高斯分布匹配的语义特征高斯分布;视觉关系确定模块,将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系,确定为所述多个对象之间的视觉关系。在上述方案中,所述联合包围框确定模块,还用于:对所述待识别图像进行目标检测处理,得到所述待识别图像中每个对象的包围框;将所述待识别图像中任意相邻的多个对象的包围框进行组合处理,得到包括多个对象的联合包围框。在上述方案中,所述视觉转化模块,还用于:对所述联合包围框进行卷积处理,得到所述联合包围框中图像的卷积特征;对所述卷积特征进行池化处理,得到所述联合包围框的视觉特征。在上述方案中,所述多个视觉关系标签与多个全连接层一一对应;所述视觉转化模块,还用于:针对每个所述视觉关系标签执行以下处理:通过与所述视觉关系标签对应的全连接层对所述视觉特征进行全连接处理,得到与所述视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵;基于与每个所述视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵,构建与每个所述视觉关系标签对应的视觉特征高斯分布。在上述方案中,所述语义转化模块,还用于:通过语义预测网络的输入层将每个所述视觉关系标签编码为独热向量;将所述语义预测网络的隐层的权重矩阵与每个所述视觉关系标签对应的独热向量相乘,得到每个所述视觉关系标签的语义特征。在上述方案中,所述语义转化模块,还用于:对所述视觉关系标签的语义特征进行全连接处理,得到所述语义特征的均值、以及所述语义特征的对角协方差矩阵;基于所述均值以及所述对角协方差矩阵,构建对应所述视觉关系标签的语义特征高斯分布。在上述方案中,所述匹配模块,还用于:针对多个视觉关系标签中的每个视觉关系标签执行以下处理:确定对应所述视觉关系标签的语义特征高斯分布与对应所述视觉关系标签的视觉特征高斯分布之间的匹配度;将匹配度最高的视觉关系标签对应的语义特征高斯分布,作为与所述视觉特征高斯分布匹配的语义特征高斯分布。在上述方案中,所述匹配模块,还用于:对所述语义特征高斯分布进行多次采样处理,得到由多个采样语义特征组成的采样语义特征集合;对所述视觉特征高斯分布进行多次采样处理,得到由多个采样视觉特征组成的采样视觉特征集合;将所述采样语义特征集合与所述采样视觉特征集合之间的匹配度,作为所述语义特征高斯分布与所述视觉特征高斯分布之间的匹配度。在上述方案中,所述匹配模块,还用于在将所述采样语义特征集合与所述采样视觉特征集合之间的匹配度,作为所述语义特征高斯分布与所述视觉特征高斯分布之间的匹配度之前:将所述采样语义特征集合中任意一个采样语义特征与所述采样视觉特征集合中任意一个采样视觉特征进行组合处理,得到多个采样样本对;确定每个所述采样样本对中采样语义特征与采样视觉特征之间的欧式距离;确定与多个所述采样样本对的欧式距离的和成负相关的匹配度,以作为所述采样语义特征集合与所述采样视觉特征集合之间的匹配度。在上述方案中,所述匹配模块,还用于在将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系,确定为所述多个对象之间的视觉关系之后:获取所述待识别图像中每个联合包围框的面积,并对每个所述联合包围框进行基于面积的降序排序处理;将排序处理结果中排序靠前的多个联合包围框进行基于匹配度的降序排序处理;其中,所述匹配度用于确定所述联合包围框中多个对象之间的视觉关系;将排序靠前的联合包围框中的所述多个对象之间的视觉关系,记录为所述待识别图像的元数据。在上述方案中,用于确定所述联合包围框中多个对象之间的视觉关系的视觉关系预测网络包括:视觉预测网络、语义预测网络以及采样匹配网络;所述装置还包括:训练模块,用于在确定待识别图像中包括多个对象的联合包围框之后:获取用于训练所述视觉关系预测网络的正样本以及负样本;其中,所述正样本包括联合包围框样本以及所述联合包围框样本的真实视觉关系标签,所述负样本包括所述联合包围框样本以及所述联合包围框样本的虚假视觉关系标签,所述真实视觉关系标签以及所述虚假视觉关系标签组成视觉关系标签集合;将所述联合包围框样本在所述视觉预测网络中进行第一正向传播,并将所述正样本中的真实视觉关系标签在所述语义预测网络中进行第二正向传播;将所述第一正向传播的结果与所述第二正向传播的结果在所述采样匹配网络中进行正向传播,以确定所述联合包围框样本与所述真实视觉关系标签的第一匹配度;将所述联合包围框样本在所述视觉预测网络中进行第三正向传播,并将所述负样本中的虚假视觉关系标签在所述语义预测网络中进行第四正向传播;将所述第本文档来自技高网...

【技术保护点】
1.一种基于人工智能的视觉关系识别方法,其特征在于,包括:/n确定待识别图像中包括多个对象的联合包围框;/n提取所述联合包围框的视觉特征,将所述视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布;/n提取每个所述视觉关系标签的语义特征,将所述语义特征转化为对应所述视觉关系标签的语义特征高斯分布;/n在与所述多个视觉关系标签一一对应的多个语义特征高斯分布中,确定与所述视觉特征高斯分布匹配的语义特征高斯分布;/n将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系,确定为所述多个对象之间的视觉关系。/n

【技术特征摘要】
1.一种基于人工智能的视觉关系识别方法,其特征在于,包括:
确定待识别图像中包括多个对象的联合包围框;
提取所述联合包围框的视觉特征,将所述视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布;
提取每个所述视觉关系标签的语义特征,将所述语义特征转化为对应所述视觉关系标签的语义特征高斯分布;
在与所述多个视觉关系标签一一对应的多个语义特征高斯分布中,确定与所述视觉特征高斯分布匹配的语义特征高斯分布;
将所述匹配的语义特征高斯分布对应的视觉关系标签所对应的视觉关系,确定为所述多个对象之间的视觉关系。


2.根据权利要求1所述的方法,其特征在于,所述确定待识别图像中包括多个对象的联合包围框,包括:
对所述待识别图像进行目标检测处理,得到所述待识别图像中每个对象的包围框;
将所述待识别图像中任意相邻的多个对象的包围框进行组合处理,得到包括所述多个对象的联合包围框。


3.根据权利要求1所述的方法,其特征在于,所述提取所述联合包围框的视觉特征,包括:
对所述联合包围框进行卷积处理,得到所述联合包围框中图像的卷积特征;
对所述卷积特征进行池化处理,得到所述联合包围框的视觉特征。


4.根据权利要求1所述的方法,其特征在于,
所述多个视觉关系标签与多个全连接层一一对应;
所述将所述视觉特征转化为与多个视觉关系标签一一对应的多个视觉特征高斯分布,包括:
针对每个所述视觉关系标签执行以下处理:通过与所述视觉关系标签对应的全连接层对所述视觉特征进行全连接处理,得到与所述视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵;
基于与每个所述视觉关系标签对应的视觉特征的均值、以及视觉特征的对角协方差矩阵,构建与每个所述视觉关系标签对应的视觉特征高斯分布。


5.根据权利要求1所述的方法,其特征在于,所述提取每个所述视觉关系标签的语义特征,包括:
通过语义预测网络的输入层将每个所述视觉关系标签编码为独热向量;
将所述语义预测网络的隐层的权重矩阵与每个所述视觉关系标签对应的独热向量相乘,得到每个所述视觉关系标签的语义特征。


6.根据权利要求1所述的方法,其特征在于,所述将所述语义特征转化为对应所述视觉关系标签的语义特征高斯分布,包括:
对所述视觉关系标签的语义特征进行全连接处理,得到所述语义特征的均值、以及所述语义特征的对角协方差矩阵;
基于所述均值以及所述对角协方差矩阵,构建对应所述视觉关系标签的语义特征高斯分布。


7.根据权利要求1所述的方法,其特征在于,所述确定与所述视觉特征高斯分布匹配的语义特征高斯分布,包括:
针对多个视觉关系标签中的每个视觉关系标签执行以下处理:确定对应所述视觉关系标签的语义特征高斯分布与对应所述视觉关系标签的视觉特征高斯分布之间的匹配度;
将匹配度最高的视觉关系标签对应的语义特征高斯分布,作为与所述视觉特征高斯分布匹配的语义特征高斯分布。


8.根据权利要求7所述的方法,其特征在于,所述确定对应所述视觉关系标签的语义特征高斯分布与对应所述视觉关系标签的视觉特征高斯分布之间的匹配度,包括:
对所述语义特征高斯分布进行多次采样处理,得到由多个采样语义特征组成的采样语义特征集合;
对所述视觉特征高斯分布进行多次采样处理,得到由多个采样视觉特征组成的采样视觉特征集合;
将所述采样语义特征集合与所述采样视觉特征集合之间的匹配度,作为所述语义特征高斯分布与所述视觉特征高斯分布之间的匹配度。


9.根据权利要求8所述的方法,其特征在于,在将所述采样语义特征集合与所述采样视觉特征集合之间的匹配度,作为所述语义特征高斯分布与所述视觉特征高斯分布之间的匹配度之前,所述方法还包括:
将所述采样语义特征集合中任意一个采样语义特征与所述采样视觉特征集合中任意一个采样视觉特征进行组合处理,得到多个采样样本对;
确定每个所述采样样本对中采样...

【专利技术属性】
技术研发人员:杨耿聪张勇吴保元樊艳波李志锋杨余久刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1