一种图像识别方法、装置以及相关设备制造方法及图纸

技术编号:22817568 阅读:16 留言:0更新日期:2019-12-14 13:19
本申请实施例公开了一种图像识别方法、装置以及相关设备,本申请属于人工智能领域,所述方法包括:获取包含目标对象的目标视频,在所述目标视频中提取目标视频帧图像,并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧,并将所述多个关键点视频帧组合为关键点视频帧序列;提取所述关键点视频帧序列的动态时序特征信息,并提取所述目标视频帧图像的静态结构特征信息;根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息,识别所述目标视频中的目标对象对应的属性类型。采用本申请,可以提高脸部表情的识别准确率。

An image recognition method, device and related equipment

【技术实现步骤摘要】
一种图像识别方法、装置以及相关设备
本专利技术涉及计算机
,尤其涉及一种图像识别方法、装置以及相关设备。
技术介绍
脸部表情是人类进行非语言交流的一种重要媒介,表情含有丰富的行为信息,既是感情的主要载体,也是语言交流的重要补充,对脸部表情的识别可以进一步地了解相应的心里状态。在实际应用中,脸部表情识别可以应用于远程教育、智能机器人、安全驾驶、辅助医疗、情感分析与计算等领域。现有的表情脸部表情识别方法主要是利用深度学习提取单张脸部图像/脸部表情视频的空间结构特征信息,进而根据提取出来的空间结构特征信息识别脸部图像/脸部表情视频的表情类别,但空间结构特征信息所包含的表情信息非常有限,容易受到外界环境和个体差异的影响,而且必须要求待识别的脸部图像/脸部表情视频的表情非常明显,才能准确识别对应的表情类别。由于表情的产生和消失是一个变化的过程,若只分析脸部图像/脸部表情视频的静态特征,无法准确判断对应的表情类别。上述可见,基于单一的空间结构特征信息分析脸部图像/脸部表情视频,无法准确识别脸部图像/脸部表情视频中脸部表情的类别。
技术实现思路
本专利技术实施例提供一种图像识别方法、装置以及相关设备,可以提高脸部表情的识别准确率。本专利技术一方面提供了一种图像识别方法,包括:获取包含目标对象的目标视频,在所述目标视频中提取目标视频帧图像,并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧,并将所述多个关键点视频帧组合为关键点视频帧序列;提取所述关键点视频帧序列的动态时序特征信息,并提取所述目标视频帧图像的静态结构特征信息;根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息,识别所述目标视频中的目标对象对应的属性类型。其中,所述提取所述关键点视频帧序列的动态时序特征信息,包括:在所述关键点视频帧序列中的每个关键点视频帧中提取关键标志区域,将所有关键点视频帧中具有相同关键标志区域组合为单位关键点视频帧序列;将各单位关键点视频帧序列分别输入递归神经网络模型中,提取每个单位关键点视频帧序列的动态时序特征信息;根据各单位关键点视频帧序列对应的关键标志区域之间的位置关系,将所述各单位关键点视频帧序列的动态时序特征信息进行连接,得到所述关键点视频帧序列的动态时序特征信息。其中,所述提取所述目标视频帧图像的静态结构特征信息,包括:将所述目标视频帧图像输入卷积神经网络模型的输入层中;通过卷积层的卷积处理和池化层的池化处理,提取所述目标视频帧图像的静态结构特征信息。其中,所述根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息,识别所述目标视频中的目标对象对应的属性类型,包括:根据递归神经网络模型中的分类器,识别所述关键点视频帧序列的动态时序特征信息与所述递归神经网络模型中多个属性类型特征的匹配度,将由所述关键点视频帧序列的动态时序特征信息得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第一标签信息集合;根据所述卷积神经网络中的分类器,识别所述目标视频帧图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度,将由所述目标视频帧图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第二标签信息集合;将所述第一标签信息集合和所述第二标签信息集合进行融合,得到所述目标视频中的目标对象对应的属性类型。其中,所述根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息,识别所述目标视频中的目标对象对应的属性类型,包括:将所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息进行融合,得到融合特征信息;根据递归神经网络模型中的分类器,识别所述融合特征信息与所述递归神经网络模型中多个属性类型特征的匹配度,将由所述递归神经网络模型得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第一标签信息集合;根据卷积神经网络中的分类器,识别所述融合特征信息与所述卷积神经网络中多个属性类型特征的匹配度,将由所述卷积神经网络模型得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第二标签信息集合;将所述第一标签信息集合和所述第二标签信息集合进行融合,得到所述目标视频中的目标对象对应的属性类型。其中,所述将所述第一标签信息集合和所述第二标签信息集合进行融合,得到所述目标视频中的目标对象对应的属性类型,包括:在所述第一标签信息集合和所述第二标签信息集合中,将属于相同标签信息所关联的匹配度进行加权平均,并将加权平均后的匹配度和所述标签信息进行关联,得到目标标签信息集合;在所述目标标签信息集合中提取具有最大匹配度所关联的标签信息,并将提取出的标签信息,作为所述目标视频中的目标对象对应的属性类型。其中,还包括:获取第一样本图像和第二样本图像;提取所述第一样本图像的静态结构特征信息,并根据所述卷积神经网络模型中的分类器,识别所述第一样本图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度,将由所述第一样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第三标签信息集合;提取所述第二样本图像的静态结构特征信息,并根据所述卷积神经网络模型中的分类器,识别所述第二样本图像的静态结构特征信息与所述多个属性类型特征的匹配度,将由所述第二样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第四标签信息集合;根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合,确定模型损失值,并根据所述模型损失值,调整所述卷积神经网络模型中参数的权值。其中,所述模型损失值包括识别损失值和验证损失值;所述根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合,确定模型损失值,包括:根据所述第三标签信息集合、所述第一样本图像对应的样本属性类型,生成所述第一样本图像的识别损失值;根据所述第四标签信息集合、所述第二样本图像对应的样本属性类型,生成所述第二样本图像的识别损失值;根据所述第一样本图像的静态结构特征信息、所述第一样本图像对应的样本属性类型、所述第二样本图像的静态结构特征信息、所述第二样本图像对应的样本属性类型,生成所述验证损失值;根据所述第一样本图像的识别损失值、所述第二样本图像的识别损失值、所述验证损失值,生成所述模型损失值。本专利技术另一方面提供了一种图像识别装置,包括:第一获取模块,用于获取包含目标对象的目标视频,在本文档来自技高网...

【技术保护点】
1.一种图像识别方法,其特征在于,包括:/n获取目标视频中关键点视频帧序列的动态时序特征信息,获取所述目标视频中目标视频帧图像的静态结构特征信息;/n将所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息进行融合,得到融合特征信息;/n根据递归神经网络模型中的分类器,识别所述融合特征信息与所述递归神经网络模型中多个属性类型特征的匹配度,将由所述递归神经网络模型得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第一标签信息集合;/n根据卷积神经网络中的分类器,识别所述融合特征信息与所述卷积神经网络中多个属性类型特征的匹配度,将由所述卷积神经网络模型得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第二标签信息集合;/n将所述第一标签信息集合和所述第二标签信息集合进行融合,得到所述目标视频中的目标对象对应的属性类型。/n

【技术特征摘要】
1.一种图像识别方法,其特征在于,包括:
获取目标视频中关键点视频帧序列的动态时序特征信息,获取所述目标视频中目标视频帧图像的静态结构特征信息;
将所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息进行融合,得到融合特征信息;
根据递归神经网络模型中的分类器,识别所述融合特征信息与所述递归神经网络模型中多个属性类型特征的匹配度,将由所述递归神经网络模型得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第一标签信息集合;
根据卷积神经网络中的分类器,识别所述融合特征信息与所述卷积神经网络中多个属性类型特征的匹配度,将由所述卷积神经网络模型得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第二标签信息集合;
将所述第一标签信息集合和所述第二标签信息集合进行融合,得到所述目标视频中的目标对象对应的属性类型。


2.根据权利要求1所述的方法,其特征在于,所述获取目标视频中关键点视频帧序列的动态时序特征信息,获取所述目标视频中目标视频帧图像的静态结构特征信息,包括:
获取包含目标对象的目标视频,在所述目标视频中提取目标视频帧图像,并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧,并将所述多个关键点视频帧组合为关键点视频帧序列;
提取所述关键点视频帧序列的动态时序特征信息,并提取所述目标视频帧图像的静态结构特征信息。


3.根据权利要求2所述的方法,其特征在于,所述提取所述关键点视频帧序列的动态时序特征信息,包括:
在所述关键点视频帧序列中的每个关键点视频帧中提取关键标志区域,将所有关键点视频帧中具有相同关键标志区域组合为单位关键点视频帧序列;
将各单位关键点视频帧序列分别输入递归神经网络模型中,提取每个单位关键点视频帧序列的动态时序特征信息;
根据各单位关键点视频帧序列对应的关键标志区域之间的位置关系,将所述各单位关键点视频帧序列的动态时序特征信息进行连接,得到所述关键点视频帧序列的动态时序特征信息。


4.根据权利要求2所述的方法,其特征在于,所述提取所述目标视频帧图像的静态结构特征信息,包括:
将所述目标视频帧图像输入卷积神经网络模型的输入层中;
通过卷积层的卷积处理和池化层的池化处理,提取所述目标视频帧图像的静态结构特征信息。


5.根据权利要求1所述的方法,其特征在于,所述将所述第一标签信息集合和所述第二标签信息集合进行融合,得到所述目标视频中的目标对象对应的属性类型,包括:
在所述第一标签信息集合和所述第二标签信息集合中,将属于相同标签信息所关联的匹配度进行加权平均,并将加权平均后的匹配度和所述标签信息进行关联,得到目标标签信息集合;
在所述目标标签信息集合中提取具有最大匹配度所关联的标签信息,并将提取出的标签信息,作为所述目标视频中的目标对象对应的属性类型。


6.一种图像识别方法,其特征在于,包括:
获取第一样本图像和第二样本图像;
提取所述第一样本图像的静态结构特征信息,并根据卷积神经网络模型中的分类器,识别所述第一样本图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度,将由所述第一样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第三标签信息集合;
提取所述第二样本图像的静态结构特征信息,并根据所述卷积神经网络模型中的分类器,识别所述第二样本图像的静态结构特征信息与所述多个属性类型特征的匹配度,将由所述第二样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联,得到第四标签信息集合;
根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合,确定模型损失值,并根据所述模型损失值,调整所述卷积神经网络模型中参数的权值;
所述卷积神经网络模型用于输出与目标视频中目标视频帧图像的静态结构特征信息相匹配的第二标签信息集合...

【专利技术属性】
技术研发人员:张凯皓罗文寒马林刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1