一种图像识别方法及电子设备技术

技术编号:18972695 阅读:17 留言:0更新日期:2018-09-19 03:46
本发明专利技术公开了一种图像识别方法,包括:获取图像信息和第一文本信息;基于所述图像信息和所述第一文本信息,生成第二文本信息,所述第二文本信息用于表征所述图像信息和所述文本信息内容。本发明专利技术还公开了一种电子设备。

Image recognition method and electronic equipment

The invention discloses an image recognition method, including: acquiring image information and first text information; generating a second text information based on the image information and the first text information, and the second text information for representing the image information and the text information content. The invention also discloses an electronic device.

【技术实现步骤摘要】
一种图像识别方法及电子设备
本专利技术涉及图像识别技术,尤其涉及一种图像识别方法及电子设备。
技术介绍
现有技术在对图像进行识别的过程中,仅能对图像的构成做出简单的判断,或者由对图像操作的人员对所述图像做出判断,其识别效率较低,同时识别错误率较高。
技术实现思路
本专利技术实施例提供一种图像识别方法及电子设备,在实现识别图像的同时,能够根据所述图像的视觉特征和所获取的文本信息进行编码和解码,得到描述融合所述视觉特征和所述文本信息的第二文本信息。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种图像识别方法,包括:获取图像信息和第一文本信息;基于所述图像信息和所述第一文本信息,生成第二文本信息,所述第二文本信息用于表征所述图像信息和所述文本信息内容。上述方案中,所述获取图像信息和第一文本信息,包括:从所述图像中提取视觉特征;对所述图像的至少两种不同类型的文本信息进行编码,得到表征文本信息的语义的编码结果。上述方案中,所述基于所述图像信息和所述第一文本信息,生成第二文本信息,包括:基于所述视觉特征和所述编码结果进行解码,得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。上述方案中,所述从图像中提取视觉特征,包括:通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理,得到所述图像的降采样结果;通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述图像的视觉特征。上述方案中,所述方法还包括:通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理,得到所述表征所述图像的分类的标签。上述方案中,所述对所述图像的至少两种不同类型的文本信息进行编码,包括:通过与不同类型的文本信息对应的神经网络模型,将所述图片的至少两种类型的文本信息进行词级别的编码;将词级别的编码结果进行语句级别的编码。上述方案中,所述基于所述视觉特征和所述编码结果进行解码,包括:通过第一解码器模型中,对所述编码结果进行语句级别的解码;通过第二解码器模型语句级别的解码结果进行词级别的解码。上述方案中,所述方法还包括:通过注意力模型为所述视觉特征、所述编码结果分配对应的权重;将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。上述方案中,所述方法还包括:基于图像样本、以及所述图像样本的分类标签,对用于从所述图像中提取视觉特征的卷积神经网络模型进行训练;基于语句样本以及对应的解码结果训练第一解码器模型;基于词样本以及对应的解码结果训练第二解码器模型。上述方案中,当所述图像为病患部位的医疗影像时,所述第一文本信息包括病患部位的指征和临床报告,所述第二文本信息包括所述病患部位的诊断结果。本专利技术实施例还提供了一种电子设备,所述电子设备包括:信息获取模块,用于获取图像和第一文本信息;信息处理模块,用于基于所述图像信息和所述第一文本信息,生成第二文本信息,所述第二文本信息用于表征所述图像信息和所述文本信息内容。上述方案中,所述信息获取模块,用于从所述图像中提取视觉特征;所述信息处理模块,用于对所述图像的至少两种不同类型的文本信息进行编码,得到表征文本信息的语义的编码结果。上述方案中,所述信息处理模块,用于基于所述视觉特征和所述编码结果进行解码,得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。上述方案中,所述信息获取模块,用于通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理,得到所述图像的降采样结果;所述信息获取模块,用于通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述图像的视觉特征。上述方案中,所述信息获取模块,用于通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理,得到所述表征所述图像的分类的标签。上述方案中,所述信息处理模块,用于通过与不同类型的文本信息对应的神经网络模型,将所述图片的至少两种类型的文本信息进行词级别的编码;所述信息处理模块,用于将词级别的编码结果进行语句级别的编码。上述方案中,所述信息处理模块,用于通过第一解码器模型中,对所述编码结果进行语句级别的解码;所述信息处理模块,用于通过第二解码器模型语句级别的解码结果进行词级别的解码。上述方案中,所述信息处理模块,还用于通过注意力模型为所述视觉特征、所述编码结果分配对应的权重;所述信息处理模块,还用于将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。上述方案中,所述电子设备还包括:训练模块,用于基于图像样本、以及所述图像样本的分类标签,对用于从所述图像中提取视觉特征的卷积神经网络模型进行训练;所述训练模块,用于基于语句样本以及对应的解码结果训练第一解码器模型;所述训练模块,用于基于词样本以及对应的解码结果训练第二解码器模型。上述方案中,当所述图像为病患部位的医疗影像时,所述文本信息包括病患部位的指征和临床报告,所述第二文本信息包括所述病患部位的诊断结果。本专利技术所述还提供了一种电子设备,所述电子设备包括:存储器,用于存储可执行指令;处理器,用于运行所述存储器存储的可执行指令时,执行:获取图像信息和第一文本信息;基于所述图像信息和所述第一文本信息,生成第二文本信息,所述第二文本信息用于表征所述图像信息和所述文本信息内容。所述获取图像信息和第一文本信息,包括:从所述图像中提取视觉特征;对所述图像的至少两种不同类型的文本信息进行编码,得到表征文本信息的语义的编码结果。所述基于所述图像信息和所述第一文本信息,生成第二文本信息,包括:基于所述视觉特征和所述编码结果进行解码,得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。所述从图像中提取视觉特征,包括:通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理,得到所述图像的降采样结果;通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述图像的视觉特征。所述方法还包括:通过所述卷积神经网络模型的平均池化层对所述图像视觉特征进行处理,得到所述表征所述图像的分类的标签。所述对所述图像的至少两种不同类型的文本信息进行编码,包括:通过与不同类型的文本信息对应的神经网络模型,将所述图片的至少两种类型的文本信息进行词级别的编码;将词级别的编码结果进行语句级别的编码。所述基于所述视觉特征和所述编码结果进行解码,包括:通过第一解码器模型中,对所述编码结果进行语句级别的解码;通过第二解码器模型语句级别的解码结果进行词级别的解码。所述方法还包括:通过注意力模型为所述视觉特征、所述编码结果分配对应的权重;将所述第一权重矩阵、第二权重矩阵、编码结果和所述视觉特征输入所述第一解码器进行解码。所述方法还包括:基于图像样本、以及所述图像样本的分类标签,对用于从所述图像中提取视觉特征的卷积神经网络模型进行训练;基于语句样本以及对应的解码结果训练第一解码器模型;基于词样本以及对应的解码结果训练第二解码器模型。当所述图像为病患部位的医疗影像时,所述第一文本信息包括病患部位的指征和临床报告,所述第二文本信息包括所述病患部位的诊断结果。本专利技术实施例中,通过所获取的图像信息和第一文本信息,生成能够表征所述图像信息和所述文本信息内容第二文本信息,实现了对图像进行自动识别,并且由本文档来自技高网...

【技术保护点】
1.一种图像识别方法,其特征在于,所述方法包括:获取图像信息和第一文本信息;基于所述图像信息和所述第一文本信息,生成第二文本信息,所述第二文本信息用于表征所述图像信息和所述文本信息内容。

【技术特征摘要】
1.一种图像识别方法,其特征在于,所述方法包括:获取图像信息和第一文本信息;基于所述图像信息和所述第一文本信息,生成第二文本信息,所述第二文本信息用于表征所述图像信息和所述文本信息内容。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述图像中提取视觉特征;对所述图像的至少两种不同类型的文本信息进行编码,得到表征文本信息的语义的编码结果。3.根据权利要求2所述的方法,其特征在于,所述基于所述图像信息和所述第一文本信息,生成第二文本信息,包括:基于所述视觉特征和所述编码结果进行解码,得到融合所述视觉特征和所述文本信息以描述所述图像的第二文本信息。4.根据权利要求2所述的方法,其特征在于,所述从图像中提取视觉特征,包括:通过卷积神经网络模型的卷积层和最大值池化层对所述图像交叉进行处理,得到所述图像的降采样结果;通过所述卷积神经网络模型的平均池化层对所述降采样结果进行处理,得到所述图像的视觉特征。5.根据权利要求2所述的方法,其特征在于,所述对所述图像的至少两种不同类型的文本信息进行编码,包括:通过与不同类型的文本信息对应的神经网络模型,将所述图片的至少两种类型的文本信息进行词级别的编码;将词级别的编码结果进行语句级别的编码。6.根据权利要求...

【专利技术属性】
技术研发人员:田疆李聪
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1