一种图像识别的方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号:36577127 阅读:16 留言:0更新日期:2023-02-04 17:35
本公开提供了一种图像识别的方法、装置、设备、存储介质和程序产品,其中,该方法包括:获取目标图像,并利用训练好的目标神经网络的图像编码器,提取目标图像的目标图像特征;利用训练好的目标神经网络的多模态转换器,对目标图像特征进行模态转换,得到转换后的目标多模态特征;多模态转换器为基于样本图像、样本文本和样本语音训练得到;利用训练好的目标神经网络的语音解码器,基于目标多模态特征生成与目标图像对应的目标语音。本公开实施例利用训练好的多模态转换器,将图像特征转换为目标多模态特征,利用目标多模态特征能够表征多种模态信息的特征,将其进行语音解码,实现了将图像信息直接转换为语音信息。图像信息直接转换为语音信息。图像信息直接转换为语音信息。

【技术实现步骤摘要】
一种图像识别的方法、装置、设备、存储介质和程序产品


[0001]本公开涉及神经网络
,具体而言,涉及一种图像识别的方法、装置、设备、存储介质和程序产品。

技术介绍

[0002]为了能够自动实现对视频画面或图像的语音解读,现有技术是直接用人工为图像配置语音信息,但是人工配置语音信息将耗费大量的人力,不仅存在转换效率低下的问题,还增加了图像到语音的转换成本。
[0003]在进行图像的语音解读时,还可以通过对图像分类和物体检测等技术,对图像进行识别,确定一个与识别后的图像相匹配的文本,并通过转换工具将该文本转换成语音,但是从图像转换为文本,再从文本转换为语音的转换流程过长,且十分繁琐复杂,必须以文本作为图像到语音之间的转换桥梁,造成转换精度和效率均较低的缺陷。

技术实现思路

[0004]本公开实施例至少提供一种图像识别的方法、装置、设备、存储介质和程序产品。
[0005]第一方面,本公开实施例提供了一种图像识别的方法,基于训练好的目标神经网络执行以下方法:
[0006]获取目标图像,并利用训练好的所述目标神经网络的图像编码器,提取所述目标图像的目标图像特征;
[0007]利用训练好的所述目标神经网络的多模态转换器,对所述目标图像特征进行模态转换,得到转换后的目标多模态特征;所述多模态转换器为基于样本图像、样本文本和样本语音训练得到;
[0008]利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音。
[0009]一种可选的实施方式中,所述方法还包括根据以下步骤训练所述目标神经网络:
[0010]获取所述样本图像、与所述样本图像对应的标准文本、与所述标准文本相关联的多个样本文本、以及与所述多个样本文本分别对应的样本语音;其中,所述标准文本用于描述所述样本图像,每个所述样本文本中包含所述标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配;
[0011]利用待训练的目标神经网络,预测得到与所述样本图像对应的第一预测文本,与所述标准文本对应的预测图像,与多个所述样本文本对应的多个预测语音,以及,与所述多个样本语音对应的多个第二预测文本;
[0012]基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息;
[0013]基于所述目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网
络。
[0014]一种可选的实施方式中,所述预测得到与所述样本图像对应的第一预测文本,包括:
[0015]利用待训练的目标神经网络的图像编码器,提取所述样本图像的第一图像特征;
[0016]利用待训练的目标神经网络的多模态转换器,对所述第一图像特征进行模态转换,得到转换后的第一多模态特征;
[0017]利用待训练的目标神经网络的文本解码器,基于所述第一多模态特征生成与所述样本图像对应的第一预测文本。
[0018]一种可选的实施方式中,预测得到与所述标准文本对应的预测图像,包括:
[0019]利用待训练的目标神经网络的文本编码器,提取所述标准文本的第一文本特征;
[0020]利用待训练的目标神经网络的多模态转换器,对所述第一文本特征进行模态转换,得到转换后的第二多模态特征;
[0021]利用待训练的目标神经网络的图像解码器,基于所述第二多模态特征生成与所述标准文本对应的预测图像。
[0022]一种可选的实施方式中,针对预测得到的多个所述样本文本中的每个样本文本对应的预测语音,包括:
[0023]利用待训练的目标神经网络的文本编码器,提取所述样本文本的第二文本特征;
[0024]利用待训练的目标神经网络的多模态转换器,对所述第二文本特征进行模态转换,得到转换后的第三多模态特征;
[0025]利用待训练的目标神经网络的语音解码器,基于所述第三多模态特征,生成与所述样本文本对应的预测语音。
[0026]一种可选的实施方式中,针对预测得到与第一个所述样本语音中的每个样本语音对应的第二预测文本,包括:
[0027]利用待训练的目标神经网络的语音编码器,提取所述样本语音的第一频谱特征;
[0028]利用待训练的目标神经网络的多模态转换器,对所述第一频谱特征进行模态转换,得到转换后的第四多模态特征;
[0029]利用待训练的目标神经网络的文本解码器,基于所述第四多模态特征生成与所述样本语音对应的第二预测文本。
[0030]一种可选的实施方式中,所述基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息,包括:
[0031]基于所述样本图像和所述预测图像,确定第一损失信息;
[0032]基于所述标准文本和所述第一预测文本,确定第二损失信息;
[0033]基于多个所述样本文本和多个所述第二预测文本,确定多个第三损失信息;
[0034]基于多个所述样本语音和多个所述预测语音,确定多个第四损失信息;
[0035]将所述第一损失信息、所述第二损失信息、多个所述第三损失信息和多个所述第四损失信息进行加权处理,确定所述目标损失信息。
[0036]一种可选的实施方式中,所述利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音,包括:
[0037]利用训练好的所述目标神经网络的语音解码器,对所述目标多模态特征进行特征解码,得到第二频谱特征;
[0038]基于所述第二频谱特征生成与所述目标图像对应的目标语音。
[0039]第二方面,本公开实施例还提供一种图像识别的装置,包括:
[0040]特征提取模块,用于获取目标图像,并利用训练好的所述目标神经网络的图像编码器,提取所述目标图像的目标图像特征;
[0041]模态转换模块,用于利用训练好的所述目标神经网络的多模态转换器,对所述目标图像特征进行模态转换,得到转换后的目标多模态特征;所述多模态转换器为基于样本图像、样本文本和样本语音训练得到;
[0042]语音生成模块,用于利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音。
[0043]一种可选的实施方式中,所述装置还包括网络训练模块,用于获取所述样本图像、与所述样本图像对应的标准文本、与所述标准文本相关联的多个样本文本、以及与所述多个样本文本分别对应的样本语音;其中,所述标准文本用于描述所述样本图像,每个所述样本文本中包含所述标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配;利用待训练的目标神经网络,预测得到与所述样本图像对应的第一预测文本,与所述标准文本对应的预测图像,与多个所述样本文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别的方法,其特征在于,基于训练好的目标神经网络执行以下方法:获取目标图像,并利用训练好的所述目标神经网络的图像编码器,提取所述目标图像的目标图像特征;利用训练好的所述目标神经网络的多模态转换器,对所述目标图像特征进行模态转换,得到转换后的目标多模态特征;所述多模态转换器为基于样本图像、样本文本和样本语音训练得到;利用训练好的所述目标神经网络的语音解码器,基于所述目标多模态特征生成与所述目标图像对应的目标语音。2.根据权利要求1所述的方法,其特征在于,所述方法还包括根据以下步骤训练所述目标神经网络:获取所述样本图像、与所述样本图像对应的标准文本、与所述标准文本相关联的多个样本文本、以及与所述多个样本文本分别对应的样本语音;其中,所述标准文本用于描述所述样本图像,每个所述样本文本中包含所述标准文本中的部分文本;每个样本文本对应的样本语音与该样本文本的描述内容相匹配;利用待训练的目标神经网络,预测得到与所述样本图像对应的第一预测文本,与所述标准文本对应的预测图像,与多个所述样本文本对应的多个预测语音,以及,与所述多个样本语音对应的多个第二预测文本;基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音,确定目标损失信息;基于所述目标损失信息训练待训练的目标神经网络,确定训练好的目标神经网络。3.根据权利要求2所述的方法,其特征在于,所述预测得到与所述样本图像对应的第一预测文本,包括:利用待训练的目标神经网络的图像编码器,提取所述样本图像的第一图像特征;利用待训练的目标神经网络的多模态转换器,对所述第一图像特征进行模态转换,得到转换后的第一多模态特征;利用待训练的目标神经网络的文本解码器,基于所述第一多模态特征生成与所述样本图像对应的第一预测文本。4.根据权利要求2所述的方法,其特征在于,预测得到与所述标准文本对应的预测图像,包括:利用待训练的目标神经网络的文本编码器,提取所述标准文本的第一文本特征;利用待训练的目标神经网络的多模态转换器,对所述第一文本特征进行模态转换,得到转换后的第二多模态特征;利用待训练的目标神经网络的图像解码...

【专利技术属性】
技术研发人员:刘恋
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1