一种图像识别的方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号：36577127 阅读：16 留言：0更新日期：2023-02-04 17:35

本公开提供了一种图像识别的方法、装置、设备、存储介质和程序产品，其中，该方法包括：获取目标图像，并利用训练好的目标神经网络的图像编码器，提取目标图像的目标图像特征；利用训练好的目标神经网络的多模态转换器，对目标图像特征进行模态转换，得到转换后的目标多模态特征；多模态转换器为基于样本图像、样本文本和样本语音训练得到；利用训练好的目标神经网络的语音解码器，基于目标多模态特征生成与目标图像对应的目标语音。本公开实施例利用训练好的多模态转换器，将图像特征转换为目标多模态特征，利用目标多模态特征能够表征多种模态信息的特征，将其进行语音解码，实现了将图像信息直接转换为语音信息。图像信息直接转换为语音信息。图像信息直接转换为语音信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像识别的方法、装置、设备、存储介质和程序产品

[0001]本公开涉及神经网络
，具体而言，涉及一种图像识别的方法、装置、设备、存储介质和程序产品。

技术介绍

[0002]为了能够自动实现对视频画面或图像的语音解读，现有技术是直接用人工为图像配置语音信息，但是人工配置语音信息将耗费大量的人力，不仅存在转换效率低下的问题，还增加了图像到语音的转换成本。
[0003]在进行图像的语音解读时，还可以通过对图像分类和物体检测等技术，对图像进行识别，确定一个与识别后的图像相匹配的文本，并通过转换工具将该文本转换成语音，但是从图像转换为文本，再从文本转换为语音的转换流程过长，且十分繁琐复杂，必须以文本作为图像到语音之间的转换桥梁，造成转换精度和效率均较低的缺陷。

技术实现思路

[0004]本公开实施例至少提供一种图像识别的方法、装置、设备、存储介质和程序产品。
[0005]第一方面，本公开实施例提供了一种图像识别的方法，基于训练好的目标神经网络执行以下方法：
[0006]获取目标图像，并利用训练好的所述目标神经网络的图像编码器，提取所述目标图像的目标图像特征；
[0007]利用训练好的所述目标神经网络的多模态转换器，对所述目标图像特征进行模态转换，得到转换后的目标多模态特征；所述多模态转换器为基于样本图像、样本文本和样本语音训练得到；
[0008]利用训练好的所述目标神经网络的语音解码器，基于所述目标多模态特征生成与所述目标图像对应的目标语音。
[0009...

【技术保护点】

【技术特征摘要】
1.一种图像识别的方法，其特征在于，基于训练好的目标神经网络执行以下方法：获取目标图像，并利用训练好的所述目标神经网络的图像编码器，提取所述目标图像的目标图像特征；利用训练好的所述目标神经网络的多模态转换器，对所述目标图像特征进行模态转换，得到转换后的目标多模态特征；所述多模态转换器为基于样本图像、样本文本和样本语音训练得到；利用训练好的所述目标神经网络的语音解码器，基于所述目标多模态特征生成与所述目标图像对应的目标语音。2.根据权利要求1所述的方法，其特征在于，所述方法还包括根据以下步骤训练所述目标神经网络：获取所述样本图像、与所述样本图像对应的标准文本、与所述标准文本相关联的多个样本文本、以及与所述多个样本文本分别对应的样本语音；其中，所述标准文本用于描述所述样本图像，每个所述样本文本中包含所述标准文本中的部分文本；每个样本文本对应的样本语音与该样本文本的描述内容相匹配；利用待训练的目标神经网络，预测得到与所述样本图像对应的第一预测文本，与所述标准文本对应的预测图像，与多个所述样本文本对应的多个预测语音，以及，与所述多个样本语音对应的多个第二预测文本；基于所述样本图像、所述预测图像、所述标准文本、所述第一预测文本、多个所述样本文本、多个所述第二预测文本、多个所述样本语音和多个所述预测语音，确定目标损失信息；基于所述目标损失信息训练待训练的目标神经网络，确定训练好的目标神经网络。3.根据权利要求2所述的方法，其特征在于，所述预测得到与所述样本图像对应的第一预测文本，包括：利用待训练的目标神经网络的图像编码器，提取所述样本图像的第一图像特征；利用待训练的目标神经网络的多模态转换器，对所述第一图像特征进行模态转换，得到转换后的第一多模态特征；利用待训练的目标神经网络的文本解码器，基于所述第一多模态特征生成与所述样本图像对应的第一预测文本。4.根据权利要求2所述的方法，其特征在于，预测得到与所述标准文本对应的预测图像，包括：利用待训练的目标神经网络的文本编码器，提取所述标准文本的第一文本特征；利用待训练的目标神经网络的多模态转换器，对所述第一文本特征进行模态转换，得到转换后的第二多模态特征；利用待训练的目标神经网络的图像解码...

【专利技术属性】
技术研发人员：刘恋，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人