语音生成方法、装置、设备及介质制造方法及图纸

技术编号：31744723 阅读：16 留言：0更新日期：2022-01-05 16:23

本申请涉及人工智能领域，尤其涉及语音生成方法、装置、设备及介质，所述方法包括：获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息；将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息；基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量各自对应的语音参数；根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形，并将所有所述语音波形进行语音合成处理，生成目标语音。由此可以提高图像理解的准确率并转换成准确的语音信息，提高用户体验度。提高用户体验度。提高用户体验度。

全部详细技术资料下载

【技术实现步骤摘要】
语音生成方法、装置、设备及介质

[0001]本申请涉及人工智能领域，尤其涉及语音生成方法、语音生成装置、计算机设备及存储介质。

技术介绍

[0002]图像理解是指利用计算机系统对输入系统的图像数据进行分析，提取出可以被人理解的描述信息。典型的图像理解任务包括图像识别、目标检测、场景理解等。
[0003]随着深度学习的发展，图像理解方法逐渐成为主流，特别是对于存在视觉障碍的人，需要将图像理解生成的文本信息转换成语音，以使存在视觉障碍的人能够快速获知图像的描述信息。但是由于现有的图像理解方法往往会忽略一些边缘特征(比如场景目标以外的特征)，导致在整体的场景解释中出现理解偏差的情况，而图像理解生成的文本信息也会存在错误，最后导致生成的语音信息也与图像的描述信息出现较大偏差，从而对存在视觉障碍的人造成误导。

技术实现思路

[0004]本申请提供了一种语音生成方法、语音生成装置、计算机设备及存储介质，旨在现有的图像理解方法往往会忽略一些边缘特征，导致在整体的场景解释中出现理解偏差的问题。
[0005]为实现上述目的，本申请提供一种语音生成方法，所述方法包括：
[0006]获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息；
[0007]将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息；
[0008]对所述文本信息进行向量化处理，得到所述文本信息对应的多个文本向量；
[0009]基于预设的语音参数配置模型，为所述多...

【技术保护点】

【技术特征摘要】
1.一种语音生成方法，其特征在于，所述方法包括：获取待识别图像，对所述待识别图像进行特征提取，得到多个图像特征信息；将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息；对所述文本信息进行向量化处理，得到所述文本信息对应的多个文本向量；基于预设的语音参数配置模型，为所述多个文本向量分配对应的语音参数，得到每个所述文本向量各自对应的语音参数；根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形，并将所有所述语音波形进行语音合成处理，生成目标语音。2.根据权利要求1所述的方法，其特征在于，所述对所述待识别图像进行特征提取，得到多个图像特征信息，包括：对所述待识别图像进行分割处理，得到多个图像块；基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取，得到多个图像特征信息。3.根据权利要求2所述的方法，其特征在于，所述基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取，得到多个图像特征信息，包括：确定每个所述图像块的位置信息；根据所述卷积层的预设权重矩阵和每个所述图像块的位置信息，对每个所述图像块分别进行特征提取，得到每个所述图像块各自对应的图像特征信息。4.根据权利要求1所述的方法，其特征在于，所述预训练好的图像理解模型包括用于识别所述图像特征信息的图像识别模型和用于识别文本语义的文本生成模型，所述将所述多个图像特征信息输入至预训练好的图像理解模型，得到所述待识别图像对应的文本信息，包括：基于所述图像识别模型，对每个所述图像特征信息进行识别，生成每个所述图像特征信息各自对应的文本标签；基于所述文本生成模型，对多个所述文本标签进行语义整合处理，生成所述文本信息。5.根据权利要求4所述的方法，其特征在于，每个所述图像特征信息包括多个图像特征且每个所述图像特征对应有位置信息，所述基于所述图像识别模型，对每个所述图像特征信息进行识别，生成每个所述图像特征信息对应的文本标签，包括：在所述图像识别模型中根据所述图像特征的位置信息，对每个所述图像特征信息中的图像特征进行筛选，得到筛选后的图像特征；对所述...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人