语音生成方法、装置、设备及介质制造方法及图纸

技术编号:31744723 阅读:16 留言:0更新日期:2022-01-05 16:23
本申请涉及人工智能领域,尤其涉及语音生成方法、装置、设备及介质,所述方法包括:获取待识别图像,对所述待识别图像进行特征提取,得到多个图像特征信息;将所述多个图像特征信息输入至预训练好的图像理解模型,得到所述待识别图像对应的文本信息;基于预设的语音参数配置模型,为所述多个文本向量分配对应的语音参数,得到每个所述文本向量各自对应的语音参数;根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形,并将所有所述语音波形进行语音合成处理,生成目标语音。由此可以提高图像理解的准确率并转换成准确的语音信息,提高用户体验度。提高用户体验度。提高用户体验度。

【技术实现步骤摘要】
语音生成方法、装置、设备及介质


[0001]本申请涉及人工智能领域,尤其涉及语音生成方法、语音生成装置、计算机设备及存储介质。

技术介绍

[0002]图像理解是指利用计算机系统对输入系统的图像数据进行分析,提取出可以被人理解的描述信息。典型的图像理解任务包括图像识别、目标检测、场景理解等。
[0003]随着深度学习的发展,图像理解方法逐渐成为主流,特别是对于存在视觉障碍的人,需要将图像理解生成的文本信息转换成语音,以使存在视觉障碍的人能够快速获知图像的描述信息。但是由于现有的图像理解方法往往会忽略一些边缘特征(比如场景目标以外的特征),导致在整体的场景解释中出现理解偏差的情况,而图像理解生成的文本信息也会存在错误,最后导致生成的语音信息也与图像的描述信息出现较大偏差,从而对存在视觉障碍的人造成误导。

技术实现思路

[0004]本申请提供了一种语音生成方法、语音生成装置、计算机设备及存储介质,旨在现有的图像理解方法往往会忽略一些边缘特征,导致在整体的场景解释中出现理解偏差的问题。
[0005]为实现上述目的,本申请提供一种语音生成方法,所述方法包括:
[0006]获取待识别图像,对所述待识别图像进行特征提取,得到多个图像特征信息;
[0007]将所述多个图像特征信息输入至预训练好的图像理解模型,得到所述待识别图像对应的文本信息;
[0008]对所述文本信息进行向量化处理,得到所述文本信息对应的多个文本向量;
[0009]基于预设的语音参数配置模型,为所述多个文本向量分配对应的语音参数,得到每个所述文本向量各自对应的语音参数;
[0010]根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形,并将所有所述语音波形进行语音合成处理,生成目标语音。
[0011]为实现上述目的,本申请还提供一种语音生成装置,所述语音生成装置包括:
[0012]特征提取模块,用于获取待识别图像,对所述待识别图像进行特征提取,得到多个图像特征信息;
[0013]文本生成模块,用于将所述多个图像特征信息输入至预训练好的图像理解模型,得到所述待识别图像对应的文本信息;
[0014]文本向量化模块,用于对所述文本信息进行向量化处理,得到所述文本信息对应的多个文本向量;
[0015]语音参数配置模块,用于基于预设的语音参数配置模型,为所述多个文本向量分配对应的语音参数,得到每个所述文本向量各自对应的语音参数;
[0016]语音合成模块,用于根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形,并将所有所述语音波形进行语音合成处理,生成目标语音。
[0017]此外,为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的语音生成方法。
[0018]此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的语音生成方法。
[0019]本申请实施例公开的语音生成方法、语音生成装置、设备及存储介质,通过对图像进行分割处理,得到多个图像块,并对每个图像块进行特征提取以及特征筛选,从而生成对应的文本信息,最后对文本信息进行语音转换处理,生成待识别图像对应的语音信息,由此能够提高图像理解的准确率并转换成准确的语音信息,从而能够为存在视觉障碍的人群提供准确的语音信息,提高用户体验度。
附图说明
[0020]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请实施例提供的一种语音生成方法的场景示意图;
[0022]图2是本申请实施例提供的一种语音生成方法的流程示意图;
[0023]图3是本申请一实施例提供的一种语音生成装置的示意性框图;
[0024]图4是本申请一实施例提供的一种计算机设备的示意性框图。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
[0027]在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0028]图像理解(image understanding,IU)就是对图像的语义理解。它是以图像为对象,知识为核心,研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景的一门学科。在图像理解中,场景解释和场景中目标识别是重点,很多研究者都致力于场景解释和场景中目标识别方法的研究。
[0029]但是现有的图像理解方法往往会忽略一些边缘特征(比如场景目标以外的特征),
导致在整体的场景解释中出现理解偏差的情况,因此图像理解生成的文本信息也会存在错误,最终会导致合成得到的语音信息存在错误讯息,进而造成视觉障碍的人群对于图像理解的误导。
[0030]示例性的,对于存在视觉障碍的人,可以通过图像理解方法对图像进行识别,得到文本信息,再将文本信息转化为语音播放给存在视觉障碍的人,以便获知和理解图像内容的表述。而此时图像理解的准确性则显得至关重要。
[0031]又比如在医院的应用场景下,医生在进行手术时,往往需要专注于患者手术本身,若此时需要参考一份医疗图像比如CT图等,此时便需要通过图像理解方法对图像进行识别,得到文本信息,再将文本信息转化为语音播放给医生,以使医生快速获取到医疗图像信息,从而对手术进行进一步的判断。
[0032]为解决上述问题,本申请提供了一种语音生成方法,可以应用在服务器中,由此可以通过对图像进行图像理解处理和语音合成处理,从而提高图像理解的准确率,为存在视觉障碍的人群提供准确的语音信息,提高用户体验度。
[0033]其中,服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器的语音生成方法进行详细介绍。
[0034]下面结合附图,对本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音生成方法,其特征在于,所述方法包括:获取待识别图像,对所述待识别图像进行特征提取,得到多个图像特征信息;将所述多个图像特征信息输入至预训练好的图像理解模型,得到所述待识别图像对应的文本信息;对所述文本信息进行向量化处理,得到所述文本信息对应的多个文本向量;基于预设的语音参数配置模型,为所述多个文本向量分配对应的语音参数,得到每个所述文本向量各自对应的语音参数;根据每个所述文本向量各自对应的语音参数生成每个所述文本向量各自对应的语音波形,并将所有所述语音波形进行语音合成处理,生成目标语音。2.根据权利要求1所述的方法,其特征在于,所述对所述待识别图像进行特征提取,得到多个图像特征信息,包括:对所述待识别图像进行分割处理,得到多个图像块;基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取,得到多个图像特征信息。3.根据权利要求2所述的方法,其特征在于,所述基于卷积神经网络的卷积层分别对每个所述图像块进行特征提取,得到多个图像特征信息,包括:确定每个所述图像块的位置信息;根据所述卷积层的预设权重矩阵和每个所述图像块的位置信息,对每个所述图像块分别进行特征提取,得到每个所述图像块各自对应的图像特征信息。4.根据权利要求1所述的方法,其特征在于,所述预训练好的图像理解模型包括用于识别所述图像特征信息的图像识别模型和用于识别文本语义的文本生成模型,所述将所述多个图像特征信息输入至预训练好的图像理解模型,得到所述待识别图像对应的文本信息,包括:基于所述图像识别模型,对每个所述图像特征信息进行识别,生成每个所述图像特征信息各自对应的文本标签;基于所述文本生成模型,对多个所述文本标签进行语义整合处理,生成所述文本信息。5.根据权利要求4所述的方法,其特征在于,每个所述图像特征信息包括多个图像特征且每个所述图像特征对应有位置信息,所述基于所述图像识别模型,对每个所述图像特征信息进行识别,生成每个所述图像特征信息对应的文本标签,包括:在所述图像识别模型中根据所述图像特征的位置信息,对每个所述图像特征信息中的图像特征进行筛选,得到筛选后的图像特征;对所述...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1