语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号:21895642 阅读:21 留言:0更新日期:2019-08-17 15:59
本发明专利技术提供一种语音合成方法、装置、设备及存储介质。该方法包括:语音合成装置首先对获取到的文本信息进行预处理,得到文本信息的文本向量;再将文本向量输入至预设的声学模型,得到文本向量对应的第一声学参数向量,其中声学模型用于根据记忆矩阵对文本向量进行处理得到第一声学参数向量;最后根据第一声学参数向量合成文本信息对应的语音信息。由于声学模型中记忆矩阵是不断更新的,实现了对历史文本信息更有效的记忆,提升了声学模型整体的预测效果,进而提升语音信息的输出质量。

Speech synthesis methods, devices, devices and storage media

【技术实现步骤摘要】
语音合成方法、装置、设备及存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种语音合成方法、装置、设备及存储介质。
技术介绍
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必须的两项关键技术。语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。语音合成的目标是使合成的语音可懂、清晰、自然而富有表现力。传统的语音合成方法是基于统计学习和决策树的隐马尔科夫-高斯混合模型(Hiddenmarkovmodel,HMM)和深度神经网络模型(Deepneuralnetwork,DNN)。上述模型需要大量样本数据进行训练,预测效果不稳定,合成的语音信息质量较差。
技术实现思路
本专利技术提供一种语音合成方法、装置、设备及存储介质,提升了文本信息对应的语音信息的输出质量。本专利技术的第一方面提供一种语音合成方法,包括:获取用户输入的文本信息;对所述文本信息进行预处理,得到所述文本信息的文本向量;将所述文本向量输入至预设的声学模型,得到所述文本向量对应的第一声学参数向量,所述声学模型用于根据记忆矩阵对所述文本向量进行处理得到所述第一声学参数向量;根据所述第一声学参数向量合成所述文本信息对应的语音信息。可选地,所述记忆矩阵预先存储多个时刻的隐层向量和预设权重值;所述声学模型用于根据记忆矩阵中所述多个时刻的隐层向量和所述预设权重值对所述文本向量进行处理得到所述第一声学参数向量。在一种可能的实现方式中,所述将所述文本向量输入至预设的声学模型,得到所述文本向量对应的第一声学参数向量之前,所述方法还包括:获取训练样本集合,所述训练样本集合包括:样本文本信息、和所述样本文本信息对应的语音信息;对所述样本文本信息进行预处理,得到样本文本向量;对所述样本文本信息对应的语音信息进行预处理,得到声学参数向量;建立初始声学模型;通过将所述样本文本向量作为所述初始声学模型的输入,将与所述样本文本向量对应的声学参数向量作为所述初始声学模型的输出,对所述初始声学模型进行训练,得到所述声学模型。在一种可能的实现方式中,所述通过将所述样本文本向量作为所述初始声学模型的输入,将与所述样本文本向量对应的声学参数向量作为所述初始声学模型的输出,对所述初始声学模型进行训练,得到所述声学模型,包括:将所述训练样本集合中的至少一个样本文本向量输入至初始声学模型,得到预测的声学参数向量;比较预测的声学参数向量与所述至少一个样本文本向量对应的声学参数向量,根据比较结果确定声学参数向量的损失值;若所述损失值小于或者等于预设损失值,将所述初始声学模型作为所述声学模型。在一种可能的实现方式中,所述方法还包括:若所述损失值大于所述预设损失值,调整所述初始声学模型的所述记忆矩阵的预设权重值;继续执行对所述初始声学模型的训练过程。可选地,所述第一声学参数向量包括谱参数,基频数据和时长。本专利技术的第二方面提供一种语音合成装置,包括:第一获取模块,用于获取用户输入的文本信息;第一处理模块,用于对所述文本信息进行预处理,得到所述文本信息的文本向量;将所述文本向量输入至预设的声学模型,得到所述文本向量对应的第一声学参数向量,所述声学模型用于根据记忆矩阵对所述文本向量进行处理得到所述第一声学参数向量;合成模块,用于根据所述第一声学参数向量合成所述文本信息对应的语音信息。在一种可能的实现方式中,所述记忆矩阵预先存储多个时刻的隐层向量和预设权重值;所述声学模型用于根据记忆矩阵中所述多个时刻的隐层向量和所述预设权重值对所述文本向量进行处理得到所述第一声学参数向量。在一种可能的实现方式中,所述装置还包括第二获取模块、第二处理模块;所述第二获取模块,用于将所述文本向量输入至预设的声学模型,得到所述文本向量对应的第一声学参数向量之前,获取训练样本集合,所述训练样本集合包括:样本文本信息、和所述样本文本信息对应的语音信息;所述第二处理模块,用于对所述样本文本信息进行预处理,得到样本文本向量;对所述样本文本信息对应的语音信息进行预处理,得到声学参数向量;建立初始声学模型;通过将所述样本文本向量作为所述初始声学模型的输入,将与所述样本文本向量对应的声学参数向量作为所述初始声学模型的输出,对所述初始声学模型进行训练,得到所述声学模型。在一种可能的实现方式中,所述第二处理模块包括第一处理子模块;所述第一处理子模块,用于将所述训练样本集合中的至少一个样本文本向量输入至初始声学模型,得到预测的声学参数向量;比较预测的声学参数向量与所述至少一个样本文本向量对应的声学参数向量,根据比较结果确定声学参数向量的损失值;若所述损失值小于或者等于预设损失值,将所述初始声学模型作为所述声学模型。在一种可能的实现方式中,所述第二处理模块还包括第二处理子模块;若所述损失值大于所述预设损失值,所述第二处理子模块,用于调整所述初始声学模型的所述记忆矩阵的预设权重值;继续执行对所述初始声学模型的训练过程。可选地,所述第一声学参数向量包括谱参数,基频数据和时长。本专利技术的第三方面提供一种电子设备,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如本专利技术第一方面任一项所述的方法。本专利技术的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如本专利技术第一方面任一项所述的方法。本专利技术实施例提供一种语音合成方法、装置、设备及存储介质。该方法包括:语音合成装置首先对获取到的文本信息进行预处理,得到文本信息的文本向量;再将文本向量输入至预设的声学模型,得到文本向量对应的第一声学参数向量,其中声学模型用于根据记忆矩阵对文本向量进行处理得到第一声学参数向量;最后根据第一声学参数向量合成文本信息对应的语音信息。由于声学模型中记忆矩阵是不断更新的,实现了对历史文本信息更有效的记忆,提升了声学模型整体的预测效果,进而提升语音信息的输出质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的语音合成方法的系统架构图;图2为本专利技术一实施例提供的语音合成方法的流程示意图;图3为本专利技术实施例提供的声学模型的结构示意图;图4为本专利技术一实施例提供的声学模型训练过程的示意图;图5为本专利技术一实施例提供的语音合成装置的结构示意图;图6为本专利技术另一实施例提供的语音合成装置的结构示意图;图7为本专利技术一实施例提供的电子设备的硬件结构示意图;图8为本专利技术一实施例提供的终端设备的结构示意图;图9为本专利技术一实施例提供的服务器的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,包括:获取用户输入的文本信息;对所述文本信息进行预处理,得到所述文本信息的文本向量;将所述文本向量输入至预设的声学模型,得到所述文本向量对应的第一声学参数向量,所述声学模型用于根据记忆矩阵对所述文本向量进行处理得到所述第一声学参数向量;根据所述第一声学参数向量合成所述文本信息对应的语音信息。

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取用户输入的文本信息;对所述文本信息进行预处理,得到所述文本信息的文本向量;将所述文本向量输入至预设的声学模型,得到所述文本向量对应的第一声学参数向量,所述声学模型用于根据记忆矩阵对所述文本向量进行处理得到所述第一声学参数向量;根据所述第一声学参数向量合成所述文本信息对应的语音信息。2.根据权利要求1所述的方法,其特征在于,所述记忆矩阵预先存储多个时刻的隐层向量和预设权重值;所述声学模型用于根据记忆矩阵中所述多个时刻的隐层向量和所述预设权重值对所述文本向量进行处理得到所述第一声学参数向量。3.根据权利要求1所述的方法,其特征在于,所述将所述文本向量输入至预设的声学模型,得到所述文本向量对应的第一声学参数向量之前,所述方法还包括:获取训练样本集合,所述训练样本集合包括:样本文本信息、和所述样本文本信息对应的语音信息;对所述样本文本信息进行预处理,得到样本文本向量;对所述样本文本信息对应的语音信息进行预处理,得到声学参数向量;建立初始声学模型;通过将所述样本文本向量作为所述初始声学模型的输入,将与所述样本文本向量对应的声学参数向量作为所述初始声学模型的输出,对所述初始声学模型进行训练,得到所述声学模型。4.根据权利要求3所述的方法,其特征在于,所述通过将所述样本文本向量作为所述初始声学模型的输入,将与所述样本文本向量对应的声学参数向量作为所述初始声学模型的输出,对所述初始声学模型进行训练,得到所述声学模型,包括:将所述训练样本集合中的至少一个样本文本向量输入至初始声学模型,得到预测的声学参数向量;比较预测的声学参数向量与所述至少一个样本文本向量对应的声学参数向量,根据比较结果确定声学参数向量的损失值;若所述损失值小于或者等于预设损失值,将所述初始声学模型作为所述声学模型。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述损失值大于所述预设损失值,调整所述初始声学模型的所述记忆矩阵的预设权重值;继续执行对所述初始声学模型的训练过程。6.根据权利要求1所述的方法,其特征在于,所述第一声学参数向量包括谱参数,基频数据和时长。7.一种语音合成装置,其特征在于,包括:第一获取模块,用于获取用户输入的文本信息;第一处理模块,用于对所述文本信息进行预处理,得到所述文本信息的文本向量;将所述文本向量输入至预设的声...

【专利技术属性】
技术研发人员:孔德威
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1