本申请公开了一种语音处理方法、装置、计算设备及存储介质,用于解决设备在进行语音合成时合成的语音较为机械,缺乏真实感的技术问题。所述方法包括:先获取文本文字,并将获取到的文本文字转换为初始语音,然后将初始语音与语音合成库中的预定波形对进行合成,以获得初始合成语音,然后再获取基准语音的韵律特征信息,并根据获取的韵律特征信息对初始合成语音进行调整,以获得调整后的合成语音,最后将调整后的合成语音进行输出。
A speech processing method, device, computing equipment and storage medium
【技术实现步骤摘要】
一种语音处理方法、装置、计算设备及存储介质
本申请涉及人工智能
,尤其涉及一种语音处理方法、装置、计算设备及存储介质。
技术介绍
语音合成,是一种可以将任意输入文本转换成相应语音的技术。随着人工智能技术的发展,语音合成技术越来越收到人们的重视,利用语音合成技术和语音识别技术,一方面,可以使智能设备生成用户听得懂的口语,另一方面,智能设备可以听懂用户说的话,从而可以实现人机语音通信。为了实现语音合成,可以采用传统的参数语音合成方法,将文本文字和键盘输入的文字经过文本分析之后,从语音合成库中选择匹配的波形片段进行编辑拼接,以形成合成语音,进而输出合成语音。在进行波形片段拼接的时候,可能会出现一些失真的情况,导致合成的语音与用户发出的自然语音存在一些差异,进而使得输出的合成语音不够自然。综上所述,现有技术中设备在合成语音时的语音合成效果较差,所以,如何提高语音合成的效果是需要解决的技术问题。
技术实现思路
本申请实施例提供一种语音处理方法、装置、计算设备及存储介质,用于解决设备在进行语音合成时合成的语音较为机械,缺乏真实感的技术问题。第一方面,提供一种语音处理方法,所述方法包括:获取文本文字,并将所述文本文字转换为初始语音;将所述初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;获取基准语音的韵律特征信息;根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音;输出所述调整后的合成语音。在一种可能的设计中,在获取基准自然语音的韵律特征信息之前,所述方法还包括:确定所述初始合成语音的语音属性信息;从多个预设的自然语音中确定与所述语音属性信息相符的候选自然语音;根据所述候选自然语音确定所述基准语音。在一种可能的设计中,根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音,包括:根据所述韵律特征信息,调整所述初始合成语音的基音周期,以获得第一调整合成语音;根据所述韵律特征信息,调整所述第一调整合成语音的振幅,以获得第二调整合成语音;将所述第二调整合成语音确定为所述调整后的合成语音。在一种可能的设计中,根据所述韵律特征信息,调整所述初始合成语音的基音周期,包括:确定所述初始合成语音的待调整声调波形;确定所述待调整声调波形的原始标记点,其中,所述原始标记点包括所述初始合成语音的每个所述基音周期的起始点和终止点;根据基准声调曲线,从所述待调整声调波形中确定目标位置,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;将调整标记点插入所述目标位置,并根据所述调整标记点调整所述初始合成语音的基音周期。在一种可能的设计中,根据所述韵律特征信息,调整所述第一调整合成语音的振幅,包括:获取所述待调整声调波形的第一振幅值及对应所述第一振幅值的时间帧;确定所述基准声调波形中对应所述时间帧的第二振幅值,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;将所述第一振幅值调整为所述第二振幅值。在一种可能的设计中,在根据所述韵律特征信息对所述初始合成语音进行调整之前,所述方法还包括:对所述待调整声调波形进行加窗处理,以获得加窗后的待调整声调波形,其中,所述加窗后的待调整声调波形包括所述初始合成语音中的至少一个完整基音周期。第二方面,提供一种语音处理装置,所述装置包括:第一获取模块,用于获取文本文字,并将所述文本文字转换为初始语音;获得模块,用于将所述初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;第二获取模块,用于获取基准语音的韵律特征信息;调整模块,用于根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音;输出模块,用于输出所述调整后的合成语音。在一种可能的设计中,所述装置还包括确定模块,用于:在第二获取模块获取基准语音的韵律特征信息之前,确定所述初始合成语音的语音属性信息;从多个预设的自然语音中确定与所述语音属性信息相符的候选自然语音;根据所述候选自然语音确定所述基准语音。在一种可能的设计中,所述调整模块,用于:根据所述韵律特征信息,调整所述初始合成语音的基音周期,以获得第一调整合成语音;根据所述韵律特征信息,调整所述第一调整合成语音的振幅,以获得第二调整合成语音;将所述第二调整合成语音确定为所述调整后的合成语音。在一种可能的设计中,所述调整模块,用于:确定所述初始合成语音的待调整声调波形;确定所述待调整声调波形的原始标记点,其中,所述原始标记点包括所述初始合成语音的每个所述基音周期的起始点和终止点;根据基准声调曲线,从所述待调整声调波形中确定目标位置,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;将调整标记点插入所述目标位置,并根据所述调整标记点调整所述初始合成语音的基音周期。在一种可能的设计中,所述调整模块,用于:获取所述待调整声调波形的第一振幅值及对应所述第一振幅值的时间帧;确定所述基准声调波形中对应所述时间帧的第二振幅值,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;将所述第一振幅值调整为所述第二振幅值。在一种可能的设计中,所述装置还包括加窗模块,用于:在调整模块根据所述韵律特征信息对所述初始合成语音进行调整之前,对所述待调整声调波形进行加窗处理,以获得加窗后的待调整声调波形,其中,所述加窗后的待调整声调波形包括所述初始合成语音中的至少一个完整基音周期。第三方面,提供一种计算设备,所述计算设备包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中的任一方法包括的步骤。第四方面,提供一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面中的任一方法包括的步骤。第五方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述各种可能的实现方式中所描述的语音处理方法。在本申请实施例中,先获取文本文字,并将获取到的文本文字转换为初始语音,然后将初始语音与语音合成库中的预定波形进行合成,以获得初始合成语音,然后再获取基准语音的韵律特征信息,并根据获取的韵律特征信息对初始合成语音进行调整,以获得调整后的合成语音,最后将调整后的合成语音进行输出。也就是说,初始语音与语音合成库中的预定波形进行合成后获得的初始合成语音,是没有进行特殊的韵律处理的合成语音,而在将初始语音与语音合成库中的匹配波段进行拼接合成时,可能会出现韵律信息丢失的情况,所以,导致初始合成语音可能不够自然。通过基准语音的一些韵律特征信息对初始合成语音本文档来自技高网...
【技术保护点】
1.一种语音处理方法,其特征在于,所述方法包括:/n获取文本文字,并将所述文本文字转换为初始语音;/n将所述初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;/n获取基准语音的韵律特征信息;/n根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音;/n输出所述调整后的合成语音。/n
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:
获取文本文字,并将所述文本文字转换为初始语音;
将所述初始语音与语音合成库中的预设波形进行合成,以获得初始合成语音;
获取基准语音的韵律特征信息;
根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音;
输出所述调整后的合成语音。
2.如权利要求1所述的方法,其特征在于,在获取基准自然语音的韵律特征信息之前,所述方法还包括:
确定所述初始合成语音的语音属性信息;
从多个预设的自然语音中确定与所述语音属性信息相符的候选自然语音;
根据所述候选自然语音确定所述基准语音。
3.如权利要求1所述的方法,其特征在于,根据所述韵律特征信息对所述初始合成语音进行调整,以获得调整后的合成语音,包括:
根据所述韵律特征信息,调整所述初始合成语音的基音周期,以获得第一调整合成语音;
根据所述韵律特征信息,调整所述第一调整合成语音的振幅,以获得第二调整合成语音;
将所述第二调整合成语音确定为所述调整后的合成语音。
4.如权利要求3所述的方法,其特征在于,根据所述韵律特征信息,调整所述初始合成语音的基音周期,包括:
确定所述初始合成语音的待调整声调波形;
确定所述待调整声调波形的原始标记点,其中,所述原始标记点包括所述初始合成语音的每个所述基音周期的起始点和终止点;
根据基准声调曲线,从所述待调整声调波形中确定目标位置,所述基准声调曲线是通过所述韵律特征信息确定的所述基准自然语音的声调波形;
将调整标记点插入所述目标位置,并根据所述调整标记点调整所述初始合成语音的基音周期。
5.如权利要求4所述的方法,其特征在于,根据所述韵律特征信息,调整所述第一调整合成语音的...
【专利技术属性】
技术研发人员:高杰,
申请(专利权)人:珠海格力电器股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。