语音转换方法、装置及服务器制造方法及图纸

技术编号：26224613 阅读：17 留言：0更新日期：2020-11-04 10:59

本发明专利技术提供一种语音转换方法、装置及服务器，该方法包括：按照预设规则将目标文本划分为L个目标字符串，L个目标字符串包括N个第一字符串；对N个第一字符串进行语音转换，获得N个第一语音片段；基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，第一基频为相邻两个第一字符串中顺序在先的第一字符串的最后一个字符对应的基频，第二基频为相邻两个第一字符串中顺序在后的第一字符串的第一个字符对应的基频；将目标语音片段进行拼接得到目标文本的语音，目标语音片段包括N个第一语音片段进行音频调整后的语音片段。本发明专利技术解决了语音拼接过程中产生上下文韵律衔接不一致，从而导致合成的语音的声音效果较差的问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音转换方法、装置及服务器
本专利技术涉及语音转换
，尤其涉及一种语音转换方法、装置及服务器。
技术介绍
目前在端到端的语音合成技术框架中，主要采用深度学习神经网络加注意力机制作为前端网络结构，用来生成语音的线性频谱或者梅尔频谱，然后在通过声码器用来转换成为语音，此时就是一个可以从文本转换成语音的端到端系统，目前端到端系统主要有以下问题就是当文本过长，会导致端到端合成错误，同时合成时间较慢，这主要是由于其内部网络结构造成的。为此，现有技术中通常对连续较长的文本进行切分，切成端到端合成的最优文本长度分别生成语音，然后再对生成的语音进行拼接。由于在语音拼接的过程中容易产生上下文韵律衔接不一致，从而导致合成的语音的声音效果较差。
技术实现思路
本专利技术实施例提供一种语音转换方法、装置及服务器，以解决语音拼接的过程中容易产生上下文韵律衔接不一致，从而导致合成的语音的声音效果较差的问题。为了解决上述技术问题，本专利技术是这样实现的：第一方面，本专利技术实施例提供了一种语音转换方法，包括：r>按照预设规则将目本文档来自技高网...

【技术保护点】
1.一种语音转换方法，其特征在于，包括：/n按照预设规则将目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述L和所述N均为大于1的整数；/n对所述N个第一字符串进行语音转换，获得N个第一语音片段；/n基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中顺序在先的第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中顺序在后的第一字符串的第一个字符对应的基频；/n将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段。/n

【技术特征摘要】
1.一种语音转换方法，其特征在于，包括：
按照预设规则将目标文本划分为L个目标字符串，所述L个目标字符串包括N个第一字符串，所述L和所述N均为大于1的整数；
对所述N个第一字符串进行语音转换，获得N个第一语音片段；
基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整，所述第一基频为所述相邻两个第一字符串中顺序在先的第一字符串的最后一个字符对应的基频，所述第二基频为所述相邻两个第一字符串中顺序在后的第一字符串的第一个字符对应的基频；
将目标语音片段进行拼接得到所述目标文本的语音，所述目标语音片段包括所述N个第一语音片段进行音频调整后的语音片段。

2.根据权利要求1所述的方法，其特征在于，所述第一字符串不包括标点符号，所述L个目标字符串还包括M个第二字符串，所述第二字符串为标点符号，M为正整数，且M与N的和为L，所述方法还包括：
根据所述M个第二字符串，生成M个第二语音片段；
其中，所述第二语音片段为白噪声，所述白噪声的白噪声系数根据所述第一语音片段确定，所述目标语音片段还包括所述第二语音片段。

3.根据权利要求1所述的方法，其特征在于，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整包括：
按照字符串的位置对任意相邻的两个第一字符串中，顺序在后的第一字符串的音频进行调整。

4.根据权利要求3所述的方法，其特征在于，对顺序在后的第一字符串的音频进行调整，包括：
确定所述第一基频与第二基频的差值；
基于所述差值对所述在后的第一字符串的音频进行调整。

5.根据权利要求1至4中任一项所述的方法，其特征在于，基于第一基频和第二基频对相邻两个第一字符串对应的第一语音片段进行音频调整之前，所述方法还包括：
根据第一音调和第二音调，确定所述第一基频和第二基频；
其中，所述第一音调为所述相邻两个第一字符串中在先一个第一字符串的最后一个字符的音调，所述第二音调为所述相邻两个第一字符串中在后的第一字符串中第一个字符的音调。

6.根据权利要求5所述的方法，其特征在于，所述第一基频和第二基频满足以下至少一项：
在所述第一音调为四声，且第二音调为一声的情况下，所述第一基频为所述最后一个字符的基频均值，所述第二基频为所述第一个字符的基频均值；
在所述第一音调和第二音调满足第一预设条件的情况下，所述第一基频为所...

【专利技术属性】
技术研发人员：黄磊，杨春勇，靳丁南，权圣，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人