【技术实现步骤摘要】
语音合成方法、装置、设备及存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种语音合成方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]近几年来,随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展,促进了人机交互方式的极大转变,同时也伴随着越来越多的商业化产品的落地
。
语音交互作为一种新型模式,不仅带来了崭新的用户体验,也扩大了各个产品设计思路及应用场景
。
语音合成系统作为语音交互闭环的核心系统之一,如何让合成语音包含更丰富的情感是个性化语音合成及提高语音合成表现力的重要因素
。
[0003]现有语言合成系统中通常在语音在加入非语言人声来增加其情感丰富性和语言表现力
。
通过收集目标说话人的非语言人声和普通语言人声,基于数据驱动或者基于自监督语言模型来构建语音合成系统,后续基于文本输入和非语言人声标签即可合成带非语言人声的语音
。
该语言合成系统通常只对目标说话人具有语音合成能力,在没有大量说话人的语音样本的情况下,难以拓展到其他说话人,使得语言合成系统的普适性较差
。
技术实现思路
[0004]本专利技术的主要目的在于解决现有语言合成系统的普适性较差的技术问题
。
[0005]本专利技术第一方面提供了一种语音合成方法,包括:获取非语言人声数据,并按照预设第一音色标签,对所述非语言人声数据进行音色转换和语音增强处理, ...
【技术保护点】
【技术特征摘要】
1.
一种语音合成方法,其特征在于,所述语音合成方法包括:获取非语言人声数据,并按照预设第一音色标签,对所述非语言人声数据进行音色转换和语音增强处理,得到携带有非语言人声的语言语音数据;按照预设训练策略对所述语言语音数据进行训练,得到语音合成模型;当接收到待合成语音的文本数据和目标说话人的第二音色标签时,识别所述文本数据对应的语言学特征;基于所述语言学特征和所述第二音色标签,利用所述语音合成模型生成所述文本数据对应的语音数据
。2.
根据权利要求1所述的语音合成方法,其特征在于,所述按照预设第一音色标签,对所述非语言人声数据进行音色转换和语音增强处理,得到携带有非语言人声的语言语音数据包括:确定所述非语言人声数据中各个第一非语言标签对应的非语言人声片段,按照预设第一音色标签,分别对各所述非语言人声片段进行音色转换,得到所述第一音色标签对应的非语言人声数据;获取所述第一音色标签对应的语言语音数据,并对所述第一音色标签对应的非语言人声数据和语言语音数据进行拼接,得到携带有非语言人声的语言语音数据
。3.
根据权利要求2所述的语音合成方法,其特征在于,所述对所述第一音色标签对应的非语言人声数据和语言语音数据进行拼接,得到携带有非语言人声的语言语音数据包括:将所述第一音色标签对应的语言语音数据划分为多个语言语音片段;根据各所述语言语音片段在所述第一音色标签对应的语言语音数据中所处的位置,确定各所述语言语音片段对应的拼接方式;按照确定的拼接方式,分别将各所述语言语音片段与所述第一音色标签对应的非语言人声数据进行拼接,得到携带有非语言人声的语言语音数据
。4.
根据权利要求2所述的语音合成方法,其特征在于,在所述对所述第一音色标签对应的非语言人声数据和语言语音数据进行拼接,得到携带有非语言人声的语言语音数据之前,还包括:按照预设比例,确定所述第一音色标签对应的语言语音数据中的两端位置和中间位置;设置所述两端位置的语言语音数据与所述第一音色标签对应的非语言人声数据之间的拼接方式为静态拼接方式
、
以及设置所述中间位置的语言语音数据与所述第一音色标签对应的非语言人声数据之间的拼接方式为动态拼接方式
。5.
根据权利要求2所述的语音合成方法,其特征在于,所述识别所述文本数据对应的...
【专利技术属性】
技术研发人员:詹皓粤,张旸,林悦,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。