语音合成方法技术

技术编号:39668838 阅读:10 留言:0更新日期:2023-12-11 18:33
本发明专利技术涉及自然语言处理技术领域,公开了一种语音合成方法

【技术实现步骤摘要】
语音合成方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种语音合成方法

装置

设备及存储介质


技术介绍

[0002]近几年来,随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展,促进了人机交互方式的极大转变,同时也伴随着越来越多的商业化产品的落地

语音交互作为一种新型模式,不仅带来了崭新的用户体验,也扩大了各个产品设计思路及应用场景

语音合成系统作为语音交互闭环的核心系统之一,如何让合成语音包含更丰富的情感是个性化语音合成及提高语音合成表现力的重要因素

[0003]现有语言合成系统中通常在语音在加入非语言人声来增加其情感丰富性和语言表现力

通过收集目标说话人的非语言人声和普通语言人声,基于数据驱动或者基于自监督语言模型来构建语音合成系统,后续基于文本输入和非语言人声标签即可合成带非语言人声的语音

该语言合成系统通常只对目标说话人具有语音合成能力,在没有大量说话人的语音样本的情况下,难以拓展到其他说话人,使得语言合成系统的普适性较差


技术实现思路

[0004]本专利技术的主要目的在于解决现有语言合成系统的普适性较差的技术问题

[0005]本专利技术第一方面提供了一种语音合成方法,包括:获取非语言人声数据,并按照预设第一音色标签,对所述非语言人声数据进行音色转换和语音增强处理,得到携带有非语言人声的语言语音数据;按照预设训练策略对所述语言语音数据进行训练,得到语音合成模型;当接收到待合成语音的文本数据和目标说话人的第二音色标签时,识别所述文本数据对应的语言学特征;基于所述语言学特征和所述第二音色标签,利用所述语音合成模型生成所述文本数据对应的语音数据

[0006]本专利技术第二方面提供了一种语音合成装置,包括:增强模块,用于获取非语言人声数据,并按照预设第一音色标签,对所述非语言人声数据进行音色转换和语音增强处理,得到携带有非语言人声的语言语音数据;训练模块,用于按照预设训练策略对所述语言语音数据进行训练,得到语音合成模型;识别模块,用于当接收到待合成语音的文本数据和目标说话人的第二音色标签时,识别所述文本数据对应的语言学特征;生成模块,用于基于所述语言学特征和所述第二音色标签,利用所述语音合成模型生成所述文本数据对应的语音数据

[0007]本专利技术第三方面提供了一种语音合成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音合成设备执行上述的语音合成方法

[0008]本专利技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的语音合成方法

[0009]本专利技术提供的技术方案中,通过收集少量非语言人声数据来拓展和构建不同说话人的语音库,以用于训练的语音转换系统,生成语音库内不同说话人的非语言人声,同时可以通过数据增强的方式,让语音库内的说话人具有非语言人声的合成能力,不需要音库内说话人的非语言人声数据

仅需少量非语言人声即可实现多个说话人的语音合成功能,提升了语言合成系统的普适性,降低了训练样本的数量

附图说明
[0010]图1为本专利技术实施例中语音合成方法的第一个实施例示意图;
[0011]图2为本专利技术实施例中语音合成方法的第二个实施例示意图;
[0012]图3为本专利技术实施例中语音合成装置的一个实施例示意图;
[0013]图4为本专利技术实施例中语音合成装置的另一个实施例示意图;
[0014]图5为本专利技术实施例中语音合成设备的一个实施例示意图

具体实施方式
[0015]本专利技术实施例提供了一种语音合成方法

装置

设备及存储介质,获取非语言人声数据,并按照预设第一音色标签,对非语言人声数据进行音色转换和语音增强处理,得到携带有非语言人声的语言语音数据;按照预设训练策略对语言语音数据进行训练,得到语音合成模型;当接收到待合成语音的文本数据和目标说话人的第二音色标签时,识别文本数据对应的语言学特征;基于语言学特征和第二音色标签,利用语音合成模型生成文本数据对应的语音数据

本专利技术实现了少量非语言人声数据训练语音合成系统可以拓展至对其他说话人的语音合成,提升了语言合成系统的普适性,降低了训练样本的数量

[0016]本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等
(
如果存在
)
是用于区别类似的对象,而不必用于描述特定的顺序或先后次序

应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施

此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程

方法

系统

产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程

方法

产品或设备固有的其它步骤或单元

[0017]为便于理解,下面对本专利技术实施例的具体流程进行描述,请参阅图1,本专利技术实施例中语音合成方法的第一个实施例包括:
[0018]101、
获取非语言人声数据,并按照预设第一音色标签,对所述非语言人声数据进行音色转换和语音增强处理,得到携带有非语言人声的语言语音数据;
[0019]可以理解的是,本专利技术的执行主体可以为语音合成装置,还可以是终端或者服务器,具体此处不做限定

本专利技术实施例以终端装置为执行主体今天说明

[0020]本实施例中,为语音合成模型的训练阶段,获取用于模型训练的非语言人声数据,此处非语言人声数据指的是没有语义内容,仅用于表示某一种音色内容的数据

通过根据不同说话人的音色类型预设第一音色标签,关联对应的音色参数,来表征对应音色类型下的音色属性;根据第一音色标签,可以利用关联的音色参数来对非语音人声数据的音色内容进行转换,然后再与相同音色的语言语音数据结合,在非语言人声数据的音色内容上添
加实际语义内容,得到携带有非语言人声的语言语音数据

[0021]进一步,非语言人声数据具体可以包括如哭



叹息

喊叫

尖叫

悄悄话

咳嗽

呼吸

呻吟

喘气<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音合成方法,其特征在于,所述语音合成方法包括:获取非语言人声数据,并按照预设第一音色标签,对所述非语言人声数据进行音色转换和语音增强处理,得到携带有非语言人声的语言语音数据;按照预设训练策略对所述语言语音数据进行训练,得到语音合成模型;当接收到待合成语音的文本数据和目标说话人的第二音色标签时,识别所述文本数据对应的语言学特征;基于所述语言学特征和所述第二音色标签,利用所述语音合成模型生成所述文本数据对应的语音数据
。2.
根据权利要求1所述的语音合成方法,其特征在于,所述按照预设第一音色标签,对所述非语言人声数据进行音色转换和语音增强处理,得到携带有非语言人声的语言语音数据包括:确定所述非语言人声数据中各个第一非语言标签对应的非语言人声片段,按照预设第一音色标签,分别对各所述非语言人声片段进行音色转换,得到所述第一音色标签对应的非语言人声数据;获取所述第一音色标签对应的语言语音数据,并对所述第一音色标签对应的非语言人声数据和语言语音数据进行拼接,得到携带有非语言人声的语言语音数据
。3.
根据权利要求2所述的语音合成方法,其特征在于,所述对所述第一音色标签对应的非语言人声数据和语言语音数据进行拼接,得到携带有非语言人声的语言语音数据包括:将所述第一音色标签对应的语言语音数据划分为多个语言语音片段;根据各所述语言语音片段在所述第一音色标签对应的语言语音数据中所处的位置,确定各所述语言语音片段对应的拼接方式;按照确定的拼接方式,分别将各所述语言语音片段与所述第一音色标签对应的非语言人声数据进行拼接,得到携带有非语言人声的语言语音数据
。4.
根据权利要求2所述的语音合成方法,其特征在于,在所述对所述第一音色标签对应的非语言人声数据和语言语音数据进行拼接,得到携带有非语言人声的语言语音数据之前,还包括:按照预设比例,确定所述第一音色标签对应的语言语音数据中的两端位置和中间位置;设置所述两端位置的语言语音数据与所述第一音色标签对应的非语言人声数据之间的拼接方式为静态拼接方式

以及设置所述中间位置的语言语音数据与所述第一音色标签对应的非语言人声数据之间的拼接方式为动态拼接方式
。5.
根据权利要求2所述的语音合成方法,其特征在于,所述识别所述文本数据对应的...

【专利技术属性】
技术研发人员:詹皓粤张旸林悦
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1