语音迁移、语音交互方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37960307 阅读:49 留言:0更新日期:2023-06-30 09:35
本申请实施例提供一种语音迁移、语音交互方法、装置、电子设备及存储介质,其中,所述语音迁移方法包括:获取语音迁移任务,指示有源说话人的多个语音属性信息和语音迁移任务对应的待合成文本;语音迁移任务用于使目标说话人以所述多个语音属性信息播放待合成文本,目标说话人不同于源说话人;根据多个语音属性信息和待合成文本,预测目标说话人以多个语音属性信息播放待合成文本的预测语音韵律信息;根据预测语音韵律信息和所述目标说话人的音色信息,确定迁移语音,所述迁移语音为目标说话人以多个语音属性信息和所述音色信息播放待合成文本的语音。本申请实施例提供的技术方案,可以提升跨说话人语音迁移任务的语音合成效果。效果。效果。

【技术实现步骤摘要】
语音迁移、语音交互方法、装置、电子设备及存储介质


[0001]本申请实施例涉及语音
,尤其涉及一种语音迁移、语音交互方法、装置、电子设备及存储介质。

技术介绍

[0002]语音合成(Text

to

speech,TTS)是将文本转换为语音的技术,是服务于语音交互、信息播报、有声朗读等任务的核心技术。随着语音合成技术应用场景的不断增多,在情感语音合成等高表现力领域的语音合成方法越来越重要。
[0003]跨说话人情感迁移(cross

speaker emotion transfer)任务作为语音迁移任务的一种,是利用具有情感的源说话人的训练数据,让原来没有情感的目标说话人学习到情感语音的表达方式。在此背景下,如何提升语音迁移任务的语音合成效果,成为了本领域技术人员亟需解决的技术问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种语音迁移、语音交互方法、装置、电子设备及存储介质,以提升语音迁移任务的语音合成效果。
[0005]为实现上述目的,本申请实施例提供如下技术方案。
[0006]第一方面,本专利技术实施例提供一种语音迁移方法,包括:
[0007]获取语音迁移任务,所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本;所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本,所述目标说话人不同于所述源说话人;
[0008]根据所述多个语音属性信息和所述待合成文本,预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息;
[0009]根据所述预测语音韵律信息和所述目标说话人的音色信息,确定迁移语音,所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。
[0010]第二方面,本专利技术实施例提供一种语音迁移装置,包括:
[0011]语音迁移任务获取模块,用于获取语音迁移任务,所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本;所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本,所述目标说话人不同于所述源说话人;
[0012]韵律预测模型,用于对第一融合特征进行预测,得到目标说话人的预测语音韵律信息;所述第一融合特征根据多个语音属性信息和所述待合成文本得到;
[0013]合成模块,用于根据所述预测语音韵律信息和所述目标说话人的音色信息,确定迁移语音,所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。
[0014]第三方面,本专利技术实施例提供一种语音交互方法,应用于语音播放设备,所述语音播放设备基于第一方面所述的语音迁移方法,训练有以多个语音属性信息播放语音的能力;所述语音交互方法,包括:
[0015]获取用户的语音交互指令;
[0016]响应所述语音交互指令,确定语音交互结果;
[0017]以所述多个语音属性信息,播放所述语音交互结果。
[0018]第四方面,本专利技术实施例提供一种电子设备,包括存储器,处理器,所述存储器存储有程序,所述处理器调用所述存储器中存储的程序,以实现如上述第一方面所述的语音迁移方法,或者,如上述第三方面所述的语音交互方法。
[0019]第五方面,本专利技术实施例提供一种存储介质,存储有计算机程序,所述计算机程序执行时实现如上述第一方面所述的语音迁移方法,或者,如上述第三方面所述的语音交互方法。
[0020]第六方面,本专利技术实施例提供一种计算机程序,所述计算机程序被执行时实现如上述第一方面所述的语音迁移方法,或者,如上述第三方面所述的语音交互方法。
[0021]在本专利技术实施例提供的一种语音迁移方法中,获取语音迁移任务,所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本,使得可以根据语音迁移任务实现目标说话人以所述多个语音属性信息播放所述待合成文本,其中目标说话人不同于源说话人;基于语音迁移任务中多个所述语音属性信息和所述待合成文本,预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息;进一步的,根据所述预测语音韵律信息和所述目标说话人的音色信息,确定迁移语音,所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。
[0022]可见,本专利技术实施例所提供的技术方案,通过利用语音迁移任务中指示有源说话人的多个语音属性信息和所述语音迁移任务对应待合成文本,从而预测得到目标说话人的预测语音韵律信息;由于结合了源说话人的多个语音属性信息,可以确保获得的预测语音韵律信息中包含有源说话人多个语音属性的信息,使得目标说话人在播放以所述待合成文本形成的语音时,所依据的预测语音韵律信息能够贴合源说话人的语音属性;并进一步的将预测语音韵律信息与目标说话人的音色信息结合,得到目标说话人的迁移语音;使得目标说话人可以根据目标说话人的音色信息,以源说话人的多个语音属性播放迁移语音,确保目标说话人播放的语音可以贴合源说话人的韵律信息,以实现提升跨说话人语音迁移任务的语音合成效果。
附图说明
[0023]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0024]图1是本专利技术实施例所提供的语音迁移方法的一流程示意图。
[0025]图2是本专利技术实施例所提供的语音迁移装置的一架构示意图。
[0026]图3是本专利技术实施例所提供的语音迁移方法的另一流程示意图。
[0027]图4是本专利技术实施例所提供的语音交互方法的一流程示意图。
[0028]图5是实现本专利技术实施例所提供的语音交互方法的一应用场景示意图。
[0029]图6是本专利技术实施例提供的电子设备的架构图。
具体实施方式
[0030]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]跨说话人语音迁移中,目标说话人能够自然的播放出合成语音是非常重要的。例如,在语音播报设备如智能音箱、语音导航等很多应用上,均会涉及到针对语音播报设备选择的当前说话人,以多情感(如生气,高兴,悲伤等)、多风格(如小说,广告)以及结合多种方言特色(如四川味,天津味)的语音进行播报。
[0032]通常,合成语音播放设备所要播放的语音最直接的方式,是利用目标说话人(例如语音播报设备中选择的以某一个特定的说话人来播报语音,特定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音迁移方法,其中,包括:获取语音迁移任务,所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本;所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本,所述目标说话人不同于所述源说话人;根据所述多个语音属性信息和所述待合成文本,预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息;根据所述预测语音韵律信息和所述目标说话人的音色信息,确定迁移语音,所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。2.如权利要求1所述的语音迁移方法,其中,所述根据所述多个语音属性信息和所述待合成文本,预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息,包括:根据所述多个语音属性信息,确定语音迁移任务的任务编码;根据所述任务编码、所述待合成文本的文本编码和所述待合成文本的音素序列编码,预测目标说话人的预测语音韵律信息。3.如权利要求2所述的语音迁移方法,其中,所述根据所述多个语音属性信息,确定语音迁移任务的任务编码,包括:利用第一嵌入层对所述语音迁移任务进行处理,得到所述任务编码;所述根据所述任务编码、所述待合成文本的文本编码和所述待合成文本的音素序列编码,预测目标说话人的预测语音韵律信息,包括:将所述任务编码、所述文本编码和所述音素序列编码进行融合,得到第一融合特征;利用预先训练好的韵律预测模型对所述第一融合特征进行预测,得到目标说话人的预测语音韵律信息。4.如权利要求3所述的语音迁移方法,其中,还包括:利用预先训练好的语言模型提取所述待合成文本中的文本信息,得到所述文本编码;利用语音合成工具将所述待合成文本转成音素序列,并通过音素编码器将所述音素序列进行编码,得到所述音素序列编码。5.如权利要求3所述的语音迁移方法,其中,还包括:获取训练集,所述训练集包括具有多个语音属性信息的源说话人的源文本语音对数据,和不具有多个语音属性信息的目标说话人的目标文本语音对数据;根据所述目标文本语音对数据,确定目标文本编码和目标音素序列编码;根据所述目标文本编码、所述目标音素序列编码以及所述源文本语音对数据对应的真实语音韵律信息,得到第一训练融合特征;利用韵律预测模型对所述第一训练融合特征进行预测,得到训练预测语音韵律信息;当所述训练预测语音韵律信息满足所述目标说话人以所述源说话人的多个语音属性信息播放语音时,得到训练好的韵律预测模型。6.如权利要求5所述的语音迁移方法,其中,所述根据所述目标文本编码、所述目标音素序列编码以及所述源文本语音对数据对应的真实语音韵律信息,得到第一训练融合特征的步骤之前,还包括:
利用说话人对抗分类器对所述音素序列编码中包含的信息进行筛选,去除所述音素序列编码中包含的目标说话人的音色信息。7.一种语音迁移装置,其中,包括:语音迁移任务获取模块,用于获取语音迁移任务,所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁...

【专利技术属性】
技术研发人员:张光琰李梅张文杰盖于涛姜飞俊
申请(专利权)人:浙江猫精人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1