语音迁移、语音交互方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37960307 阅读：49 留言：0更新日期：2023-06-30 09:35

本申请实施例提供一种语音迁移、语音交互方法、装置、电子设备及存储介质，其中，所述语音迁移方法包括：获取语音迁移任务，指示有源说话人的多个语音属性信息和语音迁移任务对应的待合成文本；语音迁移任务用于使目标说话人以所述多个语音属性信息播放待合成文本，目标说话人不同于源说话人；根据多个语音属性信息和待合成文本，预测目标说话人以多个语音属性信息播放待合成文本的预测语音韵律信息；根据预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为目标说话人以多个语音属性信息和所述音色信息播放待合成文本的语音。本申请实施例提供的技术方案，可以提升跨说话人语音迁移任务的语音合成效果。效果。效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音迁移、语音交互方法、装置、电子设备及存储介质

[0001]本申请实施例涉及语音
，尤其涉及一种语音迁移、语音交互方法、装置、电子设备及存储介质。

技术介绍

[0002]语音合成(Text
‑
to
‑
speech，TTS)是将文本转换为语音的技术，是服务于语音交互、信息播报、有声朗读等任务的核心技术。随着语音合成技术应用场景的不断增多，在情感语音合成等高表现力领域的语音合成方法越来越重要。
[0003]跨说话人情感迁移(cross
‑
speaker emotion transfer)任务作为语音迁移任务的一种，是利用具有情感的源说话人的训练数据，让原来没有情感的目标说话人学习到情感语音的表达方式。在此背景下，如何提升语音迁移任务的语音合成效果，成为了本领域技术人员亟需解决的技术问题。

技术实现思路

[0004]有鉴于此，本申请实施例提供一种语音迁移、语音交互方法、装置、电子设备及存储介质，以提升语音迁移任务的语音合成效果。
[0005]为实现上述目的，本申请实施例提供如下技术方案。
[0006]第一方面，本专利技术实施例提供一种语音迁移方法，包括：
[0007]获取语音迁移任务，所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本；所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本，所述目标说话人不同于所述源说话人；
[0008]根据所述多个语音属性...

【技术保护点】

【技术特征摘要】
1.一种语音迁移方法，其中，包括：获取语音迁移任务，所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本；所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本，所述目标说话人不同于所述源说话人；根据所述多个语音属性信息和所述待合成文本，预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息；根据所述预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。2.如权利要求1所述的语音迁移方法，其中，所述根据所述多个语音属性信息和所述待合成文本，预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息，包括：根据所述多个语音属性信息，确定语音迁移任务的任务编码；根据所述任务编码、所述待合成文本的文本编码和所述待合成文本的音素序列编码，预测目标说话人的预测语音韵律信息。3.如权利要求2所述的语音迁移方法，其中，所述根据所述多个语音属性信息，确定语音迁移任务的任务编码，包括：利用第一嵌入层对所述语音迁移任务进行处理，得到所述任务编码；所述根据所述任务编码、所述待合成文本的文本编码和所述待合成文本的音素序列编码，预测目标说话人的预测语音韵律信息，包括：将所述任务编码、所述文本编码和所述音素序列编码进行融合，得到第一融合特征；利用预先训练好的韵律预测模型对所述第一融合特征进行预测，得到目标说话人的预测语音韵律信息。4.如权利要求3所述的语音迁移方法，其中，还包括：利用预先训练好的语言模型提取所述待合成文本中的文本信息，得到所述文本编码；利用语音合成工具将所述待合成文本转成音素序列，并通过音素编码器将所述音素序列进行编码，得到所述音素序列编码。5.如权利要求3所述的语音迁移方法，其中，还包括：获取训练集，所述训练集包括具有多个语音属性信息的源说话人的源文本语音对数据，和不具有多个语音属性信息的目标说话人的目标文本语音对数据；根据所述目标文本语音对数据，确定目标文本编码和目标音素序列编码；根据所述目标文本编码、所述目标音素序列编码以及所述源文本语音对数据对应的真实语音韵律信息，得到第一训练融合特征；利用韵律预测模型对所述第一训练融合特征进行预测，得到训练预测语音韵律信息；当所述训练预测语音韵律信息满足所述目标说话人以所述源说话人的多个语音属性信息播放语音时，得到训练好的韵律预测模型。6.如权利要求5所述的语音迁移方法，其中，所述根据所述目标文本编码、所述目标音素序列编码以及所述源文本语音对数据对应的真实语音韵律信息，得到第一训练融合特征的步骤之前，还包括：
利用说话人对抗分类器对所述音素序列编码中包含的信息进行筛选，去除所述音素序列编码中包含的目标说话人的音色信息。7.一种语音迁移装置，其中，包括：语音迁移任务获取模块，用于获取语音迁移任务，所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁...

【专利技术属性】
技术研发人员：张光琰，李梅，张文杰，盖于涛，姜飞俊，
申请(专利权)人：浙江猫精人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人