语音转换方法、系统、电子设备及可读存储介质技术方案

技术编号:30554753 阅读:13 留言:0更新日期:2021-10-30 13:36
本公开公开了语音转换方法、系统、电子设备及可读存储介质,涉及语音、深度学习等人工智能技术领域,尤其涉及语音转换领域。具体实现方案为:语音转换方法,包括:获取目标说话人第一语音;获取原说话人语音;提取目标说话人第一语音的第一特征参数;提取原说话人语音的第二特征参数;将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息;将所述梅尔谱信息进行转换,输出同目标说话人第一语音的音色相同,并且同原说话人语音的内容相同的目标说话人第二语音。本公开的语音转换方法及系统保留了目标说话人的语音情感、腔调等音色特征,并且见减小了运算成本。并且见减小了运算成本。并且见减小了运算成本。

【技术实现步骤摘要】
语音转换方法、系统、电子设备及可读存储介质


[0001]本公开涉及语音、深度学习等人工智能
,尤其涉及语音转换技术。

技术介绍

[0002]语音转换,指的是在保留原有的语义信息不变的前提下,通过改变原说话人的语音个性特征使之具备目标说话人的语音个性特征,使一个人的语音经过转换后听起来像另一个人的语音。语音转换的研究具有很重要的应用价值和理论价值。每一个声学特征参数都无法代表人的全部的个性特征信息,所以我们通过选取最能代表不同人的语音个性特征参数进行语音的转换。

技术实现思路

[0003]本公开提供了一种用于提升语音转换效果,保留原语音音色的语音转换方法、系统、电子设备以及可读存储介质。
[0004]根据本公开的一方面,提供了一种在音色方面更接近目标说话人的语音转换方法,包括:
[0005]获取目标说话人第一语音;
[0006]获取原说话人语音;
[0007]提取目标说话人第一语音的第一特征参数;
[0008]提取原说话人语音的第二特征参数;
[0009]将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息;
[0010]将所述梅尔谱信息进行转换,输出同目标说话人第一语音的音色相同,并且同原说话人语音的内容相同的目标说话人第二语音。
[0011]根据本公开的另一方面,提供了一种语音转换系统,包括:
[0012]第一获取模块:用于获取目标说话人第一语音;
[0013]第二获取模块:用于获取原说话人语音;
[0014]第一提取模块:用于提取目标说话人第一语音的第一特征参数;
[0015]第二提取模块:用于提取原说话人语音的第二特征参数;
[0016]处理模块:用于将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息;
[0017]转换模块:用于将所述梅尔谱信息进行转换,输出同目标说话人第一语音的音色相同,并且同原说话人语音的内容相同的目标说话人第二语音。
[0018]根据本公开的第三方面,提供了一种电子设备,包括:
[0019]至少一个处理器;以及
[0020]与所述至少一个处理器通信连接的存储器;其中,
[0021]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面中任一项所述的方法。
[0022]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开第一方面中任一项所述的方法。
[0023]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开第一方面中任一项所述的方法。
[0024]本公开提供的技术方案带来的有益效果包括:
[0025]在现有语音转换技术的基础上,加上对原说话人的语音的基频的提取和处理,使得该语音转换方法和系统保留语音情感,腔调等特质。
[0026]由于采用上述方法和系统,使得在处理语音转换时,运算成本更小,硬件要求更低。
[0027]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0028]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0029]图1是根据本公开语音转换方法的示意图;
[0030]图2是根据本公开提取目标说话人第一语音的第一特征参数的示意图;
[0031]图3是根据本公开提取原说话人语音的第二特征参数的示意图;
[0032]图4是根据本公开将所述类文本特征经过处理得到第一基频和第一基频表征的示意图;
[0033]图5是根据本公开语音转换系统的示意图;
[0034]图5

1是根据本公开第一提取模块的示意图;
[0035]图5

2是根据本公开第二提取模块的示意图;
[0036]图5

3是根据本公开处理模块的示意图;
[0037]图6是用来实现本公开实施例的语音转换系统的电子设备的框图;附图标记说明:
[0038]5语音转换系统
[0039]501第一获取模块
ꢀꢀ
502第二获取模块
[0040]503第一提取模块
ꢀꢀ
504第二提取模块
[0041]5031声纹特征提取模块
ꢀꢀ
5032声纹特征处理模块
[0042]5041类文本特征提取模块
ꢀꢀ
5042文本编码模块
[0043]5043基频预测模块
[0044]505处理模块
ꢀꢀ
506转换模块
[0045]5051整合模块
ꢀꢀ
5052解码器模块
[0046]600电子设备
ꢀꢀ
601计算单元
[0047]602只读存储器
ꢀꢀ
603随机访问存储器
[0048]604总线
ꢀꢀ
605I/O接口
[0049]606输入单元
ꢀꢀ
607输出单元
[0050]608存储单元
ꢀꢀ
609通信单元
[0051]术语解释:
[0052]基频:也就是发音中频率最低的正弦波,基频可以代表这个音的音高,在歌唱中基频就是这个音的音高。
[0053]声纹特征:是保存说话人音色的特征向量,在理想情况下,每个说话人有唯一且确定的声纹特征向量,这个声纹特征向量可以完全的代表这个说话人,可以用指纹来类比。
[0054]梅尔谱:频率的单位是赫兹,人耳能听到的频率范围是20

20000赫兹,但是人耳对赫兹单位不是线性敏感,而是对低赫兹敏感,对高赫兹不敏感,将赫兹频率转化为梅尔频率,则人耳对频率的感知度就变为线性。
[0055]长短期记忆网络:长短期记忆网络(LSTM,Long Short

Term Memory)是一种时间循环神经网络。
[0056]声码器:用于将梅尔谱(mel谱)信息合成为语音波形信号。
具体实施方式
[0057]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0058]语音转换系统1指的是将源说话人语音转换为目标说话人相同音色的语音的一种类似变声器的系统。与较为原始的变声器的不同是:语音转换后的语音更为真实动听,也同时在音色层面上更加接近目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,包括:获取目标说话人第一语音;获取原说话人语音;提取目标说话人第一语音的第一特征参数;提取原说话人语音的第二特征参数;将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息;将所述梅尔谱信息进行转换,输出同目标说话人第一语音的音色相同,并且同原说话人语音的内容相同的目标说话人第二语音。2.根据权利要求1所述的方法,其中,所述获取的目标说话人第一语音和获取的原说话人语音都为音频信息。3.根据权利要求1所述的方法,其中,所述第一特征参数包括:具有时间维度信息的声纹特征。4.根据权利要求3所述的方法,其中,所述提取目标说话人第一语音的第一特征参数,包括:提取目标说话人第一语音的声纹特征;对所述目标说话人第一语音的声纹特征加上时间维度获得第一特征参数。5.根据权利要求1所述的方法,其中,所述第二特征参数包括:和时间相关的文本编码、第一基频、以及第一基频表征。6.根据权利要求5所述的方法,其中,所述提取原说话人语音的第二特征参数,包括:提取原说话人语音的类文本特征;对所述类文本特征降维处理,获得和时间相关的文本编码;将所述类文本特征经过处理得到第一基频和第一基频表征。7.根据权利要求6所述的方法,其中,所述将所述类文本特征经过处理得到第一基频和第一基频表征,包括:利用所述原说话人语音和所述类文本特征通过神经网络训练,获取所述类文本特征到基频的映射模型;利用所述类文本特征到基频的映射模型对所述类文本特征进行处理获得第一基频和第一基频表征。8.根据权利要求7所述的方法,其中,所述通过神经网络训练包括:利用卷积层和长短期记忆网络进行训练。9.根据权利要求1所述的方法,其中,所述将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息,包括:将所述第一特征参数和所述第二特征参数进行整合编码获得语音的每一帧的编码特征;将所述每一帧的编码特征经过解码器,获得梅尔谱信息。10.一种语音转换系统,包括:第一获取模...

【专利技术属性】
技术研发人员:陈怿翔王俊超康永国
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1