一种语音转换方法、装置、设备及可读存储介质制造方法及图纸

技术编号:38593439 阅读:14 留言:0更新日期:2023-08-26 23:31
本发明专利技术提供一种语音转换方法、装置、设备及可读存储介质,方法包括:获取待处理的语音信息;基于三头编码器,分别对待处理的语音信息中的语音内容、环境噪声以及基频信息进行编码建模,以得到编码建模后的语音信息;对编码建模后的语音信息的时序进行更改,以调整编码后的语音信息的语速;将调整语速后的语音信息输入预先训练好的与目标用户对应的音色转换模型中,得到目标声学特征,其中,所述目标声学特征的音色与所述目标用户的音色相同。由此,可根据需要对待处理的语音信息进行音色转换,且转换方式更加高效准确;对语音信息进行多维度编码可提升语音在噪音环境下的鲁棒性;语速控制可使得语音更加符合用户需求。控制可使得语音更加符合用户需求。控制可使得语音更加符合用户需求。

【技术实现步骤摘要】
一种语音转换方法、装置、设备及可读存储介质


[0001]本专利技术实施例涉及音频处理
,尤其涉及一种语音转换方法、装置、设备及可读存储介质。

技术介绍

[0002]相关技术中,变声技术主要为传统实时变声技术和基于深度学习的变声技术,前者基于音频的识别特征将其转换为特色声音,后者通过建立并训练深度学习模型实现实时变声。
[0003]相关技术中存在的问题为:传统实时变声技术只能支持将输入语音转换为一些预设的特色声音(如:特定的卡通人物的声音),而无法将输入语音转换为特定人的声音;而基于深度学习的变声技术则需要大量的数据(通常至少需要小时级别的数据)才能实现特定人声的转换,并且无法实现高质量的流式语音数据的生成。

技术实现思路

[0004]本专利技术实施例提供一种语音转换方法、装置、设备及可读存储介质,以解决相关技术中的语音转换方法无法将语音转换为特定人的声音,适用性较差,且所需训练数据较多,语音转换的效率较低的技术问题。
[0005]第一方面,本专利技术实施例提供一种语音转换方法,所述方法包括:
[0006]获取待处理的语音信息;
[0007]基于三头编码器,分别对所述待处理的语音信息中的语音内容、环境噪声以及基频信息进行编码建模,以得到编码建模后的语音信息;其中,所述三头编码器由语音内容编码器、环境噪声编码器以及韵律波动编码器组成;
[0008]对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速;
[0009]将调整语速后的语音信息输入预先训练好的与目标用户对应的音色转换模型中,得到目标声学特征;
[0010]其中,所述目标声学特征的语音内容与所述语音信息的语音内容相同,所述目标声学特征的音色与所述目标用户的音色相同。
[0011]可选的,基于三头编码器,分别对所述待处理的语音信息中的语音内容、环境噪声以及基频信息进行编码建模,以得到编码建模后的语音信息包括:
[0012]基于所述语音内容编码器将所述语音内容经过自编码映射到高维空间,获得所述语音内容的高阶特征表达;其中,所述高阶特征表达的形式为二维矩阵;
[0013]基于所述环境噪声编码器提取所述环境噪声,并将所述环境噪声映射为高阶的环境声特征;其中,所述环境声特征的形式为二维矩阵;
[0014]基于所述韵律波动编码器提取所述基频信息,并将所述基频信息进行离散化表达,得到韵律波动编码结果;其中,所述韵律波动编码结果的形式为一维矩阵;
[0015]将所述环境声特征和所述韵律波动编码结果分别进行格式转换,以分别生成梅尔特征维度数与所述高阶特征表达的二维矩阵中的梅尔特征维度数相同的二维矩阵;
[0016]将所述语音内容的高阶特征表达、所述高阶的环境声特征以及所述韵律波动编码结果相叠加,以得到编码建模后的语音信息。
[0017]可选的,对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速包括:
[0018]对所述编码建模后的语音信息在时序上进行扩充式线性差值,以调慢所述编码后的语音信息的语速;其中包括:
[0019]接收语速调慢指令;其中所述语速调慢指令用于指示调整后的语速为原有语速的1/N倍,其中,所述N为大于1的正整数;
[0020]根据所述语速调慢指令,将所述编码后的语音信息的编码值进行扩充;其中,所述扩充为:将所述编码值排成一编码值序列,从所述序列的起始位开始,每隔一位,插入N

1个空位,直至在序列的末位后插入N

1个空位为止;
[0021]对所述空位进行线性插值处理,以调慢所述编码后的语音信息的语速,其中,序列的末位之前的空位处插入的值根据空位前后两个相邻的原有的编码值而确定,序列的末位之后的空位处插入的值根据序列的末位的编码值而确定。
[0022]可选的,对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速包括:
[0023]对所述编码建模后的语音信息在时序上进行删值操作,以调快所述编码后的语音信息的语速;其中包括:
[0024]接收语速调快指令;其中所述语速调快指令用于指示调整后的语速为原有语速的A倍,其中,所述A为大于1的正整数;
[0025]根据所述语速调快指令,将所述编码后的语音信息的编码值进行删除操作;其中,所述删除操作为:将所述编码值排成一编码值序列,从所述序列的起始位开始,每隔一位,删除A

1个空位,直至所述序列的结束位为止。
[0026]可选的,在将调整语速后的语音信息输入预先训练好的音色转换模型中,得到目标声学特征之前,所述方法还包括:
[0027]确定所述目标用户的音色表达特征;
[0028]基于所述音色表达特征,对通用音色转换模型进行自适应训练,以得到所述音色转换模型;
[0029]其中,所述通用音色转换模型是基于预设数量的用户的预设数量条语音数据所对应的梅尔特征数据和所述语音数据所对应的音色特征表达训练而成的。
[0030]可选的,确定所述目标用户的音色表达特征包括:
[0031]获取目标用户的语音信息;
[0032]将所述目标用户的语音信息转换为梅尔声学特征;
[0033]将所述梅尔声学特征输入TDNN网络,得到全局音色特征;
[0034]对所述全局音色特征进行均值化处理,得到所述音色表达特征。
[0035]可选的,在将调整语速后的语音信息输入预先训练好的音色转换模型中,得到目标声学特征之后,所述方法还包括:
[0036]对所述目标声学特征进行切片处理,得到所述目标声学特征的声学片段;
[0037]将所述声学片段输入声码器转换为时域采样点,生成语音片段;
[0038]将所述语音片段进行平滑融合处理,生成语音流。
[0039]可选的,对所述目标声学特征进行切片处理,得到所述目标声学特征的声学片段包括:
[0040]以预设片段长度t为基准,将所述目标声学特征进行切片处理,得到M个长度为t的基础声学片段;其中,T为所述目标声学特征的总长度,T和t均为正整数,在T能被t整除的情况下,M=T/t;在T不能被t整除的情况下,M=T/t的商+1;
[0041]在每个基础声学片段的尾部向后,均多取一个单位长度的声学特征;
[0042]将所述基础声学片段和所取的一个单位长度的声学特征相叠加,得到M个长度为t+1的声学片段。
[0043]可选的,将所述声学片段输入声码器转换为时域采样点,生成语音片段包括:
[0044]将长度为t+1的声学片段输入所述声码器中,生成K*(t+1)长度的语音片段;
[0045]其中,每个单位长度的声学特征会被所述声码器转换为K个时域采样点,其中,K为正整数。
[0046]可选的,将所述语音片段进行平滑融合处理,生成语音流包括:
[0047]将除最后一个语音片段之外的其余每个语音片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,其特征在于,所述方法包括:获取待处理的语音信息;基于三头编码器,分别对所述待处理的语音信息中的语音内容、环境噪声以及基频信息进行编码建模,以得到编码建模后的语音信息;其中,所述三头编码器由语音内容编码器、环境噪声编码器以及韵律波动编码器组成;对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速;将调整语速后的语音信息输入预先训练好的与目标用户对应的音色转换模型中,得到目标声学特征;其中,所述目标声学特征的语音内容与所述语音信息的语音内容相同,所述目标声学特征的音色与所述目标用户的音色相同。2.根据权利要求1所述的方法,其特征在于,基于三头编码器,分别对所述待处理的语音信息中的语音内容、环境噪声以及基频信息进行编码建模,以得到编码建模后的语音信息包括:基于所述语音内容编码器将所述语音内容经过自编码映射到高维空间,获得所述语音内容的高阶特征表达;其中,所述高阶特征表达的形式为二维矩阵;基于所述环境噪声编码器提取所述环境噪声,并将所述环境噪声映射为高阶的环境声特征;其中,所述环境声特征的形式为二维矩阵;基于所述韵律波动编码器提取所述基频信息,并将所述基频信息进行离散化表达,得到韵律波动编码结果;其中,所述韵律波动编码结果的形式为一维矩阵;将所述环境声特征和所述韵律波动编码结果分别进行格式转换,以分别生成梅尔特征维度数与所述高阶特征表达的二维矩阵中的梅尔特征维度数相同的二维矩阵;将所述语音内容的高阶特征表达、所述高阶的环境声特征以及所述韵律波动编码结果相叠加,以得到编码建模后的语音信息。3.根据权利要求1所述的方法,其特征在于,对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速包括:对所述编码建模后的语音信息在时序上进行扩充式线性差值,以调慢所述编码后的语音信息的语速;其中包括:接收语速调慢指令;其中所述语速调慢指令用于指示调整后的语速为原有语速的1/N倍,其中,所述N为大于1的正整数;根据所述语速调慢指令,将所述编码后的语音信息的编码值进行扩充;其中,所述扩充为:将所述编码值排成一编码值序列,从所述序列的起始位开始,每隔一位,插入N

1个空位,直至在序列的末位插入N

1个空位为止;对所述空位进行线性插值处理,以调慢所述编码后的语音信息的语速,其中,序列的末位之前的空位处插入的值根据空位前后两个相邻的原有的编码值而确定,序列的末位之后的空位处插入的值根据序列的末位的编码值而确定。4.根据权利要求1所述的方法,其特征在于,对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速包括:对所述编码建模后的语音信息在时序上进行删值操作,以调快所述编码后的语音信息
的语速;其中包括:接收语速调快指令;其中所述语速调快指令用于指示调整后的语速为原有语速的A倍,其中,所述A为大于1的正整数;根据所述语速调快指令,将所述编码后的语音信息的编码值进行删除操作;其中,所述删除操作为:将所述编码值排成一编码值序列,从所述序列的起始位开始,每隔一位,删除A

1个空位,直至所述序列的结束位为止。5.根据权利要求1所述的方法,其特征在于,在将调整语速后的语音信息输入预先训练好的音色转换模型中,得到目标声学特征之前,所述方法还包括:确定所述目标用户的音色表达特征;基于所述音色表达特征,对通用音色转换模型进行自适应训...

【专利技术属性】
技术研发人员:彭话易
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1