一种带情感和韵律的语音转换方法及装置制造方法及图纸

技术编号:26224662 阅读:60 留言:0更新日期:2020-11-04 10:59
本发明专利技术公开了一种带情感和韵律的语音转换方法,包括训练阶段和转换阶段,本发明专利技术公开的带情感及韵律的语音转换方法及装置,使用带有注意力机制的风格编码层来计算说话人的风格编码向量,将风格编码向量与说话人语音声学特征一同输入带有bottle neck的自编码网络进行训练及转换,最后通过声码器将声学特征转换为音频。在传统语音转换方法的基础上,引入了说话人韵律、情感信息,使得转换的语音带有目标说话人语音的情感和韵律,该方法在多对多、集内对集内、集内对集外、集外对集外等说话人声音转换任务均有较高的相似度、较高的语音质量。

【技术实现步骤摘要】
一种带情感和韵律的语音转换方法及装置
本专利技术涉及语音处理
,具体的说,是一种带情感和韵律的语音转换方法及装置。
技术介绍
语音转换(voiceconversion)是一种保留源说话人语音的内容信息,并转换为目标说话人的声音的语音技术。该技术有着广泛的应用场景,如用户可以把自己的声音转换为自己喜欢的明星的声音,再如动漫迷们津津乐道的“变声蝴蝶结”,此外,语音转换技术的发展对与个性化语音合成、声纹识别、声纹安全等领域具有重要意义。现有的语音转换方法从并行训练数据发展到非并行训练数据、一对多变换发展到多对多变换,有几种实现途径:一种是采用一定方法将非平行语料进行语音特征和参数对齐,然后训练模型,得到语音转换函数,该方法的语料对齐工作较为繁杂,语音转换效果较为有限;一种是对待转换语音数据进行语音识别得到识别文本,再利用目标说话人的语音合成模型进行语音合成,该种方法需要依赖语音识别以及个性化语音合成的发展;还有一种是直接对语音进行转换,从源说话人和目标说话人的训练语音信号中分别提取基频特征、说话人特征和内容特征,构建转换函数,但该种方法本文档来自技高网...

【技术保护点】
1.一种带情感和韵律的语音转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:/nS11:获取多名说话人的训练语料,包含源说话人以及目标说话人;/nS12:将获取的训练语料进行声学特征提取;/nS13:确定风格编码层的token数量及维度,将步骤S12提取的声学特征输入到使用了注意力机制的风格编码层,得到风格编码向量;/nS14:将步骤S12提取的声学特征、步骤S13得到的风格编码向量共同输入到内容编码器,以过滤语音的说话者信息,输出语音内容编码信息;/nS15:将步骤S14输出的语音内容编码信息、步骤S13得到的风格编码向量共同输入到解码器,得到重建后的源说话人的声学特征...

【技术特征摘要】
1.一种带情感和韵律的语音转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
S11:获取多名说话人的训练语料,包含源说话人以及目标说话人;
S12:将获取的训练语料进行声学特征提取;
S13:确定风格编码层的token数量及维度,将步骤S12提取的声学特征输入到使用了注意力机制的风格编码层,得到风格编码向量;
S14:将步骤S12提取的声学特征、步骤S13得到的风格编码向量共同输入到内容编码器,以过滤语音的说话者信息,输出语音内容编码信息;
S15:将步骤S14输出的语音内容编码信息、步骤S13得到的风格编码向量共同输入到解码器,得到重建后的源说话人的声学特征,以训练网络参数;
S16:将步骤S12提取的声学特征输入到声码器网络,训练声码器模型;
在所述训练阶段,提取的语音内容编码信息、风格编码向量为同一说话人的语音内容编码信息与风格编码向量;
将训练阶段训练后的网络参数用于语音转换阶段,所述转换阶段包括以下步骤:
S21:将待转换的源说话人、目标说话人语料进行声学特征提取;
S22:将待转换的源说话人、目标说话人语料的声学特征输入到风格编码层网络,得到源说话人、目标说话人的风格编码向量;
S23:将步骤S22得到的源说话人风格编码向量、步骤S21提取的待转换源说话人语料的声学特征输入到内容编码器、以过滤语音的说话者信息,输出语音内容编码信息;
S24:将步骤S23输出的语音内容编码信息、步骤S22得到的风格编码向量共同输入到解码器,得到目标说话人的声学特征;
S25:将步骤S24得到的经转换后的声学特征输入到经过S16训练后的声码器模型中,经声码器模型转换为音频;
在所述转换阶段,提取的语音内容编码信息、风格编码向量为不同说话人的语音内容编码信息与风格编码向量。


2.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S13中的token还包括:
每个token是由正态分布随机生成,token的数量以及每一个token的维度根据训练数据设定。


3.如权利要求1所述的带情感和韵律的语音转换方法,其特征在于,步骤S13中风格编码层网络结构包括:
参照编码层,用于对输入的声学特征生成参...

【专利技术属性】
技术研发人员:朱海王昆周琳珉
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1