一种带情感和韵律的语音转换方法及装置制造方法及图纸

技术编号：26224662 阅读：60 留言：0更新日期：2020-11-04 10:59

本发明专利技术公开了一种带情感和韵律的语音转换方法，包括训练阶段和转换阶段，本发明专利技术公开的带情感及韵律的语音转换方法及装置，使用带有注意力机制的风格编码层来计算说话人的风格编码向量，将风格编码向量与说话人语音声学特征一同输入带有bottle neck的自编码网络进行训练及转换，最后通过声码器将声学特征转换为音频。在传统语音转换方法的基础上，引入了说话人韵律、情感信息，使得转换的语音带有目标说话人语音的情感和韵律，该方法在多对多、集内对集内、集内对集外、集外对集外等说话人声音转换任务均有较高的相似度、较高的语音质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种带情感和韵律的语音转换方法及装置
本专利技术涉及语音处理
，具体的说，是一种带情感和韵律的语音转换方法及装置。
技术介绍
语音转换(voiceconversion)是一种保留源说话人语音的内容信息，并转换为目标说话人的声音的语音技术。该技术有着广泛的应用场景，如用户可以把自己的声音转换为自己喜欢的明星的声音，再如动漫迷们津津乐道的“变声蝴蝶结”，此外，语音转换技术的发展对与个性化语音合成、声纹识别、声纹安全等领域具有重要意义。现有的语音转换方法从并行训练数据发展到非并行训练数据、一对多变换发展到多对多变换，有几种实现途径：一种是采用一定方法将非平行语料进行语音特征和参数对齐，然后训练模型，得到语音转换函数，该方法的语料对齐工作较为繁杂，语音转换效果较为有限；一种是对待转换语音数据进行语音识别得到识别文本，再利用目标说话人的语音合成模型进行语音合成，该种方法需要依赖语音识别以及个性化语音合成的发展；还有一种是直接对语音进行转换，从源说话人和目标说话人的训练语音信号中分别提取基频特征、说话人特征和内容特征，构建...

【技术保护点】
1.一种带情感和韵律的语音转换方法，其特征在于，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：/nS11：获取多名说话人的训练语料，包含源说话人以及目标说话人；/nS12：将获取的训练语料进行声学特征提取；/nS13：确定风格编码层的token数量及维度，将步骤S12提取的声学特征输入到使用了注意力机制的风格编码层，得到风格编码向量；/nS14：将步骤S12提取的声学特征、步骤S13得到的风格编码向量共同输入到内容编码器，以过滤语音的说话者信息，输出语音内容编码信息；/nS15：将步骤S14输出的语音内容编码信息、步骤S13得到的风格编码向量共同输入到解码器，得到重建后的源说话人的声学特征...

【技术特征摘要】
1.一种带情感和韵律的语音转换方法，其特征在于，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：
S11：获取多名说话人的训练语料，包含源说话人以及目标说话人；
S12：将获取的训练语料进行声学特征提取；
S13：确定风格编码层的token数量及维度，将步骤S12提取的声学特征输入到使用了注意力机制的风格编码层，得到风格编码向量；
S14：将步骤S12提取的声学特征、步骤S13得到的风格编码向量共同输入到内容编码器，以过滤语音的说话者信息，输出语音内容编码信息；
S15：将步骤S14输出的语音内容编码信息、步骤S13得到的风格编码向量共同输入到解码器，得到重建后的源说话人的声学特征，以训练网络参数；
S16：将步骤S12提取的声学特征输入到声码器网络，训练声码器模型；
在所述训练阶段，提取的语音内容编码信息、风格编码向量为同一说话人的语音内容编码信息与风格编码向量；
将训练阶段训练后的网络参数用于语音转换阶段，所述转换阶段包括以下步骤：
S21：将待转换的源说话人、目标说话人语料进行声学特征提取；
S22：将待转换的源说话人、目标说话人语料的声学特征输入到风格编码层网络，得到源说话人、目标说话人的风格编码向量；
S23：将步骤S22得到的源说话人风格编码向量、步骤S21提取的待转换源说话人语料的声学特征输入到内容编码器、以过滤语音的说话者信息，输出语音内容编码信息；
S24：将步骤S23输出的语音内容编码信息、步骤S22得到的风格编码向量共同输入到解码器，得到目标说话人的声学特征；
S25：将步骤S24得到的经转换后的声学特征输入到经过S16训练后的声码器模型中，经声码器模型转换为音频；
在所述转换阶段，提取的语音内容编码信息、风格编码向量为不同说话人的语音内容编码信息与风格编码向量。

2.如权利要求1所述的带情感和韵律的语音转换方法，其特征在于，步骤S13中的token还包括：
每个token是由正态分布随机生成，token的数量以及每一个token的维度根据训练数据设定。

3.如权利要求1所述的带情感和韵律的语音转换方法，其特征在于，步骤S13中风格编码层网络结构包括：
参照编码层，用于对输入的声学特征生成参...

【专利技术属性】
技术研发人员：朱海，王昆，周琳珉，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人