一种基于特征解耦的多因素可控的语音转换方法及系统技术方案

技术编号：29875855 阅读：10 留言：0更新日期：2021-08-31 23:51

本发明专利技术提供一种基于特征解耦的多因素可控的语音转换方法及系统，所述方法包括如下步骤：S1、从音频信号中提取出不同的语音表征，其中包括韵律信息；S2、采用Mask‑And‑Predict解码方法利用对抗训练进一步解耦提取出的语音表征；S3、从解耦程度高的语音表征中预测声学特征，并利用声码器进行音频合成。本发明专利技术将韵律信息从音频信号中提取出来，而不是混杂在文本、说话人信息内，实现对韵律更精准的控制，降低韵律转换的不确定性。除可转换音色说话人音色外，还可以实现向任意来源的节奏、基频进行转换，因而可控性更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征解耦的多因素可控的语音转换方法及系统
本专利技术涉及一种语音转换方法及系统，尤其是基于特征解耦的多因素可控的语音转换方法及系统。
技术介绍
语音转换技术指的是在不改变语义信息的基础上，转化源说话人的发言使其听起来像是目标说话人说出的一样。语音转换在许多领域应用广泛，包括生成各种表达性的语音转换器，唱歌的新语音效果和跨语言的配音等。同时，语音转换对语音分析、语音合成、说话人识别等其它领域有重要的促进作用。目前已有的语音转换系统仅从语音信号中解耦出说话人的音色信息和以文本信息为主的剩余信息，转换因素单一，不能转换韵律、音调等，难以满足对于语音交互的表现力多样性的需求。现有技术中，有一种基于非平行语料的语音转换，由于其训练数据获取难度低、应用场景多而受到了更多的关注，如何利用非平行语料进行训练并实现语音转换的可大致分为构造平行语料和特征解耦两个思路，其中构造平行语料的方法转换后的音频仍然保留源说话人的韵律特征，与目标说话人的相似度不高；基于特征解耦的方法广泛采用的是由编码器和解码器组成的自编码器架构，将语音信号中的文本内容与说话人信息分离开，在训练时使用重建损失约束也即让解码器的输出与编码器的输入越接近越好，在转换时将说话人信息替换为目标说话人的表征，并且会采用对抗训练的说话人分类器来使得文本表征尽可能少地含有说话人信息以提高解耦程度。但这些方法存在如下缺点：1)韵律转换效果差。传统方法的韵律信息混杂在说话人信息或是文本信息中，转换后的音频的韵律信息在源说话人与目标说话人二者的韵...

【技术保护点】
1.一种基于特征解耦的多因素可控的语音转换方法，其特征在于，包括如下步骤：/nS1、从音频信号中提取出不同的语音表征，其中包括韵律信息；/nS2、采用Mask-And-Predict解码方法利用对抗训练进一步解耦提取出的语音表征；/nS3、从解耦程度高的语音表征中预测声学特征，并利用声码器进行音频合成。/n

【技术特征摘要】
1.一种基于特征解耦的多因素可控的语音转换方法，其特征在于，包括如下步骤：
S1、从音频信号中提取出不同的语音表征，其中包括韵律信息；
S2、采用Mask-And-Predict解码方法利用对抗训练进一步解耦提取出的语音表征；
S3、从解耦程度高的语音表征中预测声学特征，并利用声码器进行音频合成。

2.如权利要求1所述的基于特征解耦的多因素可控的语音转换方法，其特征在于，步骤S1中所述不同的语音表征包括如下语音因子：音色表征、文本表征、节奏表征、基频表征，对不同的语音因子，分配相应的编码器。

3.如权利要求2所述的基于特征解耦的多因素可控的语音转换方法，其特征在于，对不同的编码器施以不同的信息瓶颈限制各编码器的编码能力。

4.如权利要求3所述的基于特征解耦的多因素可控的语音转换方法，其特征在于，所述限制包括：限制一、4个编码器的输入不相同，有的是音频，有的只是基频曲线；限制二、对4个编码器的输出在维度上进行限制；限制三、在音高和文本的提取上，加入了随机重采样这一操作来破坏节奏信息。

5.如权利要求1所述的基于特征解耦的多因素可控的语音转换方法，其特征在于，采取了以下方法中的至少一者提高语音表征学习的效果，以提升步骤S1中的提取效果：
方法一、通过多标签二维向量限制节奏编码只能为离散化表征，当采取离散编码时，建模空间有限，节奏编码器会优先编码可以恢复出完整音频的节奏信息；
方法二、采用词预测网络从文本表征中预测一个二值的、与词典等大的指示向量，向量的每一维度值为0或1指示该段音频中是否包含...

【专利技术属性】
技术研发人员：王洁，吴志勇，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人