一种基于特征解耦的多因素可控的语音转换方法及系统技术方案

技术编号:29875855 阅读:10 留言:0更新日期:2021-08-31 23:51
本发明专利技术提供一种基于特征解耦的多因素可控的语音转换方法及系统,所述方法包括如下步骤:S1、从音频信号中提取出不同的语音表征,其中包括韵律信息;S2、采用Mask‑And‑Predict解码方法利用对抗训练进一步解耦提取出的语音表征;S3、从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成。本发明专利技术将韵律信息从音频信号中提取出来,而不是混杂在文本、说话人信息内,实现对韵律更精准的控制,降低韵律转换的不确定性。除可转换音色说话人音色外,还可以实现向任意来源的节奏、基频进行转换,因而可控性更高。

【技术实现步骤摘要】
一种基于特征解耦的多因素可控的语音转换方法及系统
本专利技术涉及一种语音转换方法及系统,尤其是基于特征解耦的多因素可控的语音转换方法及系统。
技术介绍
语音转换技术指的是在不改变语义信息的基础上,转化源说话人的发言使其听起来像是目标说话人说出的一样。语音转换在许多领域应用广泛,包括生成各种表达性的语音转换器,唱歌的新语音效果和跨语言的配音等。同时,语音转换对语音分析、语音合成、说话人识别等其它领域有重要的促进作用。目前已有的语音转换系统仅从语音信号中解耦出说话人的音色信息和以文本信息为主的剩余信息,转换因素单一,不能转换韵律、音调等,难以满足对于语音交互的表现力多样性的需求。现有技术中,有一种基于非平行语料的语音转换,由于其训练数据获取难度低、应用场景多而受到了更多的关注,如何利用非平行语料进行训练并实现语音转换的可大致分为构造平行语料和特征解耦两个思路,其中构造平行语料的方法转换后的音频仍然保留源说话人的韵律特征,与目标说话人的相似度不高;基于特征解耦的方法广泛采用的是由编码器和解码器组成的自编码器架构,将语音信号中的文本内容与说话人信息分离开,在训练时使用重建损失约束也即让解码器的输出与编码器的输入越接近越好,在转换时将说话人信息替换为目标说话人的表征,并且会采用对抗训练的说话人分类器来使得文本表征尽可能少地含有说话人信息以提高解耦程度。但这些方法存在如下缺点:1)韵律转换效果差。传统方法的韵律信息混杂在说话人信息或是文本信息中,转换后的音频的韵律信息在源说话人与目标说话人二者的韵律信息间滑动,合成音频的自然度低。2)提取的语音特征不鲁棒。特征提取器本身设计的不完备性以及粗糙的解耦手段导致提取出的特征间的解耦程度有限。3)可控性低。传统方法多只能实现音色的转换,无法实现其他副语言因子(节奏、音调)可控的语音生成。4)对齐特性差。目前对于声学特征序列与文本信息序列、节奏序列、基频序列的对齐仅采用简单的填充机制,将短序列均以0值填充到最长序列的长度,导致合成音频的后半段存在发音混乱等现象。
技术实现思路
本专利技术的目的是为了解决现有技术中的问题,提出一种基于特征解耦的多因素可控的语音转换方法及系统,提高转换效果,提升鲁棒性、可控性和对齐特性。为解决上述技术问题,本专利技术提出一种基于特征解耦的多因素可控的语音转换方法,包括如下步骤:S1、从音频信号中提取出不同的语音表征,其中包括韵律信息;S2、采用Mask-And-Predict解码方法利用对抗训练进一步解耦提取出的语音表征;S3、从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成。在一些实施例中,还包括如下特征:步骤S1中所述不同的语音表征包括如下语音因子:音色表征、文本表征、节奏表征、基频表征,对不同的语音因子,分配相应的编码器。对不同的编码器施以不同的信息瓶颈限制各编码器的编码能力。所述限制包括:限制一、4个编码器的输入不相同,有的是音频,有的只是基频曲线;限制二、对4个编码器的输出在维度上进行限制;限制三、在音高和文本的提取上,加入了随机重采样这一操作来破坏节奏信息。采取了以下方法中的至少一者提高语音表征学习的效果,以提升步骤S1中的提取效果:方法一、通过多标签二维向量限制节奏编码只能为离散化表征,当采取离散编码时,建模空间有限,节奏编码器会优先编码可以恢复出完整音频的节奏信息;方法二、采用词预测网络从文本表征中预测一个二值的、与词典等大的指示向量,向量的每一维度值为0或1指示该段音频中是否包含对应的词,通过这种显式的损失函数引导,文本编码器会倾向于编码出更有效的文本信息;方法三、采用预训练好的说话人编码器从特定音频中提取对应说话人的表征,从而实现不要求说话人在训练时见过,可实现向集外目标说话人的转换。步骤S2中,通过降低各语音特征间的互信息以增大提取出的各语音特征间的解耦程度。采取Mask-And-Predict解码方法来提供显式的正交性保证,训练过程中,随机选取某一个语音因子,将其对应的表征向量置为0,然后用剩余的语音表征来预测被抹掉的这一个;而在反向传播过程中,梯度通过梯度反转层进行反转,从而使得预测得越不准确。步骤S3中,在训练时,各语音表征是从同一段音频中提取的,解码器的输出越接近输入越好,将编码器的输入替换成目标因素的来源音频,即可实现多因素可控的语音转换。步骤S3中,采用注意力机制进行动态对齐以解决不同来源的语音表征序列的对齐问题;并施加单调性限制降低转换后音频的错字、漏字问题。本专利技术还提出一种基于特征解耦的多因素可控的语音转换方法及系统,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序可被处理器执行以实现如上所述的方法。与现有技术相比,本专利技术的有益效果有:本专利技术将韵律信息从音频信号中提取出来,而不是混杂在文本、说话人信息内,实现对韵律更精准的控制,降低韵律转换的不确定性。除可转换音色说话人音色外,还可以实现向任意来源的节奏、基频进行转换,因而可控性更高。附图说明图1为本专利技术实施例多因素可控的语音转换系统概略示意图。图2为本专利技术实施例基于特征解耦的多因素可控的语音转换系统框架示意图。图3为本专利技术实施例编码器分别对不同的信息进行编码得到对应的表征的示意图。图4为本专利技术实施例Mask-And-Predict提高解耦程度示意图。图5为本专利技术实施例多因素可控的语音转换示意图。具体实施方式语音信号包含了丰富的信息,包括语言信息、说话人特征、情感、韵律、节奏等等。本专利技术人认识到,由于包含韵律、情感、音调、节奏等信息的副语言信息的高度耦合性导致语音生成时的可控性低,解耦程度高的语音因子是实现多因素可控语音转换、提高转换语音的质量和相似度的前提,同时也可提升下游任务的性能。其中转换语音的质量评价指标包含主、客观指标,客观是有mcd(melcepstraldistortion),主观包括需要听者来对合成音频的质量、与目标说话人音色的相似度、与目标说话人的风格相似度等进行打分。本专利技术下述实施例主要涉及到音色、音调和节奏三方面的转换,如图1所示,是本专利技术实施例的多因素可控的语音转换系统概略示意图,其主要框架参考图如图2所示,该语音转换框架主要由三部分组成,第一部分是从音频信号中提取出不同的语音表征;第二部分是采用Mask-And-Predict(一种解码方法)的思想利用对抗训练进一步解耦提取出的语音表征;第三部分是从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成。相比之前的方法,本专利技术实施例有以下几点优势:1)提高韵律转换的效果。将韵律信息从音频信号中提取出来,而不是混杂在文本、说话人信息内,实现对韵律更精准的控制,降低韵律转换的不确定性。2)提取的特征更为鲁棒。通过Mask-And-Predict操作,对从特征提取器提取出的互信息高的表征进行了更为显式的正交化处理,提高特征提取的鲁棒性本文档来自技高网
...

【技术保护点】
1.一种基于特征解耦的多因素可控的语音转换方法,其特征在于,包括如下步骤:/nS1、从音频信号中提取出不同的语音表征,其中包括韵律信息;/nS2、采用Mask-And-Predict解码方法利用对抗训练进一步解耦提取出的语音表征;/nS3、从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成。/n

【技术特征摘要】
1.一种基于特征解耦的多因素可控的语音转换方法,其特征在于,包括如下步骤:
S1、从音频信号中提取出不同的语音表征,其中包括韵律信息;
S2、采用Mask-And-Predict解码方法利用对抗训练进一步解耦提取出的语音表征;
S3、从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成。


2.如权利要求1所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,步骤S1中所述不同的语音表征包括如下语音因子:音色表征、文本表征、节奏表征、基频表征,对不同的语音因子,分配相应的编码器。


3.如权利要求2所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,对不同的编码器施以不同的信息瓶颈限制各编码器的编码能力。


4.如权利要求3所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,所述限制包括:限制一、4个编码器的输入不相同,有的是音频,有的只是基频曲线;限制二、对4个编码器的输出在维度上进行限制;限制三、在音高和文本的提取上,加入了随机重采样这一操作来破坏节奏信息。


5.如权利要求1所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,采取了以下方法中的至少一者提高语音表征学习的效果,以提升步骤S1中的提取效果:
方法一、通过多标签二维向量限制节奏编码只能为离散化表征,当采取离散编码时,建模空间有限,节奏编码器会优先编码可以恢复出完整音频的节奏信息;
方法二、采用词预测网络从文本表征中预测一个二值的、与词典等大的指示向量,向量的每一维度值为0或1指示该段音频中是否包含...

【专利技术属性】
技术研发人员:王洁吴志勇
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1