一种基于BERT的非平行语料下的语音转换方法技术

技术编号:37580762 阅读:13 留言:0更新日期:2023-05-15 07:55
本发明专利技术公开了一种基于BERT的非平行语料下的语音转换方法,属于语音信号处理技术领域。在模型训练过程中,首先由音频特征算法从音素语料库提取语音特征,将特征导入到音素识别模块进行训练;接着对目标语音进行音频特征提取,然后导入到音素识别模型得到目标语音的音素特征;最后将音素特征和目标语音特征导入到特征转换模型,共同完成语音特征转换训练。在语音转换过程中,利用特征算法对源语音进行特征提取,然后输出到音素识别模块得到其音素特征,再将其输出到特征转换模块即可实现语音特征转换,最后进入语音合成模块获得转换后的语音。本方法将音素提取及特征转换应用在BERT模型中,运算简洁,为非平行语料转换提供技术支撑。支撑。支撑。

【技术实现步骤摘要】
一种基于BERT的非平行语料下的语音转换方法


[0001]本专利技术公开了一种基于BERT的非平行语料下的语音转换方法,属于语音信号处理


技术介绍

[0002]语音转换技术是一种通过保留说话人表征,修改发声语音的波形拼接技术。通过广泛应用的人工智能技术,语音转换技术在更多的领域得到了应用。例如将受损语音转化为正常语音、电影配音等。
[0003]传统技术基于深度神经网络实现并行语音转换,通过进行个人和目标之间相同话语的平行语料库,学习逐帧映射参数,提高了语音转换效果。最近,研究者将高斯混合模型引入语音转换
,取得了不错的效果。然而,实际中平行数据的收集极为困难,且将语音数据的过程对齐时间也较长。对于非平行语料的语音转换方面,现有的研究主要是对齐正确帧,研究者提出通过迭代对齐,进行语料的声学向量配对。在对齐过程中使用监控对齐方法,将语音信息作为限制。但是,实验结果显示,由于对齐非平行数据语料的对齐难度较大,结果并未实现平行数据语音转换的良好效果。为了促进模型整合简便,实现运算简洁,本文提出了一种基于BERT的非平行语料下的语音转换方法。

技术实现思路

[0004]本专利技术的目的在于提供一种基于BERT的非平行语料下的语音转换方法,提高简便模型架构在语音转换领域的可用性。
[0005]为实现上述目的,本专利技术提供了一种基于BERT的非平行语料下的语音转换方法,包括以下步骤:
[0006]S1音素识别模块,获取语音后验概率。需要训练6层的BERT语音识别模型;将提取的语音特征输入BERT语音识别模型中,得到语音后验概率音频特征映射模型,映射模型用于把梅尔谱映射成对应的音素;
[0007]S2特征转换模块,实现特征转换。通过训练另外12层BERT语言模型得到目标语音的梅尔谱特征对应的振幅谱,其中前6层用来实现语音后验概率PPG到声音特征梅尔谱的转换,后6层实现声音特征梅尔谱到振幅谱的转换,得到原语音的音素对应的梅尔谱与目标语音的振幅谱的对应模型;
[0008]S3进入语音合成模块。将后语言模型得到的振幅谱通过Griffin

Lim转换。
[0009]其中,所述提取语音特征,获取语音后验概率的具体方式为:
[0010]首先基于大规模语料,训练一套说话人无关的语音识别系统,然后将待测语音输入到语音识别系统中,获取音素后延概率,作为其特征表示。
[0011]其中,所述进入特征转换模块,实现特征转换的具体方式为:
[0012]通过训练BERT网络得到原语音的音素对应的梅尔谱与目标语音的音素对应的振幅谱的对应模型。
[0013]其中,所述进入语音合成模块的具体方式为:
[0014]将转换后得到的语音振幅谱利用Griffin

Lim声码器合成转换后的语音。
[0015]本专利技术的一种基于BERT的非平行语料下的语音转换方法,读取输入语音;提取语音特征,获取语音后验概率;进入转换模块,实现特征转换;进入语音合成模块;输出转换语音。将音素提取及特征转换整合在一个模型的使用,运算简洁,为非平行语料转换提供技术支撑。
附图说明
[0016]图1是本专利技术提供的一种基于BERT的非平行语料下的语音转换方法的流程图。
[0017]图2是对所述提取语音特征,获取语音后验概率的流程图。
[0018]图3是进入转换模块前6层,实现特征转换的流程图。
[0019]图4是进入转换模块后6层,实现特征转换的流程图。
[0020]图5是进入语音合成模块的流程图。
具体实施方式
[0021]请参阅图1至图5,本专利技术提供一种基于BERT的非平行语料下的语音转换方法,其特征在于,该方法包括训练阶段和转换阶段,包括以下步骤:
[0022]所述训练阶段包括:
[0023]步骤一、从语料库中训练模型生成对应语音的音素,接着采用训练后的语音识别模型来生成语音后验概率PPG。
[0024]具体的,图2为本专利技术涉及的识别系统的训练过程框图。
[0025]其中,模型采用6层512个神经单元的隐藏层。进行了3000轮次的数据训练,采用Adam优化,运用交叉熵损失函数。其中学习率设为1e

5。直接对6层的BERT进行训练。
[0026]步骤二、训练12层BERT结构对所获得的PPG和目标说话者相应声学特征之间的映射进行建模以生成语音参数。
[0027]具体的,图3、图4为本专利技术涉及的转换系统的训练过程框图。
[0028]其中,为了更好的提升转换的效果,模型进行了预处理。
[0029]其中,采用的归一化为LayerNorm和BatchNorm的操作。模型训练完毕后,需要将参数进行存储。
[0030]所述转换阶段包括:
[0031]首先,提取源语音的MFCC特征。其次,从所训练的S1语音识别模型获得PPG,在所训练的S1语音识别模型中,输入是MFCC特征。然后,由所训练的S2特征转换模型将PPG转换为振幅谱。最后,转换的振幅谱进入S3合成器用于合成输出语音。
[0032]其中,运用的模型参数通过加载进行直接使用。
[0033]其中,为了得到wav音频,采用了Griffin

Lim算法。
[0034]具体的,图5为本专利技术涉及的合成的过程框图。
[0035]S1所述音素识别模块,用于获取语音后验概率;
[0036]PPG是一个时间对类别的矩阵,其表示对于一个话语的每个特定时间帧,每个语音类别的后验概率。语音类别可以指词、音素或音素状态(senone)。其是通过训练阶段中的聚
类而获得的。
[0037]利用声音提取算法分别提取参与训练的说话人语音的梅尔倒谱特征,并将梅尔倒谱特征读入6层BERT作直接训练;本专利技术中采用梅尔倒谱特征,仅为训练模型对于音素单元和后验概率预测能力,采用THCHS30音素分类数据集,不需要进行DTW对齐。
[0038]其中,THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。THCHS

30是在安静的办公室环境下,通过单个碳粒麦克风录取,采样频率16kHz,采样大小16bits。经过处理后形成语料库。
[0039]将THCHS30中提取的梅尔倒谱系数作为数据集,并基于各段语音数据做音素识别,得到各段语音数据的帧级的音素后验概率特征向量。以某一段语音数据为例,本步骤所得到的该段语音数据的每帧后验概率特征向量可表示为P
t
=[p
t(1)
,p
t(2)
...,p
t(k)
],其中,k为音素个数,t表示帧号。所述音素识别操作通过训练6层BERT得到音素分类器。
[0040]其中,在提取声学特征时,采用2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的非平行语料下的语音转换方法,其特征在于,包括以下步骤:S1音素识别模块,获取语音后验概率:需要训练6层的BERT语音识别模型;将提取的语音特征输入BERT语音识别模型中,得到语音后验概率音频特征映射模型,映射模型用于把梅尔谱映射成对应的音素;S2语音特征转换模块,实现特征转换:通过训练另外12层BERT语言模型得到目标语音的梅尔谱特征对应的振幅谱,其中前6层用来实现语音后验概率PPG到声音特征梅尔谱的转换,后6层实现声音特征梅尔谱到振幅谱的转换,得到原语音的音素对应的梅尔谱与目标语音的振幅谱的对应模型;S3语音合成模块:将S2模块得到的振幅谱通过Griffin

Lim转换。2.根据权利要求1所述的基于B...

【专利技术属性】
技术研发人员:张攀峰汪玉坤杨智威杜慧邓健志
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1