一种基于BERT的非平行语料下的语音转换方法技术

技术编号：37580762 阅读：13 留言：0更新日期：2023-05-15 07:55

本发明专利技术公开了一种基于BERT的非平行语料下的语音转换方法，属于语音信号处理技术领域。在模型训练过程中，首先由音频特征算法从音素语料库提取语音特征，将特征导入到音素识别模块进行训练；接着对目标语音进行音频特征提取，然后导入到音素识别模型得到目标语音的音素特征；最后将音素特征和目标语音特征导入到特征转换模型，共同完成语音特征转换训练。在语音转换过程中，利用特征算法对源语音进行特征提取，然后输出到音素识别模块得到其音素特征，再将其输出到特征转换模块即可实现语音特征转换，最后进入语音合成模块获得转换后的语音。本方法将音素提取及特征转换应用在BERT模型中，运算简洁，为非平行语料转换提供技术支撑。支撑。支撑。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT的非平行语料下的语音转换方法

[0001]本专利技术公开了一种基于BERT的非平行语料下的语音转换方法，属于语音信号处理

技术介绍

[0002]语音转换技术是一种通过保留说话人表征，修改发声语音的波形拼接技术。通过广泛应用的人工智能技术，语音转换技术在更多的领域得到了应用。例如将受损语音转化为正常语音、电影配音等。
[0003]传统技术基于深度神经网络实现并行语音转换，通过进行个人和目标之间相同话语的平行语料库，学习逐帧映射参数，提高了语音转换效果。最近，研究者将高斯混合模型引入语音转换
，取得了不错的效果。然而，实际中平行数据的收集极为困难，且将语音数据的过程对齐时间也较长。对于非平行语料的语音转换方面，现有的研究主要是对齐正确帧，研究者提出通过迭代对齐，进行语料的声学向量配对。在对齐过程中使用监控对齐方法，将语音信息作为限制。但是，实验结果显示，由于对齐非平行数据语料的对齐难度较大，结果并未实现平行数据语音转换的良好效果。为了促进模型整合简便，实现运算简洁，本文提出了一种基于BERT的非平行语料下的语音转换方法。

技术实现思路

[0004]本专利技术的目的在于提供一种基于BERT的非平行语料下的语音转换方法，提高简便模型架构在语音转换领域的可用性。
[0005]为实现上述目的，本专利技术提供了一种基于BERT的非平行语料下的语音转换方法，包括以下步骤：
[0006]S1音素识别模块，获取语音后验概率。需要训练6层的BERT语音识别模型；将提取...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的非平行语料下的语音转换方法，其特征在于，包括以下步骤：S1音素识别模块，获取语音后验概率：需要训练6层的BERT语音识别模型；将提取的语音特征输入BERT语音识别模型中，得到语音后验概率音频特征映射模型，映射模型用于把梅尔谱映射成对应的音素；S2语音特征转换模块，实现特征转换：通过训练另外12层BERT语言模型得到目标语音的梅尔谱特征对应的振幅谱，其中前6层用来实现语音后验概率PPG到声音特征梅尔谱的转换，后6层实现声音特征梅尔谱到振幅谱的转换，得到原语音的音素对应的梅尔谱与目标语音的振幅谱的对应模型；S3语音合成模块：将S2模块得到的振幅谱通过Griffin
‑
Lim转换。2.根据权利要求1所述的基于B...

【专利技术属性】
技术研发人员：张攀峰，汪玉坤，杨智威，杜慧，邓健志，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人