【技术实现步骤摘要】
一种基于声学后验概率的任意说话人语音转换系统及方法
本专利技术属于基于深度学习的语音转换的
,尤其涉及一种基于声学后验概率的任意说话人语音转换系统及方法。
技术介绍
语音转换主要是基于平行数据实现的,平行数据即是两个不同说话人录制的,但语句文本内容完全一致的数据集,在此基础上,通过高斯混合模型以及动态规划算法等方式实现不同说话人之间声学特征的时间长度对齐。实际生活中,这样大数量的平行数据获取难度很大,而且成本高昂,不适用语音转换技术的推广应用。现有的深度学习技术可以通过非平行数据完成语音转换模型的训练,比如基于生成对抗网络的方法,然而由于实现原理的局限性,只能完成特定说话人之间的语音转换。还有基于变分自动编码器的方法,这种方法由于解码过程中解码器的过度平滑,转换的语音质量通常有比较明显的损失。
技术实现思路
本专利技术的目的是提供一种基于声学后验概率的任意说话人语音转换系统及方法,以解决现有技术中语音转换只能完成特定说话人之间且质量较低的问题。为了实现上述目的,本专利技术提供如下技术 ...
【技术保护点】
1.一种基于声学后验概率的任意说话人语音转换方法,其特征是,包括:/nS101,配置一个语音识别模型;/nS102,配置一个多说话人数据集;所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率;/nS103,对所述多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码;/nS104,预训练一个语音转换模型,其配置为能够接收所述声学后验概率和查表编码;所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练;/nS105,配置一个目标说话人数据集;/nS106,自适应训练所述语音转换模型,所述语音转换模型能 ...
【技术特征摘要】
1.一种基于声学后验概率的任意说话人语音转换方法,其特征是,包括:
S101,配置一个语音识别模型;
S102,配置一个多说话人数据集;所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率;
S103,对所述多说话人数据集中每个说话人独热编码,并查表进行说话人向量的标记得到一个查表编码;
S104,预训练一个语音转换模型,其配置为能够接收所述声学后验概率和查表编码;所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练;
S105,配置一个目标说话人数据集;
S106,自适应训练所述语音转换模型,所述语音转换模型能够根据所述目标说话人数据集少量数据自适应参数更新;通过损失函数数值监控更新过程,损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练;
S107,在所述预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码,在自适应训练阶段对独热码对应的说话人向量进行更新,使其向目标说话人进行迁移;
S108,通过任意原始说话人语句中提取声学后验概率,辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换;
S109,通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。
2.如权利要求1所述的基于声学后验概率的任意说话人语音转换方法,其特征是,预设一个维度为说话人个数*预设向量维度的二维查找表参数空间,说话人编码0/1/2从查找表中直接取出指定行的参数为所述说话人向量;
所述语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点。
3.如权利要求2所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述语音转换模型的深度公路网结构层前后添加说话人编码层,将编码后的所述说话人向量和声学后验概率特征向量在数据特征维度进行拼接,使得语音转换模型能够更好的区分不同的说话人。
4.如权利要求3所述的基于声学后验概率的任意说话人语音转换方法,其特征是,所述语音识别模型包括六层时延神经网络,所述时延神经网络是一种多层神经网络,所述时延神经网络能够用于区分平移不变性。
5.如权利要求4所述的基于声学后验概率的任意说话人语音转换方法,其特征是,每层所述时延神经网络有1024个节点,输出...
【专利技术属性】
技术研发人员:宋丹丹,欧阳鹏,尹首一,
申请(专利权)人:江苏清微智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。