一种目标说话人语音获取方法和系统技术方案

技术编号：37113223 阅读：14 留言：0更新日期：2023-04-01 05:10

本发明专利技术实施例提供一种目标说话人语音获取方法，包括：获取混合语料、参考语料以及多个单人语料，语音编码模块获取混合语料的混合声学特征，说话人提取模块分离出混合声学特征中不同说话人的单人声学特征；说话人编码模块获取参考语料中的参考声学特征，得到参考声学特征集；说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分，确定出目标说话人；根据目标人声学特征还原为目标人说话语音，得到训练好的目标说话人语音获取模型；将目标说话人的参考语音和含有目标说话人的混合语音，输入到训练好的目标说话人语音获取模型中，得到目标说话人语音；本发明专利技术提供的方法，能够有效提升多说话人场景下的声纹识别准确率。识别准确率。识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种目标说话人语音获取方法和系统

[0001]本专利技术涉及语音识别领域，特别是指一种目标说话人语音获取方法和系统。

技术介绍

[0002]每个人的声音都蕴涵着特有的生物特征，声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性，可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比，声纹识别的优势在于，声纹提取过程简单，成本低，且具有唯一性，不易伪造和假冒。近几年，随着深度学习技术的发展，声纹识别技术也得到了较大的提升，已经成功应用在很多场景。但是在某些应用场景中也存在很大的挑战，比如说在多说话人场景中，人类可以准确的从多说话人里面辨识出某个人的声音，但是声纹识别模型的表现就会比较差，无法从多说话人场景里面正确的识别出目标说话人，给声纹识别系统的推广应用带来了一定的阻碍。

技术实现思路

[0003]本专利技术的主要目的在于克服现有技术中的上述缺陷，提出一种目标说话人语音获取方法，用于多说话人场景下目标说话人声纹识别，有效提升多说话人场景下的声纹识别准确率，且能够拓展声纹识别的应用场景。
[0004]本专利技术采用如下技术方案：
[0005]一种目标说话人语音获取方法，包括：
[0006]获取混合语料、参考语料以及多个单人语料，其中，混合语料是由不少于两人的说话人语料混合得到的，参考语料为包含所有单个说话人语料；
[0007]将混合语料输入目标说话人语音获取模型中混合语音接口...

【技术保护点】

【技术特征摘要】
1.一种目标说话人语音获取方法，其特征在于，包括：获取混合语料、参考语料以及多个单人语料，其中，混合语料是由不少于两人的说话人语料混合得到的，参考语料为包含所有单个说话人语料；将混合语料输入目标说话人语音获取模型中混合语音接口模块，语音编码模块获取混合语料的混合声学特征，说话人提取模块分离出混合声学特征中不同说话人的单人声学特征；将参考语料输入目标说话人获取模型中参考语音接口模块，说话人编码模块获取参考语料中的参考声学特征，得到参考声学特征集；说话人比对模块将得到的单人声学特征分别到参考声学特征集中进行一对一特征打分，确定出目标说话人；将目标人声学特征输入语音解码模块，根据目标人声学特征还原为目标人说话语音，完成目标说话人语音获取模型的训练，得到训练好的目标说话人语音获取模型；将目标说话人的参考语音和含有目标说话人的混合语音，输入到训练好的目标说话人语音获取模型中，得到含有目标说话人的混合语音中目标说话人语音。2.根据权利要求1所述的一种目标说话人语音获取方法，其特征在于，所述混合语料的合成方法，设定为两个说话人混合，具体为：合成方法，设定为两个说话人混合，具体为：s1＝w1*f
source1
s2＝w2*f
source2
m＝s1+s2f
source1
为第一说话人的原始语音信号，f
source2
为第二说话人的原始语音信号，snr为信噪比参数，随机生成，数值大小在0～5db之间，w1为第一说话人权重，w2为第二说话人权重，s1作为语音合并前干净的说话人1语音信号，为主要说话人，s2为语音合并前干净的说话人2语音信号，为次要说话人，m为合成的含有两个说话人声音的语音信号。3.根据权利要求1所述的一种目标说话人语音获取方法，其特征在于，所述说话人提取模块包括：多维度卷积层、卷积合并层、归一化层以及掩膜层，所述多维卷积层包括低维卷积层、中维卷积层以及高维卷积层，所述卷积合并层用于合并卷积计算，所述归一化层用于归一化计算，所述掩膜层用于过滤到无关说话人的语音信号。4.根据权利要求3所述的一种目标说话人语音获取方法，其特征在于，所述掩膜层依次包括卷积层、归一化层、卷积层、归一化层、激活函数以及线性连接层。5.根据权利要求1所述的一种目标说话人语音获取方法，其特征在于，说话人编码模块依次包括梅尔倒谱特征层、归一化层、多个深度残差模块、归一化层、线性连接层以及分类层；所述梅尔倒谱特征层用于提取语音信号的声学特征，并将时域信号转化为频域信号，所述归一化层用于归一化计算，所述深度残差模块用于残...

【专利技术属性】
技术研发人员：叶林勇，肖龙源，李海洲，李稀敏，叶志坚，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人