System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及声音识别,具体涉及一种声纹识别方法及系统。
技术介绍
1、在当今数字化时代,生物识别技术不断演进,为身份验证和安全性提供了新的前景。声音是一种极富个性化的生物特征,每个人都有独特的发音方式、音调、语速和口音。这种独特性为声纹识别提供了一种便捷、非侵入性的身份验证方式,可以应用于各种领域,如手机解锁、云服务访问、电话客服等。
2、然而,声音的独特性并不仅仅来源于说话者自身,环境因素也可以在声音中留下痕迹。例如,办公室谈话声、街道鸣笛声、喧闹声等都会对声纹识别产生影响。然而,传统的声纹识别方法通常只关注说话者的声音特征,而忽略了环境因素可能对声音产生的影响,导致对噪声场景中的声纹识别准确性较低的问题。
3、因此,亟需提供一种声纹识别方法及系统,用于解决上述技术问题。
技术实现思路
1、有鉴于此,有必要提供一种声纹识别方法及系统,用以解决现有技术中存在的对噪声场景中的声纹识别准确性较低的技术问题。
2、一方面,本专利技术提供了一种声纹识别方法,包括:
3、获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音;
4、基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量;
5、将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
6、其中,所述声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注
7、在一些可能的实现方式中,所述待识别语音包括多帧待识别语音帧;则所述基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音,包括:
8、获取第一帧待识别语音帧以及所述第一帧待识别语音帧对应的参考语音帧;
9、获取所述最小均方自适应滤波器的初始滤波器系数,并基于所述初始滤波器系数确定所述第一帧待识别语音帧的估计语音帧;
10、基于所述参考语音帧和所述估计语音帧对所述初始滤波器系数进行调整,获得调整滤波器系数,并基于所述调整滤波器系数确定除所述第一帧待识别语音帧之外的其他帧待识别语音帧对应的关联滤波器系数;
11、基于所述调整滤波器系数对所述第一帧待识别语音帧进行降噪处理,并基于所述关联滤波器系数对其他帧待识别语音帧进行降噪处理,获得所述降噪语音。
12、在一些可能的实现方式中,所述基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量,包括:
13、基于预设步长对所述降噪语音进行分段,获得多个降噪语音片段;
14、对各所述降噪语音片段进行小波变换,获得所述降噪语音片段的频率谱;
15、确定所述频率谱的倒谱,并将所述倒谱的对数值作为幅度谱;
16、将所述幅度谱进行傅里叶逆变换,获得小波倒谱系数;
17、将所述小波倒谱系数进行非归一化香农熵处理,获得熵系数,并将所述多个降噪语音片段的所述熵系数进行拼接,获得所述特征向量。
18、在一些可能的实现方式中,所述特征向量为:
19、
20、
21、
22、
23、式中,为特征向量;为第k个降噪语音片段的小波倒谱系数;n为降噪语音片段的总个数;第k个降噪语音片段的熵系数;为绝对值运算符;为傅里叶逆变换表示符;为幅度谱;为频率谱。
24、在一些可能的实现方式中,所述将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果,包括:
25、基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征;
26、基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征;
27、基于所述第二时延神经网络层对所述第一特征和所述第二特征进行多特征拼接,获得拼接特征;
28、基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征;
29、基于所述线性变换层对所述第三特征进行线性变化,获得目标特征;
30、基于所述损失函数层对所述目标特征进行分类,获得所述识别结果。
31、在一些可能的实现方式中,所述第一时延神经网络层包括第一一维卷积层、第一激活函数层和第一批量归一化层;所述基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征,包括:
32、基于所述第一一维卷积层对所述特征向量进行局部特征提取,获得初始特征;
33、基于所述第一激活函数层对所述初始特征进行非线性变换,获得非线性特征;
34、基于所述第一批量归一化层对所述非线性特征进行归一化处理,获得所述第一特征。
35、在一些可能的实现方式中,所述选择核心特征提取层包括第二一维卷积层、多尺度特征提取层、第三一维卷积层以及选择核心单元;所述基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征,包括:
36、基于所述第二一维卷积层对所述第一特征进行通道变换,获得第一通道特征、第二通道特征、第三通道特征和第四通道特征;
37、基于所述多尺度特征提取层将所述第二通道特征进行卷积操作,获得第二卷积特征,将所述第二卷积特征与所述第三通道特征进行叠加,获得第一叠加特征,将所述第一叠加特征进行卷积操作,获得第三卷积特征,将所述第三卷积特征与所述第四通道特征进行叠加,获得第二叠加特征,并将所述第二叠加特征进行卷积操作,获得第四卷积特征;
38、基于所述第三一维卷积层对所述第一通道特征、所述第二卷积特征、所述第三卷积特征以及所述第四卷积特征进行融合,获得融合特征;
39、基于所述选择核心单元对所述融合特征进行自适应加权处理,获得所述第二特征。
40、在一些可能的实现方式中,所述带有多头注意力的时序池化层包括四个注意力单元,则所述基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征,包括:
41、确定各所述注意力单元的注意力权重;
42、将所述拼接特征进行划分为与所述四个注意力单元对应的四个拼接子特征;
43、基于所述注意力权重对所述四个拼接子特征进行加权处理,获得所述第三特征。
44、在一些可能的实现方式中,所述损失函数层的损失函数为:
45、
46、
47、式中,为损失函数的损失值;n为样本总数;s为特征尺度参数;m为角裕度参数;为第i个声音样本与第i个声音样本的识别结果的夹角值;为第i个声音样本与第i个声音样本的类别标签的夹角值;为第j个声音样本的第k个中心点的特征向量;k为第j个声音样本的中心点总数量;为第i个人的平均特征向量。
48、另一方面,本专利技术还提供了一种声纹识别系统,包括:
49、语本文档来自技高网...
【技术保护点】
1.一种声纹识别方法,其特征在于,包括:
2.根据权利要求1所述的声纹识别方法,其特征在于,所述待识别语音包括多帧待识别语音帧;则所述基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音,包括:
3.根据权利要求1所述的声纹识别方法,其特征在于,所述基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量,包括:
4.根据权利要求3所述的声纹识别方法,其特征在于,所述特征向量为:
5.根据权利要求1所述的声纹识别方法,其特征在于,所述第一时延神经网络层包括第一一维卷积层、第一激活函数层和第一批量归一化层;所述基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征,包括:
6.根据权利要求1所述的声纹识别方法,其特征在于,所述选择核心特征提取层包括第二一维卷积层、多尺度特征提取层、第三一维卷积层以及选择核心单元;所述基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征,包括:
7.根据权利要求1所述的声纹识别方法,其特征在于,所述带有多头注意力的时序池化
8.一种声纹识别系统,其特征在于,包括:
...【技术特征摘要】
1.一种声纹识别方法,其特征在于,包括:
2.根据权利要求1所述的声纹识别方法,其特征在于,所述待识别语音包括多帧待识别语音帧;则所述基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音,包括:
3.根据权利要求1所述的声纹识别方法,其特征在于,所述基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量,包括:
4.根据权利要求3所述的声纹识别方法,其特征在于,所述特征向量为:
5.根据权利要求1所述的声纹识别方法,其特征在于,所述第一时延神经网络层包括第一一维卷积层、第一激活函数层和第一批量归一化层;所述基...
【专利技术属性】
技术研发人员:张华军,王淑琪,邓小涛,王征华,苏义鑫,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。