一种用于车辆自动滑移门的声纹身份验证方法技术

技术编号:38316737 阅读:16 留言:0更新日期:2023-07-29 08:58
本发明专利技术公开了一种用于车辆自动滑移门的声纹身份验证方法,首先搭建基于改进ECAPA

【技术实现步骤摘要】
一种用于车辆自动滑移门的声纹身份验证方法


[0001]本专利技术属于声纹识别
,特别涉及一种用于车辆自动滑移门的声纹身份验证方法。

技术介绍

[0002]声纹识别是人机交互中身份验证的一种快捷高效的方式,在日常生活中广泛应用于信息安全、金融安全、司法鉴定、电话银行、数据库访问、信息服务、安全控制等领域。使用声纹进行身份认证易用性强,采样简单且接受度广。将声纹识别应用于更复杂和多样化的场景中是当前热门的发展态势。随着汽车电子技术的不断发展,智能化控制场景越来越丰富,为消费者带来了方便快捷的驾乘体验,但更具安全性、便捷性、智能化的解锁控制方式还有待进一步挖掘。目前声纹解锁应用在汽车上面临的最大挑战在于应用场景环境噪音复杂多变,影响模型识别效果。

技术实现思路

[0003]本专利技术提供了一种用于车辆自动滑移门的声纹身份验证方法,用于解决现有声纹验证系统中声纹识别模型特征提取性能不强、噪声鲁棒性差等技术问题。
[0004]本专利技术采取的技术方案包括如下步骤:
[0005]步骤1:搭建基于改进ECAPA

TDNN的声纹识别网络模型。
[0006]步骤2:使用大规模数据集进行训练并测试。
[0007]步骤3:注册阶段。声纹识别模型对车主授权的录入语音进行处理,并保存说话人声纹嵌入码。
[0008]步骤4:验证阶段。在车外拾音系统激活时,录入被测说话人语音并处理,将得到的声纹嵌入码与步骤3中已注册的声纹嵌入码进行相似度匹配,若判定为同一说话人,则控制门锁有刷电机驱动输出模块执行开锁动作。
[0009]进一步的,在步骤1中,还包括:
[0010]步骤1

1:对于输入网络的语音Fbank特征,其向量维度为M
×
T,其中M为特征维度,T为语音段时长。
[0011]步骤1

2:使用卷积核分别为3、4、5的TDNN网络对步骤1

1所述Fbank特征进行一维卷积。可选的,生成通道数为512的3个特征向量,对所得特征再分别进行一次卷积核为3的一维卷积,输出特征维度为3
×
512
×
T,对三个特征在通道维度拼接,得到特征维度为1536
×
T。
[0012]步骤1

3:将前一步所得特征输入SE

Res2Net单元中,输出特征维度为1024
×
T。所述SE

Res2Net单元的主体是由Conv1d+ReLU+BN、Res2Net模块和基于通道注意力机制的挤压激励(SE)模块组成。所述Res2Net模块将输入特征映射按通道维度均匀切分为s个子集,记为x
i
,其中i∈{1,2,

,s}。x1不做处理直接映射到y1上,其余每个x
i
分别经过不同的3
×
3卷积核K
i
。从i=3开始,将x
i
与K
i
‑1(x
i
‑1)相加输入K
i
。输出y
i
可以表示为:
[0013][0014]所述SE模块首先进行压缩操作,为每一个通道生成一个描述符,得到一个帧级特征的均值向量z,表达式为:
[0015][0016]式中h
t
表示每个特征的embedding向量。然后进行激励操作,使用z中的描述符来计算每个通道的权重,即:
[0017]s=σ(W2f(W1z+b1)+b2)
[0018]式中σ(
·
)为softmax激活函数,f(
·
)为ReLU激活函数,W1∈R
R
×
C
,W2∈R
C
×
R
,C为通道数,R为降维数。b1,b2为偏移量。向量s包含介于0和1之间的权值s
c
,这些权重通过乘法作用于之前的特征矩阵h
c
上,可得到通道加权的特征输出为:
[0019][0020]步骤1

4:再重复步骤1

3所述步骤两次,连续经过三次SE

Res2Net单元处理的特征向量维度保持1024
×
T。将三次SE

Res2Net单元的输出按通道维度拼接得到特征向量维度为(3
×
1024)
×
T。使用一层全连接层使其维度降至1536
×
T。
[0021]步骤1

5:使用依赖于通道和上下文的注意力统计池化层,本质是计算加权平均值和加权标准差,首先计算标量分数e
tc
,公式为:
[0022][0023]其中,h
t
是前一层网络在时间步t的激活值,权重矩阵W∈W
R
×
C
和偏差b∈R
R
×1将h1从C维通道投影到一个较小的R维通道表示中,以减少参数数量,降低过拟合风险。意味着由激活函数f(
·
)得到的R维向后投影到C维空间表示中。接下来对e
tc
应用Softmax变换便可以得到通道c上时量经过线性变换间步t的注意力分数:
[0024][0025]通道c上的加权平均向量和加权标准差向量计算公式为:
[0026][0027]注意力统计池化的最终输出为和合并后的向量。特征维度为3072
×
1。
[0028]步骤1

6:将前一步所述输出经过全连接层降维至192
×
1。此特征向量就是表征输入语音段深度声纹信息的嵌入码。在训练模型时,嵌入码后再接全连接层进行分类,分类数量为训练集中说话者数量。
[0029]进一步的,在步骤2中,还包括:
[0030]步骤2

1:使用MUSAN噪声数据集和RIR混响数据集对训练数据进行数据增强。通过对说话人语音数据加入随机的多种常见场景噪声,以及对原语音数据进行音量、语速的微调,使训练集中同一个说话人的语音数据也具有环境的多样性和情绪状态的变化。
[0031]步骤2

2:使用自适应矩估计优化器(Adam)和AAM

softmax损失函数对模型进行优化。所述AAM

softmax损失函数公式为:
[0032][0033]其中,x
i
表示属于第y
i
类的第i个说话人语音样本的嵌入码,N和n分别代表批次大小和类别。说话人嵌入特征‖x
i
‖被重新规整为s,网络所学习的深度嵌入特征被分布到半径为s的超球面上,同时把m因子加到cos(
·
)内部
[0034]步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于车辆自动滑移门的声纹身份验证方法,其特征在于,包括以下步骤:步骤1:搭建基于改进ECAPA

TDNN的声纹识别网络模型。步骤2:使用大规模数据集进行训练并测试。步骤3:注册阶段。声纹识别模型对车主授权的录入语音进行处理,并保存说话人声纹嵌入码。步骤4:验证阶段。在车外拾音系统激活时,录入被测说话人语音并处理,将得到的声纹嵌入码与步骤3中已注册的声纹嵌入码进行相似度匹配,若判定为同一说话人,则控制门锁有刷电机驱动输出模块执行开锁动作。2.根据权利要求1所述的声纹验证系统设计方法,其特征在于,在步骤1中,还包括:步骤1

1:对于输入网络的语音Fbank特征,其向量维度为M
×
T,其中M为特征维度,T为语音段时长。步骤1

2:使用卷积核分别为3、4、5的TDNN网络对步骤1

1所述Fbank特征进行一维卷积。可选的,生成通道数为512的3个特征向量,对所得特征再分别进行一次卷积核为3的一维卷积,输出特征维度为3
×
512
×
T,对三个特征在通道维度拼接,得到特征维度为1536
×
T。步骤1

3:将前一步所得特征输入SE

Res2Net单元中,输出特征维度为1024
×
T。所述SE

Res2Net单元的主体是由Conv1d+ReLU+BN、Res2Net模块和基于通道注意力机制的挤压激励(SE)模块组成。所述Res2Net模块将输入特征映射按通道维度均匀切分为s个子集,记为x
i
,其中i∈{1,2,

,s}。x1不做处理直接映射到y1上,其余每个x
i
分别经过不同的3
×
3卷积核K
i
。从i=3开始,将x
i
与K
i
‑1(x
i
‑1)相加输入K
i
。输出y
i
可以表示为:所述SE模块首先进行压缩操作,为每一个通道生成一个描述符,得到一个帧级特征的均值向量z,表达式为:式中h
t
表示每个特征的embedding向量。然后进行激励操作,使用z中的描述符来计算每个通道的权重,即:s=σ(W2f(W1z+b1)+b2)式中σ(
·
)为softmax激活函数,f(
·
)为ReLU激活函数,W1∈R
R
×
C
,W2∈R
C
×
R
,C为通道数,R为降维数。b1,b2为偏移量。向量s包含介于0和1之间的权值s
c
,这些权重通过乘法作用于之前的特征矩阵h
c
上,可得到通道加权的特征输出为:步骤1

4:再重复步骤1<...

【专利技术属性】
技术研发人员:陈家峥张斌
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1