一种超声辅助的声纹身份识别方法和系统技术方案

技术编号:39747007 阅读:11 留言:0更新日期:2023-12-17 23:45
本发明专利技术提供了一种超声辅助的声纹身份识别方法,提高了声纹识别的鲁棒性和可靠性,且不会显著增加硬件成本,也不会涉及用户隐私问题,播放超声信号

【技术实现步骤摘要】
一种超声辅助的声纹身份识别方法和系统


[0001]本专利技术涉及身份识别
,具体而言,涉及一种超声辅助的声纹身份识别方法和系统
[0002]专利技术背景
[0003]声纹身份识别
(
后面简称声纹识别
)
是通过分析语音中的音色信息来确定说话人的身份,是目前主要的身份认证技术之一

声纹识别技术虽然已经商业化应用,但还是存在一定的局限性

比如,在噪声下性能会急剧下降,在同性说话人之间的区分度较低,需要较长的注册和测试音频等

为解决上述问题,研发人员提出了多模态身份认证技术,通过融合多种模态的身份信息来提高身份认证的鲁棒性和可靠性

比如,平安科技采用声纹识别
+
唇语识别
+
人脸识别来提高身份认证的可靠性,科大迅飞采用人脸识别
+
声纹识别来提高身份认证的鲁棒性

需要指出的是虽然视觉信息非常有用,可显著提高身份认证的可靠性和鲁棒性,但它一方面会显著增加系统硬件成本,另一方面在光照不好的条件下会失效,更严重的是涉及个人隐私问题


技术实现思路

[0004]针对上述问题,本专利提供了一种超声辅助的声纹身份识别方法,可以在在噪声下准确提取用户的语音活动片段,提高了声纹识别的鲁棒性和可靠性,且不会显著增加硬件成本,也不会涉及用户隐私问题

[0005]其技术方案是这样的:一种超声辅助的声纹身份识别方法,包括以下步骤:
[0006]采用扬声器持续播放超声信号
S1

[0007]采用麦克风持续采集空间声信号得到声信号
S2

[0008]从声信号
S2
中分离超声发射信号
S21
和语音信号
S22

[0009]从分离出的超声发射信号
S21
中提取反映嘴唇活动模式的唇动特征
F1

[0010]基于深度神经网络构建唇动检测模型,把唇动特征送入训练好的唇动检测模型判断唇动特征对应的时刻是否有说话,直到唇动检测模型检测到没有说话停止;
[0011]从检测到开始说话时刻开始,采用声纹识别算法或者基于神经网络构建的声纹提取模型,对应从语音信号
S22
中提取反映说话人音色特点的声纹特征
F2

[0012]基于神经网络构建说话人身份嵌入向量提取模型,把检测到唇动时间段的唇动特征
F1
和声纹特征
F2
联合送入训练好的说话人身份嵌入向量提取模型,输出对应的说话人身份表征向量;
[0013]将获得的说话人身份表征向量和已注册说话人的身份表征向量进行相似性比对,推理得到说话人的身份

[0014]进一步的,超声信号
S1
采用周期性发射的
chirp
信号,超声信号
S1
的最大频率不低于
24kHz
,采样率不低于
48kHz。
[0015]进一步的,采用两个带通滤波器分别来分离出超声发射信号
S21
和语音信号
S22
,分离超声信号的带通滤波器的起止频率与发射超声信号
S1
的频带相关,分离语音信号
S22
的带通滤波器的起止频率设置为人类可听声频率范围

[0016]进一步的,唇动特征
F1
的提取过程如下:
[0017]对采集到的超声发射信号
S21,
利用通道对消法移除直达波信号,得到超声反射波信号
[0018]计算超声反射波信号对应的差频信号,并作低通滤波,得到差频信号
[0019]取差频信号的第1通道信号做
FFT
变换,取谱能量最大的
N
个时频点,计算
N
个时频点对应的相位组成相位特征
P1

[0020]采用
3D

MUSIC
算法对进行处理,得到距离

角度

速度三维谱矩阵;
[0021]从距离

角度

速度三维谱矩阵中提取设定的距离

角度和速度范围内的谱点能量组成特征向量,得到距离

角度

速度的三维谱特征
P2。
[0022]把相位特征
P1
和三维谱特征
P2
合并,得到唇动特征
F1。
[0023]所述的通道对消法移除直达波信号,具体如下执行:首先计算超声发射信号
S21
中一通道
B
相对另一通道
A
的时延,然后对通道
B
信号进行时延补偿,最后用该时延补偿后的通道
B
信号去减通道
A
信号来得到消除直达波的通道信号
A

,依次类推,直到对所有通道信号都完成直达波消除处理

[0024]进一步的,差频信号如下计算获得:发射的超声信号
S1
表示为
x
T
(t)
,将超声信号
x
T
(t)
和接收的超声反射波信号进行相乘,然后做低通滤波得到差频信号
[0025]在距离

角度

速度三维谱矩阵中选取谱点能量组成三维谱特征
P2
时,设定的距离由嘴唇距离麦克风的实际距离来确定,取值范围为
0.3m
±
0.02m
;设定的角度由嘴唇和麦克风的相对位置来确定,,取值范围为0度
±
10
度;设定的速度由嘴唇运动速度来确定,取值范围为
0.03m/s
±
0.03m/s。
[0026]进一步的,所述唇动检测模型基于深度神经网络构建,输入唇动检测模型的唇动特征
F1
共有
70
维,包括了
10
维的相位特征
P1
和5×3×4维的三维谱特征
P2。
[0027]进一步的,基于
ResNet34
或者
RepVGG34
网络构建说话人身份嵌入向量提取模型,输入说话人身份嵌入向量提取模型的特征向量,包括了
70
维的唇动特征
F1

80

Fbank
特征的声纹特征
F2
,采用线性插值法,在每两帧唇动特征之间插入2帧插值生成的唇动特征,使得唇动特征
F1
和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种超声辅助的声纹身份识别方法,其特征在于:包括以下步骤:采用扬声器持续播放超声信号
S1
;采用麦克风持续采集空间声信号得到声信号
S2
;从声信号
S2
中分离超声发射信号
S21
和语音信号
S22
;从分离出的超声发射信号
S21
中提取反映嘴唇活动模式的唇动特征
F1
;基于深度神经网络构建唇动检测模型,把唇动特征送入训练好的唇动检测模型判断唇动特征对应的时刻是否有说话,直到唇动检测模型检测到没有说话停止;从检测到开始说话时刻开始,采用声纹识别算法或者基于神经网络构建的声纹提取模型,对应从语音信号
S22
中提取反映说话人音色特点的声纹特征
F2
;基于神经网络构建说话人身份嵌入向量提取模型,把检测到唇动时间段的唇动特征
F1
和声纹特征
F2
联合送入训练好的说话人身份嵌入向量提取模型,输出对应的说话人身份表征向量;将获得的说话人身份表征向量和已注册说话人的身份表征向量进行相似性比对,推理得到说话人的身份
。2.
根据权利要求1所述的一种超声辅助的声纹身份识别方法,其特征在于:超声信号
S1
采用周期性发射的
chirp
信号,超声信号
S1
的最大频率不低于
24kHz
,采样率不低于
48kHz。3.
根据权利要求1所述的一种超声辅助的声纹身份识别方法,其特征在于:采用两个带通滤波器分别来分离出超声发射信号
S21
和语音信号
S22
,分离超声信号的带通滤波器的起止频率与发射超声信号
S1
的频带相关,分离语音信号
S22
的带通滤波器的起止频率设置为人类可听声频率范围
。4.
根据权利要求1所述的一种超声辅助的声纹身份识别方法,其特征在于:唇动特征
F1
的提取过程如下:对采集到的超声发射信号
S21,
利用通道对消法移除直达波信号,得到超声反射波信号计算超声反射波信号对应的差频信号,并作低通滤波,得到差频信号取差频信号的第1通道信号做
FFT
变换,取谱能量最大的
N
个时频点,计算
N
个时频点对应的相位组成相位特征
P1
;采用
3D

MUSIC
算法对进行处理,得到距离

角度

速度三维谱矩阵;从距离

角度

速度三维谱矩阵中提取设定的距离

角度和速度范围内的谱点能量组成特征向量,得到距离

角度

速度的三维谱特征
P2。
把相位特征
P1
和三维谱特征
P2
合并,得到唇动特征
F1。5.
根据权利要求4所述的一种超声辅助的声纹身份识别方法,其特征在于:所述的通道对消法移除直达波信号,具体如下执行:首先计算超声发射信号
S21
中一通道
B
相对另一通道
A
的时延,然后对通道
B
信号进行时延补偿,最后用该时延补偿后的通道
B
信号去减通道
A
信号来得到消除直达波的通道信号
A

,依次类推,直到对所有通道信号都完成直达波消除处理
。6.
根据权利要求4所述的一种超声辅助的声纹身份识别方法,其特征在于:差频信号
如下计算获得:发射的超声信号
S1
表示为
x
T

【专利技术属性】
技术研发人员:王欢良王佳珺王飞马殿昌唐浩元张李
申请(专利权)人:苏州奇梦者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1