一种基于制造技术

技术编号:39816216 阅读:8 留言:0更新日期:2023-12-22 19:34
本发明专利技术公开了一种基于

【技术实现步骤摘要】
一种基于Conformer的说话人验证方法与系统


[0001]本专利技术涉及深度学习领域以及说话人验证领域,尤其涉及一种基于
Conformer
的说话人验证方法与系统


技术介绍

[0002]随着信息技术和网络技术的迅猛发展,当今社会对于身份认证技术的需求场景越来越多

由于每个人的发音器官不同,所发出来的声音及其音调各不相同,且成年后人的声音可以保持长期稳定不变,说话人验证技术具有准确率高

应用难度低

用户接受度高

采集成本低等特点,说话人验证技术从语音信号中分解出与说话人身份相关的声纹特征,寻找表征人类身份本质的声纹特征

[0003]说话人验证技术目前已逐渐被应用于住宅密码

账户登录

软件解锁

远程支付

司法侦查

门禁考勤等不同的场景,对安全可靠性的要求也越来越严格

目前说话人验证技术的精度和安全性并没有达到可信可靠的程度,多应用于智能家居的唤醒或者其他生物识别技术的辅助认证

在实际应用中,复杂的噪声环境

不同的应用场景

多样的非法攻击等对说话人验证系统的鲁棒性

准确性与安全性均提出了巨大的挑战

[0004]近些年来,随着以机器学习

深度学习等人工智能算法的快速发展,很多以卷积网络为核心的人工智能算法被应用到说话人验证场景之中

其中以二维残差卷积网络
(Residual Network

ResNet)
和一维时延神经网络
(Time Delay Neural Network

TDNN)
为主,使得说话人验证场景的准确率得到很大的提升

然后,这些模型虽然足够先进,但是其感受野仍局限于局部,难以对全局特征进行学习,限制这些模型的性能
。Transformer
模型带来的注意力机制能够有效的进行全局特征的学习,但是基于注意力
Transformer
的模型学习依赖于大量广泛的数据学习,在说话人验证这一特定领域的任务中难以实现,使得基于注意力
Transformer
的说话人验证技术难以实现媲美于二维残差卷积网络
ResNet
和一维时序时延网络
TDNN
的准确率效果

[0005]因此,本领域的技术人员致力于开发一种新的说话人验证方法与系统,解决现有技术中存在的上述缺陷


技术实现思路

[0006]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是如何挖掘出音频数据中隐藏的深度隐藏声纹信息,同时通过局部信息和全局信息的结合来学习音频特征

[0007]为实现上述目的,本专利技术提供了一种基于
Conformer
的说话人验证方法,包括以下步骤:
[0008]步骤
1、
预处理说话人的音频数据,并按照一定比例分为训练集

验证集和测试集;
[0009]步骤
2、
将所述音频数据中的每帧信号进行快速傅里叶变换,得到语谱图,再计算梅尔频谱特征,得到音频特征数据;
[0010]步骤
3、
将所述音频特征数据输入
Conformer
神经网络,学习所述说话人的音频特
征的隐变量表示,再通过多层次的特征聚合以及注意力统计池化层捕捉重要帧并提取所述说话人的嵌入空间;
[0011]步骤
4、
验证所述说话人的所述嵌入空间,确定所述音频数据是否与已知的所述说话者的声音匹配

[0012]进一步地,所述步骤1包括以下子步骤:
[0013]步骤
1.1、
将所述音频数据中的
Voxceleb1

Voxceleb2
作为所述训练集,将所述音频数据中的
Voxceleb_O
作为所述验证集以及所述测试集;
[0014]步骤
1.2、
将所述音频数据通过预加重滤波器进行预加重,所述预加重滤波器的传递函数
H
为:
[0015]H(z)
=1‑
az
‑1[0016]其中,
a
为预加重系数,取值在
0.9

1.0
之间;
z
表示离散时间域;
[0017]预加重的公式为:
[0018]y(n)

x(n)

ax(n

1)
[0019]其中,
x(n)
为输入的所述音频数据中第
n
个时刻采样点的信号,
x(n

1)
为输入的所述音频数据中第
n
‑1个时刻采样点的信号,
y(n)
为预加重之后第
n
个时刻的信号;
[0020]步骤
1.3、
将所述音频数据进行分帧,相邻两帧之间保存部分重叠且保留相邻两帧之间的变化特征

[0021]进一步地,在所述步骤
1.3
的所述分帧中,帧的长度为
25ms
,帧移为
10ms。
[0022]进一步地,所述步骤1还包括步骤
1.4、
将所述音频数据进行加窗,采用的窗函数为汉明窗;
[0023]所述汉明窗
w(n)
的公式为:
[0024][0025]其中,
L
表示所述窗函数的长度,为一帧信号里面的采样点数量,
n
表示一帧信号中的采样点

[0026]进一步地,所述步骤2包括以下子步骤:
[0027]步骤
2.1、
将所述音频数据中的所述每帧信号进行所述快速傅里叶变换,得到所述每帧信号的频谱,所述频谱的横轴为频率,纵轴表示所述频率下的幅值;
[0028]所述快速傅里叶变换的公式为:
[0029][0030]其中,
N
表示做所述快速傅里叶变换的点数,即一帧信号中采样点数量;
n
表示一帧信号中的采样点;
[0031]将所述幅值取平方后即可得到功率谱
p(k)
,具体为:
[0032][0033]其中,
s(k)
为所述幅值;
[0034]对所述每帧信号的所述频谱做左边变换,将所述每个频率的所述幅值映射为深浅不同的颜色,随后沿时间轴一帧一帧拼接得到所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Conformer
的说话人验证方法,其特征在于,所述方法包括以下步骤:步骤
1、
预处理说话人的音频数据,并按照一定比例分为训练集

验证集和测试集;步骤
2、
将所述音频数据中的每帧信号进行快速傅里叶变换,得到语谱图,再计算梅尔频谱特征,得到音频特征数据;步骤
3、
将所述音频特征数据输入
Conformer
神经网络,学习所述说话人的音频特征的隐变量表示,再通过多层次的特征聚合以及注意力统计池化层捕捉重要帧并提取所述说话人的嵌入空间;步骤
4、
验证所述说话人的所述嵌入空间,确定所述音频数据是否与已知的所述说话者的声音匹配
。2.
如权利要求1所述的基于
Conformer
的说话人验证方法,其特征在于,所述步骤1包括以下子步骤:步骤
1.1、
将所述音频数据中的
Voxceleb1

Voxceleb2
作为所述训练集,将所述音频数据中的
Voxceleb_O
作为所述验证集以及所述测试集;步骤
1.2、
将所述音频数据通过预加重滤波器进行预加重,所述预加重滤波器的传递函数
H
为:
H(z)
=1‑
az
‑1其中,
a
为预加重系数,取值在
0.9

1.0
之间;
z
表示离散时间域;预加重的公式为:
y(n)

x(n)

ax(n

1)
其中,
x(n)
为输入的所述音频数据中第
n
个时刻采样点的信号,
x(n

1)
为输入的所述音频数据中第
n
‑1个时刻采样点的信号,
y(n)
为预加重之后第
n
个时刻的信号;步骤
1.3、
将所述音频数据进行分帧,相邻两帧之间保存部分重叠且保留相邻两帧之间的变化特征
。3.
如权利要求2所述的基于
Conformer
的说话人验证方法,其特征在于,在所述步骤
1.3
的所述分帧中,帧的长度为
25ms
,帧移为
10ms。4.
如权利要求2所述的基于
Conformer
的说话人验证方法,其特征在于,所述步骤1还包括步骤
1.4、
将所述音频数据进行加窗,采用的窗函数为汉明窗;所述汉明窗
w(n)
的公式为:其中,
L
表示所述窗函数的长度,为一帧信号里面的采样点数量,
n
表示一帧信号中的采样点
。5.
如权利要求4所述的基于
Conformer
的说话人验证方法,其特征在于,所述步骤2包括以下子步骤:步骤
2.1、
将所述音频数据中的所述每帧信号进行所述快速傅里叶变换,得到所述每帧信号的频谱,所述频谱的横轴为频率,纵轴表示所述频率下的幅值;所述快速傅里叶变换的公式为:
其中,
N
表示做所述快速傅里叶变换的点数,即一帧信号中采样点数量;
n
表示一帧信号中的采样点;将所述幅值取平方后即可得到功率谱
p(k)
,具体为:其中,
s(k)
为所述幅值;对所述每帧信号的所述频谱做左边变换,将所述每个频率的所述幅值映射为深浅不同的颜色,随后沿时间轴一帧一帧拼接得到所述语谱图;步骤
2.2、
计算所述梅尔频谱特征,得到所述音频特征数据;梅尔频率
f
Mel
与实际频率的转换关系为:其中,
f
为所述实际频率,单位为
Hz
;所述梅尔频谱特征是通过一组梅尔滤波器对所述频谱进行平滑得到;第
m
个所述梅尔滤波器的频率响应公式为:
f(m

1)、f(m)

f(m+1)
分别为第
m
个所述梅尔滤波器的上限频率

中心频率与上限频率;将所述每帧信号的所述功率谱通过每一个所述梅尔滤波器,即将相对应元素相乘后相加,得到一个系数
Mel
t
(m)
:将所述系数
Mel
t
(m)
取对数即可得到对数能量系数,也即
Fbank
特征:
FB
t
(m)

log(Mel
t
(m)) m

1,2,

,M t

1,2,


T
其中,
M
为所述梅尔滤波器的个数,
T
为所述音频数据中的语音帧数
。6.
如权利要求5所述的基于
Conformer
的说话人验证方法,其特征在于,所述步骤3包括以下子步骤:步骤
3.1、
将所述音频特征数据输入所述
Conformer
神经网络中,学习所述说话人的音频特征的所述隐变量表示;其中,所述
Conformer
神经网络包含若干
Conformer
块,所述
Conformer

【专利技术属性】
技术研发人员:肖侃李雅褚健杨根科
申请(专利权)人:上海交通大学宁波人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1