【技术实现步骤摘要】
一种基于Conformer的说话人验证方法与系统
[0001]本专利技术涉及深度学习领域以及说话人验证领域,尤其涉及一种基于
Conformer
的说话人验证方法与系统
。
技术介绍
[0002]随着信息技术和网络技术的迅猛发展,当今社会对于身份认证技术的需求场景越来越多
。
由于每个人的发音器官不同,所发出来的声音及其音调各不相同,且成年后人的声音可以保持长期稳定不变,说话人验证技术具有准确率高
、
应用难度低
、
用户接受度高
、
采集成本低等特点,说话人验证技术从语音信号中分解出与说话人身份相关的声纹特征,寻找表征人类身份本质的声纹特征
。
[0003]说话人验证技术目前已逐渐被应用于住宅密码
、
账户登录
、
软件解锁
、
远程支付
、
司法侦查
、
门禁考勤等不同的场景,对安全可靠性的要求也越来越严格
。
目前说话人验证技术的精度和安全性并没有达到可信可靠的程度,多应用于智能家居的唤醒或者其他生物识别技术的辅助认证
。
在实际应用中,复杂的噪声环境
、
不同的应用场景
、
多样的非法攻击等对说话人验证系统的鲁棒性
、
准确性与安全性均提出了巨大的挑战
。
[0004]近些年来,随着以机器学习
、
深度学习等人工智能算 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于
Conformer
的说话人验证方法,其特征在于,所述方法包括以下步骤:步骤
1、
预处理说话人的音频数据,并按照一定比例分为训练集
、
验证集和测试集;步骤
2、
将所述音频数据中的每帧信号进行快速傅里叶变换,得到语谱图,再计算梅尔频谱特征,得到音频特征数据;步骤
3、
将所述音频特征数据输入
Conformer
神经网络,学习所述说话人的音频特征的隐变量表示,再通过多层次的特征聚合以及注意力统计池化层捕捉重要帧并提取所述说话人的嵌入空间;步骤
4、
验证所述说话人的所述嵌入空间,确定所述音频数据是否与已知的所述说话者的声音匹配
。2.
如权利要求1所述的基于
Conformer
的说话人验证方法,其特征在于,所述步骤1包括以下子步骤:步骤
1.1、
将所述音频数据中的
Voxceleb1
和
Voxceleb2
作为所述训练集,将所述音频数据中的
Voxceleb_O
作为所述验证集以及所述测试集;步骤
1.2、
将所述音频数据通过预加重滤波器进行预加重,所述预加重滤波器的传递函数
H
为:
H(z)
=1‑
az
‑1其中,
a
为预加重系数,取值在
0.9
到
1.0
之间;
z
表示离散时间域;预加重的公式为:
y(n)
=
x(n)
‑
ax(n
‑
1)
其中,
x(n)
为输入的所述音频数据中第
n
个时刻采样点的信号,
x(n
‑
1)
为输入的所述音频数据中第
n
‑1个时刻采样点的信号,
y(n)
为预加重之后第
n
个时刻的信号;步骤
1.3、
将所述音频数据进行分帧,相邻两帧之间保存部分重叠且保留相邻两帧之间的变化特征
。3.
如权利要求2所述的基于
Conformer
的说话人验证方法,其特征在于,在所述步骤
1.3
的所述分帧中,帧的长度为
25ms
,帧移为
10ms。4.
如权利要求2所述的基于
Conformer
的说话人验证方法,其特征在于,所述步骤1还包括步骤
1.4、
将所述音频数据进行加窗,采用的窗函数为汉明窗;所述汉明窗
w(n)
的公式为:其中,
L
表示所述窗函数的长度,为一帧信号里面的采样点数量,
n
表示一帧信号中的采样点
。5.
如权利要求4所述的基于
Conformer
的说话人验证方法,其特征在于,所述步骤2包括以下子步骤:步骤
2.1、
将所述音频数据中的所述每帧信号进行所述快速傅里叶变换,得到所述每帧信号的频谱,所述频谱的横轴为频率,纵轴表示所述频率下的幅值;所述快速傅里叶变换的公式为:
其中,
N
表示做所述快速傅里叶变换的点数,即一帧信号中采样点数量;
n
表示一帧信号中的采样点;将所述幅值取平方后即可得到功率谱
p(k)
,具体为:其中,
s(k)
为所述幅值;对所述每帧信号的所述频谱做左边变换,将所述每个频率的所述幅值映射为深浅不同的颜色,随后沿时间轴一帧一帧拼接得到所述语谱图;步骤
2.2、
计算所述梅尔频谱特征,得到所述音频特征数据;梅尔频率
f
Mel
与实际频率的转换关系为:其中,
f
为所述实际频率,单位为
Hz
;所述梅尔频谱特征是通过一组梅尔滤波器对所述频谱进行平滑得到;第
m
个所述梅尔滤波器的频率响应公式为:
f(m
‑
1)、f(m)
与
f(m+1)
分别为第
m
个所述梅尔滤波器的上限频率
、
中心频率与上限频率;将所述每帧信号的所述功率谱通过每一个所述梅尔滤波器,即将相对应元素相乘后相加,得到一个系数
Mel
t
(m)
:将所述系数
Mel
t
(m)
取对数即可得到对数能量系数,也即
Fbank
特征:
FB
t
(m)
=
log(Mel
t
(m)) m
=
1,2,
…
,M t
=
1,2,
…
,
T
其中,
M
为所述梅尔滤波器的个数,
T
为所述音频数据中的语音帧数
。6.
如权利要求5所述的基于
Conformer
的说话人验证方法,其特征在于,所述步骤3包括以下子步骤:步骤
3.1、
将所述音频特征数据输入所述
Conformer
神经网络中,学习所述说话人的音频特征的所述隐变量表示;其中,所述
Conformer
神经网络包含若干
Conformer
块,所述
Conformer
技术研发人员:肖侃,李雅,褚健,杨根科,
申请(专利权)人:上海交通大学宁波人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。