一种基于多路径网络的说话人确认欺骗检测方法技术

技术编号:35825204 阅读:18 留言:0更新日期:2022-12-03 13:52
本申请提供一种基于多路径网络的说话人确认欺骗检测方法,包括:获取说话人真实语音数据和欺骗语音数据;采用编解码器对所获取的语音进行数据增强,提取所有语音数据的线性频率倒谱系数特征;将编解码方式不同的语音视为来自不同的域,用高斯混合模型提取各域语音的高斯概率特征;构建多路径神经网络,每个域的高斯概率特征分别作为一个神经网络路径的输入;对所述多路径网络进行训练;获取新的说话人语音,对新的语音进行欺骗检测。本发明专利技术用高斯混合模型提取各域语音的高斯概率特征,使用多路径网络模型判断语音是真实语音还是欺骗语音,提高了语音欺骗检测系统的泛化性。提高了语音欺骗检测系统的泛化性。提高了语音欺骗检测系统的泛化性。

【技术实现步骤摘要】
一种基于多路径网络的说话人确认欺骗检测方法


[0001]本申请属于说话人确认语音欺骗检测
,具体涉及一种基于多路径网络的说话人确认欺骗检测方法。

技术介绍

[0002]自动说话人确认(Automatic Speaker Verification,ASV)系统在安防系统、金融交易、智能设备等邻域被广泛使用,保护ASV系统免受欺骗攻击是是至关重要的。目前的欺骗攻击包括重放语音、语音转换、语音合成对ASV系统构成重大威胁。因此,欺骗语音检测研究对提高自动说话人确认系统的安全性具有重大意义。
[0003]针对在实际情况中,欺骗语音呈现攻击类别多样、传输途径繁多、编解码类型众多的问题,我们应该提出对编解码器和传输信道可变性具有鲁棒性的欺骗对策,从而提高语音欺骗检测系统的泛化性。

技术实现思路

[0004]本申请提出了一种基于多路径网络的说话人确认欺骗检测方法,该方法采用三个GMM提取来自不同域的语音数据的概率特征,并使用多个网络路径来获取高层次特征表示,从而提高欺骗语音检测系统性能。
[0005]为实现上述目的,本申请提供了如下方案:
[0006]一种基于多路径网络的说话人确认欺骗检测方法,包括以下步骤:
[0007]S1、获取说话人真实语音数据及欺骗语音数据作为原始语音数据,并对所述原始语音数据分别进行PCM

alaw编解码和PCM

mulaw编解码,得到PCM

alaw编解码语音数据和PCM

>mulaw编解码语音数据;
[0008]S2、分别计算所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据的线性频率倒谱系数特征;
[0009]S3、将所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据视为来自不同域的语音数据,采用单独的高斯混合模型对所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据的线性频率倒谱系数特征分别进行建模,并分别在所述不同域的语音数据上进行训练,得到针对不同域的高斯混合模型,包括原始语音高斯混合模型、PCM

alaw语音高斯混合模型和PCM

mulaw语音高斯混合模型;
[0010]S4、将所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据的线性频率倒谱系数特征同时作为原始语音高斯混合模型、PCM

alaw语音高斯混合模型和PCM

mulaw语音高斯混合模型的输入,分别计算得到基于原始语音高斯混合模型、PCM

alaw语音高斯混合模型、PCM

mulaw语音高斯混合模型的概率特征;
[0011]S5、构建多路径GMM

MobileNet网络,将基于所述原始语音高斯混合模型、PCM

alaw语音高斯混合模型、PCM

mulaw语音高斯混合模型的概率特征分别作为各自MobileNet网络路径的输入,对所述多路径GMM

MobileNet网络进行训练,训练好的多路径GMM

MobileNet网络模型用于对新的语音数据进行欺骗检测。
[0012]优选的,所述S2包括:
[0013]S2.1、分别对所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据进行语音信号预加重;
[0014]S2.2、将所述预加重后的语音数据分成若干短时语音帧;
[0015]S2.3、采用汉明窗函数对每帧语音数据进行加窗处理,得到短时加窗的语音信号;
[0016]S2.4、将所述短时加窗的语音信号进行傅里叶变换得到频域信号,并计算频域信号的能量谱;
[0017]S2.5、采用三角滤波器对所述能量谱进行滤波,并对滤波后的输出进行离散余弦变换,得到初始线性频率倒谱系数特征;
[0018]S2.6、提取所述初始线性频率倒谱系数特征的动态差分参数,并与初始线性频率倒谱系数特征进行合并,得到最终的线性频率倒谱系数特征。
[0019]优选的,所述S2.2中,采用重叠取帧的方式进行语音分帧。
[0020]优选的,所述原始语音高斯混合模型、PCM

alaw语音高斯混合模型、PCM

mulaw语音高斯混合模型都采用期望最大方法进行训练。
[0021]优选的,所述S4包括:
[0022]S4.1、计算所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据的线性频率倒谱系数特征x
i
的高斯概率特征f
i
={f
ij
,j=1

256},其中每个分量f
ij
计算公式为:
[0023]f
ij
=log(w
j
·
p
j
(x
i
))
[0024]其中:w
j
为高斯混合模型的第j个分量权重,p
j
为特征在高斯混合模型第j个分量上的概率密度值;
[0025]S4.2、对f
i
进行全局的均值方差归一化:
[0026][0027]其中:μ
f
和σ
f
是所有所述基于原始语音高斯混合模型、PCM

alaw语音高斯混合模型、PCM

mulaw语音高斯混合模型的概率特征的均值与方差,f'
i
为最终的高斯概率特征。
[0028]优选的,所述S5包括:
[0029]S5.1、构建三个MobileNet网络路径,将基于所述原始语音高斯混合模型、PCM

alaw语音高斯混合模型、PCM

mulaw语音高斯混合模型的概率特征分别作为各自MobileNet网络路径的输入;
[0030]S5.2、三个MobileNet网络路径将三组概率特征分别映射成三组二维向量;
[0031]S5.3、采用自适应平均池化层对所述二维向量分别进行池化运算,得到固定大小的三组一维向量;
[0032]S5.4、将所述固定大小的三组一维向量串接成一组一维向量,并输入到全连接层中进行分类,输出分类得分;
[0033]S5.5、根据所述分类得分判断语音是正常语音还是欺骗语音。
...

【技术保护点】

【技术特征摘要】
1.一种基于多路径网络的说话人确认欺骗检测方法,其特征在于,包括以下步骤:S1、获取说话人真实语音数据及欺骗语音数据作为原始语音数据,并对所述原始语音数据分别进行PCM

alaw编解码和PCM

mulaw编解码,得到PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据;S2、分别计算所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据的线性频率倒谱系数特征;S3、将所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据视为来自不同域的语音数据,采用单独的高斯混合模型对所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据的线性频率倒谱系数特征分别进行建模,并分别在所述不同域的语音数据上进行训练,得到针对不同域的高斯混合模型,包括原始语音高斯混合模型、PCM

alaw语音高斯混合模型和PCM

mulaw语音高斯混合模型;S4、将所述原始语音数据、所述PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据的线性频率倒谱系数特征同时作为原始语音高斯混合模型、PCM

alaw语音高斯混合模型和PCM

mulaw语音高斯混合模型的输入,分别计算得到基于原始语音高斯混合模型、PCM

alaw语音高斯混合模型、PCM

mulaw语音高斯混合模型的概率特征;S5、构建多路径GMM

MobileNet网络,将基于所述原始语音高斯混合模型、PCM

alaw语音高斯混合模型、PCM

mulaw语音高斯混合模型的概率特征分别作为各自MobileNet网络路径的输入,对所述多路径GMM

MobileNet网络进行训练,训练好的多路径GMM

MobileNet网络模型用于对新的语音数据进行欺骗检测。2.根据权利要求1所述的一种基于多路径网络的说话人确认欺骗检测方法,其特征在于,所述S2包括:S2.1、分别对所述原始语音数据、PCM

alaw编解码语音数据和PCM

mulaw编解码语音数据进行语音信号预加重;S2.2、将所述预加重后的语音数据分成若干短时语音帧;S2.3、采用汉明窗函数对每帧语音数据进行加窗处理,得到短时加窗的语音信号;S2.4、将所述短时加窗的语音信号进行傅里叶变换得到频域信号,并计算频域信号的能量谱;S2.5、采用三角滤波器对所述能量谱进行滤波,并对滤波后的输出进行离散余弦变换,得到初始线性频率倒谱系数特征;S2.6、提取所述初始线性频率倒谱系数特征的动态差分参数,并与初始线性频率倒谱系数特征进行合并,得到最终的所述线性频率倒谱系数特征。3.根据权利要求2所述的一种...

【专利技术属性】
技术研发人员:雷震春周勇
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1