基于重构群延迟-常数Q变换语谱图的声纹欺诈检测方法技术

技术编号：33852498 阅读：7 留言：0更新日期：2022-06-18 10:39

本发明专利技术公开了一种声纹欺诈检测方法，将能量谱经由Q

全部详细技术资料下载

【技术实现步骤摘要】
基于重构群延迟
‑
常数Q变换语谱图的声纹欺诈检测方法

[0001]本专利技术涉及欺诈语音检测领域，尤其涉及特征处理方面。

技术介绍

[0002]近十年来，基于生物特征进行识别的身份认证技术在日常生活中的作用越来越重要。一些常见的生物特征识别技术，比如指纹识别、人脸识别和声纹识别等，均在多种场景中得到了广泛的应用。然而，任何生物识别系统都存在一定的漏洞，入侵者可以通过模仿和篡改特征等方式对生物识别系统进行欺诈攻击，对生物识别系统的安全性产生了严重的威胁。在生物识别领域，欺诈是指在生物识别系统的传感器上呈现出一个伪造的特征，进而对该系统进行非法攻击。例如，面部识别系统可以被冒认照片欺骗，指纹识别系统可以用塑胶伪造指纹进行欺骗。同理，说话人识别系统也容易受到各种程度的欺诈攻击。
[0003]语音技术已经成为人机交互的重要媒介。例如，现代语音助手可以非常方便地控制各种家用设备和应用程序，但这些设备极易受到欺诈语音的攻击。随着语音技术使用的日益广泛，说话人识别系统的安全问题受到越来越多的关注。欺诈攻击可分为四类：模仿、录音回放、语音合成和语音转换，这四种攻击方式都会严重影响说话人识别系统的性能。
[0004]在语音回放中，语音信号的时频表示必须要有较高的分辨率才能从特定的频谱区域中更好地提取出真实语音和欺骗语音的区别信息。常数Q变换(Constant Q Transform，CQT)指中心频率按指数规律分布，滤波带宽不同、但中心频率与带宽比为常量Q的滤波器组。该方法对较低的频率给出了较高的频率

【技术保护点】

【技术特征摘要】
1.一种声纹欺诈检测方法，基于CQT修改的离散余弦变换压缩数据和基于CQT语谱图修改的群延迟信息进行检测语音欺诈攻击的方法，主要包括以下步骤：步骤1、将数据集中的每一个从音频文件中读取的语音序列进行预处理操作，使每一个语音序列的长度一致，输出长度为n的语音序列x(n)。步骤2、将步骤1中读取的语音序列x(n)作为输入，计算y(n)＝x(n)
×
(n+1),n＝0,1,...,n。步骤3、将步骤1和2中获得的序列x(n)和y(n)进行CQT变换，分别求出语谱图X和语谱图Y，然后将获得的语谱图X和语谱图Y分别提取其实部X
r
,Y
r
和虚部X
i
,Y
i
。步骤4、将步骤3中获得的语谱图X取其能量谱，进行特征重构得到新的语谱图。步骤5、将步骤3和步骤4中获得语谱图进行群延迟的计算，得到中间语谱图。步骤6、将步骤5中获得的中间语谱图进行归一化、取对数处理，得到RGD
‑
CQT语谱图。步骤7、将步骤6中获得的RGD
‑
CQT语谱图传入含有注意力机制的残差网络模型中进行训练，得到最优的网络模型。步骤8、将步骤7中获得的最优网络模型作为测试模型，将待测语音传入该模型中，进而判断该语音是否是欺诈语音。进一步地，步骤1中所述的预处理操作，是对每一个音频序列进行填充和截取；若序列长度小于规定长度则进行填充操作；若序列长度大于规定长度则进行截取操作，使这些序列的长度一致。进一步地，步骤3中获取X
r
,Y
r
,X
i
,Y
i
的计算步骤为：1)对x(n)和y(n)分别进行CQT的计算，得到两个语谱图，语谱图X和语谱图Y。2)取出语谱图X的实部X
r
和虚部X
i
，取出语谱图Y的实部Y
r
和虚部Y
i
。进一步地，步骤4中将语谱图X的能量谱进行特征重构的具体过程为：1)首先提取语谱图X的幅度谱X
mag
；2)对幅度谱中X
mag
每个元素求取平方，求出能量谱S；3)对这个能量谱S进行中值滤波，即把能量谱中每一个像素点的灰度值用该点的一个邻域中各点值的中值代替，从而消除孤立的噪声点。4)最后对能量谱S进行特征重构得到中间语谱图；其中特...

【专利技术属性】
技术研发人员：陈晨，宋耀祖，代博涵，何勇军，陈德运，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人