一种基于声场和场纹的语音欺骗攻击检测方法技术

技术编号：24414288 阅读：45 留言：0更新日期：2020-06-06 10:42

本发明专利技术公开了一种基于声场和场纹的语音欺骗攻击检测方法。通过双麦克风采集语音，提取获得双声道的语音信号，对双声道的语音信号分别进行信号处理，提取出场纹；采集并处理获得同一个人的多个语音的场纹，获得这个人的场纹分布，利用高斯混合模型进行训练；对未知发声体的待测语音重复上述步骤计算其场纹，利用训练后的高斯混合模型处理获得相似度概率，根据相似度概率判断检测是否为语音欺骗攻击。本发明专利技术能准确有效地检测出针对语音认证系统的欺骗攻击。

A detection method of speech deception attack based on sound field and field pattern

全部详细技术资料下载

【技术实现步骤摘要】
一种基于声场和场纹的语音欺骗攻击检测方法
本专利技术属于语音认证技术及安全
的发声体认证检测方法，具体是涉及了一种可检测针对语音认证系统的欺骗攻击的处理方法。
技术介绍
语音认证系统是一种通过提取说话人的语音特征并进行特征模式学习和匹配，从而对说话人身份进行鉴别的安全认证系统。由于其对硬件要求低(只需要麦克风)、成本低、个人操作简单方便、可进行远距离非接触式认证的特点，已经逐渐成为一种主流的个人认证和访问控制方式，在智能手机、智能音箱、智能家居等设备上得到了广泛的应用。然而，现有的语音认证系统普遍容易遭受语音欺骗攻击。语音欺骗攻击指通过伪造与目标个人声音相似的语音来欺骗语音认证系统，从而冒充目标个人骗取访问权限的攻击手段。常见的语音欺骗攻击方式包括重放攻击、语音合成攻击、语音转换攻击。在重放攻击中，攻击者通过重新播放事先录制的目标个人真实语音来欺骗语音认证系统；在语音合成攻击中，攻击者利用人工智能或语音拼接等方式根据需要的语音内容合成虚假的目标个人声音；在语音转换攻击中，攻击者将其他人的语音转换为目标个人的声音。随着语音技术和电子设备的发展，语音欺骗攻击的门槛越来越低、效果越来越好、危害越来越大。因此，在这种情况下，亟需提出一种高效、低成本的语音欺骗攻击检测方法。虽然语音欺骗攻击可以采用多种虚假语音信号的产生方式，但在实际的攻击过程中，攻击者需要利用扬声器(音箱)将虚假的语音信号变成在空气中传播的声音，播放给要攻击的语音认证系统。因此，对语音认证系统的防护可以从识别声音来源(发声体)出发，实现对...

【技术保护点】
1.一种基于声场和场纹的语音欺骗攻击检测方法，其特征在于：方法过程如下：/n在训练阶段：/n1)通过双麦克风采集语音，提取获得双声道的语音信号，对双声道的语音信号分别进行信号处理，提取出场纹；/n2)重复步骤1)采集并处理获得同一个人的多个语音的场纹，获得这个人的场纹分布，利用高斯混合模型进行训练；/n在语音认证阶段：/n3)对未知发声体的待测语音重复上述步骤1)计算其场纹，利用训练后的高斯混合模型处理获得相似度概率，根据相似度概率判断检测是否为语音欺骗攻击。/n

【技术特征摘要】
1.一种基于声场和场纹的语音欺骗攻击检测方法，其特征在于：方法过程如下：
在训练阶段：
1)通过双麦克风采集语音，提取获得双声道的语音信号，对双声道的语音信号分别进行信号处理，提取出场纹；
2)重复步骤1)采集并处理获得同一个人的多个语音的场纹，获得这个人的场纹分布，利用高斯混合模型进行训练；
在语音认证阶段：
3)对未知发声体的待测语音重复上述步骤1)计算其场纹，利用训练后的高斯混合模型处理获得相似度概率，根据相似度概率判断检测是否为语音欺骗攻击。

2.根据权利要求1所述的一种基于声场和场纹的语音欺骗攻击检测方法，其特征在于：所述步骤1)具体如下：
1)通过双麦克风采集语音，然后进行以下信号处理：
1.1)信号预处理：对双麦克风采集到的原始语音信号进行语音活动检测，去除语音信号中的非人声部分；
1.1.1)对语音中的双声道计算均方根，选取平均能量更高的声道作为主声道，另一声道作为次声道；
1.1.2)对于主声道的语音信号，包含N个采样点，预先设定幅度阈值Ta＝α|Amax|，其中|Amax|为N个采样点中最高的幅度绝对值，α表示比例参数；提取幅度绝对值高于幅度阈值Ta的采样点序号，记为[s1，...，sn]，然后计算[s1，...，sn]每相邻两个采样点序号之间的采样点差值，获得采样点差值序列[s2-s1，...，sn-sn-1]；
1.1.3)寻找定位人声部分的开始点：对于采样点差值序列，判断相邻两个采样点差值是否满足开始条件，即每个采样点si是否满足si-si-1＞Tb，si+1-si＜Tb，Tb为间隙序数阈值，若满足，则该采样点si作为开始点，由此实施获得开始点序列[st1，...，stm]，st1表示第一个开始点；
1.1.4)寻找定位人声部分的结束点：
对于采样点差值序列，判断相邻两个采样点差值是否满足结束条件，即每个采样点si是否满足si-si-1＜Tb，si+1-si＞Tb，Tb为间隙序数阈值，若满足，则该采样点si作为结束点，由此实施获得结束点序列[en1，...，enm]，en1表示第一个结束点；
1.1.5)根据开始点和结束点提取作为语音中的一段人声部分，并计算每一段的长度，即[en1-st1，...，enm-stm]，并将长度小于声长阈值Tc的人声部分去除；
1.1.6)根据去除后剩余的开始点和结束点确定的人声部...

【专利技术属性】
技术研发人员：徐文渊，闫琛，冀晓宇，龙颜，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人