一种基于密集神经网络的欺骗语音检测方法技术

技术编号:21143752 阅读:15 留言:0更新日期:2019-05-18 05:56
本发明专利技术公开了一种基于密集神经网络的欺骗语音检测方法,具体涉及信息安全技术领域,具体包括如下检测步骤:步骤一:VT欺骗语音转换模型的构建:通过利用STFT来打破传统的时间和频率特性之间的联系,并保持节奏不变;构建卷积神经网络,使前一层网络的输出是传送到下一层作为输入,经过非线性操作输出。本发明专利技术通过建立密集卷积网络,保证了层间最大的信息流,增强了特征传播,而密集连接具有正则化效果,减少了对训练集较小的任务的过拟合,且密集卷积网络可以使网络层变窄,显著减少参数数量,减轻退化问题,支持有限神经元的重用,同时不需要重新学习冗余的特征图,便于训练。

【技术实现步骤摘要】
一种基于密集神经网络的欺骗语音检测方法
本专利技术涉及信息安全
,更具体地说,本专利技术涉及一种基于密集神经网络的欺骗语音检测方法。
技术介绍
当今社会,言语欺骗现象十分普遍,对社会保障提出了极大的挑战。从一个真实的语音中识别出一个被伪装过的语言是非常重要的。目前大多数的研究都集中在语音转换(VC),语音合成和重播攻击上,然而,语音欺骗中还存在着另一种欺骗方式,是把说话人A的声音变成某一不同的声音(不需要有目标说话人),令识别系统无法判断该语音为A所说,这种变换称为VT(VoiceTransformation,语音变形)。人们对它的注意却少得多。专利申请公布号CN106875007A的专利技术专利公开了一种用于语言欺骗检测的基于卷积长短期记忆端对端深度神经网络,采用的卷积长时深度神经网络能够直接优化特征提取和分类根据当前任务,因此给定的输入可表示得更有鲁棒性和有效,从而使检测结果得到全面提高;通过结合分类器训练直接评估合适的特征,使得模型能够适应任何的相关任务;由于去除了前端程序,使得本专利技术模型大大简化了流水线,尤其是API调用:通过在单个模型内联合分类与最优化,使得本专利技术无需为单独的分类器和特征提取方法调用多参数。但是其在实际使用时,仍旧存在较多缺点,如随着层数的增加,会发生退化,并且此种连接方式导致许多网络层贡献很小,但是占用了大量的计算。
技术实现思路
为了克服现有技术的上述缺陷,本专利技术的实施例提供一种基于密集神经网络的欺骗语音检测方法,通过建立密集卷积网络,保证了层间最大的信息流,增强了特征传播,而密集连接具有正则化效果,减少了对训练集较小的任务的过拟合,且密集卷积网络可以使网络层变窄,显著减少参数数量,减轻退化问题,支持有限神经元的重用,同时不需要重新学习冗余的特征图,便于训练,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于密集神经网络的欺骗语音检测方法,具体包括如下检测步骤:步骤一:VT欺骗语音转换模型的构建:通过利用STFT来打破传统的时间和频率特性之间的联系,并保持节奏不变,其中,VT欺骗可描述如下:假设xt(n))是输入语音信号在t时刻的长度为n的帧,首先,xt(n)的FFT系数由公式(1)给出:其中w(n)表示汉明或汉宁窗口,k表示频率本指数,然后,瞬时量|F(k)|和瞬时频率ω(k)的计算分别在公式(2)和公式(3):Δ表示kth本频率的偏差,Fs表示采样频率,对于VT欺骗,瞬时频率ω(k)由公式(4)修改,α表示比例因子,即欺骗因子,ω′(k*α)=ω(k)*α0≤k<N/20≤k*α<N/2(4)线性插值通常用于修改瞬时级,见公式(5),其中0≤k,k'<N/2,k=k'/α以及μ=k'/α-k,|F(k′)|=μ|F(k)+(1-μ)|F(k+1)|(5)改变瞬时量模值的另一种方法是能量保护修正,如公式(6)所示,使用k指数的修改后的瞬时频率ω'和瞬时级F'然后通过瞬时频率ω'(k)计算瞬时相位φ'(k),进而通过公式(7)得到转换后的FFT系数,F(k)=|F(k)|ejφ(k)(7)最后,对F'(k)进行反FFT,得到了VT欺骗信号,从公式4和公式5可以看出,VT欺骗干扰改变了频谱幅值,使得隐式特征可能被引入到欺骗语音信号中,可通过使用语音的谱图作为深度神经网络的输入,提取深度特征进行分类,并通过短时傅立叶变换(STFT)得到了一个输入语音信号的谱图,公式(8)给出,其中窗口大小为175,重叠部分为50%,在语音学里,VT欺骗干扰是由12个半音导致的欺骗因子α来测量的,如公式(9)所示,α(s)=2s/12(9)s可以取[-12,+12]范围内的任何整数值,修改过弱或过强都会导致欺骗失败或者听起来不自然,因此,在实验中,我们选择了[-8,-4]和[+4,+8]之间具有最强欺骗能力的中间区间来进行实验;步骤二:构建卷积神经网络,使前一层网络的输出是传送到下一层作为输入,经过非线性操作输出其中,可表示如下:随着层数的增加,会发生退化,而残差网络,高速公路网络和分形网络都创建了从早期网络到后层的短路径Xl-n,对退化现象有了很好的抑制作用,如公式(11)所示步骤三:性能测量:通过实验语料库来测试VT欺骗的检测精度,其中,检测可描述如下:d=(Gd+Sd)/(G+S)其中G和S分别为测试集中真实和欺骗片段的数量,Gd和Sd分别为从G中正确检测到的真实片段和从S中正确检测到的欺骗片段的数量。在一个优选地实施方式中,所述步骤二中还包括一种改进结构的密集卷积网络,在密集卷积网络中,任何层都直接连接到所有后续层,具体表示如下,其中X0,X1,表示l层前面所有层的输出,[...]表示连续操作,此外,每个层的输出维度都有k个特征映射,其中k通常设置为一个较小的值。在一个优选地实施方式中,所述密集卷积网络输入是一些单通道的通过STFT获得的谱图,大小都设置为90×88,且网络由一个初始化层,三个密集模块,两个转换层,一个全局池化层和一个线性层组成,三个密集摸块分别由6层、12层和48层瓶颈层组成,线性层是一个完整的连接层,后面是一个softmax,其有两个输出,分别表示“真实”和“欺骗”的概率,每个卷积瓶颈层包含2层,这样整个密集卷积网络包含2×(6+12+48)+1+1+1=135卷积层。在一个优选地实施方式中,所述瓶颈层包含一个卷积1×1层,紧随其后的是一个3×3两个3×3层代替卷积卷积层,过渡层连接两个相邻的denseblocks以进一步减少功能地图的大小。在一个优选地实施方式中,所述步骤三中的实验语料库包括有Timit、NIST和UME,其均为WAV格式,8千赫采样率,16位量化和单声道的。在一个优选地实施方式中,所述Timit、NIST和UME均包括训练集和测试集,其中,训练集分别为Timit-1,NIST-1,UME-1,而测试集分别为Timit-2,NIST-2,UME-2。本专利技术的技术效果和优点:本专利技术通过建立密集卷积网络,保证了层间最大的信息流,增强了特征传播,而密集连接具有正则化效果,减少了对训练集较小的任务的过拟合,且密集卷积网络可以使网络层变窄,显著减少参数数量,减轻退化问题,支持有限神经元的重用,同时不需要重新学习冗余的特征图,便于训练,使得本专利技术不需要像传统的机器学习方法一样需要人工选取特定的一个或多个特征,然后再用分类器进行分类,而是利用提出的密集神经网络,能够自发地提取相关的特征包括一些浅层边缘的特征和深层的特征然后进而分类,简化了整个流程并达到了更好的效果。附图说明图1为本专利技术的语音检测流程图;图2为本专利技术的密集神经网络结构图;图3为本专利技术的密集神经网络内部结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1本专利技术提供了如图1-3所示的一种基于密集神经网络的欺骗语音检测方法,具体包括如下检测步骤:步骤一:VT欺骗语音转换模型的构建:通过利用STFT来打破传统的时间和频率特性之间的联系,并保本文档来自技高网
...

【技术保护点】
1.一种基于密集神经网络的欺骗语音检测方法,其特征在于:具体包括如下检测步骤:步骤一:VT欺骗语音转换模型的构建:通过利用STFT来打破传统的时间和频率特性之间的联系,并保持节奏不变,其中,VT欺骗可描述如下:假设xt(n))是输入语音信号在t时刻的长度为n的帧,首先,xt(n)的FFT系数由公式(1)给出:

【技术特征摘要】
1.一种基于密集神经网络的欺骗语音检测方法,其特征在于:具体包括如下检测步骤:步骤一:VT欺骗语音转换模型的构建:通过利用STFT来打破传统的时间和频率特性之间的联系,并保持节奏不变,其中,VT欺骗可描述如下:假设xt(n))是输入语音信号在t时刻的长度为n的帧,首先,xt(n)的FFT系数由公式(1)给出:其中w(n)表示汉明或汉宁窗口,k表示频率本指数,然后,瞬时量|F(k)|和瞬时频率ω(k)的计算分别在公式(2)和公式(3):Δ表示kth本频率的偏差,Fs表示采样频率,对于VT欺骗,瞬时频率ω(k)由公式(4)修改,α表示比例因子,即欺骗因子,ω′(k*α)=ω(k)*α0≤k<N/20≤k*α<N/2(4)线性插值通常用于修改瞬时级,见公式(5),其中0≤k,k'<N/2,k=k'/α以及μ=k'/α-k,|F(k′)|=μ|F(k)|+(1-μ)|F(k+1)|(5)改变瞬时量模值的另一种方法是能量保护修正,如公式(6)所示,使用k指数的修改后的瞬时频率ω'和瞬时级F'然后通过瞬时频率ω'(k)计算瞬时相位φ'(k),进而通过公式(7)得到转换后的FFT系数,F(k)=|F(k)|ejφ(k)(7)最后,对F'(k)进行反FFT,得到了VT欺骗信号,从公式4和公式5可以看出,VT欺骗干扰改变了频谱幅值,使得隐式特征可能被引入到欺骗语音信号中,可通过使用语音的谱图作为深度神经网络的输入,提取深度特征进行分类,并通过短时傅立叶变换(STFT)得到了一个输入语音信号的谱图,公式(8)给出,其中窗口大小为175,重叠部分为50%,在语音学里,VT欺骗干扰是由12个半音导致的欺骗因子α来测量的,如公式(9)所示,α(s)=2s/12(9)s可以取[-12,+12]范围内的任何整数值,修改过弱或过强都会导致欺骗失败或者听起来不自然,因此,在实验中,我们选择了[-8,-4]和[+4,+8]之间具有最强欺骗能力的中间区间来进行实验;步骤二:构建卷积神经网络,使前一层网络的输出Xl-1是传送到下一层作为输入,经过非线性操作Hl输出Xl,其中,Xl可表示如下:Xl=Hl(Xl-1)(10)随着层数的增加,会发生退化,而残差网络,高速公路网络和分形网络都创建了...

【专利技术属性】
技术研发人员:王泳苏卓艺
申请(专利权)人:广东技术师范学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1