System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于注意力和SE-Inc的双分支合成语音检测模型制造技术_技高网
当前位置: 首页 > 专利查询>大连大学专利>正文

基于注意力和SE-Inc的双分支合成语音检测模型制造技术

技术编号:40142634 阅读:15 留言:0更新日期:2024-01-23 23:51
本发明专利技术公开了基于注意力和SE‑Inc的双分支合成语音检测模型,其是一个具有综合考虑双分支模块优势的、具有高检测性能的合成语音检测模型。该模型选择原始语音波形作为输入,并使用SincNet作为特征提取网络,获得的初始语音特征图作为注意力分支模块的输入进行注意力分支模块的训练,同时通过注意力机制对输入特征进行动态加权,获得注意力图。将注意力图和特征提取网络所提取到的初始语音特征图融合,作为SE‑Inc分支的输入进行该分支的模块训练。最后对注意力分支和SE‑Inc分支的检测结果进行决策级加权融合,以获得一个更加准确的检测结果。

【技术实现步骤摘要】

本专利技术涉及卫星网络安全路由,具体涉及基于注意力和se-inc的双分支合成语音检测模型。


技术介绍

1、自动说话人验证系统asv已经被广泛应用于银行、智能家居等身份识别任务中。但是,不法分子会通过语音合成、语音转换以及重放等技术对asv系统进行攻击。其中,使用语音合成或语音转换技术对asv系统进行的攻击统称为合成语音攻击。这些攻击给的生产生活造成了巨大的威胁。因此,构建一个高准确性和低误报率的合成语音检测模型是非常重要的。

2、现有的合成语音检测模型主要分为特征提取模型和分类模型。对于特征提取模型,一些在语音处理任务中常用的特征被用于合成语音检测。但这些常用特征并非是合成语音检测的专有特征,可能出现不适合当前任务的情况。随着深度学习的发展,一些研究人员使用深度神经网络直接从原始语音波形中学习适合当前任务的特征来克服这一问题。但是,直接使用普通卷积从原始语音波形中提取特征会出现特征提取能力不足的问题。现有的分类模型中,多使用resnet、lcnn、capsnet等较深的网络用于合成语音检测任务,但是过深的网络更倾向于提取语义信息,而对于合成语音检测任务,更应该关注伪造过程中留下的伪影。inception网络则是通过并行卷积来获得浅层的多尺度特征。但是,这种并行卷积模型在获得较多特征的同时也会导致较多的信息冗余,进而影响合成语音检测的性能。另外,单一的检测模型也无法充分对多检测模型的优势进行利用。现有技术通常从以下两个方面对合成语音检测模型进行改进:

3、(1)基于深度神经网络的后端分类网络。现有的后端分类网络,通常使用较深或较宽的网络来从特征中提取信息,来用于合成语音检测。例如,在inc-tssdnet中,使用inception风格网络进行合成语音检测。但是对于合成语音检测任务来说,重要的信息是伪造过程中在浅层留下的伪影。而过宽的后端分类网络容易造成过多的信息冗余。

4、(2)基于单分支模型的合成语音检测。现有的合成语音检测模型,多是基于单个模型,使用单个模型的分类结果来确定最终的分类。例如,在rawnet2中,使用sincnet处理原始语音波形并通过单个模型进行分类。其往往只考虑一个分类网络的检测结果,而没有综合利用多个网络的优势,导致分类结果不够全面。


技术实现思路

1、本专利技术的目的在于,提出基于注意力和se-inc的双分支合成语音检测模型,其增强多尺度特征融合过程中的交互能力,从而提高模型的检测能力;对初步特征进行动态加权以关注重要的信息,使用决策级融合综合考虑两个分支的优势。

2、为实现上述目的,本申请提出的基于注意力和se-inc的双分支合成语音检测模型,包括:

3、特征提取模块,该模块使用sincnet网络处理原始语音波形得到初始语音特征图;

4、注意力分支模块,该模块使用注意力机制对初始语音特征图进行动态加权获得注意力图及该分支的分类结果;

5、se-inc分支模块,该模块对注意力图和初始语音特征图进行特征融合处理后获得该分支的分类结果;在特征融合过程中,先将注意力图与初始语音特征图相乘以获得加权后的特征,加权后的特征与初始语音特征图进行相加,获得融合特征图。

6、进一步地,双分支合成语音检测模型分为训练阶段和检测阶段,在训练阶段,注意力分支模块和se-inc分支模块的分类结果共同用于损失函数优化,通过反向传播对模型进行整体优化和更新;在测试阶段,采用决策级加权融合,对注意力分支模块和se-inc分支模块的分类结果进行加权融合,以获得一个综合考虑两个分支优势的分类结果,从而提高模型检测性能。

7、进一步地,考虑到在合成语音检测任务中,真实语音的数量要远小于合成语音的数量,因此,使用加权交叉熵损失(weighted cross-entropy,wce)对双分支合成语音检测模型进行训练,以解决数据不平衡的问题;设带标签的数据集为{xi,yi},其中使得其标签yi∈{0,1},它的wce损失获得方式为:

8、

9、其中z=[z0,z1]代表真假两类的softmax概率,wyi是标签yi在训练集中的反比;

10、考虑到两个分支损失函数的量纲一致,并且数值相近,所述双分支合成语音检测模型的总损失函数为:

11、losstotal=lossib+lossab (3)

12、其中,lossib为se-inc分支模块的损失值,lossab为注意力分支模块的损失值。

13、进一步地,在双分支合成语音检测模型中,每个分支都会生成分类结果。通过加权和操作,将两个分支的分类按照一定权重进行加权求和,从而得到一个综合的预测得分。这样可以综合利用两个分支的分类结果,从而提高最终得分的准确性和可靠性。所述决策级加权融合方式为:

14、s=wab*sab+wib*sib (4)

15、其中sab为注意力分支模块的分类结果,sib为se-inc分支模块的分类结果,wab是注意力分支所占的权重,wib是se-inc分支所占的权重,其中wab+wib=1。

16、进一步地,sincnet网络将sinc滤波器组作为第一层,所述sinc滤波器组通过卷积直接处理原始语音波形;每个滤波器的脉冲响应如下式所示:

17、g[n,f1,f2]=2f2sinc(2πf2n)-2f1sinc(2πf1n) (5)

18、其中,sinc(x)=sin(x)/x,f1是最低截止频率,f2是最高截止频率。

19、更进一步地,sincnet网络中对梅尔尺度滤波器组的最低截止频率、最高截止频率进行初始化;额外增加一个通道维度,将sinc滤波器的输出转换为时频表示后送到一个二维残差网络得到初始语音特征图;其中二维残差网络包括selu激活函数、批归一化、二维卷积和用于下采样的最大池化层。

20、更进一步地,所述注意力分支模块先通过3*3卷积、bn和relu提取浅层特征;然后通过四个basic块进一步提取特征;所述basic块包括两组3*3卷积、bn和relu;接着通过双分支结构,分别得到注意力图和分类结果。

21、更进一步地,所述双分支结构包括注意力图提取分支和分类分支;所述注意力图提取分支先通过一个1×1的卷积层对输入特征进行卷积操作;然后通过sigmoid函数进行归一化,将值转换到0-1范围内,得到注意力图;所述分类分支,通过全局平均池化层将真实语音类和虚假语音类特征映射转换为2×1张量,并且通过softmax函数得到每个类别的概率。

22、作为更进一步地,所述se-inc分支模块先采用7*7的卷积层对输入特征进行卷积操作,然后通过n组并行卷积块提取到更多特征,所述n组并行卷积块包含不同膨胀因子的膨胀卷积;最后,通过softmax获得分类结果。

23、作为更进一步地,每个并行卷积块中加入se模块,所述se模块引入了通道注意力机制,通过一个squeeze操作和一个exci本文档来自技高网...

【技术保护点】

1.基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,包括:

2.根据权利要求1所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,双分支合成语音检测模型分为训练阶段和检测阶段,在训练阶段,注意力分支模块和SE-Inc分支模块的分类结果共同用于损失函数优化,通过反向传播对模型进行整体优化和更新;在测试阶段,采用决策级加权融合,对注意力分支模块和SE-Inc分支模块的分类结果进行加权融合。

3.根据权利要求2所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,使用加权交叉熵损失对双分支合成语音检测模型进行训练,具体为:

4.根据权利要求2所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,所述决策级加权融合方式为:

5.根据权利要求1所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,SincNet网络将Sinc滤波器组作为第一层,所述Sinc滤波器组通过卷积直接处理原始语音波形;每个滤波器的脉冲响应如下式所示:

6.根据权利要求5所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,SincNet网络中对梅尔尺度滤波器组的最低截止频率、最高截止频率进行初始化;额外增加一个通道维度,将Sinc滤波器的输出转换为时频表示后送到一个二维残差网络得到初始语音特征图;其中二维残差网络包括SeLU激活函数、批归一化、二维卷积和用于下采样的最大池化层。

7.根据权利要求1所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,所述注意力分支模块先通过3*3卷积、BN和ReLU提取浅层特征;然后通过四个Basic块进一步提取特征;所述Basic块包括两组3*3卷积、BN和ReLU;接着通过双分支结构,分别得到注意力图和分类结果。

8.根据权利要求7所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,所述双分支结构包括注意力图提取分支和分类分支;所述注意力图提取分支先通过一个1×1的卷积层对输入特征进行卷积操作;然后通过Sigmoid函数进行归一化,将值转换到0-1范围内,得到注意力图;所述分类分支,通过全局平均池化层将真实语音类和虚假语音类特征映射转换为2×1张量,并且通过softmax函数得到每个类别的概率。

9.根据权利要求1所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,所述SE-Inc分支模块先采用7*7的卷积层对输入特征进行卷积操作,然后通过n组并行卷积块提取到更多特征,所述n组并行卷积块包含不同膨胀因子的膨胀卷积;最后,通过softmax获得分类结果。

10.根据权利要求9所述基于注意力和SE-Inc的双分支合成语音检测模型,其特征在于,每个并行卷积块中加入SE模块,所述SE模块引入了通道注意力机制,通过一个Squeeze操作和一个Excitation操作来建模通道之间的依赖关系得到权重向量。

...

【技术特征摘要】

1.基于注意力和se-inc的双分支合成语音检测模型,其特征在于,包括:

2.根据权利要求1所述基于注意力和se-inc的双分支合成语音检测模型,其特征在于,双分支合成语音检测模型分为训练阶段和检测阶段,在训练阶段,注意力分支模块和se-inc分支模块的分类结果共同用于损失函数优化,通过反向传播对模型进行整体优化和更新;在测试阶段,采用决策级加权融合,对注意力分支模块和se-inc分支模块的分类结果进行加权融合。

3.根据权利要求2所述基于注意力和se-inc的双分支合成语音检测模型,其特征在于,使用加权交叉熵损失对双分支合成语音检测模型进行训练,具体为:

4.根据权利要求2所述基于注意力和se-inc的双分支合成语音检测模型,其特征在于,所述决策级加权融合方式为:

5.根据权利要求1所述基于注意力和se-inc的双分支合成语音检测模型,其特征在于,sincnet网络将sinc滤波器组作为第一层,所述sinc滤波器组通过卷积直接处理原始语音波形;每个滤波器的脉冲响应如下式所示:

6.根据权利要求5所述基于注意力和se-inc的双分支合成语音检测模型,其特征在于,sincnet网络中对梅尔尺度滤波器组的最低截止频率、最高截止频率进行初始化;额外增加一个通道维度,将sinc滤波器的输出转换为时频表示后送到一个二维残差网络得到初始语音特征图;其中二维残差网络包括selu激活函数、批归一化、二维卷积和用于下采...

【专利技术属性】
技术研发人员:张强赵腊生王晗
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1