欺骗检测装置、欺骗检测方法和计算机可读存储介质制造方法及图纸

技术编号:32261986 阅读:20 留言:0更新日期:2022-02-12 19:22
一种欺骗检测装置(100),其包括多通道频谱图创建单元(10)和评估单元(40)。多通道频谱图创建单元(10)从语音数据提取不同类型的频谱图并整合不同类型的频谱图以创建多通道频谱图。评估单元(40)通过将创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估创建的多通道频谱图,并将其分类为真实的或欺骗的。将其分类为真实的或欺骗的。将其分类为真实的或欺骗的。

【技术实现步骤摘要】
【国外来华专利技术】欺骗检测装置、欺骗检测方法和计算机可读存储介质


[0001]本专利技术涉及一种从语音中检测欺骗的装置和方法,以及存储用于实现这些的程序的计算机可读存储介质。

技术介绍

[0002]说话人识别是指从其声音识别人。自动说话人识别(ASV)为个人身份验证提供了灵活的生物识别解决方案。它已经越来越多地应用于取证、基于电话的服务,诸如电话银行、呼叫中心以及许多大众市场的消费产品。
[0003]但是,ASV技术的适用性取决于对故意规避(称为欺骗)的弹性。与任何其他生物识别技术一样,ASV容易受到欺骗。已确认的针对ASV的欺骗攻击包括模拟、重放、文本到语音的语音合成和声音转换(例如,NPL 1)。欺诈者可以使用欺骗攻击来渗透使用生物识别技术保护的系统或服务。
[0004]因此,需要使用反欺骗技术来确保ASV在生物特征认证中的实用性。具有高斯混合模型(GMM)的恒定Q倒谱系数(CQCC:Constant Q Cepstral coefficient)特征是ASV中欺骗检测的标准系统。最近,通过直接使用常数Q变换(CQT)频谱图(从中提取CQCC特征)以及深度神经网络(DNN)(尤其是卷积神经网络(CNN)),已经实现了更高的精度。
[0005][引用列表][0006][非专利文献][0007][NPL 1][0008]Galina Lavrentyeva,et al.“Audio replay attack detection with deep learning frameworks”,INTERSPEECH 2017,August 20

24,2017(加林娜Lavrentyeva等。“使用深度学习框架进行音频重放攻击检测”,INTERSPEECH 2017,2017年8月20

24日)。

技术实现思路

[0009][技术问题][0010]CQT将时域信号x(n)变换到时频域,以便频率区间的中心频率在几何上间隔开并且品质因数Q(即每个窗口的中心频率与带宽之比)保持恒定。因此,CQT对低频具有更好的频率分辨率,对高频具有更好的时间分辨率。CQT反映了人类听觉系统的分辨率,且被认为在欺骗检测中工作良好。
[0011]但是,其高分辨率设置或低分辨率设置有时会导致误识别,尤其是在评估中的条件与训练数据不同的情况下。
[0012]本专利技术的目的的一个示例是解决上述问题,并提供欺骗检测装置、欺骗检测方法和计算机可读记录介质,其能够通过在说话者欺骗检测中使用从语音获得的多个频谱图来抑制误识别。
[0013][对于问题的解决方案][0014]为实现上述目的,根据本专利技术一个方面的欺骗检测装置包括:
[0015]多通道频谱图创建装置,其从语音数据提取不同类型的频谱图,并整合不同类型的频谱图来创建多通道频谱图,
[0016]评估装置,其通过将述创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估述创建的多通道频谱图,并将它分类为真实或欺骗的。
[0017]为实现上述目的,根据本专利技术一个方面的欺骗检测方法包括:
[0018](a)从语音数据提取不同类型的频谱图,并整合不同类型的频谱图以创建多通道频谱图的步骤,
[0019](b)通过将述创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估述创建的多通道频谱图,并将述创建的多通道频谱图分类为真实或欺骗的步骤。
[0020]为实现上述目的,根据本专利技术又一方面的计算机可读记录介质中记录有程序,该程序包括指令,该指令使计算机执行:
[0021](a)从语音数据提取不同类型的频谱图,并整合不同类型的频谱图以创建多通道频谱图的步骤,
[0022](b)通过将述创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据构建的分类器来评估述创建的多通道频谱图,并将述创建的多通道频谱图分类为真实或欺骗的步骤。
[0023][专利技术的有益效果][0024]如上所述,根据本专利技术,可以通过在说话者欺骗检测中使用从语音获得的多个频谱图来抑制误识别。
附图说明
[0025]附图与详细描述一起用于解释专利技术的欺骗检测方法的原理。附图是为了说明而不限制该技术的应用。
[0026]图1是示意性地示出了根据本专利技术实施例的欺骗检测装置的配置的框图。
[0027]图2描绘了图示根据本专利技术实施例的欺骗检测装置的详细配置的示例性框图。
[0028]图3是图示根据本专利技术实施例的多通道频谱图创建单元的示例的框图。
[0029]图4是图示根据本专利技术实施例的多通道频谱图创建单元的另一示例的框图。
[0030]图5是示出了根据本专利技术实施例的欺骗检测装置的操作阶段的图,图5(a)示出了训练阶段,且图5(b)示出了欺骗检测阶段。
[0031]图6描绘了图示根据本专利技术实施例的欺骗检测装置的整个操作示例的流程图。
[0032]图7示出了根据本专利技术实施例的欺骗装置的训练阶段的具体操作的流程图。
[0033]图8是示出了根据本专利技术实施例的欺骗检测阶段的具体操作的流程图。
[0034]图9描绘了图示根据本专利技术实施例的多通道频谱图创建单元的操作示例的流程图。
[0035]图10描绘了图示根据本专利技术实施例的多通道频谱图创建单元的另一操作示例的流程图。
[0036]图11是示出实现本专利技术的实施例的欺骗检测装置的计算机的示例的框图。
具体实施方式
[0037]下面将参考附图描述本专利技术的每个示例实施例。以下详细说明仅是本质上示例性的,并不意欲限制本专利技术或本专利技术的应用和用途。此外,无意受本专利技术的前述背景或以下详细描述中提出的任何理论的束缚。
[0038](
技术实现思路
)
[0039]本专利技术是将CQT和快速傅立叶变换(FFT)频谱图融合,以作为神经网络中的多通道输入,以便相互补充,且保证欺骗检测系统的健壮性。
[0040]根据本专利技术,本专利技术的欺骗检测装置、方法和程序可以为欺骗检测提供更准确和健壮的语音话语的表示。这是因为本专利技术提供了一种新的多频谱图的融合作为多通道频谱图,使得DNN可以从所有频谱图中自动了解有效信息。
[0041](实施例)
[0042]下面参照附图详细描述本专利技术的示例性实施例。
[0043]设备配置
[0044]首先,将使用图1描述根据本实施例1的欺骗检测装置100的配置。图1是示意性地示出了根据本专利技术实施例的欺骗检测装置的配置的框图。
[0045]如图1所示,本实施例的欺骗检测装置包括多通道频谱图创建单元10和评估单元40。多通道频谱图创建单元10从语音数据提取不同类型的频谱图。并且,多通道频谱图创建单元10整合不同类型的频谱图以创建多通道频谱图。
[0046]评估单元通过将生成的多通道频谱图应用于分类器来评估创建的多通道频谱图。分类器是使用被标记的多通道频谱图作为训练数据构建的。评估单元将创建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种欺骗检测装置,包括:多通道频谱图创建装置,所述多通道频谱图创建装置从语音数据提取不同类型的频谱图,并整合所述不同类型的频谱图以创建多通道频谱图,评估装置,所述评估装置通过将所创建的多通道频谱图应用于使用被标记的多通道频谱图作为训练数据而构建的分类器来评估所创建的多通道频谱图,并且将所创建的多通道频谱图分类为真实或欺骗的。2.根据权利要求1所述的欺骗检测装置,还包括:分类器训练装置,所述分类器训练装置使所述多通道频谱图创建装置从要被采样的所述语音数据创建多通道频谱图,并且使用所创建的多通道频谱图和与所述语音数据对应的标签作为训练数据来构建所述分类器。3.根据权利要求1或2所述的欺骗检测装置,其中,所述多通道频谱图创建装置通过堆叠所述不同类型的频谱图来整合所述不同类型的频谱图。4.根据权利要求1或2所述的欺骗检测装置,其中,所述多通道频谱图创建装置通过连结所述不同类型的频谱图来整合所述不同类型的频谱图。5.根据权利要求1至4中的任一项所述的欺骗检测装置,其中,所述多通道频谱图创建装置在创建所述多通道频谱图之前,将所...

【专利技术属性】
技术研发人员:王琼琼李功益越仲孝文
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1