当前位置: 首页 > 专利查询>覃文华专利>正文

验证真人在场状态的声纹认证设备和其认证方法技术

技术编号:3045787 阅读:159 留言:0更新日期:2012-04-11 18:40
一种用于验证真人在场的声纹认证设备,包括:语音输入装置,用于接收用户输入的语音;声纹识别装置,用于将用户输入的认证语音与声纹模型进行对比认证,以便验证用户身份;在场验证装置,用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证,以便确定用户在场发音;以及判定装置,用于根据声纹识别装置和在场验证装置的认证结果,判断用户是否真实且在场。以及一种用于验证真人在场的声纹认证方法。从而在验证用户身份的同时验证真实的用户是否是在现场发音,有效地拒绝了利用录音或自动合成音的假冒者通过身份验证,提高了声纹认证的安全性。

【技术实现步骤摘要】

本专利技术涉及一种声纹认证设备和方法,尤其涉及一种。
技术介绍
随着社会经济的进步和信息技术的发展,人们对信息安全和身份认证技术有了越来越多的需求和依赖性。传统的身份认证方法主要是基于密码的,它具有简单、快捷的优点,但却有着很明显的不足,例如,容易被忘记,并且容易被猜到或被窃取等,一旦发生这种情况,很可能会给用户带来巨大的麻烦或损失。密码验证方式不足之处的根源在于它与持有人本身没有内在的联系,任何其它人如果得到并凭借该人的密码尝试进行认证时,系统是很难分辨其身份的真伪的。近年来,基于生物特征的认证方法逐步引起了人们的重视,并且成为传统密码认证方式的很好的补充手段。生物特征认证方式包括指纹、声纹、虹膜、脸孔、掌纹等,其特点在于用于认证的特征基本上是惟一的,并且是与用户本人直接关联的,其他人很难假冒该用户自身的生物特征来登录系统。声纹识别技术是属于生物特征认证技术的一种,它是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别说话人身份的技术,包括文本相关的(必须是特定的文本)和文本无关的(不限定用户说什么文本)方式。与其他生物特征识别技术相比,声纹识别具有简便、经济、可远程认证等优势,可广泛应用于安全验证和控制等方面,特别是基于电信网络的身份识别等应用领域。在电信类应用、互联网应用中,最自然、也最容易被用户所接受的生物特征莫过于语音,即用户用自己的声音来证明个人身份,也就是“闻声识人”,从而可以通过电话、移动终端等实现股票交易、银行转账、个人信息服务等需要确认身份的业务等。因此,声纹识别技术正日益成为人们日常生活和工作中重要且普及的安全验证方式之一。但与其它一些基于生物特征的认证方式类似,声纹识别也有一些不足之处,例如难于判断一段语音是用户本人在现场提供的还是高保真的仿冒录音,等等。
技术实现思路
基于已有的声纹认证技术中存在的上述缺点,提出了一种用于验证真人在场状态的声纹认证设备,其中结合声纹认证技术,尤其是文本无关的声纹认证技术,和验证真人在场发音状态的技术来提高认证设备整体的安全性。以及还提出了一种验证真人在场状态的声纹认证方法。根据本专利技术第一方面,一种用于验证真人在场状态的声纹认证设备,包括语音输入装置,用于接收用户输入的语音;声纹识别装置,用于将用户输入的认证语音与声纹模型进行对比认证,以便验证用户身份;在场验证装置,用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证,以便确定用户在场发音;以及判定装置,用于根据声纹识别装置和在场验证装置的认证结果,判断用户是否真实且在场。根据本专利技术第二方面,一种用于验证真人在场状态的声纹认证方法,包括语音输入步骤,用于接收用户输入的语音;声纹识别步骤,用于将用户输入的认证语音与声纹模型进行对比认证,以便验证用户身份;在场验证步骤,用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证,以便确定用户在场发音;以及判定步骤,用于根据声纹识别步骤和在场验证步骤的认证结果,判断用户是否真实且在场。由于本专利技术在验证用户身份的同时验证真实的用户是否是在现场发音,从而有效地拒绝了利用录音或自动合成音的假冒者通过身份验证,提高了声纹认证的安全性。另外,通过交互的认证过程确认发音人为意识清晰状态,便于将其认证用的语音作为未来不可否认的鉴定证据等。同时,较其他生物特征认证技术而言,本专利技术所需的认证信息(语音)录入设备价格低廉(仅需普通的麦克风或电话),且设备普及率高。附图说明图1是根据本专利技术的声纹认证设备的示意图;图2是文本无关的声纹识别装置的示意图;图3是根据本专利技术的在场验证装置的示意图;图4是根据本专利技术第一实施例的在场验证单元的示意图;图5是根据本专利技术第二实施例的在场验证单元的示意图; 图6是根据本专利技术的声纹认证方法的流程图;图7是根据本专利技术第一实施例的在场验证方法的流程图;图8是根据本专利技术第二实施例的在场验证方法的流程图。具体实施例方式通过以下结合本专利技术的附图的描述,本专利技术的上述和其他目的、特征和优点将变得显而易见。语音作为人类最基础、最便捷的交流和交易方式,在用户使用认证系统所产生的语音信息中,能够同时包涵用户身份信息和用户个人意愿信息。本专利技术在充分利用声纹认证技术,尤其是文本无关的声纹认证技术的优点的同时,结合可确认真人在场发音状态的方法,提高认证设备整体的安全性,并通过交互的认证过程来确认发音人为意识清晰状态。图1是根据本专利技术的声纹认证设备的示意图。声纹认证设备1用于验证真实用户的在场状态,包括用于接收用户输入的语音的语音输入装置10,例如,麦克风或电话;用于验证用户身份的声纹识别装置20;用于验证用户在场状态的在场验证装置30;以及根据声纹识别装置20和在场验证装置30的识别和验证结果综合判断真实用户是否进行在场认证,从而完成对待验证用户的声纹认证过程的判定装置40。此外,虽然未示出,但是在语音输入装置的前端,也可以加上基于密码等的其他认证装置,以使系统能够更好地验证用户的身份。图6是根据本专利技术的声纹认证方法的流程图。语音输入装置10在S60接收用户输入的认证语音并将其输入到声纹识别装置20。然后在S62,声纹识别装置20将接收到的认证语音与声纹模型进行对比认证,以便验证用户身份。在要进行在场验证时,在场验证装置30在S64播放预制的提示音集合中随机选出的提示音,用户模仿该提示音进行模仿发音。在S66,语音输入装置10接收用户输入的模仿发音并将其输入到在场验证装置30。之后,在场验证装置30在S68将接收到的模仿发音与所述播放的提示音进行对比认证,以便验证用户是否是在场发音。最后,在S602,判定装置40综合判断用户是否是真实的以及是在场发音。在声纹认证之前,也可以先进行基于密码等的其他认证,以使系统能够更好地验证用户的身份。声纹识别装置20的结构如图2所示。声纹识别装置20是文本无关的,即,不限定用户具体说什么文本。其目的在于确认用户在认证时提供的语音与该用户所申明的身份(即该身份所对应的预先训练好的声纹模型)是否一致。声纹识别装置20包括声纹特征提取单元201、声纹模型建立单元202、声纹模型库203和声纹模式匹配单元204。通常,人类的语音是由声带振动产生并经过声道和口鼻等的调制而形成的连续振动波形,该波形被以一定的采样率进行数字化后才能进一步处理。系统录制的原始语音中除了含有说话人自身发出的有意义的内容之外,还有停顿静音或背景噪音干扰等无意义的部分,因此在提取有效的声纹特征之前需要先判断各个语音段的有效性,并且抛掉无用的部分,只从有效语音段中提取声纹特征。声纹特征提取单元201提取声纹特征所采用的方法举例如下将有效语音采样点分为一组具有一定长度的小窗(即分帧),相邻窗间有局部重叠。各帧内部首先施加海明(Hamming)窗函数,并预加重进行高频提升,然后做快速傅立叶变换(FFT)求出频谱。之后对频谱施加按Mel刻度(Mel-scale)规律排列的、含有若干个三角滤波器的滤波器组,将得到的各个滤波器的输出值进行离散余弦变换(DCT),得到一组系数(例如取不包含静态能量的16维系数),这就是美化倒谱系数(MFCC)矢量,然后把相邻帧的MFCC矢量逐维求差,并把得到的差矢量拼接到原MFCC矢量上,得到的本文档来自技高网
...

【技术保护点】
一种用于验证真人在场的声纹认证设备,包括:语音输入装置,用于接收用户输入的语音;声纹识别装置,用于将用户输入的认证语音与声纹模型进行对比认证,以便验证用户身份; 在场验证装置,用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证,以便确定用户在场发音;以及判定装置,用于根据声纹识别装置和在场验证装置的认证结果,判断用户是否真实且在场。

【技术特征摘要】
1.一种用于验证真人在场的声纹认证设备,包括语音输入装置,用于接收用户输入的语音;声纹识别装置,用于将用户输入的认证语音与声纹模型进行对比认证,以便验证用户身份;在场验证装置,用于将用户输入的模仿语音与预制的提示音集合中随机选出的提示音进行对比认证,以便确定用户在场发音;以及判定装置,用于根据声纹识别装置和在场验证装置的认证结果,判断用户是否真实且在场。2.如权利要求1所述的声纹认证设备,其中所述在场验证装置包括模板语音集生成单元,用于从语料库中选出满足预定条件的句子作为提示文本,并将提示文本按照预定规则录制为提示音集合;相似度匹配单元,用于对随机选出的提示音和用户输入的模仿语音进行相似度匹配,以确认用户是否在场发音。3.如权利要求2所述的声纹认证设备,其中所述模板语音集生成单元按照下列规则录制提示音集合在利用挑选出来的提示文本录制提示语音集合时随机地插入具有预定规律的关键特征点,以及使该提示音集合所含的元辅音对分布均衡。4.如权利要求2所述的声纹认证设备,其中所述相似度匹配单元包括第一关键特征点序列提取单元,用于从提示音中提取第一关键特征点序列;第二关键特征点序列提取单元,用于从用户输入的模仿语音中提取第二关键特征点序列;以及第一匹配单元,将第一关键特征点序列和第二关键特征点序列进行匹配以判断出用户是否在场发音。5.如权利要求4所述的声纹认证设备,其中所述第一关键特征点序列和第二关键特征点序列是与语音中停顿静音段的个数及其时长分布、关键特征点的趋势曲线以及元辅音属性分布序列有关的参数。6.如权利要求4或5所述的声纹认证设备,其中所述第一匹配单元,利用动态时间弯折方法来计算提取出的第一关键特征点序列和第二关键特征点序列之间的失真距离,根据失真距离求出相似度分数,并根据下式计算出相似度总分数,在相似度总分数高于预定阈值时,判断出用户在场发音s~=1NΣi=1Nwisi,]]>其中 是相似度总分数。7.如权利要求1所述的声纹认证设备,其中所述在场验证装置包括对准单元,用于将提示音的文本内容扩展到它对应的音素序列,对模仿发音的各帧与预先训练好的声学模型进行最优匹配,以便获得每一帧与适当的音素状态间的对应关系;匹配单元,用于将模仿发音的各帧的特征矢量与对应音素状态中的高斯混合进行对比,获得匹配似然分,并针对所有帧求出平均似然分,作为用户的模仿发音的准确度分数并判断出用户是否在场发音。8.如权利要求7所述的声纹认证设备,其中所述在场验证装置还包括学习单元,用于从标注语音数据库中学习一组上下文相关的、非特定人的基于隐马尔可夫模型的音素模型,作为声学模型。9.如权利要求1所述的声纹认证设备,其中所述声纹识别装置是文本无关的,其包括声纹特征提取单元,用于从用户输入的语音中提取可表征其发音特点的声纹特征序列;声纹模型建立单元,用于根据提取出的声纹特征序列建立表征用户本人发音特点的声纹模型库;声纹模式匹配单元,用于从用户输入的认证语音中提取声纹特征序列并与声纹模型库中对应的声纹模型进行比对,从而验证所述用户的身份。10.如权利要求1所述的声纹认证设备,其中还包括与语音输入装置连接的密码验证装置,用于预先通过密码验证用户的身份...

【专利技术属性】
技术研发人员:覃文华宋战江张玉霞
申请(专利权)人:覃文华
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利