一种声纹特征融合方法及装置制造方法及图纸

技术编号:10722324 阅读:97 留言:0更新日期:2014-12-03 23:49
本发明专利技术公开了一种声纹特征融合方法及装置,该方法包括:在用户的多种声纹特征向量中,分别计算用户任意两种声纹特征向量之间的平均KL距离;其中,两种声纹特征向量的平均KL距离为:第一声纹特征向量、第二声纹特征向量的概率分布的KL距离,与所述第二声纹特征向量、所述第一声纹特征向量的概率分布的KL距离相加后除以2;选择平均KL距离最大的两种声纹特征进行融合。本发明专利技术利用声纹特征向量之间的平均KL距离表示两种特征融合的有效信息量,更加精准地选择可分性信息大的两种特征实现融合,能更好地实现个人身份认证的功能,提高认证的精度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种声纹特征融合方法及装置,该方法包括:在用户的多种声纹特征向量中,分别计算用户任意两种声纹特征向量之间的平均KL距离;其中,两种声纹特征向量的平均KL距离为:第一声纹特征向量、第二声纹特征向量的概率分布的KL距离,与所述第二声纹特征向量、所述第一声纹特征向量的概率分布的KL距离相加后除以2;选择平均KL距离最大的两种声纹特征进行融合。本专利技术利用声纹特征向量之间的平均KL距离表示两种特征融合的有效信息量,更加精准地选择可分性信息大的两种特征实现融合,能更好地实现个人身份认证的功能,提高认证的精度。【专利说明】一种声纹特征融合方法及装置
本专利技术涉及通信领域,具体涉及一种声纹特征融合方法及装置。
技术介绍
随着云计算技术的不断演进,大量云平台不断涌现,如Amazon的AWS (Amazon WebServices),国内的阿里云,沃云等平台。这些云平台的强大的计算能力已经被广泛地用于国民生产领域,如12306火车票订票网站、阿里巴巴的淘宝平台等。这些云平台将海量的用户数据存储于云平台的数据库区。云平台的数据量极大,这无形中加重了云平台数据库管理员(Database Administrator,简称DBA)的管理、维护负担。而且,存放着云平台的数据库IDC数据中心的地理位置往往与管理人员的办公区具有一定的物理距离。为了更为方便地维护、管理云平台数据库,云平台DBA往往采取将数据库管理系统映射到公网上的做法,通过公网IP登入该地址,进行云平台数据库的管理、运维工作。但上述方案,存在以下缺陷: 由于云平台数据库承载着大量的数据,需要DBA时刻关注数据库态势,当DBA人员不在办公区域内,无法通过办公区域内的电脑终端实时登录访问数据库管理系统,对数据库进行实时维护控制。 针对以上两点缺陷,可以设计一种为云平台数据库DBA深度定制的移动客户端系统。为了保障远程客户端DBA人员安全登录,防止账号被盗用,业内设计了一种基于生物识别的高强度认证登录方案。生物认证技术就是利用具有唯一性的人体生物特征,如指纹、面部、声音等,实现对真实用户的身份认证,比传统的输入用户名、密码方式更为安全。而对于移动客户端采用声纹识别则是一种比较理想的选择。任何手机均具备声纹采集器mic,因此,用户不需更换设备,从而节省资金。针对生物特征被盗取问题,如果攻击者盗录了某次用户的话语录音,系统在登录验证时,可规定测试话语内容,从而避免攻击者利用盗录录音仿冒身份录音。 然而,传统的单模态声纹认证算法还是存在一些缺陷,主要因为:单一的声纹特征提取方式会造成系统性能下降。利用单一特征提取方法采集的特征向量,不能完全代表原始生物样本的特点,即不能完全反映出其可分性信息(Discriminatory informat1n),从而导致系统识别精度下降。 为了克服以上问题,信息融合思想被引入声纹特征识别领域中,即声纹识别融合技术。利用一定的融合方式,如基于声纹特征的特征级融合方案将这些特征进行整合,通过融合后的可分性信息作为识别个人身份的关键特征,使得系统更好地实现个人身份认证的功能。但随之而来的问题是,由于业界用于声纹识别的声纹特征众多,如MFCC、Residualphase、LPCC, MVDR、MLSF等。为了尽可能地将DBA移动客户端的认证功能(精度)发挥至最大,防止真实DBA用户利用移动客户端登录时出现误判现象出现,在两种或多种声纹特征融合时,如何选取两种合适的声纹特征进行融合,以获取最大可分性信息,使得最终系统算法的认证精度达到最大化成为难题。
技术实现思路
本专利技术需要解决的技术问题是提供一种声纹特征融合方法及装置,更加精准地选择可分性信息大的两种特征实现融合,能更好地实现个人身份认证的功能,提高认证的精度。 为了解决上述技术问题,本专利技术提供了一种声纹特征融合方法,包括: 在用户的多种声纹特征向量中,分别计算用户任意两种声纹特征向量之间的平均KL距离;其中,两种声纹特征向量的平均KL距离为:第一声纹特征向量、第二声纹特征向量的概率分布的KL距尚,与所述第二声纹特征向量、所述第一声纹特征向量的概率分布的KL距离相加后除以2 ; 选择平均KL距离最大的两种声纹特征进行融合。 进一步地,在计算用户任意两种声纹特征向量之间的平均KL距离的步骤之前,所述方法还包括: 为所述用户提取两种以上的声纹特征向量。 进一步地,所述为所述用户提取两种以上的声纹特征向量,包括: 通过传感器采集所述用户的语音信号,对采集到的语音信号利用两种或两种以上不同的声纹特征算法提取不同的声纹特征向量。 进一步地,所述计算用户任意两种声纹特征向量之间的平均KL距离,包括: 获取所述任意两种声纹特征向量,计算两种声纹特征向量分布的均值与协方差; 根据所述两种声纹特征向量分布的均值与协方差,构建两种声纹特征向量空间的概率分布; 根据两种声纹特征向量空间的概率分布,计算两种声纹特征之间的平均KL距离。 进一步地,所述两种声纹特征向量的概率分布为高斯分布。 为了解决上述技术问题,本专利技术还提供了一种声纹特征融合装置,包括: 融合信息量计算模块,用于在用户的多种声纹特征向量中,分别计算用户任意两种声纹特征向量之间的平均KL距离;其中,两种声纹特征向量的平均KL距离为:第一声纹特征向量、第二声纹特征向量的概率分布的KL距尚,与所述第二声纹特征向量、所述第一声纹特征向量的概率分布的KL距离相加后除以2 ; 声纹特征融合模块,用于选择平均KL距离最大的两种声纹特征向量进行融合。 进一步地,所述装置还包括:声纹特征提取模块,用于为所述用户提取两种以上的声纹特征向量。 进一步地,所述声纹特征提取模块,用于为所述用户提取两种以上的声纹特征向量,包括: 通过同一传感器或者不同的传感器采集所述用户的语音信号,对采集到的语音信号利用两种或两种以上不同的声纹特征算法提取不同的声纹特征向量。 进一步地,所述融合信息量计算模块,用于计算用户任意两种声纹特征向量之间的平均KL距离,包括: 获取所述任意两种声纹特征向量,计算两种声纹特征向量分布的均值与协方差; 根据所述两种声纹特征向量分布的均值与协方差,构建两种声纹特征向量空间的概率分布; 根据两种声纹特征向量空间的概率分布,计算两种声纹特征之间的平均KL距离。 进一步地,所述两种声纹特征向量的概率分布为高斯分布。 与现有技术相比,本专利技术实施例提供的声纹特征融合方法及装置,利用声纹特征向量之间的平均KL距离表示两种特征融合的有效信息量,以选择相关性尽可能小(即可获取尽可能大的可分性信息)的两种声纹特征实现特征级融合,更加准确地衡量特征级融合算法的信息量,更加精准地选择可分性信息大的两种特征实现融合,通过融合后的可分性信息作为识别个人身份的关键特征,使得系统更好地实现个人身份认证的功能,提高认证算法的精度。 【专利附图】【附图说明】 图1是实施例中声纹特征融合的方法流程图; 图2是实施例中声纹特征融合的装置结构图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突本文档来自技高网
...

【技术保护点】
一种声纹特征融合方法,包括:在用户的多种声纹特征向量中,分别计算用户任意两种声纹特征向量之间的平均KL距离;其中,两种声纹特征向量的平均KL距离为:第一声纹特征向量、第二声纹特征向量的概率分布的KL距离,与所述第二声纹特征向量、所述第一声纹特征向量的概率分布的KL距离相加后除以2;选择平均KL距离最大的两种声纹特征进行融合。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘镝张云勇张尼
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1