当前位置: 首页 > 专利查询>浙江大学专利>正文

基于得分差加权融合的多模态身份识别方法技术

技术编号:2930631 阅读:248 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于得分差加权融合的多模态身份识别方法,首先利用一组说话人样本数据,通过原有的传统单模态分类器每个样本相对模板中每个说话人模型的得分;如果得分最高的那个模型和样本属于不同的说话人,则记录下两者的得分差;然后把单个分类器中所有这些差值都累加起来;最后利用各分类器的得分差来确定各个模态的权重。本发明专利技术有益的效果是:利用多生物特征进行交叉身份认证,并采用一种修正的基于得分差的加权算法SDWS对两个生物认证模态进行融合,把两种身份认证的结果加以综合。利用两种生物特征信息识别的优点,提高容错性,降低不确定性,克服单个生物特征信息的不完整性,增强识别决策结果的可靠性,使其具有更广泛安全性和适应性。

【技术实现步骤摘要】

本专利技术涉及分类器融合技术,主要是一种。
技术介绍
在现实生活的应用中,身份的鉴别是一项很复杂的工作,因为它需要达到很高的性能并且要求具有很强的鲁棒性。生物认证技术以人们自身的物理特征作为身份认证依据,从根本上区别于传统的基于“你所拥有的东西”或者“你所知道的东西”的认证技术,真正以人自身作为身份认证的依据,自己真正代表了自己。在众多的生物认证技术中,基于声音和图像的身份鉴别是当前比较流行的两种方法。声纹识别,即说话人识别,具有不会遗失、无需记忆和使用方便、经济、准确等优势;而人脸识别则具有主动性、非侵犯性和用户友好等许多优点。当这几种方法单独使用时,其各自性能总是会受到一定极值的约束或是表现出不稳定性。所以,采用信息融合来综合各个子模式的优点,是提高身份识别的可靠性是一条有效的途径。目前几乎所有的多模态识别方法,都是在决策级的融合级别上进行的。根据融合规则,决策层融合一般有两种策略。一种是参数固定的融合方法,如平均法,投票法,加法等等;另一种是需要参数训练的方法,如Dempster-Shafer,知识行为空间和朴素贝叶斯法等等。固定参数的融合方法在很大程度上会因为分类器的成对效应影响了性能。而训练集的质量和大小使得参数训练的决策级融合方法往往不能达到理论上的融合效果。
技术实现思路
本专利技术要解决上述技术所存在的缺陷,提供一种。通过对单个分类器的识别得分的研究,把识别类与所属类得分差作为权值依据,得到了一种新的加权参数训练方法“基于得分差加权”SDWS(Scores Difference-BasedWeightedSum Rule)来融合声纹分类器和人脸分类器,从而提高说话人识别的性能。本专利技术解决其技术问题所采用的技术方案这种,首先利用一组说话人样本数据,通过原有的传统单模态分类器每个样本相对模板中每个说话人模型的得分;如果得分最高的那个模型和样本属于不同的说话人,则记录下两者的得分差;然后把单个分类器中所有这些差值都累加起来;最后利用各分类器的得分差来确定各个模态的权重。本专利技术解决其技术问题所采用的技术方案还可以进一步完善。所述的传统单模态分类器为声纹识别分类器和人脸识别分类器。所述的得分为分类器对输入的数据属于某个类别的这一猜想的支持度。所述的得分差为在分离器判别错误情况下,此时输入数据原所属类别与分类器假设的输入数据的类别不一致时,分类器对上述两个类别的支持度的差值。所述的分类器的得分差为单个分类器中所有说话人判别错误情况下的样本属于的说话人模型的得分与最高得分的差值的和。所述的分类器基于得分差的权重为单个分离器得分差的倒数对所有分离器得分差的倒数和的比值。本专利技术有益的效果是利用多生物特征(声纹,人脸)进行交叉身份认证,并采用一种修正的基于得分差的加权算法SDWS对两个生物认证模态进行融合,把两种身份认证的结果加以综合。利用两种生物特征信息识别的优点及适用的领域,提高容错性,降低不确定性,克服单个生物特征信息的不完整性,增强识别决策结果的可靠性,使其具有更广泛安全性和适应性。附图说明图1是本专利技术的基于得分差加权融合SDWS的多模态身份识别系统框架图;图2是本专利技术的动态贝叶斯模型的拓扑结构示意图。具体实施例方式下面结合附图和实施例对本专利技术作进一步介绍本专利技术的方法共分三步。第一步、声纹识别说话人识别分为语音预处理,特征提取,模型训练,识别四个部分。1.语音预处理语音预处理分为采样量化,去零漂,预加重和加窗三个部分。A)、采样量化I.用锐截止滤波器对音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;II.设置音频采样率F=2FN; III.对音频信号Sa(t)按周期进行采样,得到数字音频信号的振幅序列s(n)=sa(nF);]]>IV.用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。B)、去零漂I.计算量化的振幅序列的平均值s;II.将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。C)、预加重I.设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取比1稍小的值;II.s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n)。D)、加窗I.计算语音帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足NF=0.032]]>TF=0.010]]>这里F是语音采样率,单位为Hz;II.以帧长为N、帧移量为T,把s(n)划分成一系列的语音帧Fm,每一音频帧包含N个语音信号样本;III.计算哈明窗函数 IV.对每一语音帧Fm加哈明窗2.MFCC的提取A)、设置梅尔倒谱系数的阶数p;B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。C)、计算梅尔域刻度Mi=ip×2595log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、计算对应的频域刻度 fi=700×eMi2595ln10-1,(i=0,1,2,...,p)]]>E)、计算每个梅尔域通道φj上的对数能量谱Ej=Σk=0K2-1φj(k)|X(k)|2]]>其中Σk=0K2-1φj(k)=1.]]>F)、做离散余弦变换DCT3.DBN模型训练动态贝叶斯网络模型(DBN)类似于HMM,是一个生成模型,它仅需要一个人的语音数据就可以对它进行建模,完成识别过程。训练的目的是为了使在给定的语音数据下,模型的参数能够更好的描述语音在特征空间中的分布情况。这里DBN训练主要侧重于对模型参数的训练,并不针对网络拓扑进行学习。A)、如果似然度没有收敛,并且迭代次数小于预设次数,转B)步;否则,转E)。这里收敛的定义是Converged=TRUE,if|PreLogLik-CurLogLik|<θFALSE,otherwize]]>这里的PreLogLik是指前一步迭代的似然度,CurLogLik是指当前迭代的似然度,它们都是通过步骤C)中的前向后向遍历得到的。θ是预设的阀值。预设的最大迭代次数MAXITER可以任意设定。这一步的判断是使得迭代不至于无限制的进行。B)、每一个节点的相关统计值清空。在前向后向遍历之前要对统计值进行清空,这里所说的统计值是指对节点的CPD(条件概率分布)进行学习时所需要的数据. C)、综合观测值,进行前向后向遍历,输出似然度。对网络进行前向后向遍历,使得观测值对某些节点的更新能使网络中的其他节点也能得到更新,满足局部一致性和全局一致性条件,这一步实现了邻接算法,并对帧内结构用COLLECT-EVIDENCE(收集证据)和DISTRIBUTE-EVIDENCE(发布证据)进行概率扩散。这一步遍历,将输出Log似然度,在A)中将被用到。识别中所用到的概率输出也是通过这个遍历得到的。D)、根据观测值,计算相关统计值,更新相关节点的概率分布,转A). 根据观测值,计算相关统计值,更新节点的概率分布,这是由EM学习算法决定的。E)、保存模型。4.识别用户语音输入后,经特征提取,得到一特征向量序列C。本文档来自技高网...

【技术保护点】
一种基于得分差加权融和的多模态身份识别方法,其特征在于:首先利用一组说话人样本数据,通过原有的传统单模态分类器每个样本相对模版中每个说话人模型的得分;如果得分最高的那个模型和样本属于不同的说话人,则记录下两者的得分差;然后把单个分类器中所有这些差值都累加起来;最后利用各分类器的得分差来确定各个模态的权重。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴朝晖杨莹春李东东
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1