一种基于张量结构及稀疏表示的说话人确认方法及系统技术方案

技术编号:21608986 阅读:16 留言:0更新日期:2019-07-13 19:26
本发明专利技术公开了一种基于张量结构及稀疏表示的说话人确认方法及系统,该方法包括步骤:S1、构建听觉特征张量;S2、将所述听觉特征张量转换成稀疏矩阵;S3、降低所述稀疏矩阵的维度以生成最终的特征向量;S4、基于稀疏表示分类器进行说话人确认。本发明专利技术能够在保留数据的内在结构的基础上,减少计算的复杂度,提高说话人确认效率。

A Speaker Recognition Method and System Based on Tensor Structure and Sparse Representation

【技术实现步骤摘要】
一种基于张量结构及稀疏表示的说话人确认方法及系统
本专利技术涉及说话人识别
,尤其涉及一种基于张量结构及稀疏表示的说话人确认方法及系统。
技术介绍
说话人识别的任务是识别说话人。说话人识别可分为说话人辨认和说话人确认两类。对于说话人辨认,就是从多个说话人当中找出正确的说话人,这是一个“多选一”的问题;而说话人确认则是验证这段语音是否是某个说话人说的,是“一对一”的问题。说话人确认是通过对话者语音提取个性特征,建立识别模型,从而对话者的身份进行验证的过程,是说话人识别研究的重要分支。在说话人确认中,有效特征参数的提取和高性能识别模型的建立是关键。支持向量机(SupportVectorMachine,SVM)和高斯混合模型(GaussianMixtureModel,GMM)在该领域获得了成功的应用,二者的相互结合是近几年说话人确认研究的主流方法。然而,现有的支持向量机的方法超向量的维数较高,导致后续处理阶段的计算复杂度较高。在识别算法研究方面,用于数据信号表示和压缩的稀疏表示(SparseRepresentation,SR)算法,由于其在过完备字典中寻找输入样本的最简表示子集的过程具有良好的判别性,成为继SVM和GMM之后模式识别领域研究的热点之一。公开号为CN105845142A的专利公开了一种基于稀疏表示的信道鲁棒说话人确认方法,包括如下步骤:构建说话人的过完备字典Dtar;对测试语音进行身份认证矢量i-vector的提取,得到身份认证向量ωtest;所述身份认证向量ωtest通过所述过完备字典Dtar的稀疏求解,得到稀疏表示向量γtest的关联关系Γ(γtest);判断所述关联关系Γ(γtest)是否高于一阈值,如果是,表示确认,则接收;否则,拒绝。所述的基于稀疏表示的信道鲁棒说话人确认方法,在训练阶段就构建好过完备字典,因此无需花费很大的空间以及很多的时间。但是由于过完备字典,高维超向量的稀疏表示需要大量内存,这会限制训练样本数量并可能减慢识别过程。因此,如何在保留数据的内在结构的基础上,提高说话人确认效率是本领域亟待解决的问题。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供了一种基于张量结构及稀疏表示的说话人确认方法及系统,能够在保留数据的内在结构的基础上,减少计算的复杂度,提高说话人确认效率。为了实现以上目的,本专利技术采用以下技术方案:一种基于张量结构及稀疏表示的说话人确认方法,包括步骤:S1、构建听觉特征张量;S2、将所述听觉特征张量转换成稀疏矩阵;S3、降低所述稀疏矩阵的维度以生成最终的特征向量;S4、基于稀疏表示分类器进行说话人确认。进一步的,所述步骤S1包括:通过仿真人耳的听觉系统来处理语音信号得到其功率谱图。进一步的,所述步骤S2通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。进一步的,所述步骤S3中通过离散余弦变换降低所述稀疏矩阵的维度。进一步的,所述步骤S4中将提取的特征代替i矢量作为稀疏表示分类器的特征向量。相应的,还提供一种基于张量结构及稀疏表示的说话人确认系统,包括:构建模块,用于构建听觉特征张量;转换模块,用于将所述听觉特征张量转换成稀疏矩阵;降维模块,用于降低所述稀疏矩阵的维度以生成最终的特征向量;确认模块,基于稀疏表示分类器进行说话人确认。进一步的,所述构建模块包括:通过仿真人耳的听觉系统来处理语音信号得到其功率谱图。进一步的,所述转换模块通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。进一步的,所述降维模块通过离散余弦变换降低所述稀疏矩阵的维度。进一步的,所述确认模块将提取的特征代替i矢量作为稀疏表示分类器的特征向量。与现有技术相比,本专利技术语音信号的稀疏编码对于语音听觉建模和语音分类十分有效,因而稀疏分解可用于说话人识别中的建模部分,也可作为分类器用于说话人识别最后的判断。而高阶张量作为一种强大的模式识别数学建模的工具,可将其用于语音信号的特征提取,这样可以保留数据的内在结构。此外,本专利技术通过对稀疏矩阵降维,使用提取的特征代替i矢量作为稀疏表示分类器的特征,能够大大减小计算的复杂度,提高了说话人确认效率。附图说明图1是实施例一提供的一种基于张量结构及稀疏表示的说话人确认方法流程图;图2是实施例二提供的一种基于张量结构及稀疏表示的说话人确认系统结构图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。本专利技术是以语音信息为研究对象,主要的着力点在于改善说话人确认的效率,提供了一种基于张量结构及稀疏表示的说话人确认方法及系统,能够通过张量结构保留数据的内在结构,同时使用提取的特征代替i矢量作为稀疏表示分类器(SRC)的特征,以提高说话人确认效率。实施例一本实施例提供一种基于张量结构及稀疏表示的说话人确认方法,如图1所示,包括步骤:S1、构建听觉特征张量;本专利技术是通过仿真人耳的听觉系统来处理语音信号得到其功率谱图,为了获取基于张量结构的鲁棒特征,本实施例将得到的不同说话人的功率谱建模为一个3阶张量。具体地,人耳可以很轻松地完成说话人识别任务,并且对噪声不敏感。在我们的特征提取框架中,我们通过模仿人耳在听觉外围和通路中执行的过程来获取频率选择性信息。首先,本专利技术通过模仿听觉外围和通路发生的过程,如外耳,中耳,基底膜,内毛细胞,听觉神经和耳蜗核来提取特征。因为我们人类的外耳和中耳的综合作用相当于一个带通函数,所以我们实施传统的预加重来模拟组合的外耳和中耳函数xpre(t)=x(t)-0.97x(t-1),其中x(t)是离散时间语音信号,t=1,2,…,xpre(t)是滤波后的输出信号。其目的是提高位于高频域的频率分量的能量,以便可以在高频域中提取这些共振频率。周边听觉系统(如基底膜)的频率选择性由一组耳蜗滤波器模拟。耳蜗滤波器组代表了沿耳蜗基底膜各个位置的频率选择性,本专利技术使用“Gammachirp”滤波器组来模拟耳蜗基底膜,它具有以下形式的脉冲响应:其中n是滤波器的顺序,N是滤波器的数量。对于第i个滤波器,bi=24.7+0.108fi是听觉滤波器的等效矩形带宽(EBR),φi是相位,ai是常数。与GT滤波器相比,GC滤波器多了clnt这一项,c是一个额外的调频参数,并且fi是非对称的频率,其值或随着c的改变而改变。由此GC滤波器克服了GT滤波器不能模拟基底膜的非对称性以及自身的强度依赖性等缺点。每个Gammachirp滤波器组的输出是:为了模拟内毛细胞的非线性,我们用对数非线性计算每帧k中每个频带i的功率:其中P(i,k)是输出功率,λ是比例常数。这个模型可以被认为是内毛细胞的平均纤维率,模拟更高级的听觉通路。本文档来自技高网
...

【技术保护点】
1.一种基于张量结构及稀疏表示的说话人确认方法,其特征在于,包括步骤:S1、构建听觉特征张量;S2、将所述听觉特征张量转换成稀疏矩阵;S3、降低所述稀疏矩阵的维度以生成最终的特征向量;S4、基于稀疏表示分类器进行说话人确认。

【技术特征摘要】
1.一种基于张量结构及稀疏表示的说话人确认方法,其特征在于,包括步骤:S1、构建听觉特征张量;S2、将所述听觉特征张量转换成稀疏矩阵;S3、降低所述稀疏矩阵的维度以生成最终的特征向量;S4、基于稀疏表示分类器进行说话人确认。2.根据权利要求1所述的说话人确认方法,其特征在于,所述步骤S1包括:通过仿真人耳的听觉系统来处理语音信号得到其功率谱图。3.根据权利要求1所述的说话人确认方法,其特征在于,通过非负张量主成分分析方法将所述听觉特征张量转换成稀疏矩阵。4.根据权利要求1所述的说话人确认方法,其特征在于,通过离散余弦变换降低所述稀疏矩阵的维度。5.根据权利要求4所述的说话人确认方法,其特征在于,所述步骤S4中将提取的特征代替i矢量作为稀疏表示分类器的特征向量。6.一种基于...

【专利技术属性】
技术研发人员:简志华郭珊徐剑金易帆
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1