当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于独立向量分析的语音特征融合的说话人识别方法技术

技术编号:31374648 阅读:18 留言:0更新日期:2021-12-15 11:07
本发明专利技术提供了一种基于独立向量分析的语音特征融合的说话人识别方法。该方法首先将语音信号的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵。然后,将时域特征矩阵和频域特征矩阵构成一个特征张量。利用独立向量分析,从此特征张量中提取融合特征,建立说话人模型,实现说话人的识别。本发明专利技术采用独立向量分析将语音信号的时域特征和频域特征融合,构成一个新的语音信号的融合特征和说话人的模型,可增强不同类特征之间的相关性,同时减小同类特征之间的冗余性,提高说话人识别系统的性能。统的性能。统的性能。

【技术实现步骤摘要】
一种基于独立向量分析的语音特征融合的说话人识别方法


[0001]本专利技术属于语音处理
涉及一种语音特征融合的说话人识别方法。

技术介绍

[0002]语音特征的提取和融合技术可广泛用于语音识别和说话人识别等领域。语音信号主要有两大类时域特征和频域特征。时域特征是指在时域,直接从语音信号中提取语音特征,如短时能量、短时振幅、短时过零率、短时自相关、线性预测编码(Linear Predictive Codings,LPCs)等。频域特征是指通过傅里叶变换将语音信号从时域转换到频域,在频域提取语音信号的特征,如梅尔频率倒谱系数(Mel

Frequency Cepstral Coefficients,MFCCs)、对数振幅谱(Log

Magnitude Spectral Feature,LOG

MAG)、感知线性预测(Perceptual Linear Prediction,PLP)等。语音特征的融合是指将不同类型的语音信号的特征按一定的方法组合构成一个新的特征集,也就是融合特征,利用语音信号的融合特征可以提高说话人识别系统的性能。目前,语音信号特征的融合方法通常是将提取出的不同的语音特征直接级联构成语音的融合特征,不同类特征之间具有互补性,但是,同类特征之间具有一定的相关性,会降低说话人识别系统的性能。

技术实现思路

[0003]本专利技术的目的在于提供一种基于独立向量分析的语音特征融合的说话人识别方法,以解决上述
技术介绍
中提出的问题。r/>[0004]该方法利用汉明窗将语音信号分成多个相互重叠的帧,假设帧的个数为T,从这些语音帧中,提取语音的不同种类的特征,即时域特征(LPCs)和频域特征(MFCCs)。将语音信号的时域特征或频域特征分别看作是由多个未知独立变量和未知的混合系统的线性混合,可表示为:
[0005]x
[k](t)=A
[k]s
[k](t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0006]上式中,为第t帧、第k类的特征向量,k∈{1,...,K},K为不同类语音特征的个数;t∈{1,...,T};为未知的混合矩阵,即混合系统。为未知第t帧、第k类语音信号的未知的独立向量,也可以看作独立的源信号。上标T表示转置。将提取的所有帧的同一类型的特征向量构成特征矩阵,即再将这些不同类特征矩阵构成一个特征张量,即采用独立向量分析提取独立向量作为融合特征,同时得到解混张量作为说话人的模型。具体过程如下。
[0007]①
将说话人的语音信号分帧,提取每一帧的时域特征向量和频域特征向量,将提取出的特征向量分别构成K个特征矩阵,即其中,x
[k](t)表示第k个特征类型的第t帧的特征向量,N表示特征的维数,T表示语音帧的个数。
[0008]②
将K个矩阵X
[k]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,被记为特征张量。对特征张量采用独立向量分析提取独立向量,即
[0009][0010]上式中,为融合特征,其中,为独立向量的估计。是由K个解混矩阵W
[k]并联构成的解混张量。由于对每个说话人是不同的,可以看作说话人模型。
[0011]③
利用优化函数来估计独立向量和解混张量,即:
[0012][0013]上式中,H[
·
]表示信息熵,det(
·
)表示行列式,为独立向量的估计,n∈{1,...,N},C=H[x
[1](t),...,x
[K](t)]是一个常数。
[0014]采用牛顿算法同时更新K个解混矩阵的第n行采用牛顿算法同时更新K个解混矩阵的第n行表示第k个解混矩阵的第n行,n∈{1,...,N},即
[0015][0016]其中,μ为学习率。表示损失函数对w
n
的导数。为Hessian矩阵。
[0017]本专利技术的有益效果是:
[0018]本专利技术采用独立向量分析将语音信号的时域特征和频域特征融合,构成一个新的语音信号的融合特征和说话人的模型,增强不同类特征之间的相关性,同时减小同类特征之间的冗余性,提高说话人识别系统的性能。
附图说明
[0019]图1为使用了此专利技术的说话人识别系统。
具体实施方式
[0020]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步的详细说明。此处所描述的具体实施例仅用于解释本专利技术技术方案,并不限于本专利技术。
[0021]如图1所示,本专利技术提出了一种基于独立向量分析的语音特征融合的说话人识别方法。首先,利用汉明窗将说话人的语音划分成相互重叠的帧。提取每一帧的时域特征(如
LPCs)和频域特征(如MFCCs)。其次,将提取出的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵。将时域特征矩阵和频域特征矩阵构成一个特征张量。最后,对特征张量做独立向量分析,得到融合特征,同时得到解混张量作为说话人模型。依次进行上述三个步骤可以得到融合特征。
[0022]本专利技术将通过以下实施步骤例作进一步说明。
[0023]①
用汉明窗将说话人的语音划分成相互重叠的帧,从每一帧中提取LPCs及其一阶导数和二阶导数、MFCCs及其一阶导数和二阶导数。LPCs及其一阶导数和二阶导数构成时域特征向量,MFCCs及其一阶导数和二阶导数构成频域特征向量。两个特征向量分别构成LPCs特征矩阵和MFCCs特征矩阵x
[1](t)表示由LPCs及其一阶导数和二阶导数级联成的特征向量,x
[2](t)表示MFCCs及其一阶导数和二阶导数级联成的特征向量,N表示特征的维数,T表示语音帧的个数。
[0024]②
将X
[1]和X
[2]并联成一个张量是一种没有使用独立向量分析的融合特征,为了和提出的融合特征相区别,被记为特征张量。对特征张量使用独立向量分析提取独立向量,即
[0025][0026]其中,表示融合特征,其中为独立向量的估计。其中为独立向量的估计。是由两个解混矩阵并联构成的解混张量。由于对每个说话人是不同的,可以看作说话人模型。
[0027]利用优化函数来估计独立向量和解混张量,即:
[0028][0029]其中,H[
·
]表示信息熵,det(
·
)表示行列式,为独立向量的估计,n∈{1,...,N},C=H[x
[1](t),x
[2](t)]是一个常数。
[0030]③
采用牛顿算法同时更新两个解混矩阵的第n行采用牛顿算法同时更新两个解混矩阵的第n行表示第一个解混矩阵的第n行,表示第二个解混矩阵的第n行,n∈{1,...,N},即
[0031][0032]其中,μ为学习率。表示损失函数对w
n<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于独立向量分析的语音特征融合的说话人识别方法,其特征在于:首先将语音信号的时域特征和频域特征分别构成时域特征矩阵和频域特征矩阵;然后,将时域特征矩阵和频域特征矩阵构成一个特征张量;最后,利用独立向量分析,从此特征张量中提取融合特征,建立说话人模型,实现说话人的识别。2.根据权利要求1所述的基于独立向量分析的语音特征融合的说话人识别方法,语音特征融合过程按如下步骤:

利用汉明窗将说话人的语音信号分帧,提取每一帧的时域特征向量和频域特征向量,将提取出的特征向量分别构成K个特征矩阵,即其中,x
[k]
(t)表示第k个特征类型的第t帧的特征向量,N表示特征的维数,T表示语音帧的个数;

将K个特征矩阵X
[k]
并联成一个张量并联成一个张量是一种没有使用独立向量分析的融...

【专利技术属性】
技术研发人员:张烨马彪
申请(专利权)人:南昌大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1