一种基于模糊多高斯聚类的声学环境噪声的识别方法技术

技术编号:33775573 阅读:12 留言:0更新日期:2022-06-12 14:28
本发明专利技术为一种基于模糊多高斯聚类的声学环境噪声的识别方法,首先利用模糊均值聚类训练采集的数据样本,并将其输出作为模糊多高斯算法的聚类的输入作进一步训练,生成基于模糊多高斯机制的噪声特征模型,从而建立了噪声识别框架;数据训练完成后,对于每个数据基于生成的多高斯的隶属度数值的大小,将其归类为对应的高斯分布的类型;将对该类型所属强弱的所有数据的隶属度进行算术平均,得到所属该类型的权重,从而由模糊多高斯模型生成混合高斯分布;最后,对于待识别的输入数据,根据混合高斯分布计算它的各个类别的后验概率,将其归类为概率值最大的对应的类型。概率值最大的对应的类型。概率值最大的对应的类型。

【技术实现步骤摘要】
一种基于模糊多高斯聚类的声学环境噪声的识别方法


[0001]本专利技术涉及声学领域,特别是涉及一种基于模糊多高斯聚类的声学环境噪声的识别方法。

技术介绍

[0002]声学环境里的声音可以粗略分为三类,即语音、乐音和噪音。而对用户听觉感知而言,任何故意的或无意的声音干扰皆可称噪音。例如在移动语音通话或多媒体会议场合存在各种类型的声学噪声,这些噪声可能是食堂、超市等人声噪杂的背景,或者在车辆行驶的街道上的环境噪声。甚至在声学回声消除里,近端用户在讲话时,远端同时讲话,对于远端的回声消除器而言,远端用户的讲话就是噪声,会产生对自适应回声估计的干扰,这也是为何声学回声消除技术有所谓双工检测(double talk detection,DTD)的问题。还有一类在电声设备上常见的噪声是由于电路硬件的热噪引起的HISS声,即传递声信号电路的静默时的背景声。通常情况下,背景噪声会对用户辨识前景语音产生极大的干扰。
[0003]在传统的基于高斯混合模型的模式识别应用里常常把k均值聚类作为初始化方式。由k均值聚类法输出的各类中心作为高斯混合分布的各均值中心,由各类的分类的现况计算各类的方差,作为高斯混合分布的各支方差,然后开始基于期望最大法(EM,expectation maximization)的迭代训练,最后得到收敛后的高斯混合模型。高斯混合模型的基于EM训练机制的缺陷是其数学逻辑不是十分严格,其EM训练算法本质上是启发式的,训练模型的过程不具备稳定性,并非牢固的工业流程化的方式,所以其被称为“炼金术”,而非“冶金术”。此外,高斯混合模型的训练步骤里需要针对各个类别的后验概率的算术平均获得各支的权重,这一过程实际上是额外的计算累赘,降低了模型训练的效率。因此需要一种稳定高效的环境噪声辨识分离方法。

技术实现思路

[0004]本专利技术的目的是解决现有技术的不足,提供一种基于模糊多高斯聚类的声学环境噪声的识别方法。
[0005]为了解决上述问题,本专利技术采用如下技术方案:
[0006]一种基于模糊多高斯聚类的声学环境噪声的识别方法,包括如下步骤:
[0007]步骤1:采集时域的音频数据,并通过模糊均值聚类,实现参数数据初始化;
[0008]步骤2:通过反复迭代运算,增大模糊多高斯模型的训练输出
[0009]其中K表示模糊多高斯模型中的高斯模型数量;Ν(x
j

k

k
)表示正态分布,x
j
表示第j个观测数据,j∈(1,N),μ
k
表示数据期望,σ
k
表示数据标准差;Γ
kj
表示x
j
属于第k类Ν(x,μ
k

k
)的模糊隶属度,Ν(x,μ
k

k
)表示正态分布;模型的训练样本为观测数据,训练样本共N个;
[0010]步骤3:分别测算N个训练样本,获得最大化并更
新新表示t时刻的数据期望,表示t时刻的数据标准差;
[0011]步骤4:根据步骤3中获得的最大化判断该数值随时间的收敛特性;若满足设定的收敛条件,则说明完成了模糊多高斯模型的训练,进入下一步骤;否则返回步骤2;
[0012]步骤5:在完成模糊多高斯模型的训练后,转换获得高斯混合分布;
[0013]步骤6:将待识别的音频数据从时域转换为频域,计算音频数据属于各类的后验概率;
[0014]步骤7:将音频数据归为后验概率最大的类型,结束步骤。
[0015]进一步的,所述步骤1中,在参数数据初始化的过程中,设定Γ
tkj
表示第t步骤时的Γ
kj
数值,Γ
kj
表示数据x
j
属于第k类Ν(x,μ
k

k
)的模糊隶属度;为第t步骤时的μ
k
,μ
k
表示数据期望;为第t步骤时的σ
k
,σ
k
表示数据标准差;设定高斯分布的类型数为K;设定采集的音频数据集为x
j
表示第j个音频数据,N表示数据数量;对音频数据集进行已知聚类数目为2的模糊均值聚类;待均值聚类算法收敛后输出隶属度系数为ω
ij
,ω
ij
表示x
j
属于c均值中第i类的模糊隶属度,0≤ω
ij
≤1,其中隶属度是模糊数学中的现有概念;初始化的式子如下所示;
[0016]Γ
0kj
=ω
kj
[0017][0018][0019]其中,Γ
0kj
表示初始步骤时的Γ
kj
数值;ω
kj
表示x
j
属于高斯分布中第k类的模糊隶属度;表示初始步骤时的μ
k
;表示初始步骤时的σ
k

[0020]进一步的,所述高斯分布的类型数为K的数值为2,两种类型分别对应声学背景噪声和前景音。
[0021]进一步的,所述步骤2中,Ν(x,μ
k

k
)为正态分布,表示为:
[0022][0023]其中,μ
k
表示数据期望;σ
k
表示数据标准差。
[0024]进一步的,所述步骤2中,通过更新Γ
kj
,实现增大模糊多高斯模型的训练输出通过下式更新Γ
kj

[0025][0026]通过时序更新Γ
kj
,增大的值。
[0027]进一步的,所述步骤3中更新的过程包括:
[0028][0029][0030]根据步骤2中获得的Γ
tkj
,更新正态分布的和参数;通过更新的值,在t步骤时最大化
[0031]所述步骤4中,通过下式判断的值随时间的收敛特性:
[0032]Δ<ε
[0033]若Δ满足条件,则算法满足收敛特性,否则返回步骤2。
[0034]进一步的,所述Δ的取值如下所示:
[0035][0036]其中ε为设定阈值;K表示高斯分布类型数;N表示数据的数量。
[0037]进一步的,所述步骤5中,通过将高斯混合分布权重系数π
k
代入步骤4获得的模糊多高斯模型,获得高斯混合分布模型权重系数π
k
的转换过程表示为:
[0038][0039]其中,π
k
为非负权重系数,
[0040]进一步的,所述高斯混合分布模型的模型数量K

与模糊多高斯模型中的数量K一致,均为2。
[0041]本专利技术的有益效果为:
[0042]通过直接基于模糊隶属度进行迭代循环,在收敛或迭代结束后再通过模糊隶属度的算术平均,转化得到各支权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模糊多高斯聚类的声学环境噪声的识别方法,其特征在于,包括如下步骤:步骤1:采集时域的音频数据,并通过模糊均值聚类,实现参数数据初始化;步骤2:通过反复迭代运算,增大模糊多高斯模型的训练输出其中K表示模糊多高斯模型中的高斯模型数量;N(x
j
,μ
k
,σ
k
)表示正态分布,x
j
表示第j个观测数据,j∈(1,N),μ
k
表示数据期望,σ
k
表示数据标准差;Γ
kj
表示属于第k类N(x,μ
k
,σ
k
)的模糊隶属度,N(x,μ
k
,σ
k
)表示正态分布;模型的训练样本为观测数据,训练样本共N个;步骤3:分别测算N个训练样本,获得最大化并更新并更新表示t时刻的数据期望,表示t时刻的数据标准差;步骤4:根据步骤3中获得的最大化判断该数值随时间的收敛特性;若满足设定的收敛条件,则说明完成了模糊多高斯模型的训练,进入下一步骤;否则返回步骤2;步骤5:在完成模糊多高斯模型的训练后,转换获得高斯混合分布;步骤6:将待识别的音频数据从时域转换为频域,计算音频数据属于各类的后验概率;步骤7:将音频数据归为后验概率最大的类型,结束步骤。2.根据权利要求1所述的一种基于模糊多高斯聚类的声学环境噪声的识别方法,其特征在于,所述步骤1中,在参数数据初始化的过程中,设定Γ
tkj
表示第t步骤时的Γ
kj
数值,Γ
kj
表示数据x
j
属于第k类N(x,μ
k
,σ
k
)的模糊隶属度;为第t步骤时的μ
k
,μ
k
表示数据期望;为第t步骤时的σ
k
,σ
k
表示数据标准差;设定高斯分布的类型数为K;设定采集的音频数据集为x
j
表示第j个音频数据,N表示数据数量;对音频数据集进行己知聚类数目为2的模糊均值聚类;待均值聚类算法收敛后输出隶属度系数为ω
ij
,ω
ij
表示x
j
属于c均值中第i类的模糊隶属度,0≤ω
ij
≤1,其中隶属度是模糊数学中的现有概念...

【专利技术属性】
技术研发人员:陆成刚张卫魏小彬杨利中唐嘉骊陈亮
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1