【技术实现步骤摘要】
一种基于模糊多高斯聚类的声学环境噪声的识别方法
[0001]本专利技术涉及声学领域,特别是涉及一种基于模糊多高斯聚类的声学环境噪声的识别方法。
技术介绍
[0002]声学环境里的声音可以粗略分为三类,即语音、乐音和噪音。而对用户听觉感知而言,任何故意的或无意的声音干扰皆可称噪音。例如在移动语音通话或多媒体会议场合存在各种类型的声学噪声,这些噪声可能是食堂、超市等人声噪杂的背景,或者在车辆行驶的街道上的环境噪声。甚至在声学回声消除里,近端用户在讲话时,远端同时讲话,对于远端的回声消除器而言,远端用户的讲话就是噪声,会产生对自适应回声估计的干扰,这也是为何声学回声消除技术有所谓双工检测(double talk detection,DTD)的问题。还有一类在电声设备上常见的噪声是由于电路硬件的热噪引起的HISS声,即传递声信号电路的静默时的背景声。通常情况下,背景噪声会对用户辨识前景语音产生极大的干扰。
[0003]在传统的基于高斯混合模型的模式识别应用里常常把k均值聚类作为初始化方式。由k均值聚类法输出的各类中心作为高斯混合分布的各均值中心,由各类的分类的现况计算各类的方差,作为高斯混合分布的各支方差,然后开始基于期望最大法(EM,expectation maximization)的迭代训练,最后得到收敛后的高斯混合模型。高斯混合模型的基于EM训练机制的缺陷是其数学逻辑不是十分严格,其EM训练算法本质上是启发式的,训练模型的过程不具备稳定性,并非牢固的工业流程化的方式,所以其被称为“炼金术”,而非“冶金术”。此外 ...
【技术保护点】
【技术特征摘要】
1.一种基于模糊多高斯聚类的声学环境噪声的识别方法,其特征在于,包括如下步骤:步骤1:采集时域的音频数据,并通过模糊均值聚类,实现参数数据初始化;步骤2:通过反复迭代运算,增大模糊多高斯模型的训练输出其中K表示模糊多高斯模型中的高斯模型数量;N(x
j
,μ
k
,σ
k
)表示正态分布,x
j
表示第j个观测数据,j∈(1,N),μ
k
表示数据期望,σ
k
表示数据标准差;Γ
kj
表示属于第k类N(x,μ
k
,σ
k
)的模糊隶属度,N(x,μ
k
,σ
k
)表示正态分布;模型的训练样本为观测数据,训练样本共N个;步骤3:分别测算N个训练样本,获得最大化并更新并更新表示t时刻的数据期望,表示t时刻的数据标准差;步骤4:根据步骤3中获得的最大化判断该数值随时间的收敛特性;若满足设定的收敛条件,则说明完成了模糊多高斯模型的训练,进入下一步骤;否则返回步骤2;步骤5:在完成模糊多高斯模型的训练后,转换获得高斯混合分布;步骤6:将待识别的音频数据从时域转换为频域,计算音频数据属于各类的后验概率;步骤7:将音频数据归为后验概率最大的类型,结束步骤。2.根据权利要求1所述的一种基于模糊多高斯聚类的声学环境噪声的识别方法,其特征在于,所述步骤1中,在参数数据初始化的过程中,设定Γ
tkj
表示第t步骤时的Γ
kj
数值,Γ
kj
表示数据x
j
属于第k类N(x,μ
k
,σ
k
)的模糊隶属度;为第t步骤时的μ
k
,μ
k
表示数据期望;为第t步骤时的σ
k
,σ
k
表示数据标准差;设定高斯分布的类型数为K;设定采集的音频数据集为x
j
表示第j个音频数据,N表示数据数量;对音频数据集进行己知聚类数目为2的模糊均值聚类;待均值聚类算法收敛后输出隶属度系数为ω
ij
,ω
ij
表示x
j
属于c均值中第i类的模糊隶属度,0≤ω
ij
≤1,其中隶属度是模糊数学中的现有概念...
【专利技术属性】
技术研发人员:陆成刚,张卫,魏小彬,杨利中,唐嘉骊,陈亮,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。