【技术实现步骤摘要】
一种音频事件检测方法及系统
本专利技术涉及音频识别
,特别是一种音频事件检测方法及系统。
技术介绍
音频事件是指具有某种特定语义或内容的一个音频片段,从音频事件处理的方式上分为分类和检测。音频事件的检测包括音频事件的定位和音频事件的识别,通常先利用分段算法定位音频事件的位置,再通过神经网络模型识别出音频事件的类型。传统的用于检测音频事件的神经网络模型的训练用时长,识别效果差。
技术实现思路
本专利技术为解决上述问题,提供了一种音频事件检测方法及系统,减少用于检测音频事件的神经网络模型的训练用时,并提高识别效果。为实现上述目的,本专利技术采用的技术方案为:一种音频事件检测方法,使用基于模糊聚类的GMM模型,所述GMM模型的构建方法为:所述GMM模型的高斯混合数为M(M为正整数),对于训练数据进行模糊聚类,得到码本集合X={x1,x2,…,xi},i=1,2,…,M,其中,第i个高斯原子Xi的样本空间大小为di;令第i个高斯原子Xi的均值向量,作为所述GMM模型的第i个高斯分量的初始值μ ...
【技术保护点】
1.一种音频事件检测方法,其特征在于,使用基于模糊聚类的GMM模型,所述GMM模型的构建方法为:所述GMM模型的高斯混合数为M(M为正整数),对于训练数据
【技术特征摘要】
1.一种音频事件检测方法,其特征在于,使用基于模糊聚类的GMM模型,所述GMM模型的构建方法为:所述GMM模型的高斯混合数为M(M为正整数),对于训练数据进行模糊聚类,得到码本集合X={x1,x2,…,xi},i=1,2,…,M,其中,第i个高斯原子Xi的样本空间大小为di;令第i个高斯原子Xi的均值向量,作为所述GMM模型的第i个高斯分量的初始值μi,第i个高斯原子Xi的方差向量,作为第i个高斯分量的初始方差σi,对模型参数进行迭代优化,直至所述GMM模型训练完成。
2.根据权利要求1所述的一种音频事件检测方法,其特征在于,所述模型参数的重估公式包括:
加权系数重估公式:
均值向量重估公式:
方差向量重估公式:
3.根据权利要求1所述的一种音频事件检测方法,其特征在于,所述GMM模型的训练方法,包括以下步骤:
训练音频分帧,得训练分帧音频;
提取所述训练分帧音频的MFCC特征,得训练MFCC特征;
将所述训练MFCC特征输入待训练的所述GMM模型,所述GMM模型输出预测结果;
多次迭代训练,优化损失值至趋于稳定后完成训练。
4.根据权利要求1所述的一种音频事件检测方法,其特征在于,包括以下步骤:
待识别音频自适应分段,得待识别分段音频;
提取所述待识别分段音频的MFCC特征,得待识别MFCC特征;
将所...
【专利技术属性】
技术研发人员:陈剑超,肖龙源,李稀敏,刘晓葳,叶志坚,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。