用于音频内容识别的分类系统技术方案

技术编号:4170718 阅读:321 留言:0更新日期:2012-04-11 18:40
一种音频内容分类系统,包括训练端与测试端,训练端通过音频特征提取模块提取音频测试样本的特征,并通过分类器训练模块训练出分类器的参数;而测试端包括与训练端共用的音频特征提取模块用以提取输入信号的音频特征,而分类器决策模块是根据音频特征提取模块的输出音频特征为输入,对第一帧运用训练部分训练得到的分类器参数进行分类,同时瞬态特征提取模块对该输入信号的瞬态特征进行提取并输出至瞬态特征平滑模块,该瞬态特征平滑模块来对分类器决策模块的输出结果进行修正并输出,同时增量学习模块利用已分类的音频帧的类别信息和特征信息来当作一组增量学习样本更新分类器的参数。

Classification system for audio content identification

An audio classification system, including training and testing training end end end, extraction module feature extraction of audio samples tested by audio features, and through the classifier training module trained classifier parameters; and the test and training end end includes audio feature extraction module is used to share the audio input signal feature extraction, and classifier decision according to the characteristics of the audio output module audio feature extraction module as input, the classification of the first frame using the classifier parameters obtained from the training and training, the transient feature extraction module to extract and output to the transient characteristics of the transient characteristics of smoothing module of the input signal, the output of the classifier decision module to modify the results and outputs the transient characteristics at the same time smoothing module, incremental learning module using the audio frame has the information and special category classification The information is used as a set of incremental learning samples to update the classifier parameters.

【技术实现步骤摘要】
用于音频内容识别的分类系统技术领城本专利技术涉及一种模式识别及信号处理技术,尤其涉及一种用于音频内容 识别的分类系统,
技术介绍
音频是多媒体中的一种重要媒体,音频信息检索技术是多媒体信息检索技术中的一个重要部分,相应的现有技术可参考中国专利1391211、 1223739 及1270361号及美国专利5,613,037、 6,292,776及5,440,662号等。在音频检 索应用中,需要对音频数据进行分类,它的目的是区分输入的音频信号属于 那一类,常见的音频类别有人声、背景噪声、流行音乐、古典音乐等,并且 音频内容分类的应用也非常广泛,特别是在音频检索领域,音频内容分类起 着决定性的作用,而在一些多媒体摘要的抽取过程中,音频内容分类作为视 频内容检索的一种辅助手段也起到了重要作用。广义上来说,在很多语音和 音频标准,例如3GPP的AMR-WB和AMR-WB+里,它们都用到了语音/噪 声分类器和语音/音乐分类器,提供给编码器输入信号是哪一种音频信号,从 而对每一种信号采取不同的编码器,因此设计一种良好的音频内容分类方法 是相当关键和重要的。在通常的分类方法中,通常用到两个必不可少的模块, 即音频特征提取模块,其功能是从输入的音频采样点中提取反映音频内容种 类的信息,而另一个则是分类器,其利用这些信息完成对种类判断的过程。其中音频内容的4艮多特征,例如时域特征(过零率、曲率、线性预测系数等 等)、频域特征(梅尔倒谘系数、傅立叶变换泉数,小波变换系数等等)以及 一些其他非线性特征(分形、混沌参数等等)被证明是非常有效的分类方法,而在音频内容分类
内,已有很多种分类器被广泛应用了,其中决策树(Decision Tree)和k-最近邻方法(K Nearest Neighbor)为两种相对较 易于实现和理解的分类器,它们并对语音、环境噪声、音乐三类音频内容分 类取得了良好的效果。此外,在AMR-WB+标准里,语音和音乐的分类器也 是采用的决策树的方法。而支持向量机分类器(Support Vector Machine Classifier)作为一种近几年来被很多机器学习和模式识别领域里采用的分类 器,也被证明是一种非常行之有效的方法。其他几种经典分类器,例如反向 神经网络(Back-Propagation Neural Network),人工神经网络(Artificial Neural Network)聚类(Clustering)方法,也被证明对音频内容分类是有效的。 而在现有的分类系统中,由于其分类器的参数均为固定,无法进行及时 更新,并且对突发事件的音频特性无法进行有效处理,因此不能满足特定环 境(如安防监控)的使用要求。
技术实现思路
本专利技术要解决的技术问题在于提出 一种音频内容分类系统,用以解决现 有的分类器的参数无法更新及对突发事件的音频特性无法进行有效处理的缺 陷。为解决上述问题,根据本专利技术的一种音频内容分类系统,包括训练端与测试端,其中训练端包括音频特征提取模块与分类器训练模块,其中音频特 征提取模块用以提取音频测试样本的特征,而分类器训练模块根据音频特征提取模块采集的音频特征以及该音频信号的类别信息,训练出分类器的参数; 而测试端包括和训练端共用的音频特征提取模块、分类器决策模块、瞬态特 征提取模块、瞬态特征平滑模块及增量学习模块,其中音频特征提取模块用 以提取输入信号的音频特征,分类器决策模块是根据音频特征提取模块的输 出音频特征为输入,对第 一帧运用训练部分训练得到的分类器参数进行分类, 同时瞬态特征提取模块对该输入信号的瞬态特征进行提取并输出至瞬态特征 平滑模块,该瞬态特征平滑模块来对分类器决策模块的输出结果进行修正并 输出,同时增量学习模块利用已分类的音频帧的类别信息和特征信息来当作 一组增量学习样本更新分类器的参数。依据上述主要特征,瞬态特征提取模块提取出当前帧的瞬态特征并进行 判断,瞬态特征平滑模块根据瞬态特征的不同而采取不同的平滑处理方法, 其中当前帧被判断为瞬态帧的时候,采用第二平滑方法,反之采用第一平滑 方法,其中第一平滑方法是指和瞬态特征无关的平滑方法,第二平滑方法则 是与瞬态特征相关的平滑方法。依据上述主要特征,瞬态特征提取是将输入音频帧分成M段 g,/-l,2,...,32,其中/AT然后计算每段的幅度之和,即采样点数值的绝对值之和,得到"帐A之后再计算每一段和前一段的能量比和幅度-能量比 min(H)帐S,再计算最大的幅度-能量比和能量比《=mpc(log/;'),f-l,2 ,因此,瞬态特征可以用如下方式计算得到瞬态特征以后,判断F是否大于第一门限值,如果大于则表示为瞬 态帧,则采用第二平滑方法,反之则采用第一平滑方法。依据上述主要特征,第一平滑方法是先分析前三帧,如果出现了 "非突 发事件帧、突发事件帧、非突发事件帧"这种分类结果,则将三帧都平滑为 非突发事件帧,而第二平滑方法的一种实施例可以是当特征F大于第二门限 值时,则令此帧开始前三帧和后三帧都为突发事件。依据上述主要特征,第二门限值比第一门限值大。依据上述主要特征,更新分类器参数是通过将预先保存的训练数据和增 量学习的样本组成一个更大的训练样本,重新训练分类器,更新分类器参数。依据上述主要特征,上述的分类器里还包括特征融合模块或者特征降维 模块。依据上述主要特征,在提取了特征以后和决策分类之前应用主成分分析将特征降维。依据上述主要特征,瞬态特征提取方法是感知熵。 依据上述主要特征,所述分类器采用决策树方法。 依据上述主要特征,所述分类器采用神经网络方法. 依据上述主要特征,所述分类器采用支持向量机方法。 依据上述主要特征,所述分类器采用聚类方法。 依据上述主要特征,所述分类器采用贝叶斯方法。与现有技术相比较,本专利技术采用了增强学习技术和瞬态特征平滑技术, 提高了分类的正确率。 附图说明图l为本专利技术实施例的训练端的组成架构图。图2为本专利技术实施例的测试端的组成架构图。具体实施例方式以下结合附图对本专利技术具体实施方式进行说明。音频是多媒体中的一种重要媒体,音频信息检索技术是多媒体信息检索 技术中的一个重要部分。在音频检索应用中,需要对音频数据进行分类,它 的目的是区分输入的音频信号属于那一类,常见的音频类别有人声、背景噪 声、流行音乐、古典音乐等,并且音频内容分类的应用也非常广泛,特别是 在音频检索领域,音频内容分类起着决定性的作用,而在一些多媒体摘要的 抽取过程中,音频内容分类作为视频内容检索的一种辅助手段也起到了重要作用。广义上来说,在很多语音和音频标准,例如3GPP的AMR-WB和 AMR-WB+里,它们都用到了语音/噪声分类器和语音/音乐分类器,提供给编 码器输入信号是哪一种音频信号,从而对每一种信号采取不同的编码器,因 此设计一种良好的音频内容分类方法是相当关键和重要的.在通常的分类方 法中,通常用到两个必不可少的模块,即音频特征提取模块,其功能是从输 入的音频采样点中提取反映音频内容种类的信息,而另一个则是分类器,其 利用这些信息完成对种类判断的过程。其中音频内容的很多特征,例如时域 特征(过零率、曲率、线性预测系数等等)、频域特征(梅尔倒i普系数、傅立 叶变换系数,小波变换系数等等)以及一些其他本文档来自技高网
...

【技术保护点】
一种音频内容分类系统,包括训练端与测试端,其特征在于训练端包括: 音频特征提取模块,用以提取音频测试样本的特征; 分类器训练模块,其根据音频特征提取模块采集的音频特征以及该音频信号的类别信息,训练出分类器的参数; 而测试端 包括: 和训练端共用的音频特征提取模块; 分类器决策模块,根据音频特征提取模块的输出音频特征为输入,对第一帧运用训练部分训练得到的分类器参数进行分类; 瞬态特征提取模块,对该输入信号的瞬态特征进行提取并输出至瞬态特征平滑模 块; 该瞬态特征平滑模块来对分类器决策模块的输出结果进行修正并输出; 增量学习模块利用已分类的音频帧的类别信息和特征信息来当作一组增量学习样本更新分类器的参数。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄鹤云林福辉
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利