音频的特征提取方法、音频的分类方法和相关装置制造方法及图纸

技术编号:12941108 阅读:86 留言:0更新日期:2016-03-01 11:32
本发明专利技术公开了一种音频的特征提取方法、音频的分类方法和相关装置,用以解决现有技术中无法对不同时长的音频提取出相同长度的特征的问题。该方法包括:获得音频,并针对获得的每个音频执行下述操作:按照预先设置的分帧规则,对该音频进行划分,得到多个音频帧;按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征;根据得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种音频的特征提取方法、音频的分类方法和相关装置,用以解决现有技术中无法对不同时长的音频提取出相同长度的特征的问题。该方法包括:获得音频,并针对获得的每个音频执行下述操作:按照预先设置的分帧规则,对该音频进行划分,得到多个音频帧;按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征;根据得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。【专利说明】音频的特征提取方法、音频的分类方法和相关装置
本专利技术涉及模式识别领域,尤其涉及一种音频的特征提取方法、音频的分类方法和相关装置。
技术介绍
音频的分类可广泛应用于音频检索以及异常事件检测。比如,应用于音频检索的一个实例是通过对某音频进行语音与音乐的分类,从而能够在确定出的类别所对应的数据库中进行检索。在该实例中,如果能够预先确定出该音频的类别是“音乐”,则可以直接在“音乐数据库”中去检索。特别地,如果能够预先确定出该音频是具备某种音乐风格的音频,则可进一步缩小检索范围。再比如,应用于异常事件检测的一个实例是通过对某音频进行尖叫声、玻璃碎裂声、枪声与正常声音(如按某人正常语速说话的声音等)的分类,从而判断出产生该音频的事件是异常事件还是正常事件。在该实例中,如果确定出该音频的特征与尖叫声、枪声或玻璃碎裂等异常音频的特征类似,则可以确定该音频归属于异常音频这一类别,从而确定该音频所对应的事件为异常事件;而如果该音频的特征与正常声音的特征类似,则可以确定该音频归属于正常音频这一类别,从而确定该音频所对应的事件为正常事件。 现有技术中一般都是对已知类别的且时长等于特定时长(比如I秒)的音频样本进行分帧短时处理(即将一段音频划分为多帧),得到各个帧的美尔倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)、线性预测倒谱系数(Linear Predictive Cepstral Coding,LPCC)等,并将其组合起来作为该段音频样本的特征,再将从各个音频样本中提取到的特征进行聚类或分类训练得到各类音频的共性特征。而后在对未知类别的音频进行分类时,也是对时间定长的一段音频进行同样的分帧处理,提取相应的特征送入聚类得到的聚类中心或分类训练得到的分类器中进行比较,从而确定分类结果。 上述这种方法存在的缺陷是:无论是已知类别的音频样本,还是需要分类的未知类别的音频,都要求它们的时长必须等长(为指定时间长度),因为如果时长不等长,则按照上述方法提取到的特征的长度也是不相等的,从而无法进行聚类或分类训练,更无法对未知类别的音频进行分类。
技术实现思路
本专利技术实施例提供一种音频的特征提取方法、音频的分类方法和相关装置,用以解决现有技术中无法对不同时长的音频提取出相同长度的特征的问题。 本专利技术实施例采用以下技术方案: 一种音频的特征提取方法,包括: 获得音频,并针对获得的每个音频执行下述操作: 按照预先设置的分帧规则,对该音频进行划分,得到多个音频帧; 按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频中贞的特征; 根据得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;其中,每个音频帧与其对应的聚类中心满足:在该音频帧的特征和每个聚类中心的特征的相似度中,该音频帧的特征和其对应的聚类中心的特征的相似度最大;所述各聚类中心是根据所述分帧规则分别将各个音频样本划分为多个音频样本帧,并按照所述特征提取规则提取各音频样本帧的特征后,对提取出的各音频样本帧的特征进行聚类得到的; 分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。 一种音频的特征提取装置,包括: 获得单元,用于获得音频; 分帧单元,用于对获得单元获得的每个音频执行:按照预先设置的分帧规则,对该音频进行划分,得到多个音频帧; 特征提取单元,用于按照预先设置的特征提取规则,分别对分帧单元得到的所述多个音频帧进行特征提取,得到各音频帧的特征; 聚类中心确定单元,用于根据特征提取单元得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;其中,每个音频帧与其对应的聚类中心满足:在该音频帧的特征和每个聚类中心的特征的相似度中,该音频帧的特征和其对应的聚类中心的特征的相似度最大;所述各聚类中心是根据所述分帧规则分别将各个音频样本划分为多个音频样本帧,并按照所述特征提取规则提取各音频样本帧的特征后,对提取出的各音频样本帧的特征进行聚类得到的; 特征确定单元,用于分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。 一种音频的分类方法,包括: 步骤一:按照预先设置的分帧规则,对待分类音频进行划分,得到多个音频帧; 步骤二:按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征; 对步骤三、步骤四和步骤五依次执行至少两次: 步骤三:根据得到的各音频帧和预先预设的段间重叠第二百分比,确定预设数量的音频段;并根据确定出的预设数量的音频段,以及用于区别音频帧类别的各聚类中心,分别确定各音频段所包含的各音频帧对应的聚类中心;其中,每个音频帧与其对应的聚类中心满足:在该音频帧的特征和每个聚类中心的特征的相似度中,该音频帧的特征和其对应的聚类中心的特征的相似度最大;所述各聚类中心是根据所述分帧规则分别将各个音频样本划分为多个音频样本帧,并按照所述特征提取规则提取各音频样本帧的特征后,对提取出的各音频样本帧的特征进行聚类得到的;其中,当所述步骤三被执行至少两次时,每次所根据的所述段间重叠第二百分比互不相同; 步骤四:分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征; 步骤五:根据确定出的所述音频的特征和用于区别音频类别的分类器,确定分类结果;其中,所述分类器是根据对各音频样本的特征进行分类训练得到的;其中,每个音频样本的特征是根据其音频帧的特征以及所述各聚类中心得到的; 步骤六:根据确定出的分类结果,确定所述音频的类别。 一种音频的分类装置,包括: 分帧单元,用于预先设置的分帧规则,对待分类音频进行划分,得到多个音频帧; 特征提取单元,用于按照预先设置的特征提取规则,分别对分帧单元得到的所述多个音频帧进行特征提取,得到各音频帧的特征; 分类结果确定单元,用于对下述步骤依次执行至少两次: 步骤一:根据得到的各音频帧和预先预设的段间重叠第二百分比,确定预设数量的音频段;并根据确定出的预设数量的音频段,以及用于区别音频帧类别的各聚类中心,分别确定各音频段所包含的各音频帧对应的聚类中心;其中,每个音频帧与其对应的聚类中心满足:在该音频帧的特征和每个聚类中心的特征的相似度中,该音频帧的特征和其对应的聚类中心的特征的相似度最大;所述各聚类中心是根据所述分帧规则分别将各个音频样本划分为多个音频样本帧,并按照所述特征提取规则提取各音频样本帧的特征后,本文档来自技高网
...
音频的特征提取方法、音频的分类方法和相关装置

【技术保护点】
一种音频的特征提取方法,其特征在于,包括:获得音频,并针对获得的每个音频执行下述操作:按照预先设置的分帧规则,对该音频进行划分,得到多个音频帧;按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征;根据得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;其中,每个音频帧与其对应的聚类中心满足:在该音频帧的特征和每个聚类中心的特征的相似度中,该音频帧的特征和其对应的聚类中心的特征的相似度最大;所述各聚类中心是根据所述分帧规则分别将各个音频样本划分为多个音频样本帧,并按照所述特征提取规则提取各音频样本帧的特征后,对提取出的各音频样本帧的特征进行聚类得到的;分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。

【技术特征摘要】

【专利技术属性】
技术研发人员:谢志明潘晖潘石柱张兴明傅利泉朱江明吴军吴坚
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1