一种音频内容识别方法和装置制造方法及图纸

技术编号:10071706 阅读:173 留言:0更新日期:2014-05-23 17:12
本发明专利技术实施例提供一种音频内容识别方法和装置,包括:预先建立ARAM集,在需要对音频内容进行识别时,针对待识别音频信号中的每个基元,提取MFCC波形特征参数,从而可以利用针对一个基元提取出的MFCC波形特征参数与ARAM集中的ARAM进行模糊匹配,并可以将匹配度最高的ARAM对应的音频内容,确定为该基元对应的音频内容,从而通过与基于MFCC波形特征参数建立的ARAM模型匹配的方式提高识别出的音频内容的准确性。特别的,还可以通过建立特殊音频对应的ARAM,实现对短忙音、长忙音、振铃等特殊音频的准确识别。

【技术实现步骤摘要】
【专利摘要】本专利技术实施例提供一种音频内容识别方法和装置,包括:预先建立ARAM集,在需要对音频内容进行识别时,针对待识别音频信号中的每个基元,提取MFCC波形特征参数,从而可以利用针对一个基元提取出的MFCC波形特征参数与ARAM集中的ARAM进行模糊匹配,并可以将匹配度最高的ARAM对应的音频内容,确定为该基元对应的音频内容,从而通过与基于MFCC波形特征参数建立的ARAM模型匹配的方式提高识别出的音频内容的准确性。特别的,还可以通过建立特殊音频对应的ARAM,实现对短忙音、长忙音、振铃等特殊音频的准确识别。【专利说明】一种音频内容识别方法和装置
本专利技术涉及通信领域,尤其涉及一种音频内容识别方法和装置。
技术介绍
随着通信行业的快速发展,人们对于通信服务的需求越来越大,通信设备的配置也成为当今生活不可缺少的元素,而通信领域的发展也带动了整个社会经济体蓬勃快速的提升。虽然实时通信服务给人们的通信社交生活带来了极大的便利,却也暗藏了一些隐患。近年来越来越多的电信用户受到诸如骚扰电话、电话传销等行为的困扰,更有不法分子通过实时通信网络实施电话诈骗、传播反动言论等威胁人身财产安全的行为,严重影响了广大电信用户的日常生活,同时给电信运营企业、政府监管部门的社会形象与公信力造成了极大的负面影响。如何能够快速准确地甄别出这些音频通信行为并予以精准打击,成为当前通信领域的重要目标。传统的治理手段主要是依靠电信运营企业提供的投诉热线,由电信监管部门采用人工监听等手段来处理上述问题,费时、费力且远远达不到高效率和高精度的监管要求。音频通信在信息检索、公司客服、产品售后服务等领域也扮演着不可或缺的角色,信息检索、公司客服、产品售后服务等都依靠方便快捷的通信网络为千万用户提供着便捷服务。而当前采用人工语音服务的手段既费时又费力,当线路繁忙时,用户更无法及时获得所需?目息。音频内容智能识别是解决上述的问题的有效手段。当前较成熟的音频内容识别技术以英文识别系统为主,中文语音由于其包含大量多音字词、四声音调等特点,音频内容识别的准确率较低。且由于公共电信网络中的特殊音频,例如短忙音(又称空号音)、长忙音、振铃等的音频信号极其相似,若要实现精准识别具有较大难度。现有技术还无法实现对公共电信网络中特殊音频的识别。
技术实现思路
本专利技术实施例提供一种音频内容识别方法和装置,用于提高音频内容识别准确率。一种音频内容识别方法,所述方法包括:接收待识别音频信号;对所述待识别音频信号进行切分,确定所述待识别音频信号中的每个基元,一个基元是独立发声的最小区间对应的音频信号; 针对每个基元,提取梅尔频 率倒谱系数MFCC波形特征参数,根据所述MFCC波形特征参数,与音频识别分析模型ARAM集中每个预先建立的ARAM进行模糊匹配,将匹配度最高的ARAM对应的音频内容,确定为该基元对应的音频内容;其中,所述ARAM是根据MFCC波形特征参数建立的。一种音频内容识别装置,所述装置包括:接收单元,用于接收待识别音频信号;切分单元,用于对所述待识别音频信号进行切分,确定所述待识别音频信号中的每个基元,一个基元是独立发声的最小区间对应的音频信号;特征提取单元,用于针对切分单元确定出的每个基元,提取梅尔频率倒谱系数MFCC波形特征参数;内容识别单元,用于根据特征提取单元提取出的所述MFCC波形特征参数,与音频识别分析模型ARAM集中每个预先建立的ARAM进行模糊匹配,将匹配度最高的ARAM对应的音频内容,确定为该基元对应的音频内容;其中,所述ARAM是根据MFCC波形特征参数建立的。根据本专利技术实施例提供的方案,可以预先建立ARAM集,在需要对音频内容进行识别时,针对待识别音频信号中的每个基元,提取MFCC波形特征参数,从而可以利用针对一个基元提取出的MFCC波形特征参数与ARAM集中的ARAM进行模糊匹配,并可以将匹配度最高的ARAM对应的音频内容,确定为该基元对应的音频内容,从而通过与基于MFCC波形特征参数建立的ARAM模型匹配的方式提高识别出的音频内容的准确性。特别的,还可以通过建立特殊音频对应的ARAM,实现对短忙音、长忙音、振铃等特殊音频的准确识别。【专利附图】【附图说明】图1为本专利技术实施例一提供的音频内容识别方法的步骤流程图;图2为本专利技术实施例二提供的音频内容识别方法的层次示意图;图3为本专利技术实施例三提供的音频内容识别装置的结构示意图。【具体实施方式】针对现有技术中,音频内容识别的准确率较低的问题,本专利技术实施例提出可以通过建立基元对应的音频识别分析模型(ARAM,Audio Recognise and Analyse Model)模型,通过对待识别首频i目号中基兀与ARAM |旲型的匹配,来识别每个基兀对应的首频内容,提闻对音频内容识别的准确性。而为了进一步提高对待识别音频信号识别的准确性,本专利技术实施例提出还可以利用预先设定的语法规则,进一步对待识别音频信号对应的音频内容进行合法性校验,从而更好地保证音频内容识别的准确性。下面通过说明书附图和各实施例对本专利技术方案进行详细说明。实施例一、本专利技术实施例一提供一种音频内容识别方法,该方法的步骤流程可以如图1所示,包括:步骤101、接收待识别音频信号。在本步骤中,可以接收待识别音频信号。步骤102、确定待识别首频/[目号中的基兀。在本步骤中,可以对所述待识别音频信号进行切分,确定所述待识别音频信号中的每个基元,一个基元可以理解为独立发声的最小区间对应的音频信号。具体的,在本步骤中,可以对待识别音频信号中每个基元的开始时间和结束时间进行标注,从而对待识别音频信号以基元为单位进行分割。步骤103、确定基元对应的音频内容。在本实施例中,可以预先建立基元对应的ARAM,从而获得ARAM集,其中,ARAM是根据梅尔频率倒谱系数(MFCC,Mel Frequency Cepstral Coefficient)波形特征参数建立的。在本步骤中,可以针对待识别音频信号中的每个基元,提取MFCC波形特征参数,根据所述MFCC波形特征参数,与ARAM集中每个预先建立的ARAM进行模糊匹配(可以理解为,根据所述MFCC波形特征参数,与ARAM集中每个预先建立的ARAM的模型参数,如音频数据变换概率参数和变化向量参数,进行模糊匹配),将匹配度最高的ARAM对应的音频内容,确定为该基元对应的音频内容。例如,针对待识别音频信号中的一个基元,根据针对该基元提取出的MFCC波形特征参数,与ARAM集中每个预先建立的ARAM进行模糊匹配,若匹配出的三个ARAM,分别用ARAMl,ARAM2 和 ARAM3 表示。且与 ARAMl,ARAM2 和 ARAM3 匹配度分别为 60%,90% 和 85%,则可以将ARAM2对应的音频内容,确定为该基元对应的音频内容。例如,ARAM2对应的音频内容为中文语音“我”,则确定该基元对应的音频内容为中文语音“我”。又如,ARAM2对应的音频内容为长忙音,则确定该基元对应的音频内容为长忙音。较优的,如果待识别音频信号中包括多个基元,为了提高音频内容识别效率,可以采用并发处理的方式,例如,采用多线程和/或多进程的方式,同时确定待识别音频信号中每个基元对应的音频内容,在确定出待识别音频信号中本文档来自技高网
...

【技术保护点】
一种音频内容识别方法,其特征在于,所述方法包括:接收待识别音频信号;对所述待识别音频信号进行切分,确定所述待识别音频信号中的每个基元,一个基元是独立发声的最小区间对应的音频信号;针对每个基元,提取梅尔频率倒谱系数MFCC波形特征参数,根据所述MFCC波形特征参数,与音频识别分析模型ARAM集中每个预先建立的ARAM进行模糊匹配,将匹配度最高的ARAM对应的音频内容,确定为该基元对应的音频内容;其中,所述ARAM是根据MFCC波形特征参数建立的。

【技术特征摘要】

【专利技术属性】
技术研发人员:武勇周连华孙怡张腾刘焱
申请(专利权)人:中国移动通信集团上海有限公司上海中移通信技术工程有限公司联创亚信科技南京有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1