音频信号的分类识别方法及装置制造方法及图纸

技术编号:7332582 阅读:358 留言:0更新日期:2012-05-11 03:52
本申请实施例公开了一种音频信号的分类识别方法及装置,所述方法包括:获取一帧音频信号,对所述一帧音频信号进行预处理;通过预处理的结果对所述一帧音频信号之前的音频片段进行更新,生成包含所述一帧音频信号的当前音频片段;从所述当前音频片段中提取分类特征低短时能量比LSTER和跳跃能量比JSTER;根据所述分类特征识别所述一帧音频信号的类型,得到初始分类结果。本申请实施例中每次对一帧音频信号进行识别,由于音频信号的长度远远小于音频片段,因此延时性能极大提高,提高了音频处理的实时性能;通过LSTER和JSTER两个分类特征对音频信号进行识别,增加了音频信号识别的准确性,降低了音频信号识别的复杂度。

【技术实现步骤摘要】

本申请涉及通信
,特别涉及语音音频处理中音频信号的分类识别方法及直O
技术介绍
USAC(Unified Coding of Speech and Audio,语音音频统一编码)是对语音信号和音乐信号的统一编码,在编码过程中需要正确识别出输入信号具有语音特征还是音乐特征,从而选择不同的编码方案对语音信号和音乐信号分别进行编码。参见图1,为现有识别语音和音乐信号的系统示意图。该系统包括MLER (改进型低能量帧率)特征获取模块110、贝叶斯后验分类模块120和后验决策模块130,该系统中基于分类特征进行判断,该分类特征具体为MLER。应用图1所示的系统,首先通过MLER特征获取模块110提取出第i个音频片段的MLER,然后利用贝叶斯后验分类模块120根据预先设置的阈值对该第i个音频片段的类型进行分类识别,最后利用后验决策模块130对前述分类识别的结果进行进一步验证,即后验决策模块130首先对识别结果进行缓存,并设定为初始状态,然后根据后续接收到的分类识别结果对前述保存的初始状态进行决策,利用后续音频片段的分类识别结果对已识别出的分类结果进行验证,以期减少分类误差。现有技术中使用了唯一的分类特征MLTR对音频片段的类型进行识别,每次判定以一个音频片段作为输出,一个音频片段的长度通常为1秒左右,因此相应会引入1秒左右的编码延迟,由此降低了音频处理的实时性能;由于现有技术中基于后验决策方法判断当前音频片段的类型,并且还需要通过后续音频片段的类型对当前音频片段的类型进行后验校验,因此将进一步加大语音音频的处理延时。
技术实现思路
本专利技术实施例提供音频信号的分类识别方法及装置,以解决现有音频信号的识别处理过程延时较大,音频处理实时性能不高的问题。本专利技术实施例提供一种音频信号的分类识别方法,包括获取一帧音频信号,对所述一帧音频信号进行预处理;通过预处理的结果对所述一帧音频信号之前的音频片段进行更新,生成包含所述一帧音频信号的当前音频片段;从所述当前音频片段中提取分类特征,所述分类特征包括低短时能量比LSTER和跳跃能量比JSTER ;根据所述分类特征识别所述一帧音频信号的类型,得到初始分类结果。本专利技术实施例提供一种音频信号的分类识别装置,包括获取单元,用于获取一帧音频信号;预处理单元,用于对所述一帧音频信号进行预处理;更新单元,用于通过预处理的结果对所述一帧音频信号之前的音频片段进行更新,生成包含所述一帧音频信号的当前音频片段;提取单元,用于从所述当前音频片段中提取分类特征,所述分类特征包括低短时能量比LSTER和跳跃能量比JSTER ;识别单元,用于根据所述分类特征识别所述一帧音频信号的类型,得到初始分类结果。由以上本申请实施例提供的技术方案可见,本申请实施例中获取一帧音频信号, 对一帧音频信号进行预处理,通过预处理的结果对一帧音频信号之前的音频片段进行更新,生成包含该一帧音频信号的当前音频片段,从当前音频片段中提取分类特征LSTER和 JSTER,根据分类特征识别一帧音频信号的类型,得到初始分类结果。与现有技术中每次需要识别一个音频片段的类别不同,本申请实施例中每次对一帧音频信号进行识别,由于音频信号的长度远远小于音频片段,因此延时性能极大提高,提高了音频处理的实时性能;本申请实施例中通过LSTER和JSTER两个分类特征对音频信号进行识别,增加了音频信号识别的准确性,并且由于无需进行复杂的后验决策等计算,因此降低了音频信号识别的复杂度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为现有识别语音和音乐信号的系统示意图;图2为本申请音频信号的分类识别方法的第一实施例流程图;图3为本申请音频信号的分类识别方法的第二实施例流程图;图4为本申请实施例中对音频片段进行更新生成当前音频片段的示意图;图5为本申请音频信号的分类识别方法的第三实施例流程图;图6为本申请音频信号的分类识别装置的第一实施例框图;图7为本申请音频信号的分类识别装置的第二实施例框图。具体实施例方式本申请实施例提供了音频信号的分类识别方法及装置。本申请实施例中对音频信号的分类识别主要指识别出音频信号属于语音信号或是音乐信号。为了使本
的人员更好地理解本申请方案,并使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。参见图2,为本申请音频信号的分类识别方法的第一实施例流程图步骤201 获取一帧音频信号,对该一帧音频信号进行预处理。具体的,将一帧音频信号划分为若干子帧,若干子帧中相邻两个子帧相互重叠,通过对每个子帧加汉明窗处理,计算每个子帧的短时能量。步骤202 通过预处理的结果对该一帧音频信号之前的音频片段进行更新,生成包含该一帧音频信号的当前音频片段。具体的,将之前的音频片段的起始位置处的一帧音频信号的短时能量移除,将一帧音频信号的每个子帧的短时能量移入之前的音频片段的末端,生成当前音频片段。步骤203 从当前音频片段中提取分类特征低短时能量比LSTER和跳跃能量比 JSTER0LSTER(低短时能量比)指一个音频片段中能量低于阈值的子帧个数占该音频片段中子帧总数的比例JSTER(跳跃能量比)指一个音频片段中发生能量跳跃的子帧个数占该音频片段中子帧总数的比例。上述两个分类特征的提取主要在于计算每个子帧的短时能量,因此计算量较低。具体的,在提取LSTER时,计算当前音频片段中所有子帧的短时能量的平均值阈值,统计当前音频片段中子帧的短时能量低于平均值阈值的子帧个数,将低于平均值阈值的子帧个数除以当前音频片段中子帧的总数,得到LSTER。具体的,在提取JSTER时,获取当前音频片段中当前子帧的前一个子帧的短时能量和预测能量,根据前一个子帧的短时能量和预测能量计算当前子帧的预测能量,通过比较当前子帧的预测能量与当前子帧的短时能量判断当前子帧是否发生能量突变,统计当前音频片段中发生能量突变的子帧的个数,将发生能量突变的子帧个数除以当前音频片段中子帧的总数,得到JSTER。步骤204 根据分类特征识别该一帧音频信号的类型,得到初始分类结果。具体的,获取一帧音频信号的能量值,比较一帧音频信号的能量值与预设的静音帧的能量阈值,当能量值小于能量阈值时,判定一帧音频信号的类型与其上一帧音频信号的类型一致;当能量值大于阈值时,比较提取的LSTER与预先设置的LSTER阈值,当提取的 LSTER小于LSTER阈值时,判定一帧音频信号为音乐信号;当提取的LSTER大于LSTER阈值时,比较提取的JSTER与预先设置的JSTER阈值,当提取的JSTER小于JSTER阈值时,判定一帧音频信号为音乐信号,当提取的JSTER大于JSTER阈值时,判定一帧音频信号为语音信号。参见图3,为本申请音频信号的分类识别方法的第二实施例流程图,该实施例详细示出了对音频信号进行分类识别,并通过平滑处理得到最终的分类结果的过程步骤301 获取一帧音频信号。步骤302 将一帧音频信号划分为若干子帧,若干子本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:金剑刘贵忠顿玉洁杜正中
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术