音频识别方法和系统技术方案

技术编号:15030310 阅读:92 留言:0更新日期:2017-04-05 07:58
本申请实施例公开了一种音频识别方法,包括:对待识别音频文件的语谱图中的第一特征点进行扩散处理,得到特征点图,所述第一特征点的数量为多个;在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点;若是,则确定所述待识别音频文件为所述目标音频文件的一部分。本申请还公布了一种音频识别系统实施例。利用本实施例可以在音频识别中提高特征点匹配成功率。

【技术实现步骤摘要】

本申请涉及互联网
,特别涉及一种音频识别方法及系统。
技术介绍
随着互联网技术的不断发展,互联网已成为人们生活中必不可少的工具。利用互联网设备实现未知音频的识别,并基于音频识别的互动,成为一种新的应用趋势。基于音频识别的互动有多种应用,一种应用例如是:用户听到一首不知道歌名的歌曲,可以录制该歌曲的一段音频,然后利用音频识别技术,可以识别出这首歌的歌名、歌手等信息。现有技术中,一般是提取待识别音频的特征点,利用特征点对进行识别的。如图1所示,横轴代表时间,纵轴代表频率。提取的特征点为图中的“X”;两个特征点构成一个特征点对,在目标区域内有8个特征点对;采用特征点对的方式在数据库中进行识别,数据库内存储有歌曲的特征点及歌曲信息如歌名、歌手等;如果在数据库中能在相同的目标区域内匹配到一样的特征点对,则匹配成功;进而可以得到对应的歌曲信息。然而,由于录制音频时不可避免的受到噪声的影响,提取的特征点不一定都在正常的位置出现,所以导致特征点对匹配成功的概率较低。综上所述,现有技术中存在音频识别中特征点匹配成功率低的问题。
技术实现思路
本申请实施例的目的是提供一种音频识别方法及系统,用以解决现有技术中音频识别中特征点匹配成功率低的问题。为解决上述技术问题,本申请一实施例提供的音频识别方法,包括:对待识别音频文件的语谱图中的第一特征点进行扩散处理,得到特征点图,所述第一特征点的数量为多个;在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点;若是,则确定所述待识别音频文件为所述目标音频文件的一部分。本申请一实施例提供的音频识别系统,包括:扩散单元,用于对待识别音频文件的语谱图中的第一特征点进行扩散处理,得到特征点图,所述第一特征点的数量为多个;查找单元,在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点;确定单元,用于在目标音频文件的语谱图中查找到与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点时,则确定所述待识别音频文件为所述目标音频文件的一部分。由以上本申请实施例提供的技术方案可见,本申请实施例提供的一种音频识别方法及系统,通过对待识别音频文件的语谱图中的第一特征点进行扩散处理,可以减少所述第一特征点受噪声影响产生的偏差;从而提高扩散处理后的第一特征点与目标音频文件的匹配率,即提高了特征点匹配成功率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为现有技术中利用特征点对进行识别的示意图;图2为本申请一实施例中提供的音频识别方法的流程图;图3为待识别音频文件的语谱图的示意图;图4a为扩散处理前的第一特征点的示意图;图4b为扩散处理后的第一特征点的示意图;图5为图1中S120步骤的方法流程图;图6为在目标音频文件的语谱图中查找与特征点图中扩散处理后第一特征点分别对应的第二特征点的示意图;图7为本申请一实施例中提供的音频识别方法的流程图;图8a为在语谱图中确定的第一特征点的示意图;图8b为图8a的局部放大图;图9为本申请一实施例中提供的音频识别系统的模块示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图2为本申请一实施例中提供的音频识别方法的流程图。本实施例中,所述音频识别方法包括如下步骤:S110:对待识别音频文件的语谱图中的第一特征点进行扩散处理,得到特征点图,所述第一特征点的数量为多个。语谱图也称为语音频谱图,一般是通过处理接收的时域信号得到。一般地,语谱图的横坐标用来表示时间,纵坐标用来表示频率,坐标点值表示语音数据的能量。通常可以采用二维平面来表达三维信息,所以坐标点值所表示的语音数据的能量值,大小可以通过颜色来表示。例如通过彩色的方式表示,颜色越深的可以表示该坐标点的语音能量越强;反之,颜色越浅的可以表示该坐标点的语音能量越弱。还可以通过灰度的方式表示,颜色越接近于白色的可以表示该坐标点的语音能量越强;反之,颜色越接近于黑色的可以表示该坐标点的语音能量越弱。这样,语谱图可以直观的表示语音信号随时间变化的频谱特性。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。具体地,语谱图可以通过如下步骤获得:A1:对待识别音频文件按照预设时间进行分帧处理。所述预设时间可以是用户根据过往经验得出的经验值。本实施例中所述预设时间包括32毫秒。即对待识别音频文件按照32毫秒进行分帧处理,得到每32毫秒为一帧,帧叠16毫秒的音频片段。A2:对分帧处理后的音频片段进行短时频谱分析,得到语谱图。所述短时频谱分析包括快速傅立叶变化(FastFourierTransformation,FFT)。FFT是离散傅立叶变换的快速算法,利用FFT可以将音频信号转变为记录了时间域与频率域的联合分布信息的语谱图。由于以32毫秒分帧处理,而32毫秒对应了8000hz采样,使得FFT计算后可以得到256频率点。如图3中横轴可以代表帧数,即音频文件分帧处理后的帧数的个数,对应了语谱图的宽度;纵轴可以代表频率,共有256个频率点,对应了语谱图的高度;坐标点值表示第一特征点的能量。优选地,在对分帧处理后的音频片段进行短时频谱分析之后,还可以包括:A3:提取所述短时频谱分析后300-2khz频率段。由于一般的歌曲主要的频率是集中在300-2khz这个频率段上的,所以本实施例通过提取300-2khz这个频率段后,即可以消除其它频率段噪声对所述频率段的负面影响。在本申请的另一实施例中,在S110步骤之前,还可以包括:将待识别音频文件的语谱图的第一特征点的能量值归一化为第一特征点的灰度值。本实施例中,由于经过FFT之后的第一特征点的能量值范围较大,有时可能达到0-2^8,甚至0-2^16(能量值范围与音频文件的信号强度呈正比);所以,这里将所述能量值归一化到0-255的范围内;使得0-255可以对应为灰度值,0代表黑色,255代表白色。一般的归一化方法包括:遍历整个语谱图中的第一特征点的能量值,获得最大值和最小值;对所述第一特征点进行归一化:其中,V为第一特征点的能量值;Vmin为最小值;Vmax为最大值。本申请实施例可以是采用上述一般的归一化方法。然而,这种归一化方法,对于可能存在某些弱音时,获得的Vmin太小,例如可能趋近与0,使得归一化公式变为了这样就与Vmin无关了。因此这样的Vmin不具有代表性,影响了整体的归一化处理结果。本申请实施例中提供了一种新的归一化方法,可以包括:以第一预设长度为窗口逐帧遍历语谱图;获取所述窗口内第一特征点的能量值中的局部最大值和局部最小值;根据所述局部本文档来自技高网
...

【技术保护点】
一种音频识别方法,其特征在于,包括:对待识别音频文件的语谱图中的第一特征点进行扩散处理,得到特征点图,所述第一特征点的数量为多个;在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点;若是,则确定所述待识别音频文件为所述目标音频文件的一部分。

【技术特征摘要】
1.一种音频识别方法,其特征在于,包括:对待识别音频文件的语谱图中的第一特征点进行扩散处理,得到特征点图,所述第一特征点的数量为多个;在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点;若是,则确定所述待识别音频文件为所述目标音频文件的一部分。2.如权利要求1所述的方法,其特征在于,在所述对待识别音频文件的语谱图中的第一特征点进行扩散处理,之前,还包括:将待识别音频文件的语谱图中的第一特征点的能量值归一化为第一特征点的灰度值。3.如权利要求1或2所述的方法,其特征在于,所述扩散处理包括高斯函数扩散处理或者放大处理中的至少一种。4.如权利要求2所述的方法,其特征在于,将待识别音频文件的语谱图中的第一特征点的能量值归一化为第一特征点的灰度值,具体包括:以第一预设长度为窗口逐帧遍历语谱图;获取所述窗口内第一特征点的能量值中的局部最大值和局部最小值;根据所述局部最大值和局部最小值将第一特征点的能量值归一化为第一特征点的灰度值。5.如权利要求1或2所述的方法,其特征在于,所述在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点,具体包括:以所述特征点图为窗口逐帧遍历所述目标音频文件的语谱图;每次遍历过程中将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点;查找所述窗口内所述目标音频文件的语谱图中是否存在与所述扩散处理
\t后各第一特征点分别对应的各第二特征点。6.如权利要求5所述的方法,其特征在于,所述将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点,包括:确定所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点与第一特征点的匹配度;将所述匹配度大于第一阈值的特征点确定为第二特征点。7.如权利要求6所述的方法,其特征在于,所述匹配度包括所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点个数与第一特征点个数的比值或所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点对应的第一特征点的能量值或者灰度值之和。8.如权利要求1或2所述的方法,其特征在于,在所述对待识别音频文件的语谱图的第一特征点进行扩散处理,之前,还包括:将待识别音频文件的语谱图中包含的能量值或者灰度值大于第二阈值的特征点作为关键点;若所述关键点的能量值或者灰度值在预设区域内为最大值,则将该关键点确定为第一特征点。9.如权利要求1所述的方法,其特征在于,所述目标音频文件携带有音频信息,所述音频信息包括歌曲名。10.一种音频识别系统,其特征在于...

【专利技术属性】
技术研发人员:杜志军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1