音频识别方法和系统技术方案

技术编号：15030310 阅读：92 留言：0更新日期：2017-04-05 07:58

本申请实施例公开了一种音频识别方法，包括：对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；若是，则确定所述待识别音频文件为所述目标音频文件的一部分。本申请还公布了一种音频识别系统实施例。利用本实施例可以在音频识别中提高特征点匹配成功率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网
，特别涉及一种音频识别方法及系统。
技术介绍
随着互联网技术的不断发展，互联网已成为人们生活中必不可少的工具。利用互联网设备实现未知音频的识别，并基于音频识别的互动，成为一种新的应用趋势。基于音频识别的互动有多种应用，一种应用例如是：用户听到一首不知道歌名的歌曲，可以录制该歌曲的一段音频，然后利用音频识别技术，可以识别出这首歌的歌名、歌手等信息。现有技术中，一般是提取待识别音频的特征点，利用特征点对进行识别的。如图1所示，横轴代表时间，纵轴代表频率。提取的特征点为图中的“X”；两个特征点构成一个特征点对，在目标区域内有8个特征点对；采用特征点对的方式在数据库中进行识别，数据库内存储有歌曲的特征点及歌曲信息如歌名、歌手等；如果在数据库中能在相同的目标区域内匹配到一样的特征点对，则匹配成功；进而可以得到对应的歌曲信息。然而，由于录制音频时不可避免的受到噪声的影响，提取的特征点不一定都在正常的位置出现，所以导致特征点对匹配成功的概率较低。综上所述，现有技术中存在音频识别中特征点匹配成功率低的问题。
技术实现思路
本申请实施例的目的是提供一种音频识别方法及系统，用以解决现有技术中音频识别中特征点匹配成功率低的问题。为解决上述技术问题，本申请一实施例提供的音频识别方法，包括：对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；若是，则确定所述待识别音频文件为所述目标音频文件的一部分。本申请一实施例提供的音频...

【技术保护点】
一种音频识别方法，其特征在于，包括：对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；若是，则确定所述待识别音频文件为所述目标音频文件的一部分。

【技术特征摘要】
1.一种音频识别方法，其特征在于，包括：对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；若是，则确定所述待识别音频文件为所述目标音频文件的一部分。2.如权利要求1所述的方法，其特征在于，在所述对待识别音频文件的语谱图中的第一特征点进行扩散处理，之前，还包括：将待识别音频文件的语谱图中的第一特征点的能量值归一化为第一特征点的灰度值。3.如权利要求1或2所述的方法，其特征在于，所述扩散处理包括高斯函数扩散处理或者放大处理中的至少一种。4.如权利要求2所述的方法，其特征在于，将待识别音频文件的语谱图中的第一特征点的能量值归一化为第一特征点的灰度值，具体包括：以第一预设长度为窗口逐帧遍历语谱图；获取所述窗口内第一特征点的能量值中的局部最大值和局部最小值；根据所述局部最大值和局部最小值将第一特征点的能量值归一化为第一特征点的灰度值。5.如权利要求1或2所述的方法，其特征在于，所述在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点，具体包括：以所述特征点图为窗口逐帧遍历所述目标音频文件的语谱图；每次遍历过程中将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点；查找所述窗口内所述目标音频文件的语谱图中是否存在与所述扩散处理
\t后各第一特征点分别对应的各第二特征点。6.如权利要求5所述的方法，其特征在于，所述将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点，包括：确定所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点与第一特征点的匹配度；将所述匹配度大于第一阈值的特征点确定为第二特征点。7.如权利要求6所述的方法，其特征在于，所述匹配度包括所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点个数与第一特征点个数的比值或所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点对应的第一特征点的能量值或者灰度值之和。8.如权利要求1或2所述的方法，其特征在于，在所述对待识别音频文件的语谱图的第一特征点进行扩散处理，之前，还包括：将待识别音频文件的语谱图中包含的能量值或者灰度值大于第二阈值的特征点作为关键点；若所述关键点的能量值或者灰度值在预设区域内为最大值，则将该关键点确定为第一特征点。9.如权利要求1所述的方法，其特征在于，所述目标音频文件携带有音频信息，所述音频信息包括歌曲名。10.一种音频识别系统，其特征在于...

【专利技术属性】
技术研发人员：杜志军，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人