音频信息检索方法及装置制造方法及图纸

技术编号：14348196 阅读：44 留言：0更新日期：2017-01-04 18:52

本申请提供一种音频信息检索方法及装置。方法包括：获得待检索音频片段的声谱图；提取声谱图中至少一个能量极值点的局部特征，以构成待检索音频片段的局部特征序列；根据待检索音频片段的局部特征序列进行检索，以获得检索结果。本申请可以降低漏匹配的概率，提高检索结果的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频处理
，尤其涉及一种音频信息检索方法及装置。
技术介绍
音乐检索研究始于上世纪90年代，2000年后开始逐步成熟且走进实际应用。已有的音乐检索方法大多基于声谱图进行分析，可分为两类：基于极值点的方法和基于纹理分析的方法。一种基于纹理分析的音乐检索方法，首先对音乐片段采用短时傅立叶变换以生成声谱图，然后将该声谱图分解为32个子带，并计算相邻子带的梯度极性，从而将原始信号压缩为紧致的二进制编码，在检索时采用哈希表进行加速。基于纹理分析的音乐检索方法对块状噪声不鲁棒，且运算复杂度较高，检索时间较长。于是提出一种对块状噪声更鲁棒，且检索速度较快的方法，即基于极值点的方法。基于极值点的方法，首先对音乐片段采用短时傅立叶变换以生成声谱图，然后检测声谱图中的极大值点，然后直接根据相邻极值点对的频率和时间差生成哈希表。在检索时，首先使用哈希表匹配待检索音乐片段和音乐库之间对应的匹配点，然后根据匹配点的时间坐标估计每首音乐的偏移量和置信度，置信度最大且超过阈值的音乐即为检索结果。但是，该方法中极值点的检测对随机噪声和椒盐噪声比较敏感，容易在频率和时间方向上产生偏移，极值点的轻微偏移会完全改变哈希值，这会导致漏匹配，影响检索结果的准确度。
技术实现思路
本申请的多个方面提供一种音频信息检索方法及装置，用以降低漏匹配的概率，提高检索结果的准确度。本申请的一方面，提供一种音频信息检索方法，包括：获得待检索音频片段的声谱图；提取所述声谱图中至少一个能量极值点的局部特征，以构成所述待检索音频片段的局部特征序列；根据所述待检索音频片段的局部特征序列进行检索...
音频信息检索方法及装置

【技术保护点】
一种音频信息检索方法，其特征在于，包括：获得待检索音频片段的声谱图；提取所述声谱图中至少一个能量极值点的局部特征，以构成所述待检索音频片段的局部特征序列；根据所述待检索音频片段的局部特征序列进行检索，以获得检索结果。

【技术特征摘要】
1.一种音频信息检索方法，其特征在于，包括：获得待检索音频片段的声谱图；提取所述声谱图中至少一个能量极值点的局部特征，以构成所述待检索音频片段的局部特征序列；根据所述待检索音频片段的局部特征序列进行检索，以获得检索结果。2.根据权利要求1所述的方法，其特征在于，所述提取所述声谱图中至少一个能量极值点的局部特征，以构成所述待检索音频片段的局部特征序列，包括：对所述声谱图进行极值点检测，以获得所述至少一个能量极值点；确定所述至少一个能量极值点中每个能量极值点在所述声谱图上所属的图像块；提取所述每个能量极值点所属的图像块的特征，以构成所述待检索音频片段的局部特征序列。3.根据权利要求2所述的方法，其特征在于，所述确定所述至少一个能量极值点中每个能量极值点在所述声谱图上所属的图像块，包括：在所述声谱图上取以所述每个能量极值点为中心的窗口区域，作为所述每个能量极值点所属的图像块。4.根据权利要求2所述的方法，其特征在于，所述提取所述每个能量极值点所属的图像块的特征，以构成所述待检索音频片段的局部特征序列，包括：对所述每个能量极值点所属的图像块，按照指定的编码次数，对所述图像块中像素点代表的能量值之间的大小关系进行随机编码，以获得所述图像块的特征，将所述图像块的特征作为所述待检索音频片段的局部特征序列中的一个局部特征。5.根据权利要求4所述的方法，其特征在于，所述按照指定的编码次数，对所述图像块中像素点代表的能量值之间的大小关系进行随机编码，以获得所
\t述图像块的特征，包括：每次随机从所述图像块中获取两个像素点，对所述两个像素点代表的能量值之间的大小关系进行编码，以获得一个编码结果，直到编码次数达到所述指定的编码次数时，根据所有编码结果获得所述图像块的特征。6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述待检索音频片段的局部特征序列进行检索，以获得检索结果，包括：将所述待检索音频片段的局部特征序列与音频特征库中每个音频文件的局部特征序列进行匹配，以获得所述待检索音频片段与相似音频文件之间的匹配点对，所述相似音频文件是指所述音频特征库中与所述待检索音频片段相似的音频文件；根据所述待检索音频片段与所述相似音频文件之间的匹配点对，获取所述待检索音频片段与所述相似音频文件的匹配度；获取最大匹配度对应的相似音频文件的信息作为所述检索结果。7.根据权利要求6所述的方法，其特征在于，所述将所述待检索音频片段的局部特征序列与音频特征库中每个音频文件的局部特征序列进行匹配，以获得所述待检索音频片段与相似音频文件之间的匹配点对，包括：根据所述待检索音频片段中每个能量极值点的频率坐标和所述音频文件中每个能量极值点的频率坐标，确定所述待检索音频片段中每个能量极值点对应于所述音频文件中的极值点子集；根据所述待检索音频片段中每个能量极值点的局部特征和所述对应的极值点子集中各能量极值点的局部特征，获取所述待检索音频片段中每个能量极值点与所述对应的极值点子集的距离，所述待检索音频片段中每个能量极值点与所述对应的极值点子集的距离是指所述待检索音频片段中每个能量极值点与所述对应的极值点子集中各能量极值点的距离中的最小距离；若所述待检索音频片段中的能量极值点与所述对应的极值点子集的距离中存在小于预设特征阈值的距离，则将所述音频文件作为所述待检索音频片段的相似音频文件，并将所述小于预设特征阈值的距离对应的所述待检索音频片段
\t中的能量极值点和所述音频文件中的能量极值点作为匹配点对。8.根据权利要求7所述的方法，其特征在于，所述根据所述待检索音频片段与所述相似音频文件之间的匹配点对，获取所述待检索音频片段与所述相似音频文件的匹配度，包括：采用随机抽样一致算法或霍夫变换算法，对所述待检索音频片段与所述相似音频文件之间的匹配点对进行处理，以获取所述待检索音频片段与所述相似音频文件的匹配度。9.根据权利要求6所述的方法，其特征在于，还包括：根据所述待检索音频片段与所述相似音频文件之间的匹配点对，获取所述待检索音频片段在所述相似音频文件中的时间偏移量；获取最大匹配度对应的时间偏移量作为所述检索结果。10.根据权利要求7所述的方法，其特征在于，还包括：构建所述音频特征库；所述构建所述音频特征库，包括：获得所述音频文件的声谱图；提取所述音频文件的声谱图中至少一个能量极值点的局部特征，以构成所述音频文件的局部特征序列；将所述音频文件的局部特征序列存储到所述音频...

【专利技术属性】
技术研发人员：易东，肖业鸣，刘荣，张伦，楚汝峰，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人