一种音频长时指纹提取及匹配方法组成比例

技术编号：31315990 阅读：19 留言：0更新日期：2021-12-12 23:53

本发明专利技术属于音频信号处理技术领域，具体的说是一种音频长时指纹提取及匹配方法，该提取方法包括以下步骤：S1：输入音频信号(PCM)，并重采样音频信号；S2：对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱；S3：对帧频谱进行帧间平滑处理得到更新后的帧频谱；S4：对更新后的帧频谱进行帧级短时特征提取；S5：处理帧级短时特征，并提取帧组长时特征；解决了传统音频指纹短时性、不稳定的缺陷，提取音频帧的频谱子带特征，然后再计算其时间轴方向的变化属性，形成长时特征，且在匹配时，同时得到最佳相似度与偏移，且本发明专利技术既可以应用于音频流逐片段匹配，也可应用于音频文件的整体匹配。匹配。匹配。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频长时指纹提取及匹配方法

[0001]本专利技术属于音频信号处理
，具体的说是一种音频长时指纹提取及匹配方法。

技术介绍

[0002]与人体生物指纹类似，音频指纹是指音频信号经过处理，提炼出有效和鲁棒的声学特征，用以唯一表达该音频内容，音频指纹技术，被广泛用于音频检索、信号比对、版权保护等领域。
[0003]现有音频指纹技术所提取的声学特征，通常基于简单物理特征(过零率、谱峰、谱密度等)或听觉感知特征(音调、旋律、节奏等)，常见算法如shazam[1]、chromaprint[2]、echoprint[3]等。
[0004]目前的音频指纹技术算法所提取的特征，具有短时性的缺陷，仅能代表一个或几个音频帧，即几十或几百毫秒的音频属性，当需对音频片段或整个音频文件进行指纹匹配时，这些特征会出现表达不够稳定、计算及存储数据量较大的风险。

技术实现思路

[0005]为了弥补现有技术的不足，解决需对音频片段或整个音频文件进行指纹匹配时，这些特征会出现表达不够稳定、计算及存储数据量较大的风险的问题，本专利技术提出的一种音频长时指纹提取及匹配方法。
[0006]本专利技术解决其技术问题所采用的技术方案是：一种音频长时指纹提取方法，该提取方法包括以下步骤：
[0007]S1：输入音频信号(PCM)，并重采样音频信号；
[0008]S2：对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱；
[0009]S3：对帧频谱进行帧间平滑处理得到更新后的帧频谱；<...

【技术保护点】

【技术特征摘要】
1.一种音频长时指纹提取方法，其特征在于：该提取方法包括以下步骤：S1：输入音频信号(PCM)，并重采样音频信号；S2：对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱；S3：对帧频谱进行帧间平滑处理得到更新后的帧频谱；S4：对更新后的帧频谱进行帧级短时特征提取；S5：处理帧级短时特征，并提取帧组长时特征。2.根据权利要求1所述的一种音频长时指纹提取方法，其特征在于：所述S1中，重采样的具体操作为提取110Hz
‑
7KHz频率范围作为分析频段，并根据奈奎斯特采样定理，设定输入信号重采样频率为16KHz，避免信号采样失真。3.根据权利要求2所述的一种音频长时指纹提取方法，其特征在于：所述S2中，分帧、加窗以及DFT变化的具体操作为将重采样后的信号按照4096样本(256ms)以及50％重叠度进行分帧；分帧后，逐帧添加汉明窗以及进行DFT频域变换，得到帧频谱。4.根据权利要求3所述的一种音频长时指纹提取方法，其特征在于：所述S3中，所述帧间平滑的具体操作为采用滑动窗口对相邻5帧频谱数据进行加权平均，得到更新后的帧频谱：M＝0.25M1+0.75M2+M3+0.75M4+0.25M5；其中滑动窗口每次步进一帧。5.根据权利要求4所述的一种音频长时指纹提取方法，其特征在于：所述S4中，帧级短...

【专利技术属性】
技术研发人员：陈书军，
申请(专利权)人：江苏环雅丽书智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人