一种音频长时指纹提取及匹配方法组成比例

技术编号:31315990 阅读:19 留言:0更新日期:2021-12-12 23:53
本发明专利技术属于音频信号处理技术领域,具体的说是一种音频长时指纹提取及匹配方法,该提取方法包括以下步骤:S1:输入音频信号(PCM),并重采样音频信号;S2:对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱;S3:对帧频谱进行帧间平滑处理得到更新后的帧频谱;S4:对更新后的帧频谱进行帧级短时特征提取;S5:处理帧级短时特征,并提取帧组长时特征;解决了传统音频指纹短时性、不稳定的缺陷,提取音频帧的频谱子带特征,然后再计算其时间轴方向的变化属性,形成长时特征,且在匹配时,同时得到最佳相似度与偏移,且本发明专利技术既可以应用于音频流逐片段匹配,也可应用于音频文件的整体匹配。匹配。匹配。

【技术实现步骤摘要】
一种音频长时指纹提取及匹配方法


[0001]本专利技术属于音频信号处理
,具体的说是一种音频长时指纹提取及匹配方法。

技术介绍

[0002]与人体生物指纹类似,音频指纹是指音频信号经过处理,提炼出有效和鲁棒的声学特征,用以唯一表达该音频内容,音频指纹技术,被广泛用于音频检索、信号比对、版权保护等领域。
[0003]现有音频指纹技术所提取的声学特征,通常基于简单物理特征(过零率、谱峰、谱密度等)或听觉感知特征(音调、旋律、节奏等),常见算法如shazam[1]、chromaprint[2]、echoprint[3]等。
[0004]目前的音频指纹技术算法所提取的特征,具有短时性的缺陷,仅能代表一个或几个音频帧,即几十或几百毫秒的音频属性,当需对音频片段或整个音频文件进行指纹匹配时,这些特征会出现表达不够稳定、计算及存储数据量较大的风险。

技术实现思路

[0005]为了弥补现有技术的不足,解决需对音频片段或整个音频文件进行指纹匹配时,这些特征会出现表达不够稳定、计算及存储数据量较大的风险的问题,本专利技术提出的一种音频长时指纹提取及匹配方法。
[0006]本专利技术解决其技术问题所采用的技术方案是:一种音频长时指纹提取方法,该提取方法包括以下步骤:
[0007]S1:输入音频信号(PCM),并重采样音频信号;
[0008]S2:对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱;
[0009]S3:对帧频谱进行帧间平滑处理得到更新后的帧频谱;<br/>[0010]S4:对更新后的帧频谱进行帧级短时特征提取;
[0011]S5:处理帧级短时特征,并提取帧组长时特征。
[0012]优选的,所述S1中,重采样的具体操作为提取110Hz

7KHz频率范围作为分析频段,并根据奈奎斯特采样定理,设定输入信号重采样频率为16KHz,避免信号采样失真。
[0013]优选的,所述S2中,分帧、加窗以及DFT变化的具体操作为将重采样后的信号按照4096样本(256ms)以及50%重叠度进行分帧;分帧后,逐帧添加汉明窗以及进行DFT频域变换,得到帧频谱,帧频谱是频率和能量之间的关系。
[0014]优选的,所述S3中,所述帧间平滑的具体操作为采用滑动窗口对相邻5帧频谱数据进行加权平均,其目的在于增加频谱的平稳性,得到更新后的帧频谱:M=0.25M1+0.75M2+M3+0.75M4+0.25M5;其中滑动窗口每次步进一帧。
[0015]优选的,所述S4中,帧级短时特征提取的具体操作步骤为:
[0016]A1:对数频率域子带划分帧频谱;
[0017]A2:计算子带平均谱能量;
[0018]A3:对子带谱能量L2正则化处理得到帧级短时特征。
[0019]优选的,所述A1中,由于人耳对声音的感受是对数性的,因此将对数频率域子带划分帧频谱即将帧频谱中的频率f转换为对数频率F=log2(f),在对数频率域,将目标频率范围log2(110)~log2(7000)划分为宽度相等的16个子带。
[0020]优选的,所述A2中,计算子带平均谱能量即对于每个音频帧,在16个频率子带上计算平均谱能量,从而形成16维向量。
[0021]优选的,所述A3中,子带谱能量L2正则化处理得到帧级短时特征即对得到的16维向量作L2正则化,即为该音频帧的短时特征,记作V。
[0022]优选的,所述S5中,帧组长时特征提取的具体操作为将连续固定数量音频组成帧组,在时间轴方向上将帧级短时特征进行再次DFT变化,并保留低频稳定分量,形成帧组长时特征。
[0023]一种音频长时指纹匹配方法,该匹配方法包括以下步骤:
[0024]B1:将待匹配的2个音频文件或片段按帧组提取长时特征;
[0025]B2:对2个帧组长时特征进行帧组级匹配,并确定匹配关系。
[0026]本专利技术的技术效果和优点:
[0027]1.本专利技术提供的一种音频长时指纹提取及匹配方法,通过对音频信号进行指纹提取,即对音频信号进行重采样、分帧、加窗以及DFT变化后,在对得到的帧频谱进行帧间平滑操作,随后进行帧级短时特征提取,并提取音频帧的频谱子带特征,然后再计算其时间轴方向的变化属性,形成长时特征,从而实现对音频指纹的快速提取,有利于后续两组或多组音频指纹间的匹配,解决了传统音频指纹短时性、不稳定的缺陷。
[0028]2.本专利技术提供的一种音频长时指纹提取及匹配方法,通过对不同音频信号进行指纹提取,在快速提取音频的帧组长时特征后,利用相似度计算得出两组或多组音频信号之间的相似度,继而得出两组或多组音频信号之间是否匹配,在匹配时同时得到最佳相似度与偏移量,本专利技术既可以应用于音频流逐片段匹配,也可应用于音频文件的整体匹配。
附图说明
[0029]下面结合附图对本专利技术作进一步说明。
[0030]图1是本专利技术中音频信号的指纹提取流程图;
[0031]图2是本专利技术中指纹提取过程中的分帧示意图;
[0032]图3是本专利技术中帧级短时特征提取流程图;
[0033]图4是本专利技术中帧组长时特征提取示意图;
[0034]图5是本专利技术中帧组间最佳偏移与相似度示意图;
具体实施方式
[0035]为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。
[0036]如图1至图5所示,本专利技术所述的一种音频长时指纹提取方法,该提取方法包括以下步骤:
[0037]S1:输入音频信号(PCM),并重采样音频信号;
[0038]S2:对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱;
[0039]S3:对帧频谱进行帧间平滑处理得到更新后的帧频谱;
[0040]S4:对更新后的帧频谱进行帧级短时特征提取;
[0041]S5:处理帧级短时特征,并提取帧组长时特征。
[0042]作为本专利技术的一种实施方式,所述S1中,重采样的具体操作为提取110Hz

7KHz频率范围作为分析频段,并根据奈奎斯特采样定理,设定输入信号重采样频率为16KHz,避免信号采样失真。
[0043]作为本专利技术的一种实施方式,所述S2中,分帧、加窗以及DFT变化的具体操作为将重采样后的信号按照4096样本(256ms)以及50%重叠度进行分帧;分帧后,逐帧添加汉明窗以及进行DFT频域变换,得到帧频谱,帧频谱是频率和能量之间的关系。
[0044]作为本专利技术的一种实施方式,所述S3中,所述帧间平滑的具体操作为采用滑动窗口对相邻5帧频谱数据进行加权平均,其目的在于增加频谱的平稳性,得到更新后的帧频谱:M=0.25M1+0.75M2+M3+0.75M4+0.25M5;其中滑动窗口每次步进一帧。
[0045]作为本专利技术的一种实施方式,所述S4中,帧级短时特征提取的具体操作步骤为:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频长时指纹提取方法,其特征在于:该提取方法包括以下步骤:S1:输入音频信号(PCM),并重采样音频信号;S2:对重采样后的音频信号进行分帧、加窗以及DFT变化得到帧频谱;S3:对帧频谱进行帧间平滑处理得到更新后的帧频谱;S4:对更新后的帧频谱进行帧级短时特征提取;S5:处理帧级短时特征,并提取帧组长时特征。2.根据权利要求1所述的一种音频长时指纹提取方法,其特征在于:所述S1中,重采样的具体操作为提取110Hz

7KHz频率范围作为分析频段,并根据奈奎斯特采样定理,设定输入信号重采样频率为16KHz,避免信号采样失真。3.根据权利要求2所述的一种音频长时指纹提取方法,其特征在于:所述S2中,分帧、加窗以及DFT变化的具体操作为将重采样后的信号按照4096样本(256ms)以及50%重叠度进行分帧;分帧后,逐帧添加汉明窗以及进行DFT频域变换,得到帧频谱。4.根据权利要求3所述的一种音频长时指纹提取方法,其特征在于:所述S3中,所述帧间平滑的具体操作为采用滑动窗口对相邻5帧频谱数据进行加权平均,得到更新后的帧频谱:M=0.25M1+0.75M2+M3+0.75M4+0.25M5;其中滑动窗口每次步进一帧。5.根据权利要求4所述的一种音频长时指纹提取方法,其特征在于:所述S4中,帧级短...

【专利技术属性】
技术研发人员:陈书军
申请(专利权)人:江苏环雅丽书智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1