音频指纹识别方法、装置、终端设备以及存储介质制造方法及图纸

技术编号:38001426 阅读:14 留言:0更新日期:2023-06-30 10:15
本申请公开了一种音频指纹识别方法、装置、终端设备以及存储介质,其音频指纹识别方法包括:获取全音频数据;对全音频数据进行分帧变换,获得分帧后的各频谱数据;从频谱数据中,选取符合预设目标频率阈值的二维的频带数据;对频带数据进行降维操作,得到全音频数据的一维的音频指纹,基于局部敏感哈希计算改进Philips音频指纹识别方法进行音频指纹识别,即,通过选取全音频数据以获取对应的各频谱数据,并选取符合预设频率的频带数据,进而对频带数据进行降维操作以获得音频指纹,从而可以解决音频指纹识别的准确率低、数据量大的技术问题,提升音频指纹识别的准确率、减小音频指纹的数据量,进而有效用于音频指纹存储以及音频检索去重等领域。频检索去重等领域。频检索去重等领域。

【技术实现步骤摘要】
音频指纹识别方法、装置、终端设备以及存储介质


[0001]本申请涉及音频数据处理
,尤其涉及一种音频指纹识别方法、装置、终端设备以及存储介质。

技术介绍

[0002]指纹系统有着悠久的历史,在学术上和工业上都备受关注,例如,在海量样本去重、相似内容检索等领域。
[0003]由于Philips音频指纹识别方法是一种经典的高鲁棒音频指纹识别方法,因此广泛应用至今。
[0004]但是,Philips音频指纹识别方法有以下缺点:一、Philips音频指纹识别方法仅选取了音频中的3秒数据片段进行计算,使得片段指纹无法表示整段音频,导致音频指纹识别的准确率低;二、识别后的音频指纹为数量高达8192(256*32)的二维数组,也即,音频指纹的数据量较大使得音频指纹难以存储和检索。

技术实现思路

[0005]本申请的主要目的在于提供一种音频指纹识别方法、装置、终端设备以及存储介质,旨在解决音频指纹识别的准确率低、数据量大的技术问题,提升音频指纹识别的准确率、减小音频指纹的数据量,进而有效用于音频指纹存储以及音频检索去重等领域。
[0006]为实现上述目的,本申请提供一种音频指纹识别方法,所述音频指纹识别方法包括:
[0007]获取全音频数据;
[0008]对所述全音频数据进行分帧变换,获得分帧后的各频谱数据;
[0009]从所述频谱数据中,选取符合预设目标频率阈值的二维的频带数据;
[0010]对所述频带数据进行降维操作,得到所述全音频数据的一维的音频指纹
[0011]可选地,所述对所述频带数据进行降维操作,得到所述全音频数据的一维的音频指纹的步骤包括:
[0012]对所述频带数据进行重叠分帧以及能量值计算,获得二维的指纹矩阵;
[0013]转换所述指纹矩阵,获得所述音频指纹。
[0014]可选地,所述对所述频带数据进行重叠分帧以及能量值计算,获得二维的指纹矩阵的步骤包括:
[0015]对所述频带数据进行重叠分帧,以选取无重叠的频带数据;
[0016]分别对所述无重叠的频带数据进行计算,获得对应的能量值;
[0017]根据预设公式,对所述能量值以及所述无重叠的频带数据进行计算,获得所述指纹矩阵。
[0018]可选地,所述转换所述指纹矩阵,获得所述音频指纹的步骤包括:
[0019]对所述指纹矩阵进行纵向求和,得到一维的权重矩阵;
[0020]根据预设符号函数,对所述权重矩阵进行计算,得到所述音频指纹。
[0021]可选地,所述从所述频谱数据中,选取符合预设目标频率阈值的二维的频带数据的步骤之前,还包括:
[0022]获取初始频率阈值;
[0023]根据预设敏感条件,对所述初始频率阈值进行优化,得到所述目标频率阈值。
[0024]可选地,所述对所述全音频数据进行分帧变换,获得分帧后的各频谱数据的步骤包括:
[0025]对所述全音频数据进行重叠分帧,得到所述全音频数据的各帧音频数据;
[0026]分别对所述音频数据进行短时傅里叶变换,获得对应的所述频谱数据。
[0027]可选地,所述对所述全音频数据进行重叠分帧,得到所述全音频数据的各帧音频数据的步骤包括:
[0028]确定所述全音频数据的计算要素,其中,所述计算要素包括所述全音频数据的总长度、帧率以及所述音频指纹的指纹长度中的一个或以上;
[0029]基于所述计算要素,对所述全音频数据进行重叠分帧,得到所述全音频数据的各帧音频数据。
[0030]本申请实施例还提出一种音频指纹识别装置,所述音频指纹识别装置包括:
[0031]音频获取模块,用于获取全音频数据;
[0032]音频分帧模块,用于对所述全音频数据进行分帧变换,获得分帧后的各频谱数据;
[0033]频带选取模块,用于从所述频谱数据中,选取符合预设目标频率阈值的二维的频带数据;
[0034]指纹提取模块,用于对所述频带数据进行降维操作,得到所述全音频数据的一维的音频指纹。
[0035]本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频指纹识别程序,所述音频指纹识别程序被所述处理器执行时实现如上所述的音频指纹识别方法的步骤。
[0036]本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有音频指纹识别程序,所述音频指纹识别程序被处理器执行时实现如上所述的音频指纹识别方法的步骤。
[0037]本申请实施例提出的音频指纹识别方法、装置、终端设备以及存储介质,通过获取全音频数据;对所述全音频数据进行分帧变换,获得分帧后的各频谱数据;从所述频谱数据中,选取符合预设目标频率阈值的二维的频带数据;对所述频带数据进行降维操作,得到所述全音频数据的一维的音频指纹,基于局部敏感哈希计算改进Philips音频指纹识别方法进行音频指纹识别,即,通过选取全音频数据以获取对应的各频谱数据,并选取符合预设频率的频带数据,进而对频带数据进行降维操作以获得音频指纹,从而可以解决音频指纹识别的准确率低、数据量大的技术问题,提升音频指纹识别的准确率、减小音频指纹的数据量,进而有效用于音频指纹存储以及音频检索去重等领域。
附图说明
[0038]图1为本申请音频指纹识别装置所属终端设备的功能模块示意图;
[0039]图2为本申请音频指纹识别方法第一示例性实施例的流程示意图;
[0040]图3为图2实施例中步骤S230的具体流程示意图;
[0041]图4为图2实施例中步骤S240的具体流程示意图;
[0042]图5为本申请实施例中的整体流程示意图。
[0043]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0044]应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0045]本申请实施例的主要解决方案是:获取全音频数据;对所述全音频数据进行分帧变换,获得分帧后的各频谱数据;从所述频谱数据中,选取符合预设目标频率阈值的二维的频带数据;对所述频带数据进行降维操作,得到所述全音频数据的一维的音频指纹,基于局部敏感哈希计算改进Philips音频指纹识别方法进行音频指纹识别,即,通过选取全音频数据以获取对应的各频谱数据,并选取符合预设频率的频带数据,进而对频带数据进行降维操作以获得音频指纹,从而可以解决音频指纹识别的准确率低、数据量大的技术问题,提升音频指纹识别的准确率、减小音频指纹的数据量,进而有效用于音频指纹存储以及音频检索去重等领域。
[0046]本申请实施例涉及的技术术语:
[0047]Simhash,传统Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。传统Hash算法产生的两个签名,如果不相等,除了说明原始内容不相等外,不再提供任何信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频指纹识别方法,其特征在于,所述音频指纹识别方法包括以下步骤:获取全音频数据;对所述全音频数据进行分帧变换,获得分帧后的各频谱数据;从所述频谱数据中,选取符合预设目标频率阈值的二维的频带数据;对所述频带数据进行降维操作,得到所述全音频数据的一维的音频指纹。2.如权利要求1所述的音频指纹识别方法,其特征在于,所述对所述频带数据进行降维操作,得到所述全音频数据的一维的音频指纹的步骤包括:对所述频带数据进行重叠分帧以及能量值计算,获得二维的指纹矩阵;转换所述指纹矩阵,获得所述音频指纹。3.如权利要求2所述的音频指纹识别方法,其特征在于,所述对所述频带数据进行重叠分帧以及能量值计算,获得二维的指纹矩阵的步骤包括:对所述频带数据进行重叠分帧,以选取无重叠的频带数据;分别对所述无重叠的频带数据进行计算,获得对应的能量值;根据预设公式,对所述能量值以及所述无重叠的频带数据进行计算,获得所述指纹矩阵。4.如权利要求2所述的音频指纹识别方法,其特征在于,所述转换所述指纹矩阵,获得所述音频指纹的步骤包括:对所述指纹矩阵进行纵向求和,得到一维的权重矩阵;根据预设符号函数,对所述权重矩阵进行计算,得到所述音频指纹。5.如权利要求1所述的音频指纹识别方法,其特征在于,所述从所述频谱数据中,选取符合预设目标频率阈值的二维的频带数据的步骤之前,还包括:获取初始频率阈值;根据预设敏感条件,对所述初始频率阈值进行优化,得到所述目标频率阈值。6.如权利要求1所述的音频指纹识别方法,其特征在于,所述对所述全音频数据进行分...

【专利技术属性】
技术研发人员:董家林
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1