比较音频文件和音频样本的方法、系统和计算机可读介质技术方案

技术编号:32437290 阅读:31 留言:0更新日期:2022-02-26 07:55
本发明专利技术涉及一种用于比较音频文件和音频样本的方法,包括:S101:获得所述音频文件的复数频率谱;S102:获得所述音频文件与一变形音频的自相干序列,其中所述变形音频是基于所述音频文件获得的;S103:获得所述音频样本与所述音频文件的相干性时间序列;S104:以所述自相干序列为去卷积核,对所述相干性时间序列进行去卷积处理;S105:根据去卷积后的相干性时间序列,定位所述音频文件和/或所述音频样本。本发明专利技术的上述实施例中,将音频样本与所述音频文件的相干性时间序列,采用音频文件的自相干时间序列去卷积,能够更精确定位检索到的音频时间位置。经过实际验证,本发明专利技术的实施例在实际复杂场景下(例如低信噪比的环境中)验证具有很好的鲁棒性。有很好的鲁棒性。有很好的鲁棒性。

【技术实现步骤摘要】
比较音频文件和音频样本的方法、系统和计算机可读介质


[0001]本专利技术大致涉及音频信号处理领域,尤其涉及比较音频文件和音频样本的方法、系统和计算机可读介质。

技术介绍

[0002]经常需要在声音样本的数据库中寻找与一小段音频相匹配的样本,例如一些网站提供了这样的服务:通过输入或上传一小段音乐音频,能够在一个百万首量级的音乐数据库中快速检索匹配以找到包括用户上传的小段音乐音频的整首音乐样本。为了达到这个目的,现有的一些算法对被检索的音频和数据库中的音乐都做了紧致的声音纹理提取。虽然在环境相对安静情况下,该算法可以对声音模式做快速匹配,但因为该算法对声音纹理的特征提取的紧致性,它对周围不相干环境声音的影响敏感。在噪声源存在和低信噪比条件下,该算法对检索的声音模式的鲁棒性有缺陷。因此现有技术中需要提供一种方案,其能够在一个复杂声学环境中,在噪声源存在且信噪比较低的情况下,稳定的检测音频播放设备有无播放被检测的音频并定位其播放时间。
[0003]
技术介绍
部分的内容仅仅是专利技术人所知晓的技术,并不当然代表本领域的现有技术。

技术实现思路

[0004]有鉴于现有技术的至少一个缺陷,本专利技术提供一种用于识别音频样本的方法,包括:
[0005]S102:获得音频文件与一变形音频的自相干序列,其中所述变形音频是基于所述音频文件获得的;
[0006]S103:获得所述音频样本与所述音频文件的相干性时间序列;
[0007]S104:以所述自相干序列为去卷积核,对所述相干性时间序列进行去卷积处理;
[0008]S105:根据去卷积后的相干性时间序列,识别和/或定位所述音频文件和 /或所述音频样本。
[0009]根据本专利技术的一个方面,所述变形音频包括在所述音频文件的前部和/ 或后部插入静音段,或者所述变形音频包括在所述音频文件的前部和/或后部插入所述音频文件。
[0010]根据本专利技术的一个方面,所述的方法还包括步骤S101:获得所述音频文件的复数频率谱。
[0011]根据本专利技术的一个方面,所述音频样本的长度大于所述音频文件的长度,所述步骤S103包括通过滑动窗口法获得所述相干性时间序列,所述滑动窗口的宽度与所述音频文件的长度相同,所述步骤S103包括:
[0012]S103-1:将所述音频样本在所述滑动窗口内的部分,与所述音频文件进行比较,获得相干性指数;
[0013]S103-2:将所述滑动窗口滑过所述音频样本,重复所述步骤S103-1,获得所述相干
性时间序列。
[0014]根据本专利技术的一个方面,所述相干性指数为所述音频样本在所述滑动窗口内的部分与所述音频文件在每个频率上的相干性系数的频率加权平均值。
[0015]根据本专利技术的一个方面,所述音频样本的长度小于所述音频文件的长度,所述步骤S103包括通过滑动窗口法获得所述相干性时间序列,所述滑动窗口的宽度与所述音频样本的长度相同,所述步骤S103包括:
[0016]S103-1:将所述音频文件在所述滑动窗口内的部分,与所述音频样本进行比较,获得相干性指数;
[0017]S103-2:将所述滑动窗口滑过所述音频文件,重复所述步骤S103-1,获得所述相干性时间序列
[0018]根据本专利技术的一个方面,所述相干性指数为所述音频文件在所述滑动窗口内的部分与所述音频样本在每个频率上的相干性系数的频率加权平均值。
[0019]根据本专利技术的一个方面,所述步骤S104包括:采用LASSO方法在时域上拟合以执行去卷积处理。
[0020]根据本专利技术的一个方面,所述步骤S105包括:根据去卷积后的相干性时间序列,通过峰值检测,定位所述音频文件和/或所述音频样本。
[0021]本专利技术还提供一种用于比较音频文件和音频样本的系统,包括:
[0022]获得所述音频文件与一变形音频的自相干序列的单元,其中所述变形音频是基于所述音频文件获得的;
[0023]获得所述音频样本与所述音频文件的相干性时间序列的单元;
[0024]以所述自相干序列为去卷积核对所述相干性时间序列进行去卷积处理的单元;和
[0025]根据去卷积后的相干性时间序列定位所述音频文件和/或所述音频样本的单元。
[0026]本专利技术还提供一种计算机可读介质,具有存储于其上的指令,其中所述指令当被处理器执行时,可实施如上所述的方法。
[0027]本专利技术的实施例中,将音频样本与所述音频文件的相干性时间序列,采用音频文件的自相干时间序列去卷积,能够更精确定位检索到的音频时间位置。经过实际验证,本专利技术的实施例在实际复杂场景下(例如低信噪比的环境中)验证具有很好的鲁棒性。
附图说明
[0028]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0029]图1示出了根据本专利技术一个实施例的一种用于比较音频文件和音频样本的方法;
[0030]图2示出了一个实际音频信号中得到的相干性序列的例子;
[0031]图3示出了作为去卷积核的自相干序列;
[0032]图4示出了最终输出的相似度时间序列结果;
[0033]图5示出了根据本专利技术一个优选实施例的用于识别音频样本的方法。
具体实施方式
[0034]在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的
那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
[0035]在本专利技术的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、" 长度"、"宽度"、"厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"竖直"、 "水平"、"顶"、"底"、"内"、"外"、"顺时针"、"逆时针"等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语"第一"、" 第二"仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术的描述中,"多个"的含义是两个或两个以上,除非另有明确具体的限定。
[0036]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语" 安装"、"相连"、"连接"应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接:可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。
[0037]在本专利技术中,除非另有明确的规定和限定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于识别音频样本的方法,包括:S102:获得音频文件与一变形音频的自相干序列,其中所述变形音频是基于所述音频文件获得的;S103:获得所述音频样本与所述音频文件的相干性时间序列;S104:以所述自相干序列为去卷积核,对所述相干性时间序列进行去卷积处理;S105:根据去卷积后的相干性时间序列,识别和/或定位所述音频文件和/或所述音频样本。2.如权利要求1所述的方法,其中所述变形音频包括在所述音频文件的前部和/或后部插入静音段,或者所述变形音频包括在所述音频文件的前部和/或后部插入所述音频文件。3.如权利要求1或2所述的方法,还包括步骤S101:获得所述音频文件的复数频率谱。4.如权利要求1或2所述的方法,其中所述音频样本的长度大于所述音频文件的长度,所述步骤S103包括通过滑动窗口法获得所述相干性时间序列,所述滑动窗口的宽度与所述音频文件的长度相同,所述步骤S103包括:S103-1:将所述音频样本在所述滑动窗口内的部分,与所述音频文件进行比较,获得相干性指数;S103-2:将所述滑动窗口滑过所述音频样本,重复所述步骤S103-1,获得所述相干性时间序列。5.如权利要求4所述的方法,其中所述相干性指数为所述音频样本在所述滑动窗口内的部分与所述音频文件在每个频率上的相干性系数的频率加权平均值。6.如权利要求1或2所述的方法,其中所述音频样本的长度小于所述音频文件的长...

【专利技术属性】
技术研发人员:张泽琛任洲华刚
申请(专利权)人:虫极科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1