音频匹配方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24574787 阅读:31 留言:0更新日期:2020-06-21 00:13
本申请公开了一种音频匹配方法、装置、计算机设备及存储介质,涉及音频技术领域。该方法包括:获取第一音频的第一多尺度向量序列,以及第二音频的第二多尺度向量序列;将所述第一多尺度向量序列和所述第二多尺度向量序列中属于同一尺度的频域向量进行匹配,得到不同尺度下的多个匹配频域向量;将所述不同尺度下的多个匹配频域向量进行拼接,得到预测向量;调用分类层对所述预测向量进行预测,输出所述第一音频和所述第二音频的相似概率。采用基于神经网络的匹配方式计算两个音频的相似度,能够对不同歌曲之间的相似度进行计算,从而对不同歌曲之间取得精度较高的相似度计算结果。

Audio matching method, device, computer equipment and storage medium

【技术实现步骤摘要】
音频匹配方法、装置、计算机设备及存储介质
本申请实施例涉及音频
,特别涉及一种音频匹配方法、装置、计算机设备及存储介质。
技术介绍
音频匹配是对两个音频进行相似度匹配的技术。按照匹配类型来分,音频匹配包括:音频片段匹配和全音频匹配。音频片段匹配是指给定一个音频片段P,判断音频片段P是否属于音频D的一部分。全音频匹配是指给定一个音频A,计算音频A和音频B的相似性。相关技术中提供了音频指纹技术,音频指纹技术是选取音频文件中比较显著的时间频率点,采用哈希编码方式编码为数字序列,将该数字序列作为音频指纹。音频指纹技术将音频匹配问题,转换为不同数字序列之间的检索问题。由于音频片段匹配主要是针对同一首歌的音频片段和全音频进行匹配,所以基于信号处理的音频指纹技术在音频片段匹配的场景下具有较好的匹配效果。但是在全音频匹配场景下,更多是对不同的两首歌曲计算相似度,此时音频指纹技术的应用受限,无法取得较好的匹配效果。
技术实现思路
本申请实施例提供了一种音频匹配方法、装置、计算机设备及存储介质,提供了一种适用于全音频匹配场景下的匹配方案。所述技术方案如下:一方面,本申请实施例提供了一种音频匹配方法,所述方法包括:获取第一音频的第一多尺度向量序列,以及第二音频的第二多尺度向量序列;将所述第一多尺度向量序列和所述第二多尺度向量序列中属于同一尺度的频域向量进行匹配,得到不同尺度下的多个匹配频域向量;将所述不同尺度下的多个匹配频域向量进行拼接,得到预测向量;>调用分类层对所述预测向量进行预测,输出所述第一音频和所述第二音频的相似概率。另一方面,本申请实施例提供了一种音频匹配装置,所述装置包括:获取模块,用于获取第一音频的第一多尺度向量序列,以及第二音频的第二多尺度向量序列;匹配模块,用于将所述第一多尺度向量序列和所述第二多尺度向量序列中属于同一尺度的频域向量进行匹配,得到不同尺度下的多个匹配频域向量;拼接模块,用于将所述不同尺度下的多个匹配频域向量进行拼接,得到预测向量;预测模块,用于调用分类层对所述预测向量进行预测,输出所述第一音频和所述第二音频的相似概率。另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的音频匹配方法。另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的音频匹配方法。另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述方面所述的音频匹配方法。本申请实施例提供的技术方案带来的有益效果至少包括:由于多尺度向量序列是采用多个尺度下的特征向量来表征音频的潜在特征和深层特征,因此将两个音频的多尺度向量序列作为输入,采用基于神经网络的匹配方式计算两个音频的相似度,能够对不同歌曲之间的相似度进行计算,从而对不同歌曲之间取得精度较高的相似度计算结果。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的音频匹配系统的框图;图2是本申请一个示例性实施例提供的音频匹配方法的流程图;图3是本申请一个示例性实施例提供的音频匹配方法的流程图;图4是本申请一个示例性实施例提供的音频特征提取方法的流程图;图5是本申请一个示例性实施例提供的音频的频谱图;图6是本申请另一个示例性实施例提供的音频特征提取方法的流程图;图7是本申请另一个示例性实施例提供的音频特征提取方法的流程图;图8是本申请另一个示例性实施例提供的音频特征提取方法的流程图;图9是本申请一个示例性实施例提供的时域特征提取的原理示意图;图10是本申请一个示例性实施例提供的频域特征提取的原理示意图;图11是本申请一个示例性实施例提供的特征向量的拼接示意图;图12是本申请一个示例性实施例提供的音频匹配方法的流程图;图13是本申请一个示例性实施例提供的在线匹配的流程图;图14示出了本申请一个示例性实施例提供的歌曲推荐场景的示意图;图15示出了本申请一个示例性实施例提供的歌曲打分场景的示意图;图16是本申请一个示例性实施例提供的模型训练方法的流程图;图17是本申请一个示例性实施例提供的音频匹配装置的结构框图;图18是本申请一个示例性实施例提供的计算机设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。图1是本申请一个示例性实施例提供的音频匹配系统100的框图。该音频匹配系统100包括:计算机设备120、存储库140、服务器160和终端180。计算机设备120是研发人员所使用的电脑或服务器。计算机设备120能够离线计算出音频库中所有音频的多尺度向量序列。计算机设备120将所有音频的多尺度向量序列存储在存储库140中。计算机设备120和存储库140之间采用有线本文档来自技高网...

【技术保护点】
1.一种音频匹配方法,其特征在于,所述方法包括:/n获取第一音频的第一多尺度向量序列,以及第二音频的第二多尺度向量序列;/n将所述第一多尺度向量序列和所述第二多尺度向量序列中属于同一尺度的频域向量进行匹配,得到不同尺度下的多个匹配频域向量;/n将所述不同尺度下的多个匹配频域向量进行拼接,得到预测向量;/n调用分类层对所述预测向量进行预测,输出所述第一音频和所述第二音频的相似概率。/n

【技术特征摘要】
1.一种音频匹配方法,其特征在于,所述方法包括:
获取第一音频的第一多尺度向量序列,以及第二音频的第二多尺度向量序列;
将所述第一多尺度向量序列和所述第二多尺度向量序列中属于同一尺度的频域向量进行匹配,得到不同尺度下的多个匹配频域向量;
将所述不同尺度下的多个匹配频域向量进行拼接,得到预测向量;
调用分类层对所述预测向量进行预测,输出所述第一音频和所述第二音频的相似概率。


2.根据权利要求1所述的方法,其特征在于,所述第一多尺度向量序列包括K个不同尺度的第一特征向量,所述第二多尺度向量序列包括K个不同尺度的第二特征向量,W为大于1的整数;
所述将所述第一多尺度向量序列和所述第二多尺度向量序列中属于同一尺度的特征向量进行匹配,得到多个尺度下的匹配特征向量,包括:
将同一尺度的所述第一特征向量和所述第二特征向量相乘,得到第一向量;
将同一尺度的所述第一特征向量和所述第二特征向量相减,得到第二向量;
将同一尺度的所述第二特征向量和所述第一特征向量相减,得到第三向量;
将第i个尺度下的所述第一向量、所述第二向量和所述第三向量进行拼接,得到第i个尺度下的匹配特征向量,i为不大于W的整数。


3.根据权利要求2所述的方法,其特征在于,所述将所述不同尺度下的多个匹配特征向量进行拼接,得到预测向量,包括:
将所述K个不同尺度下的匹配特征向量按照尺度由大到小的顺序进行第二拼接,得到所述预测向量;
或,
将所述K个不同尺度下的匹配特征向量按照尺度由小到大的顺序进行第二拼接,得到所述预测向量。


4.根据权利要求1至3任一所述的方法,其特征在于,所述获取第一音频的第一多尺度向量序列,以及第二音频的第二多尺度向量序列,包括:
获取所述第一音频在存储库中的所述第一多尺度向量序列,以及所述第二音频在所述存储库中的所述第二多尺度向量序列。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取音频的特征序列,所述音频包括所述第一音频和所述第二音频;
调用时间序列相关层对特征序列进行时域自相关处理,得到自相关向量序列;
调用多尺度时频域卷积层对自相关向量序列进行多尺度特征提取,得到所述音频的多尺度向量序列;
将所述音频的多尺度向量序列存储至所述存储库。


6.根据权利要求5所述的方法,其特征在于,所述特征序列包括按照时间排序的N个频域向量,所述调用时间序列相关层对特征序列进行时域自相关处理,得到自相关向量序列,包括:
计算第i个频域向量和除所述第i个频域向量之外的其他频域向量之间的第i相关性分数,i为不大于N的整数;
以所述第i相关性分数作为所述第i个频域向量的相关性权重,计算所述N个频域向量的加权序列,得到所述自相关向量序列。


7.根据权利要求6所述的方法,其特征在于,所述自相关向量序列包括N个自相关向量,所述方法还包括:
按照所述N个自...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1