音频匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:24574791 阅读:28 留言:0更新日期:2020-06-21 00:13
本申请公开了一种音频匹配方法、装置、设备及存储介质,属于多媒体处理领域。该方法包括:获取第一音频的第一特征向量和第二音频的第二特征向量;调用长短记忆LSTM神经网络层对第一特征向量和第二特征向量进行融合,得到第一音频和第二音频的预测向量;调用分类层对预测向量进行预测,得到第一音频和第二音频的相似概率。通过在音频匹配模型中构建LSTM神经网络,使得构建有LSTM神经网络的音频匹配模型能够预测不同歌曲之间的相似度,从而取得精度较高的相似度计算结果,同时简化了音频匹配模型的结构,降低服务器负载。

Audio matching method, device, equipment and storage medium

【技术实现步骤摘要】
音频匹配方法、装置、设备及存储介质
本申请涉及多媒体处理领域,特别涉及一种音频匹配方法、装置、设备及存储介质。
技术介绍
音频匹配是指根据音频之间的相似度判断音频之间是否存在关系。按照匹配类型来分,音频匹配包括:音频片段匹配和全音频匹配。音频片段匹配是指给定一个音频片段Q,判断音频片段Q是否属于音频D的一部分。全音频匹配是指给定一个音频A,判断音频A和音频B的相似性。相关技术中,音频匹配均是从音频信号处理的角度,通过提取音频信号的若干特征,借助于音频指纹技术(选取音频信号中比较显著的时间频率点,编码为数字,该数字被命名为指纹),将音频匹配转化为不同数字间的检索问题,从而得到音频之间的匹配程度。由于音频片段匹配针对同一乐曲的音频片段和全音频进行匹配,所以基于信号处理的音频指纹技术在音频片段匹配的场景下具有较好的匹配效果,但是在全音频匹配的场景下,需要对不同的两首歌曲计算相似度,此时音频指纹技术的应用受限,无法取得较好的匹配效果。
技术实现思路
本申请实施例提供了一种音频匹配方法、装置、设备及存储介质,能够通过LSTM神经网络预测全音频的相似概率。所述技术方案如下:根据本申请的一个方面,提供了一种音频匹配方法,所述方法包括:获取第一音频的第一特征向量和第二音频的第二特征向量;调用长短记忆LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量;调用分类层对所述预测向量进行预测,得到所述第一音频和所述第二音频的相似概率。根据本申请的另一方面,提供了一种音频匹配装置,所述装置包括:获取模块,用于获取第一音频的第一特征向量和第二音频的第二特征向量;LSTM神经网络模块,用于对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量;分类模块,用于对所述预测向量进行预测,得到所述第一音频和所述第二音频的相似概率。在一个可选的实施例中,所述LSTM神经网络模块包括第一单向LSTM神经网络模块、第二单向LSTM神经网络模块和第三单向LSTM神经网络模块;所述第一单向LSTM神经网络模块,用于对所述第一特征向量进行融合,得到第一输出向量;所述第二单向LSTM神经网络模块,用于对所述第二特征向量和所述第一输出向量进行融合,得到第二输出向量;所述第三单向LSTM神经网络模块,用于对所述第一特征向量和所述第二输出向量进行融合,得到所述第一音频和所述第二音频的预测向量。在一个可选的实施例中,所述装置包括训练模块;所述训练模块,用于根据音频属性特征对所述音频库中的音频进行聚类,得到音频类簇,所述音频属性特征包括至少两个不同维度的属性特征,且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度;根据所述音频类簇中的音频生成候选音频对,所述候选音频对中包含两段音频,且所述两段音频属于同一音频类簇或不同音频类簇;根据所述音频库中音频的历史播放记录,确定所述候选音频对中的音频正样本对和音频负样本对,其中,所述音频正样本对中的音频属于同一音频类簇,所述音频负样本对中的音频属于不同音频类簇;根据所述音频正样本对和所述音频负样本对音频匹配模型进行训练,所述音频匹配模型包括所述LSTM神经网络模块和所述分类模块。根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的音频匹配方法。根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的音频匹配方法。本申请实施例提供的技术方案带来的有益效果至少包括:通过LSTM神经网络层将第一音频的第一特征向量和第二音频的第二特征向量进行融合,并通过分类层得到第一音频和第二音频的相似概率,使得构建有LSTM神经网络层的音频匹配模型能够预测不同的全音频之间的相似度,从而取得精度较高的相似度计算结果,同时简化了音频匹配模型的结构,降低服务器负载。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的音频的频谱图;图2是本申请一个示例性实施例提供的音频匹配模型的结构框图;图3是本申请一个示例性实施例提供的计算机系统的框图;图4是本申请一个示例性实施例提供的应用场景示意图;图5是本申请一个示例性实施例提供的音频匹配方法的流程图;图6是本申请一个示例性实施例提供的长短记忆神经网络的结构示意图;图7是本申请另一个示例性实施例提供的音频匹配方法的流程图;图8是本申请一个示例性实施例提供的音频匹配模型的匹配流程的框图;图9是本申请一个示例性实施例提供的音频匹配模型的训练方法的流程图;图10是本申请另一个示例性实施例提供的音频匹配模型的匹配流程的框图;图11是本申请一个示例性实施例提供的音频特征的提取方法的流程图;图12是本申请一个示例性实施例提供的音频召回场景的示意图;图13是本申请一个示例性实施例提供的音频推荐场景的示意图;图14是本申请另一个示例性实施例提供的音频匹配装置的框图;图15是本申请一个示例性实施例提供的服务器的装置结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。首先,对本申请实施例中涉及的名词进行介绍:长短记忆神经网络(LongShortTermMemory,LSTM):是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,属于循环神经网络(RecurrentNeuralNetwork,RNN)中的一种。在一个示例中,当预测“云彩在X中”X的内容时,相关信息“云彩”与预测的答案X“天空”的位置之间的间隔较小,循环神经网络会根据相关信息预测出“天空”,但如果预测“我在法国长大,我会说一口流利的Y”时,需要预测的答案Y是一种语言(法语),由于Y与“法国”之间的间隔较长,此时运用循环神经网络预测Y的内容,可能会产生预测失败的问题,而运用LSTM神经网络预测的方式则能够避免产生此类问题。LSTM神经网络具有“门”结构(包括输入门、遗忘门和输出门),能够消除或者增加信息到细胞状态(Cell)的能力,使得LSTM神经网络能够记住长期的信息。频谱图:是指通过本文档来自技高网...

【技术保护点】
1.一种音频匹配方法,其特征在于,所述方法包括:/n获取第一音频的第一特征向量和第二音频的第二特征向量;/n调用长短记忆LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量;/n调用分类层对所述预测向量进行预测,得到所述第一音频和所述第二音频的相似概率。/n

【技术特征摘要】
1.一种音频匹配方法,其特征在于,所述方法包括:
获取第一音频的第一特征向量和第二音频的第二特征向量;
调用长短记忆LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量;
调用分类层对所述预测向量进行预测,得到所述第一音频和所述第二音频的相似概率。


2.根据权利要求1所述的方法,其特征在于,所述LSTM神经网络层包括第一单向LSTM神经网络层、第二单向LSTM神经网络层和第三单向LSTM神经网络层;
所述调用LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量,包括:
调用所述第一单向LSTM神经网络层对所述第一特征向量进行融合,得到第一输出向量;
调用所述第二单向LSTM神经网络层对所述第二特征向量和所述第一输出向量进行融合,得到第二输出向量;
调用所述第三单向LSTM神经网络层对所述第一特征向量和所述第二输出向量进行融合,得到所述第一音频和所述第二音频的预测向量。


3.根据权利要求2所述的方法,其特征在于,所述调用所述第一单向LSTM神经网络层对所述第一特征向量进行融合,得到第一输出向量,包括:
将所述第一单向LSTM神经网络层的初始状态归零;
调用所述第一单向LSTM神经网络层根据所述初始状态对所述第一特征向量沿着第一融合方向进行迭代处理,得到所述第一输出向量。


4.根据权利要求2所述的方法,其特征在于,所述调用所述第二单向LSTM神经网络层对所述第二特征向量和所述第一输出向量进行融合,得到第二输出向量,包括:
将所述第一输出向量设置为所述第二单向LSTM神经网络层的初始状态向量;
调用所述第二单向LSTM神经网络层根据所述初始状态向量对所述第二特征向量沿着第一融合方向进行迭代处理,得到所述第二输出向量。


5.根据权利要求2所述的方法,其特征在于,所述调用所述第三单向LSTM神经网络层对所述第一特征向量和所述第二输出向量进行融合,得到所述第一音频和所述第二音频的预测向量,包括:
将所述第二输出向量设置为所述第三单向LSTM神经网络层的初始状态向量;
调用所述第三单向LSTM神经网络层根据所述初始状态向量对所述第一特征向量沿着第二融合方向进行迭代处理,得到所述预测向量。


6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
根据音频属性特征对所述音频库中的音频进行聚类,得到音频类簇,所述音频属性特征包括至少两个不同维度的属性特征,且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度;
根据所述音频类簇中的音频生成候选音频对,所述候选音频对中包含两段音频,且所述两段音频属于同一音频类簇或不同音频类簇;
根据所述音频库中音频的历史播放记录,确定所述候选音频对中的音频正样本对和音频负样本对,其中,所述音频正样本对中的音频属于同一音频类簇,所述音频负样本对中的音频属于不同音频类簇;
根据所述音频正样本对...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1