【技术实现步骤摘要】
音频匹配方法、装置、设备及存储介质
本申请涉及多媒体处理领域,特别涉及一种音频匹配方法、装置、设备及存储介质。
技术介绍
音频匹配是指根据音频之间的相似度判断音频之间是否存在关系。按照匹配类型来分,音频匹配包括:音频片段匹配和全音频匹配。音频片段匹配是指给定一个音频片段Q,判断音频片段Q是否属于音频D的一部分。全音频匹配是指给定一个音频A,判断音频A和音频B的相似性。相关技术中,音频匹配均是从音频信号处理的角度,通过提取音频信号的若干特征,借助于音频指纹技术(选取音频信号中比较显著的时间频率点,编码为数字,该数字被命名为指纹),将音频匹配转化为不同数字间的检索问题,从而得到音频之间的匹配程度。由于音频片段匹配针对同一乐曲的音频片段和全音频进行匹配,所以基于信号处理的音频指纹技术在音频片段匹配的场景下具有较好的匹配效果,但是在全音频匹配的场景下,需要对不同的两首歌曲计算相似度,此时音频指纹技术的应用受限,无法取得较好的匹配效果。
技术实现思路
本申请实施例提供了一种音频匹配方法、装置、设备及存储介质,能够通过LSTM神经网络预测全音频的相似概率。所述技术方案如下:根据本申请的一个方面,提供了一种音频匹配方法,所述方法包括:获取第一音频的第一特征向量和第二音频的第二特征向量;调用长短记忆LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量;调用分类层对所述预测向量进行预测,得到所述第一音频和所述 ...
【技术保护点】
1.一种音频匹配方法,其特征在于,所述方法包括:/n获取第一音频的第一特征向量和第二音频的第二特征向量;/n调用长短记忆LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量;/n调用分类层对所述预测向量进行预测,得到所述第一音频和所述第二音频的相似概率。/n
【技术特征摘要】
1.一种音频匹配方法,其特征在于,所述方法包括:
获取第一音频的第一特征向量和第二音频的第二特征向量;
调用长短记忆LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量;
调用分类层对所述预测向量进行预测,得到所述第一音频和所述第二音频的相似概率。
2.根据权利要求1所述的方法,其特征在于,所述LSTM神经网络层包括第一单向LSTM神经网络层、第二单向LSTM神经网络层和第三单向LSTM神经网络层;
所述调用LSTM神经网络层对所述第一特征向量和所述第二特征向量进行融合,得到所述第一音频和所述第二音频的预测向量,包括:
调用所述第一单向LSTM神经网络层对所述第一特征向量进行融合,得到第一输出向量;
调用所述第二单向LSTM神经网络层对所述第二特征向量和所述第一输出向量进行融合,得到第二输出向量;
调用所述第三单向LSTM神经网络层对所述第一特征向量和所述第二输出向量进行融合,得到所述第一音频和所述第二音频的预测向量。
3.根据权利要求2所述的方法,其特征在于,所述调用所述第一单向LSTM神经网络层对所述第一特征向量进行融合,得到第一输出向量,包括:
将所述第一单向LSTM神经网络层的初始状态归零;
调用所述第一单向LSTM神经网络层根据所述初始状态对所述第一特征向量沿着第一融合方向进行迭代处理,得到所述第一输出向量。
4.根据权利要求2所述的方法,其特征在于,所述调用所述第二单向LSTM神经网络层对所述第二特征向量和所述第一输出向量进行融合,得到第二输出向量,包括:
将所述第一输出向量设置为所述第二单向LSTM神经网络层的初始状态向量;
调用所述第二单向LSTM神经网络层根据所述初始状态向量对所述第二特征向量沿着第一融合方向进行迭代处理,得到所述第二输出向量。
5.根据权利要求2所述的方法,其特征在于,所述调用所述第三单向LSTM神经网络层对所述第一特征向量和所述第二输出向量进行融合,得到所述第一音频和所述第二音频的预测向量,包括:
将所述第二输出向量设置为所述第三单向LSTM神经网络层的初始状态向量;
调用所述第三单向LSTM神经网络层根据所述初始状态向量对所述第一特征向量沿着第二融合方向进行迭代处理,得到所述预测向量。
6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
根据音频属性特征对所述音频库中的音频进行聚类,得到音频类簇,所述音频属性特征包括至少两个不同维度的属性特征,且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度;
根据所述音频类簇中的音频生成候选音频对,所述候选音频对中包含两段音频,且所述两段音频属于同一音频类簇或不同音频类簇;
根据所述音频库中音频的历史播放记录,确定所述候选音频对中的音频正样本对和音频负样本对,其中,所述音频正样本对中的音频属于同一音频类簇,所述音频负样本对中的音频属于不同音频类簇;
根据所述音频正样本对...
【专利技术属性】
技术研发人员:缪畅宇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。