面向海量音乐检索的非对称深度哈希方法、网络和网络的训练方法技术

技术编号:35858055 阅读:18 留言:0更新日期:2022-12-07 10:46
面向海量音乐检索的非对称深度哈希方法、网络和网络的训练方法,属于多媒体信息技术和机器学习的交叉领域,为了解决海量音乐检索问题,获取待检索音乐数据的二进制表示及音乐数据库中各音乐数据的二进制表示,所述音乐数据库中同一类别的音乐数据的二进制表示趋于所述音乐类别的量化中心分布,所述量化中心是音乐数据库中音乐类别的二进制表示;计算所述待检索音乐数据的二进制表示与所述音乐数据库中各音乐数据的二进制表示之间的汉明距离;根据所述汉明距离,将与所述待检索音乐数据二进制表示的汉明距离最近的音乐库中的音乐数据的类别标签作为待检索音乐的类别标签,效果是能在小规模训练数据集下提高深度哈希二进制表示能力。表示能力。表示能力。

【技术实现步骤摘要】
面向海量音乐检索的非对称深度哈希方法、网络和网络的训练方法


[0001]本专利技术属于多媒体信息技术和机器学习的交叉领域,涉及一种面向海量音乐检索的非对称深度哈希方法。

技术介绍

[0002]互联网、移动互联网、物联网等技术高速发展,人们进入了信息时代,网络多媒体数据正在以史无前例的速度爆炸式增长,建立在这些数据基础上的应用比如网络视听、社交软件、线上购物等风靡一时,影响和丰富着人们的日常生活,创造了很大的社会和经济价值。其中,音乐作为一种重要的多媒体数据类型,历经柱式唱片、胶片、卡带、CD时代,现在迎来了全新的数字时代,各类个人翻唱、音乐社区、短视频软件随之空前繁荣,越来越多的数字音乐在互联网上呈现出来。
[0003]网络大数据时代,一种基于音乐内容的高效检索算法对于与音乐相关的应用非常必要。首先,可以改进当前主流的基于文本的音乐检索模式,为商业数字音乐服务商如酷狗音乐、百度音乐等提供更具个性化的检索服务,诸如哼唱检索、以乐检乐。其次,可以为音乐创作者提供更加实用的原创性检查和版权保护方法,如今普通人都可以作为音乐的创作者,如何快速判断创作内容和海量现存音乐作品的相似度十分有用。最后,可以为多媒体制作提供更为便捷的音乐添加服务,比如在海量游戏场景里搭配不同音乐或者在短视频制作时添加背景乐,最便捷的方式是从海量音乐库里根据使用场景匹配最适合的音乐。
[0004]不过,实际应用中,音乐数据往往呈现高维、多源、异构等特性,如何对这些高维数据进行高效的索引和检索,直接关系到上述音乐多媒体应用的用户体验,是基于音乐内容的高效检索算法的核心。其中,把海量音乐数据转换成二进制码进行存储和检索是近期一个热门的方向。主要的原因有两个方面,一方面,二进制表示需要的存储空间很小;另一方面,二进制码之间的相似性可以基于汉明距离或者多哈希表索引计算,其检索效率很高。
[0005]当然,如何提高二进制数据的表示能力,即数据在二进制空间能够保持原始空间之间的近邻关系,是对数据进行哈希转化的关键。为此,研究人员对于一般的向量数据包括音频数据提出一系列的哈希方法。比如按照是否借助样本数据的标签信息,可以分为无监督的哈希方法和有监督的哈希方法;按照原始数据相似性保持策略,可以分为距离矩阵保持方法、二元/三元组保持方法、排序保持方法等。随着近年来深度学习技术的迅猛发展,基于深度网络的有监督哈希技术可以大大提高哈希二进制的表示能力,显示出超越传统哈希方法的不俗实力,引起了越来越多学者的兴趣,不过其发展也存在一些瓶颈与问题。
[0006]首先,基于深度网络的有监督哈希方法中,目标函数需要衡量输出二进制码对于原始输入样本的表示能力。常用的策略是通过音乐相似对(标签相同的两个样本)或者音乐三元组(三个样本中有两个标签相同)的网络输出构造误差项。不过,这种相似性的度量是存在缺陷的。第一,对于整个数据库来说,音乐二元/三元组仅是一种局部的相似性表示,制约了哈希二进制的表示能力,有学者提出借助多元组的排序关系来改进,不过其算法复杂
度很大。第二,数据库较大时,其多元组的组合数是一个很大的量级,在实际应用中,往往也无法遍历所有的多元组,同时会存在多元组的不平衡问题,比如相似音乐样本对的数目远远小于不相似音乐样本对的数目,这也制约了该类哈希方法的性能。
[0007]其次,大多数深度哈希方法都是采用对称的二进制生成机制,即训练数据和数据库数据的二进制表示都是由数据通过同一神经网络得到。该类方法的性能往往依赖于训练数据的量级,即训练数据的量越大,训练得到的深度神经网络二进制表示和生成能力越强。比如使用基于音乐样本元组构造误差函数,由于样本元组的量级很大,而每对音乐样本都要通过神经网络训练,实践中就制约了训练样本选取的量级。对于现实中的海量音乐数据集,限于训练数据集的规模,上述对称的深度哈希方法显然无法充分地利用到海量数据集的信息,也就不容易产生高质量的二进制表示。
[0008]综上,在当前海量音乐数据的网络环境中,实现有效的音乐数据存储和检索,需要一种表示能力强的高效深度哈希方法作为支撑。

技术实现思路

[0009]为了克服上述不足,本专利技术面向海量音乐检索问题,提出了一种基于中心相似度的非对称深度哈希方法,目的在于增强哈希方法对于海量音乐数据库监督信息的使用能力,提高二进制表示对于原始音乐数据的表示和近邻检索性能。
[0010]在一个方面上,本专利技术在一个实施例中提供一种面向海量音乐检索的非对称深度哈希方法,包括
[0011]获取待检索音乐数据的二进制表示及音乐数据库中各音乐数据的二进制表示,所述音乐数据库中同一类别的音乐数据的二进制表示趋于所述音乐类别的量化中心分布,所述量化中心是音乐数据库中音乐类别的二进制表示;
[0012]计算所述待检索音乐数据的二进制表示与所述音乐数据库中各音乐数据的二进制表示之间的汉明距离;
[0013]根据所述汉明距离,将与所述待检索音乐数据二进制表示的汉明距离最近的音乐库中的音乐数据的类别标签作为待检索音乐的类别标签。
[0014]在本专利技术在一个实施例中的一种面向海量音乐检索的非对称深度哈希方法,任意两个所述音乐类别的量化中心汉明距离的平均值至少为k/2,所述k表示生成的二进制表示的位数。
[0015]在本专利技术在一个实施例中的面向海量音乐检索的非对称深度哈希方法,获取所述量化中心的方法包括
[0016]对于给定的二进制表示的位数k,k阶的哈达玛矩阵H
k,k


H
k,k
表示2k个量化中心,2k个量化中心表示为矩阵L=[H
k,k


H
k,k
];
[0017]若音乐数据库中的音乐类别个数t≤2k,取矩阵L的前t行作为音乐类别的二进制表示;否则,通过Bernoulli分布再生成t

2k个量化中心,t

2k个量化中心表示为矩阵H1,矩阵L和矩阵H1组合得到音乐数据库中的音乐类别的二进制表示。
[0018]在本专利技术在一个实施例中的面向海量音乐检索的非对称深度哈希方法,通过Bernoulli分布生成s个矩阵H1,选择其中使得任意两个所述音乐类别的量化中心汉明距离的平均值最大对应的矩阵H1作为所述t

2k个量化中心。
[0019]在第二方面上,在本专利技术在一个实施例中提供一种用于面向海量音乐检索的非对称深度哈希网络,用于实施所述方法,包括
[0020]卷积网络,用于提取音乐数据的特征;
[0021]多层感知器,用于生成音乐数据的特征的二进制表示。
[0022]在本专利技术在一个实施例中的用于面向海量音乐检索的非对称深度哈希网络,所述用于面向海量音乐检索的非对称深度哈希网络的损失函数包括:
[0023]第一约束,所述第一约束用于在训练音乐集中的音乐和音乐数据库中的音乐的类别标签相同时,约束网络输出趋于一致,并且用于在训练音乐集中的音乐和音乐数据库本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向海量音乐检索的非对称深度哈希方法,其特征在于,包括获取待检索音乐数据的二进制表示及音乐数据库中各音乐数据的二进制表示,所述音乐数据库中同一类别的音乐数据的二进制表示趋于所述音乐类别的量化中心分布,所述量化中心是音乐数据库中音乐类别的二进制表示;计算所述待检索音乐数据的二进制表示与所述音乐数据库中各音乐数据的二进制表示之间的汉明距离;根据所述汉明距离,将与所述待检索音乐数据二进制表示的汉明距离最近的音乐库中的音乐数据的类别标签作为待检索音乐的类别标签。2.根据权利要求1所述的面向海量音乐检索的非对称深度哈希方法,其特征在于,任意两个所述音乐类别的量化中心汉明距离的平均值至少为k/2,所述k表示生成的二进制表示的位数。3.根据权利要求1所述的面向海量音乐检索的非对称深度哈希方法,其特征在于,获取所述量化中心的方法包括对于给定的二进制表示的位数k,k阶的哈达玛矩阵H
k,k


H
k,k
表示2k个量化中心,2k个量化中心表示为矩阵L=[H
k,k


H
k,k
];若音乐数据库中的音乐类别个数t≤2k,取矩阵L的前t行作为音乐类别的二进制表示;否则,通过Bernoulli分布再生成t

2k个量化中心,t

2k个量化中心表示为矩阵H1,矩阵L和矩阵H1组合得到音乐数据库中的音乐类别的二进制表示。4.根据权利要求1所述的面向海量音乐检索的非对称深度哈希方法,其特征在于,通过Bernoulli分布生成s个矩阵H1,选择其中使得任意两个所述音乐类别的量化中心汉明距离的平均值最大对应的矩阵H1作为所述t

2k个量化中心。5.一种用于面向海量音乐检索的非对称深度哈希网络,其特征在于,用于实施权利要求1所述方法,包括卷积网络,用于提取音乐数据的特征;多层感知器,用于生成音乐数据的特征的二进制表示。6.如权利要求5所述的用于面向海量音乐检索的非对称深度哈希网络,其特征在于,所述用于面向海量音乐检索的非对称深度哈希网络的损失函数包括:第一约束,所述第一约束用于在训练音乐集中的音乐和音乐数据库中的音乐的类别标签相同时,约束网络输出趋于一致,并且用于在训练音乐集中的音乐和音乐数据库中的音乐的类别标签不同时,约束网络输出和所述数据库音乐二进制表示的距离为二进制表示的位数k;第二约束,所述第二约束用于约束网络的输出在输入音乐所属音乐类别的量化中心的附近;第三约束,所述第三约束用于约束音乐数据库的音乐的二进制表示在所述音乐所属音乐类别的量化中心的附近。7.如权利要求6所述的用于面向海量音乐检索的非对称深度哈希网络,其特征在于,损失函数表示为s.t.B∈{0,1}
n
×
k
其中:L1(Θ,B)=∑
ij
(tanh(f(x
i
;Θ))
T
b
j

k*s
ij
)2,L1(Θ,B)表示哈希损失,tanh(f(x
i
;Θ))表示网络的输出,x
i
表示第i个训练音乐的频谱表示,Θ表示网络参数,b
j
表示音乐数据库中第j个音乐的二进制表示,k表...

【专利技术属性】
技术研发人员:姜莱
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1