面向海量音乐检索的非对称深度哈希方法、网络和网络的训练方法技术

技术编号：35858055 阅读：18 留言：0更新日期：2022-12-07 10:46

面向海量音乐检索的非对称深度哈希方法、网络和网络的训练方法，属于多媒体信息技术和机器学习的交叉领域，为了解决海量音乐检索问题，获取待检索音乐数据的二进制表示及音乐数据库中各音乐数据的二进制表示，所述音乐数据库中同一类别的音乐数据的二进制表示趋于所述音乐类别的量化中心分布，所述量化中心是音乐数据库中音乐类别的二进制表示；计算所述待检索音乐数据的二进制表示与所述音乐数据库中各音乐数据的二进制表示之间的汉明距离；根据所述汉明距离，将与所述待检索音乐数据二进制表示的汉明距离最近的音乐库中的音乐数据的类别标签作为待检索音乐的类别标签，效果是能在小规模训练数据集下提高深度哈希二进制表示能力。表示能力。表示能力。

全部详细技术资料下载

【技术实现步骤摘要】
面向海量音乐检索的非对称深度哈希方法、网络和网络的训练方法

[0001]本专利技术属于多媒体信息技术和机器学习的交叉领域，涉及一种面向海量音乐检索的非对称深度哈希方法。

技术介绍

[0002]互联网、移动互联网、物联网等技术高速发展，人们进入了信息时代，网络多媒体数据正在以史无前例的速度爆炸式增长，建立在这些数据基础上的应用比如网络视听、社交软件、线上购物等风靡一时，影响和丰富着人们的日常生活，创造了很大的社会和经济价值。其中，音乐作为一种重要的多媒体数据类型，历经柱式唱片、胶片、卡带、CD时代，现在迎来了全新的数字时代，各类个人翻唱、音乐社区、短视频软件随之空前繁荣，越来越多的数字音乐在互联网上呈现出来。
[0003]网络大数据时代，一种基于音乐内容的高效检索算法对于与音乐相关的应用非常必要。首先，可以改进当前主流的基于文本的音乐检索模式，为商业数字音乐服务商如酷狗音乐、百度音乐等提供更具个性化的检索服务，诸如哼唱检索、以乐检乐。其次，可以为音乐创作者提供更加实用的原创性检查和版权保护方法，如今普通人都可以作为音乐的创作者，如何快速判断创作内容和海量现存音乐作品的相似度十分有用。最后，可以为多媒体制作提供更为便捷的音乐添加服务，比如在海量游戏场景里搭配不同音乐或者在短视频制作时添加背景乐，最便捷的方式是从海量音乐库里根据使用场景匹配最适合的音乐。
[0004]不过，实际应用中，音乐数据往往呈现高维、多源、异构等特性，如何对这些高维数据进行高效的索引和检索，直接关系到上述音乐多媒体应用的用户体验，是基...

【技术保护点】

【技术特征摘要】
1.一种面向海量音乐检索的非对称深度哈希方法，其特征在于，包括获取待检索音乐数据的二进制表示及音乐数据库中各音乐数据的二进制表示，所述音乐数据库中同一类别的音乐数据的二进制表示趋于所述音乐类别的量化中心分布，所述量化中心是音乐数据库中音乐类别的二进制表示；计算所述待检索音乐数据的二进制表示与所述音乐数据库中各音乐数据的二进制表示之间的汉明距离；根据所述汉明距离，将与所述待检索音乐数据二进制表示的汉明距离最近的音乐库中的音乐数据的类别标签作为待检索音乐的类别标签。2.根据权利要求1所述的面向海量音乐检索的非对称深度哈希方法，其特征在于，任意两个所述音乐类别的量化中心汉明距离的平均值至少为k/2，所述k表示生成的二进制表示的位数。3.根据权利要求1所述的面向海量音乐检索的非对称深度哈希方法，其特征在于，获取所述量化中心的方法包括对于给定的二进制表示的位数k，k阶的哈达玛矩阵H
k,k
及
‑
H
k,k
表示2k个量化中心，2k个量化中心表示为矩阵L＝[H
k,k
；
‑
H
k,k
]；若音乐数据库中的音乐类别个数t≤2k，取矩阵L的前t行作为音乐类别的二进制表示；否则，通过Bernoulli分布再生成t
‑
2k个量化中心，t
‑
2k个量化中心表示为矩阵H1，矩阵L和矩阵H1组合得到音乐数据库中的音乐类别的二进制表示。4.根据权利要求1所述的面向海量音乐检索的非对称深度哈希方法，其特征在于，通过Bernoulli分布生成s个矩阵H1，选择其中使得任意两个所述音乐类别的量化中心汉明距离的平均值最大对应的矩阵H1作为所述t
‑
2k个量化中心。5.一种用于面向海量音乐检索的非对称深度哈希网络，其特征在于，用于实施权利要求1所述方法，包括卷积网络，用于提取音乐数据的特征；多层感知器，用于生成音乐数据的特征的二进制表示。6.如权利要求5所述的用于面向海量音乐检索的非对称深度哈希网络，其特征在于，所述用于面向海量音乐检索的非对称深度哈希网络的损失函数包括：第一约束，所述第一约束用于在训练音乐集中的音乐和音乐数据库中的音乐的类别标签相同时，约束网络输出趋于一致，并且用于在训练音乐集中的音乐和音乐数据库中的音乐的类别标签不同时，约束网络输出和所述数据库音乐二进制表示的距离为二进制表示的位数k；第二约束，所述第二约束用于约束网络的输出在输入音乐所属音乐类别的量化中心的附近；第三约束，所述第三约束用于约束音乐数据库的音乐的二进制表示在所述音乐所属音乐类别的量化中心的附近。7.如权利要求6所述的用于面向海量音乐检索的非对称深度哈希网络，其特征在于，损失函数表示为s.t.B∈{0，1}
n
×
k
其中：L1(Θ，B)＝∑
ij
(tanh(f(x
i
；Θ))
T
b
j
‑
k*s
ij
)2，L1(Θ，B)表示哈希损失，tanh(f(x
i
；Θ))表示网络的输出，x
i
表示第i个训练音乐的频谱表示，Θ表示网络参数，b
j
表示音乐数据库中第j个音乐的二进制表示，k表...

【专利技术属性】
技术研发人员：姜莱，
申请(专利权)人：广东技术师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人