一种基于深度哈希的音频检索方法、装置、介质及设备制造方法及图纸

技术编号:41464863 阅读:17 留言:0更新日期:2024-05-30 14:20
本申请公开了一种基于深度哈希的音频检索方法、装置、介质及设备,属于短距离无线通信技术领域,该方法包括:选取一段以LC3格式存储或传输的目标音频码流;将目标音频码流执行部分解码至频域噪声整形模块,输出目标音频码流的谱系数;根据谱系数,提取目标音频码流的感知特征;将感知特征输入预训练的深度哈希网络模型中,生成目标音频码流的深度特征,并将深度特征进行哈希运算,生成目标音频码流的哈希序列;以及将目标音频码流的哈希序列与预存在哈希数据库中的哈希序列进行比对,并输出检索结果。本申请将深度学习、感知哈希和音频编解码技术相结合,通过端到端的深度学习方法,实现了对音频的检索,提高了音频检索的准确率和效率。

【技术实现步骤摘要】

本申请属于短距离无线通信,特别是涉及一种基于深度哈希的音频检索方法、装置、介质及设备


技术介绍

1、随着网络和多媒体技术的迅速发展,网络上的多媒体信息的数量越来越多,如何从海量的信息中高效的检索出想要的信息显得尤为重要。多媒体信息中的音频信息是其中非常重要的一类,音频信息的检索技术受到越来越多的重视,是当前研究的热点。由于lc3编解码的技术优势,未来会有很多音频信息会以lc3格式存储或传输,如何高效的检索以lc3格式存储或传输的音频是一个急需解决的问题。

2、感知哈希(perceptual hash)是近年来出现的基于多媒体感知特征的鲁棒哈希技术。音频感知哈希算法通常分为感知特征提取和感知哈希建模。感知特征提取以人类感知模型为基础,分析提取音频对于各种内容保持操作的不变量,如分帧、滤波、降噪和编码压缩等,同时结合各种时频变换去除冗余信息,从而提取具有感知意义的特征参数。目前主流的感知哈希方法需要从音频中手工提取特征向量作为输入,因此,其生成的哈希的质量与手工提取的特征向量有较大的关系。

3、随着深度学习在人工智能领域引起越来越多的本文档来自技高网...

【技术保护点】

1.一种基于深度哈希的音频检索方法,其特征在于,包括:

2.如权利要求1所述的基于深度哈希的音频检索方法,其特征在于,所述预训练的深度哈希网络模型的训练过程包括:

3.如权利要求1所述的基于深度哈希的音频检索方法,其特征在于,所述预训练的深度哈希网络模型包括输入层、二维卷积层、深度可分离二维卷积层、池化层、第一个全连接层、第二个全连接层和第三个全连接层。

4.如权利要求2、3所述的基于深度哈希的音频检索方法,其特征在于,所述损失函数的公式为:Loss=LClassifier+LHash+LSimilarity,所述损失函数的定义包括

5....

【技术特征摘要】

1.一种基于深度哈希的音频检索方法,其特征在于,包括:

2.如权利要求1所述的基于深度哈希的音频检索方法,其特征在于,所述预训练的深度哈希网络模型的训练过程包括:

3.如权利要求1所述的基于深度哈希的音频检索方法,其特征在于,所述预训练的深度哈希网络模型包括输入层、二维卷积层、深度可分离二维卷积层、池化层、第一个全连接层、第二个全连接层和第三个全连接层。

4.如权利要求2、3所述的基于深度哈希的音频检索方法,其特征在于,所述损失函数的公式为:loss=lclassifier+lhash+lsimilarity,所述损失函数的定义包括:

5.如权利要求2所述的基于深度哈希的音频检索方法,其特征在于,所述数据扩...

【专利技术属性】
技术研发人员:李强王凌志叶东翔朱勇
申请(专利权)人:重庆百瑞互联电子技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1