一种基于深度哈希的音频检索方法、装置、介质及设备制造方法及图纸

技术编号：41464863 阅读：14 留言：0更新日期：2024-05-30 14:20

本申请公开了一种基于深度哈希的音频检索方法、装置、介质及设备，属于短距离无线通信技术领域，该方法包括：选取一段以LC3格式存储或传输的目标音频码流；将目标音频码流执行部分解码至频域噪声整形模块，输出目标音频码流的谱系数；根据谱系数，提取目标音频码流的感知特征；将感知特征输入预训练的深度哈希网络模型中，生成目标音频码流的深度特征，并将深度特征进行哈希运算，生成目标音频码流的哈希序列；以及将目标音频码流的哈希序列与预存在哈希数据库中的哈希序列进行比对，并输出检索结果。本申请将深度学习、感知哈希和音频编解码技术相结合，通过端到端的深度学习方法，实现了对音频的检索，提高了音频检索的准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于短距离无线通信，特别是涉及一种基于深度哈希的音频检索方法、装置、介质及设备。

技术介绍

1、随着网络和多媒体技术的迅速发展，网络上的多媒体信息的数量越来越多,如何从海量的信息中高效的检索出想要的信息显得尤为重要。多媒体信息中的音频信息是其中非常重要的一类，音频信息的检索技术受到越来越多的重视，是当前研究的热点。由于lc3编解码的技术优势，未来会有很多音频信息会以lc3格式存储或传输，如何高效的检索以lc3格式存储或传输的音频是一个急需解决的问题。

2、感知哈希(perceptual hash)是近年来出现的基于多媒体感知特征的鲁棒哈希技术。音频感知哈希算法通常分为感知特征提取和感知哈希建模。感知特征提取以人类感知模型为基础，分析提取音频对于各种内容保持操作的不变量，如分帧、滤波、降噪和编码压缩等，同时结合各种时频变换去除冗余信息，从而提取具有感知意义的特征参数。目前主流的感知哈希方法需要从音频中手工提取特征向量作为输入，因此，其生成的哈希的质量与手工提取的特征向量有较大的关系。

3、随着深度学习在人工智能领域引起越来越多的关注和研究，特别是在图像领域，利用深度学习及卷积神经网络相关技术为数据生成高效的哈希特征是主流的做法，显然，深度哈希已经广泛应用于基于哈希的图像检索。目前，基于标签对的深度哈希学习方法cnnh(深度卷积神经网络哈希)既能降低图像检索复杂度，还能提高图像检索的准确度，但是它并不是一个端到端的深度学习方法，而是需要两步完成，第一步：使用卷积神经网络提取图片特征；第二步：基于提取的图

技术实现思路

1、针对现有技术中存在的上述技术问题，本申请提供了一种基于深度哈希的音频检索方法、装置及存储介质，将深度学习、感知哈希和音频编解码技术相结合，通过端到端的神经网络模型，能够高效生成哈希序列，实现对音频的检索，提高了音频检索的准确率和效率。

2、在本申请的一个技术方案中，提供一种基于深度哈希的音频检索方法，其包括：选取一段以lc3格式存储或传输的目标音频码流；将目标音频码流执行部分解码至频域噪声整形模块，输出目标音频码流的谱系数；根据谱系数，提取目标音频码流的感知特征；将感知特征输入预训练的深度哈希网络模型中，生成目标音频码流的深度特征，并将深度特征进行哈希运算，生成目标音频码流的哈希序列；以及将目标音频码流的哈希序列与预存在哈希数据库中的哈希序列进行比对，并输出检索结果。

3、在本申请的另一技术方案中，提供一种基于深度哈希的音频检索装置，其包括：用于选取一段以lc3格式存储或传输的目标音频码流的模块；用于将目标音频码流执行部分解码至频域噪声整形模块，输出目标音频码流的谱系数的模块；用于根据谱系数，提取目标音频码流的感知特征的模块；用于将感知特征输入预训练的深度哈希网络模型中，生成目标音频码流的深度特征，并将深度特征进行哈希运算，生成目标音频码流的哈希序列的模块；以及用于将目标音频码流的哈希序列与预存在哈希数据库中的哈希序列进行比对，并输出检索结果的模块。

4、在本申请的另一技术方案中，提供一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行方案一中的基于深度哈希的音频检索方法。

5、在本申请的另一技术方案中，提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中处理器操作计算机指令以执行方案一中的基于深度哈希的音频检索方法。

6、本申请技术方案可以达到的有益效果是：本申请的技术方案既可以用于低功耗蓝牙，也可以用于经典蓝牙及其他短距离无线通信场景，通过预先训练完成的端到端的深度哈希网络模型提取目标音频的深度特征，并生成哈希序列，然后与预存在哈希数据库中的哈希序列进行比对，从而实现了对目标音频的检索，提高了音频检索的准确率和效率。

本文档来自技高网...

【技术保护点】

1.一种基于深度哈希的音频检索方法，其特征在于，包括：

2.如权利要求1所述的基于深度哈希的音频检索方法，其特征在于，所述预训练的深度哈希网络模型的训练过程包括：

3.如权利要求1所述的基于深度哈希的音频检索方法，其特征在于，所述预训练的深度哈希网络模型包括输入层、二维卷积层、深度可分离二维卷积层、池化层、第一个全连接层、第二个全连接层和第三个全连接层。

4.如权利要求2、3所述的基于深度哈希的音频检索方法，其特征在于，所述损失函数的公式为：Loss＝LClassifier+LHash+LSimilarity，所述损失函数的定义包括：

5.如权利要求2所述的基于深度哈希的音频检索方法，其特征在于，所述数据扩增包括：

6.如权利要求1所述的基于深度哈希的音频检索方法，其特征在于，所述感知特征的提取过程包括：

7.如权利要求1所述的基于深度哈希的音频检索方法，其特征在于，所述将所述目标音频码流的哈希序列与预存在哈希数据库中的哈希序列进行比对的方法包括：

8.一种基于深度哈希的音频检索装置，其特征在于，包括：

9.一种计算机可读存储介质，其存储有计算机指令，其中所述计算机指令被操作以执行权利要求1-7任一项所述的基于深度哈希的音频检索方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中所述处理器操作所述计算机指令以执行权利要求1-7任一项所述的基于深度哈希的音频检索方法。

...

【技术特征摘要】

1.一种基于深度哈希的音频检索方法，其特征在于，包括：

2.如权利要求1所述的基于深度哈希的音频检索方法，其特征在于，所述预训练的深度哈希网络模型的训练过程包括：

4.如权利要求2、3所述的基于深度哈希的音频检索方法，其特征在于，所述损失函数的公式为：loss＝lclassifier+lhash+lsimilarity，所述损失函数的定义包括：

5.如权利要求2所述的基于深度哈希的音频检索方法，其特征在于，所述数据扩...

【专利技术属性】
技术研发人员：李强，王凌志，叶东翔，朱勇，
申请(专利权)人：重庆百瑞互联电子技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人