一种融合CNNs与相位算法的音频分类检索方法技术

技术编号:20681017 阅读:94 留言:0更新日期:2019-03-27 18:54
本发明专利技术提出了一种融合CNNs与相位算法的音频分类检索方法,解决了云存储环境下音频数据分类检索过程繁琐以及用户隐私易于泄露问题。该方法首先在云存储服务端进行音频自动分类,并将分类结果和用于检索的用户隐私信息以水印的形式隐写到音频内容中;然后在传输音频数据到本地设备中,检测到密钥之后解码水印;最后根据解码所得音频类型、录音时间地点等信息进行分类展示。通过对比实验,分析了传统模型SVM等与深度学习模型CNNs分类音频的效果优劣,并对相位水印算法在该应用环境下做出了改进。

【技术实现步骤摘要】
一种融合CNNs与相位算法的音频分类检索方法
本专利技术属于数据分类
,尤其是一种音频数据分类检索方法。
技术介绍
随着网络存储技术的发展与数据科学时代的到来,人们越来越多地习惯于使用云存储技术保存和管理数据而不再将数据存储于本地设备的硬盘中,在人们对音频数据存储与传输的需求日益增加的情况下,如何高效地对音频数据进行分类与检索,并且在传输过程中保证用于音频检索的录音时间地点等用户隐私信息的安全,已经成为当前音频处理领域的一个研究热点。传统音频分类检索技术主要依赖于人工标注描述音频特征信息的关键词。这种方法在当前海量音频数据环境下显得十分繁琐,为了提升音频分类效率,孙文静等人使用SVM构建了音频自动分类系统;辛欣等人提出了一种基于潜在概率语义(PLSA)模型和K近邻分类器的音频分类算法来达到目的;Choi等人将卷积循环神经网络运用到了音乐分类中,证明了卷积神经网络对音频特征的提取归纳非常有效。尽管人们对音频自动化分类和标注提出了有效的解决方案,但是在云存储环境下,仍然存在用户隐私易于泄露的问题。
技术实现思路
针对上述问题,本专利技术提供了一种融合CNNs与相位算法的音频分类检索方法,该方法包括以下步骤:步骤1:CNNs-PW模拟用户上传音频流程是用户完成录入语音或歌曲后,将录入的音频就近上传到内容分发网络(CDN),通过CDN上传到云存储服务器,云存储服务端的深度学习系统根据训练结果对用户上传的音频数据进行分类,并将分类信息和用户信息以水印的形式嵌入到音频内容中。步骤2:CNNs-PW模拟用户下载音频流程是用户对所需音频向CDN进行网络请求,CDN通过中心平台的负载均衡,内容分发调度等功能模块进行处理,让用户就近获取所需音频,客户端在完成音频获取后进行本地密钥的检测,核对无误后对音频的水印信息进行解码,并根据水印中的分类信息和录音时间地点等用户信息对音频进行分类展示以便检索。为了在提升可隐写信息容量的同时保证音频水印的鲁棒性和透明性,本文在水印算法的嵌入过程中添加压缩水印步骤,改进相位水印嵌入过程如图2所示。在提取过程中添加解压水印步骤,改进相位水印提取过程如图3所示。其中的融合CNNs与相位算法的音频分类检索方法采用的相位算法执行的步骤为:步骤1:将音频信号S[i],(0≤i≤I-1),分割成N等长大小的音频片段Sn[i]0≤n≤N-1)。步骤2:将K点(K=I/N)的离散傅里叶变换(DFT)应用于第n段,建立一个相位矩阵φn(ωk)和振幅矩阵An(ωk),(0≤k≤K-1)。步骤3:计算并存储两个相邻音频片段间的相位差:Δφn+1(ωk)=φn+1(ωk)-φn(ωk)步骤4:以φdata=π/2和φdata=-π/2代表“0”和“1”,表示二进制数据集合为:φ′0=φ′data步骤5:对n>0,根据相位差重构相位矩阵:步骤6:使用新的相位矩阵φ′n(ωk)和原始幅度矩阵An(ωk)进行逆离散傅里叶变换(IDFT)重构声音信号,检测水印时先对信号进行同步,然后检测相位,并把该相位和两个特定点上的参考相位相比较得到“0”和“1”。将相位算法步骤2中的DFT和步骤6中的IDFT分别替换为FFT和逆快速傅里叶变换(IFFT)。采用FFT可以简化水印算法运算,提升算法的运算速度和实用性,并且由于CNNs-PW以FFT处理后的频域数据作为CNNs模型学习的依据,统一CNNs自动分类与水印隐写分类信息的音频信号处理算法有助于提升CNNs-PW的整体运行效率,因此作出此项改进。根据权利要求1所述的一种融合CNNs与相位算法的音频分类检索方法,对音频训练集进行处理,包含以下步骤:步骤1:在输入卷积神经网络进行训练前,本文方法通过将音频数据的声道由立体声转换为单声道,降低信息冗余。并通过FFT将时域数据转换到频域,使数据更加简单和紧凑,生成频谱。步骤2:频谱以x轴表示时间,y轴表示频率,其中顶部为最高频率,底部为最低频率。频谱以灰度显示频率的缩放幅度,其中白色为最大值,黑色为最小值。步骤3:将频谱切分为128x128像素切片后输入神经网络模型,以此更加拟合人类的学习和认知规律。有益效果:本专利技术所述方法可以高效地对音频数据进行分类与检索,并且在传输过程中保证用于音频检索的录音时间地点等用户隐私信息的安全;提升算法的运算速度和实用性;提高了效率。附图说明图1是本专利技术方法框图。图2是改进相位水印嵌入过程图。图3是改进相位水印提取过程图。图4是卷积神经网络典型结构图。图5是曲风分类准确率折线图图6是类型分类准确率折线图。图7是情感分类准确率折线图。图8是相位水印编码流程图。图9是相位水印嵌入过程图。图10是相位水印提取过程图。图11是音频分类CNNs模型结构图。图12是音频上传流程图。图13是音频下载流程图。具体实施方式为了使本专利技术的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示进一步阐述本专利技术。实验环境:Python:2.7.15MATLAB:R2016b客户端环境:系统:macOSSierra10.12.6、配置:CPU2.9GHzIntelCorei7、内存16GB2133MHzLPDDR3服务器环境:系统:CentOS7.264位、配置:CPU1核、内存2GB、带宽1Mbps实验支持:云服务:又拍云(内容分发网络)、腾讯云(云存储服务器)音频数据源:网易云音乐(采样率:44100Hz;声道:立体声;位深度:32;源格式:MP3320KbpsCBR)定位支持:百度地图开放平台(拾取坐标系统)实验设计本文实验模拟了用户应用云存储音频的完整过程,实验的架构设计如图1所示。一种融合CNNS与水印隐写技术的音频数据分类检索方法,其特征在于,包括以下步骤:步骤1:CNNs-PW模拟用户上传音频流程,如图12所示;是用户完成录入语音或歌曲后,将录入的音频就近上传到内容分发网络(CDN),通过CDN上传到云存储服务器,云存储服务端的深度学习系统根据训练结果对用户上传的音频数据进行分类,并将分类信息和用户信息以水印的形式嵌入到音频内容中,如图9所示。相位水印的编码流程如图8所示。步骤2:CNNs-PW模拟用户下载音频流程,如图13所示;是用户对所需音频向CDN进行网络请求,CDN通过中心平台的负载均衡,内容分发调度等功能模块进行处理,让用户就近获取所需音频,客户端在完成音频获取后进行本地密钥的检测,核对无误后对音频的水印信息进行解码如图10所示;并根据水印中的分类信息和录音时间地点等用户信息对音频进行分类展示,如图11所示,以便检索。一种融合CNNs与相位算法的音频分类检索方法采用的相位算法执行的步骤为:步骤1:将音频信号Sn[i],(0≤i≤I-1),分割成N等长大小的音频片段Sn[i](0≤n≤N-1)。步骤2:将K点(K=I/N)的离散傅里叶变换(DFT)应用于第n段,建立一个相位矩阵φn(ωk)和振幅矩阵An(ωk),(0≤k≤K-1)。步骤3:计算并存储两个相邻音频片段间的相位差:Δφn+1(ωk)=φn+1(ωk)-φn(ωk)步骤4:以φdata=π/2和φdata=-π/2代表“0”和“1”,表示二进制数据集合为:φ′0=φ′data步骤5:对n>0,根据相位差重构相位矩阵:步骤6:使用新的本文档来自技高网...

【技术保护点】
1.一种融合CNNs与相位算法的音频分类检索方法,其特征在于,包括以下步骤:步骤1:CNNs‑PW模拟用户上传音频:用户完成录入语音或歌曲后,将录入的音频就近上传到内容分发网络,即CDN,并通过CDN上传到云存储服务器,云存储服务端的深度学习系统根据训练结果对用户上传的音频数据进行分类,并将分类信息和用户信息以水印的形式嵌入到音频内容中;步骤2:CNNs‑PW模拟用户下载音频:用户对所需音频向CDN进行网络请求,CDN通过中心平台的负载均衡,内容分发调度模块进行处理,使用户就近获取所需音频,客户端在完成音频获取后进行本地密钥的检测,核对无误后对音频的水印信息进行解码,并根据水印中的用户信息对音频进行分类展示。

【技术特征摘要】
1.一种融合CNNs与相位算法的音频分类检索方法,其特征在于,包括以下步骤:步骤1:CNNs-PW模拟用户上传音频:用户完成录入语音或歌曲后,将录入的音频就近上传到内容分发网络,即CDN,并通过CDN上传到云存储服务器,云存储服务端的深度学习系统根据训练结果对用户上传的音频数据进行分类,并将分类信息和用户信息以水印的形式嵌入到音频内容中;步骤2:CNNs-PW模拟用户下载音频:用户对所需音频向CDN进行网络请求,CDN通过中心平台的负载均衡,内容分发调度模块进行处理,使用户就近获取所需音频,客户端在完成音频获取后进行本地密钥的检测,核对无误后对音频的水印信息进行解码,并根据水印中的用户信息对音频进行分类展示。2.根据权利要求1所述的一种融合CNNs与相位算法的音频分类检索方法,其特征在于,所述相位算法执行的步骤为:步骤1:将音频信号S[i],(0≤i≤I-1),分割成N等长大小的音频片段Sn[i](0≤n≤N-1);步骤2:将K点的FFT应用于第n段,建立一个相位矩阵φn(ωk)和振幅矩阵An(ωk),(0...

【专利技术属性】
技术研发人员:曲海成孟仁杰刘万军赵宇猛
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1