本发明专利技术涉及一种基于深度学习的身份认证音频水印算法,其特征在于:所述方法的步骤为:1)对数据集进行人脸分割、静音去除和频谱转化预处理;2)训练设计的身份水印生成模型从音频中提取说话人的身份特征;3)训练设计的水印嵌入‑提取组合模型自适应完成水印的嵌入和提取;4)通过实验选取合适权重比参数,并添加噪声增强算法的鲁棒性;5)可视化完成说话人的身份认证。本发明专利技术基于生成对抗模型从说话人音频中生成动态的身份认证水印信息,并基于自编码器完成身份水印的嵌入和提取,最终以可视化的动态效果自适应嵌入提取的方式区别于传统静态信息和手工设计方案进行身份认证,保证音频信息的安全性。
An authentication audio watermarking algorithm based on deep learning
【技术实现步骤摘要】
一种基于深度学习的身份认证音频水印算法
本专利技术属于本专利技术属于信息安全、音频数字水印及深度学习领域,涉及水印信息生成、水印嵌入和提取、水印性能评估的整个音频水印流程,尤其涉及一种基于深度学习的身份认证音频水印算法。
技术介绍
数字媒体技术作为互联网发展下的一种高效传播方式,得到了快速发展并被普遍应用,这使得数据的存储、传播和复制变得无比便捷。信息的高度数字化给人们带来极大便利的同时,由于保护措施的未及时跟进,信息安全存在极大隐患,数据泄露、网络盗版等各类信息安全问题近来频频发生。信息隐藏作为应对信息安全问题挑战的有效手段,以及信息安全本身的重要性,该领域吸引了越来越多研究者及研究机构的注意,并在过去的二十几年间得到迅速发展。音频作为一种重要的信息载体,日常使用中越来越频繁,经常被用来传递或存储一些重要的信息,如军事通讯、商业谈判、法庭证词等音频数据,这些音频信息往往携带重要的隐私或机密信息,不能被随意泄露或者更改。但是,随着各种音频编辑软件的盛行,人们可以轻易对音频数据进行修改,这种行为带来的潜在危害可能是巨大的。因此,认证音频数字水印技术的研究显得越来越重要。通用的水印算法基础框架主要包含水印生成、水印嵌入、水印提取及性能评估四个部分。水印生成部分,水印信息作为水印算法中重要的一部分,从目前已有研究来看,水印算法研究中专门进行水印信息的研究较少。由于音频水印算法研究的实际应用领域主要集中在认证方面,少部分根据实际需求会增强水印某方面的能力,比如攻击、定位和修复等。通常为使得水印算法具备认证功能,比如数字内容的版权保护,可以将商标或者任何能够标识所有权的认证信息作为水印信息,在数字媒体传播期间对版权进行标识,避免盗版问题。对于音频身份的认证水印也类似,一般可以将诸如说话人姓名、图片等一些身份标识信息作为水印用来认证,但这些信息偏表面化、直观化,在水印算法被泄露的情况下,容易遭到篡改伪造,安全性存疑。此外,这些信息是静态的,不能根据说话人自身状态的改变进行调整。水印嵌入和提取部分,水印的嵌入和提取通常是一对互逆操作。目前,大多数音频水印算法仍然是人工在音频的时域和变换域上操作,传统方式也主要是分为时域和变换域算法。时域水印算法直接在音频本身执行嵌入操作,这种方式简单有效,但缺点也很明显,容易受到常规信号处理和恶意攻击的影响,鲁棒性不足。最为经典的便是LSB算法,该算法将水印信息嵌入到语音信号二进制位数的最低有效位上,由于最低有效位为比特中最后一位,使得水印信息对音频信号的影响可以达到最低,理论影响值为1/128,其LSB算法可分为两个过程:水印嵌入和提取。在时域LSB水印嵌入过程中,首先将原始语音信号和水印信息表示为二进制位形式,其次将水印信息以比特为单位逐个替换到对应的语音信号二进制位中的最低有效比特位,最后便可得到含水印语音。而时域LSB算法提取过程首先逐字节逐位的检查水印语音二进制数据,并从最低有效位中提取出水印比特位,其次拼接合并提取出的水印比特信息,最后还原得到水印信息,并和初始状态下未添加水印的语音进行比较。变换域水印算法则将嵌入操作限定在音频的各种变换域中,鲁棒性可以得到一定的保证,但嵌入容量上通常会有一定的限制。变换域水印算法则是在尚未嵌入水印位时,便通过数学变换将原始音频从时域转变为其他域,此时再将水印信息嵌入到频域系数之内。常用的数学变换方式有DCT、DWT、DFT和SVD等。基于变换域的水印算法,其不可感知性和鲁棒性通常要优于基于时域的水印算法。此外,部分研究专注于多种变换域混合处理,即使用两种或两种以上的变换,通过结合不同变换域的优点,通常能达到比单变换域更好的效果。其中DCT变换域水印算法是将水印信息映射到音频的DCT变换域中,并通过逆DCT得到带有水印的音频。根据人类听觉系统HAS,人耳在不同的频率下具有不同的敏感度,在1-4kHz的范围内最为敏感。此外,压缩等常规信号处理操作会给高频区域带来影响。故综合不可感知性和鲁棒性两种因素,DCT的频率嵌入位置一般选择在信号的中频或低频段。DCT水印算法的具体嵌入和提取的步骤为:DCT变换域水印嵌入首先将原始音频分成长度为d的帧,而后利用如DCT公式计算每帧的DCT系数,其中x(n)为帧信号,其次选择嵌入水印位的频带,然后根据水印比特数在选定的频带内重构DCT系数,最后利用逆DCT得到带水印的音频。对应的DCT变换域水印提取过程则首先将含水印音频信号同样分帧成相同大小d的帧,而后计算每个帧中带水印音频的DCT系数,其次选择嵌入部分的频带并从中找出重构的DCT系数,然后从重构的DCT系数中提取出水印比特,组合获取水印信息,最后便可利用逆DCT还原音频信号。在变换域音频水印算法中,对音频的处理策略也有不同方案。音频处理的最简方案是直接对整个音频信号进行处理,但这种方法由于直接处理长音频信号,故具有较大的计算成本,实际中使用的可能性很小。大多数变换域水印算法都是处理由音频信号分割而来的单独帧。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于深度学习的身份认证音频水印算法,该方法基于生成对抗模型从说话人音频中生成动态的身份认证水印信息,并基于自编码器完成身份水印的嵌入和提取,最终以可视化的动态效果自适应嵌入提取的方式区别于传统静态信息和手工设计方案进行身份认证,保证音频信息的安全性。本专利技术解决其技术问题是通过以下技术方案实现的:一种基于深度学习的身份认证音频水印算法,其特征在于:所述方法的步骤为:S1、对数据集进行人脸分割、静音去除和频谱转化预处理S101、数据预处理:对图像进行人脸分割,使用Python中的OpenCV、Imutils及Dlib库进行人脸检测及对齐,并统一进行规范化处理;S102、通过WebRTC项目VAD提供的Python接口webrtcvad将音频中静音片段去除;S103、通过短时傅里叶变换STFT进行频谱转化,并通过加窗分帧提取音频特征作为网络的输入;S2、训练设计的身份水印生成模型并从音频中提取说话人的身份特征S201、设计身份水印生成模型:该身份水印生成模型主要包含编码器、生成器、判别器和分类器四个网络模块,编码器用于从说话人音频中提取与说话人身份相关的特征信息;生成器充当解码器和编码器组合成一个自编码结构并执行解码功能,生成器则用来从编码的音频特征中还原出人物特征,同时生成器生成对抗网络中的一部分,将解码输出的人物特征通过生成人脸图像的方式直观体现人物的刻画效果;判别器主要用来评估生成的人物画像是否真实;分类器则是用来对生成器生成的人脸图像进行身份认证分类,判断其对应的身份标签是否和说话者的实际身份标签相匹配;S202、训练身份水印生成模型;S3、训练设计的水印嵌入-提取组合模型自适应完成水印的嵌入和提取S301、设计水印嵌入-提取组合模型:水印嵌入-提取组合模型的主要结构是一个输入输出经过特殊处理的自编码器,借助自编码器强大的编码和解码处理能力,通过无监督的训练学习方式自适应高容量进本文档来自技高网...
【技术保护点】
1.一种基于深度学习的身份认证音频水印算法,其特征在于:所述方法的步骤为:/nS1、对数据集进行人脸分割、静音去除和频谱转化预处理/nS101、数据预处理:对图像进行人脸分割,使用Python中的OpenCV、Imutils及Dlib库进行人脸检测及对齐,并统一进行规范化处理;/nS102、通过WebRTC项目VAD提供的Python接口webrtcvad将音频中静音片段去除;/nS103、通过短时傅里叶变换STFT进行频谱转化,并通过加窗分帧提取音频特征作为网络的输入;/nS2、训练设计的身份水印生成模型并从音频中提取说话人的身份特征/nS201、设计身份水印生成模型:该身份水印生成模型主要包含编码器、生成器、判别器和分类器四个网络模块,/n编码器用于从说话人音频中提取与说话人身份相关的特征信息;/n生成器充当解码器和编码器组合成一个自编码结构并执行解码功能,生成器则用来从编码的音频特征中还原出人物特征,同时生成器生成对抗网络中的一部分,将解码输出的人物特征通过生成人脸图像的方式直观体现人物的刻画效果;/n判别器主要用来评估生成的人物画像是否真实;/n分类器则是用来对生成器生成的人脸图像进行身份认证分类,判断其对应的身份标签是否和说话者的实际身份标签相匹配;/nS202、训练身份水印生成模型;/nS3、训练设计的水印嵌入-提取组合模型自适应完成水印的嵌入和提取/nS301、设计水印嵌入-提取组合模型:水印嵌入-提取组合模型的主要结构是一个输入输出经过特殊处理的自编码器,借助自编码器强大的编码和解码处理能力,通过无监督的训练学习方式自适应高容量进行水印的嵌入和提取;该水印算法模型主要包含三个网络模块,分别是预处理模块、嵌入模块和提取模块;/n水印预处理模块的设计目的主要是处理水印信息和音频数据大小不一致的情况,通过该网络对水印信息进行稀疏或者压缩预处理成与音频数据相同的格式进行同等匹配,使得水印信息能够被有效嵌入在音频的各个部分,而不是某些固定的区域内;/n嵌入模块为自编码器的编码器,用来将水印信息自适应嵌入到音频信号中,输入包含预处理的水印编码和原始音频信息的频域信号两部分,输出的是嵌入水印的音频频谱图;/n提取模块为自编码器的解码器,从含水印的音频信息中恢复水印信息;/nS302、训练水印嵌入-提取组合模型;/nS4、通过实验选取合适权重比参数,并添加噪声增强算法的鲁棒性步骤/nS401、试验不同权重比参数并进行最优选择:水印嵌入-提取模型训练完成后,对水印算法的性能进行评估,整体训练效果受音频间损失和水印间损失的权重影响,两者权重比值的大小代表设计的水印算法对水印提取和嵌入两部分的倾向性,通过实验调整两者权重比值大小选取实际场景下的最后权重参数;/nS402、添加噪声增强模型鲁棒性:在提出的水印嵌入-提取组合中添加噪声增强鲁棒性,在嵌入网络的输出频谱图中添加噪声并进行训练,保持音频间权重损失与水印间权重取值固定;/nS5、可视化动态身份水印进行身份认证:对水印进行可视化验证,利用训练好的编码器从音频数据中提取各说话人的身份水印,并通过生成器生成说话人的人脸图像,通过对生成的人脸图像进行分析,验证身份的有效性。/n...
【技术特征摘要】
1.一种基于深度学习的身份认证音频水印算法,其特征在于:所述方法的步骤为:
S1、对数据集进行人脸分割、静音去除和频谱转化预处理
S101、数据预处理:对图像进行人脸分割,使用Python中的OpenCV、Imutils及Dlib库进行人脸检测及对齐,并统一进行规范化处理;
S102、通过WebRTC项目VAD提供的Python接口webrtcvad将音频中静音片段去除;
S103、通过短时傅里叶变换STFT进行频谱转化,并通过加窗分帧提取音频特征作为网络的输入;
S2、训练设计的身份水印生成模型并从音频中提取说话人的身份特征
S201、设计身份水印生成模型:该身份水印生成模型主要包含编码器、生成器、判别器和分类器四个网络模块,
编码器用于从说话人音频中提取与说话人身份相关的特征信息;
生成器充当解码器和编码器组合成一个自编码结构并执行解码功能,生成器则用来从编码的音频特征中还原出人物特征,同时生成器生成对抗网络中的一部分,将解码输出的人物特征通过生成人脸图像的方式直观体现人物的刻画效果;
判别器主要用来评估生成的人物画像是否真实;
分类器则是用来对生成器生成的人脸图像进行身份认证分类,判断其对应的身份标签是否和说话者的实际身份标签相匹配;
S202、训练身份水印生成模型;
S3、训练设计的水印嵌入-提取组合模型自适应完成水印的嵌入和提取
S301、设计水印嵌入-提取组合模型:水印嵌入-提取组合模型的主要结构是一个输入输出经过特殊处理的自编码器,借助自编码器强大的编码和解码...
【专利技术属性】
技术研发人员:李雪威,江波,赵满坤,徐天一,于健,王建荣,喻梅,于瑞国,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。