当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于频谱SIFT特征描述子的音频片段认证方法技术

技术编号:9936000 阅读:191 留言:0更新日期:2014-04-18 14:56
一种基于频谱SIFT特征描述子的音频片段认证方法,其特征在于,其包括:基于语谱图SIFT局部描述子的片段对齐步骤(1~4)、鲁棒哈希值计算步骤(5~6)和认证判决步骤(7):步骤1,使用短时傅里叶变换(STFT)将一维音频信号转换成相应的二维时频表示,取100~3000Hz的中低频段;步骤2,计算特征描述子分别计算可疑音频信号和参考音频信号的128维SIFT特征描述子,通过比较两组描述子得到关键匹配点,设匹配对数为N,记为匹配对中可疑音频最左端、最右端匹配点和参考音频最左端、最右端匹配点分别表示为,T0D=min{P1D.x,,...,PND.x},]]>T1D=max{P1D.x,,...,PND.x},]]>T0R=min{P1R.x,,...,PNR.x},]]>T1R=max{P1R.x,,...,PNR.x};]]>步骤3,设可疑音频片段的长度为LD,参考音频的长度为LR,则音频片段左边界与最左侧SIFT特征点的距离为右边界与最右侧SIFT特征点的距离为对应的参考音频中的映射距离和通过公式(1)得到,Δ0R=(T0D)ΔR‾ΔD‾Δ1R=(LD-T1D)ΔR‾ΔD‾---(1)]]>其中ΔD‾=1N-1Σi=1i=N-1(Pi+1D.x-PiD.x),]]>ΔR‾=1N-1Σi=1i=N-1(Pi+1R.x-PiR.x);]]>步骤4,将SIFT关键点按时间顺序升序排列,可疑音频片段在参考音频中的位置通过公式(2)定位,TstartR=(T0R-Δ0R)×(PR×SRR)LRTendR=(T1R+Δ1R)×(PR×SRR)LR---(2)]]>其中LR,SRR,PR分别是参考音频的帧编号、采样率和时间长度(秒);步骤5,针对音频攻击行为的预处理:时域分块处理:分别将可疑音频和参考音频分成多个小块,使块内时域缩放因子近似相等,从而便于发现恶意剪切或插入的片段以及方便之后的鲁棒Hash计算;频率对齐:通过SIFT关键点匹配对计算变调因子,从而计算得到可疑音频频谱和参考音频频谱之间频率的对应关系;步骤6,鲁棒Hash计算采用Philips方法进行Hash码计算;对每一组相应的分块对其片段长度和频率范围先用公式(3)做调整,WiR=WiDRi‾,i=1,2,...,MFstartR=FstartDR^,FendR=FendDR^---(3)]]>其中,和分别表示对应分块的平均时间缩放因子和平均变调因子;令E{D,R},(k,n)表示频谱中位于第k组频段,第n个时间框的能量;将频带分成33个不重叠的子频带,每个区域的32比特Hash码采用公式(4)计算,H{D,0}(k,n)=1,ifE{D,R}(k,n)>E{D,R}(k+1,n)0,ifE{D,R}(k,n)≤E{D,R}(k+1,n)---(4)]]>其中k=1,2,...,32,n=1,2,...,Nf,n的边界由得到;步骤7,修改类型检测恶意剪切/插入片段:通过检测时间缩放因子曲线是否有凹点或凸点,判断音频文件是否遭到恶意剪切或插入的修改;恶意频率修改:根据SIFT关键点分别构造可疑信号和参考信号的柱状图,从柱状图比较判断可疑文件是否遭到恶意频率修改;内容修改:利用比特错误率判断文件是否遭到恶意的内容修改,公式(5)中定义了阈值T和判定规则,BER=1NfΣn=1NfHD(n)⊕HR(n)---(5)]]>若BER≤T,则认证通过,表示受检测音频未遭到恶意篡改,文件的内容完整性良好;若BER>T,则认证失败,表示音频已被恶意篡改。

【技术实现步骤摘要】
【专利摘要】本专利技术属信息安全和保护
,涉及一种基于频谱SIFT特征描述子的音频片段认证方法,具体涉及一种基于计算机视觉技术的、能够以音频片段为检测对象的内容认证方法。本专利技术利用SIFT特征匹配提取特征描述子,并实现受检测的可疑音频片段在参考音频文件中的对齐;再利用从SIFT关键点提取的时间伸缩因子,将可疑音频片段分成多个分块,时域分块可直接用于识别恶意剪切和插入等行为;以及对于变调因子的估计,用于描述相应的时频单元,从而便于鲁棒Hash计算;本专利技术通过匹配和Hash检测,不但可以准确鉴定可疑音频片断的完整性和真实性,而且可以对恶意篡改操作的位置精确锁定并按类型分类。【专利说明】一种基于频谱SIFT特征描述子的音频片段认证方法
本专利技术属于音频认证方面的信息安全和保护
,涉及一种基于频谱SIFT特征描述子的音频片段认证方法,具体涉及一种基于计算机视觉技术的、能够以音频片段为检测对象的内容认证方法。
技术介绍
音频内容认证技术是一个实现对于音乐和语音等音频数据的完整性与真实性进行检测和保护的有效技术,其目的主要是保证音频传输的接受方得到的数据在传送过程中没有遭到第三方的恶意编辑和篡改,即从人类感知系统的角度上与原始音频是完全相同的。与传统签名认证不同的是,音频等多媒体认证所确保的是文件内容的认证而非简单地保护比特流。音频认证目前在国家安全、商业机密、新闻录音、音乐录制发行和版权保护、军事通信等许多领域都有重要应用。迄今为止,音频认证的研究只有少量方法发表,简述如下。文献提出了一种用于检验内容完整性的半脆弱语音水印技术,即指数级奇偶调制技术。该方法在DFT域嵌入水印,不需要额外数据辅助其完整性校验,并能区分恶意篡改和保持内容操作,但是该方法只对重采样、白噪声污染和语音编码等少数容许操作进行了测试。文献根据以下原理提出一种基于特征的认证方法,即两个听觉质量相似的音频其掩蔽曲线也是高度相似的。首先通过计算音频掩蔽曲线的Hash函数值,然后采用已知的数据隐藏方法将之作为水印嵌入到音频信号中。在检测时,将水印提取后与之前计算得到的Hash值比较,计算其相关系数。由于该系数随着音频听觉质量的下降也会有适度下降,因而可根据能接受的听觉质量标准适当设置判断门限。此方法能够区分MP3等音频信号处理和恶意篡改操作。文献介绍了两种用于音频内容认证的方法。第一种讨论了可能的音频特征,以允许几种后续信号处理;第二种为得到最高安全性,对每个比特的改变进行检测,并通过引入可逆水印的概念来重构原始音频;该方法进而又结合数字签名与数字水印,并使用密钥产生一个可以公开验证并能重建原始音频的方法。文献提出的方法基于音频指纹,采用鲁棒哈希函数与鲁棒水印结合的方法来验证音频文件的完整性。实验主要对于MP3压缩失真进行了测试,在较高的采样比特率如128kbps以上时可以达到7%以下的平均错误率,但是在较低采样率如32kbps时平均错误率约在40%左右。文献和文献中提到了分布式信源压缩对于保持音频和视频质量、检测恶意攻击操作的应用。文献中利用参考音频,通过Slepian-Wolf编码和解码过程来进行具有鲁棒性的音频认证,然而事先假设了待验证音频和原始参考音频是对齐的。文献中使用了紧致的哈希签名,把参考数据库的存储空间减少20%-70%不等。以上的音频认证方法都是在待认证音频与参考音频长度相同的基础上进行的,但是在实际应用中待认证音频经常只是一个片段,因此本专利技术拟提供一种首次被研究的全新技术:音频片段内容认证。音频片段认证在传统音频认证的基础之上,能够以一小段音频与原长度的参考音频相比较并匹配定位后,采用哈希或水印算法得到认证结果。与本专利技术相关的参考资料有:【权利要求】1.一种基于频谱SIFT特征描述子的音频片段认证方法,其特征在于,其包括:基于语谱图SIFT局部描述子的片段对齐步骤0-4)、鲁棒哈希值计算步骤(5飞)和认证判决步骤(7): 步骤1,使用短时傅里叶变换(STFT)将一维音频信号转换成相应的二维时频表示,取100-3000Ηζ的中低频段; 步骤2,计算特征描述子 分别计算可疑音频信号和参考音频信号的128维SIFT特征描述子,通过比较两组描述子得到关键匹配点,设匹配对数为N,记为 2.按权利要求1所述的方法,其特征在于,所述步骤5的攻击行为:时间缩放、变调、时域剪切或插入。【文档编号】G10L19/00GK103730128SQ201210389030【公开日】2014年4月16日 申请日期:2012年10月13日 优先权日:2012年10月13日 【专利技术者】李伟, 殷玥, 董旭炯 申请人:复旦大学本文档来自技高网...

【技术保护点】
一种基于频谱SIFT特征描述子的音频片段认证方法,其特征在于,其包括:基于语谱图SIFT局部描述子的片段对齐步骤(1~4)、鲁棒哈希值计算步骤(5~6)和认证判决步骤(7):步骤1,使用短时傅里叶变换(STFT)将一维音频信号转换成相应的二维时频表示,取100~3000Hz的中低频段;步骤2,计算特征描述子分别计算可疑音频信号和参考音频信号的128维SIFT特征描述子,通过比较两组描述子得到关键匹配点,设匹配对数为N,记为匹配对中可疑音频最左端、最右端匹配点和参考音频最左端、最右端匹配点分别表示为,T0D=min{P1D.x,,...,PND.x},]]>T1D=max{P1D.x,,...,PND.x},]]>T0R=min{P1R.x,,...,PNR.x},]]>T1R=max{P1R.x,,...,PNR.x};]]>步骤3,设可疑音频片段的长度为LD,参考音频的长度为LR,则音频片段左边界与最左侧SIFT特征点的距离为右边界与最右侧SIFT特征点的距离为对应的参考音频中的映射距离和通过公式(1)得到,Δ0R=(T0D)ΔR‾ΔD‾Δ1R=(LD-T1D)ΔR‾ΔD‾---(1)]]>其中ΔD‾=1N-1Σi=1i=N-1(Pi+1D.x-PiD.x),]]>ΔR‾=1N-1Σi=1i=N-1(Pi+1R.x-PiR.x);]]>步骤4,将SIFT关键点按时间顺序升序排列,可疑音频片段在参考音频中的位置通过公式(2)定位,TstartR=(T0R-Δ0R)×(PR×SRR)LRTendR=(T1R+Δ1R)×(PR×SRR)LR---(2)]]>其中LR,SRR,PR分别是参考音频的帧编号、采样率和时间长度(秒);步骤5,针对音频攻击行为的预处理:时域分块处理:分别将可疑音频和参考音频分成多个小块,使块内时域缩放因子近似相等,从而便于发现恶意剪切或插入的片段以及方便之后的鲁棒Hash计算;频率对齐:通过SIFT关键点匹配对计算变调因子,从而计算得到可疑音频频谱和参考音频频谱之间频率的对应关系;步骤6,鲁棒Hash计算采用Philips方法进行Hash码计算;对每一组相应的分块对其片段长度和频率范围先用公式(3)做调整,WiR=WiDRi‾,i=1,2,...,MFstartR=FstartDR^,FendR=FendDR^---(3)]]>其中,和分别表示对应分块的平均时间缩放因子和平均变调因子;令E{D,R},(k,n)表示频谱中位于第k组频段,第n个时间框的能量;将频带分成33个不重叠的子频带,每个区域的32比特Hash码采用公式(4)计算,H{D,0}(k,n)=1,ifE{D,R}(k,n)>E{D,R}(k+1,n)0,ifE{D,R}(k,n)≤E{D,R}(k+1,n)---(4)]]>其中k=1,2,...,32,n=1,2,...,Nf,n的边界由得到;步骤7,修改类型检测恶意剪切/插入片段:通过检测时间缩放因子曲线是否有凹点或凸点,判断音频文件是否遭到恶意剪切或插入的修改;恶意频率修改:根据SIFT关键点分别构造可疑信号和参考信号的柱状图,从柱状图比较判断可疑文件是否遭到恶意频率修改;内容修改:利用比特错误率判断文件是否遭到恶意的内容修改,公式(5)中定义了阈值T和判定规则,BER=1NfΣn=1NfHD(n)⊕HR(n)---(5)]]>若BER≤T,则认证通过,表示受检测音频未遭到恶意篡改,文件的内容完整性良好;若BER>T,则认证失败,表示音频已被恶意篡改。...

【技术特征摘要】

【专利技术属性】
技术研发人员:李伟殷玥董旭炯
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1