可实现篡改定位的语音感知哈希内容认证方法技术

技术编号:8301246 阅读:275 留言:0更新日期:2013-02-07 05:24
可实现篡改定位的语音感知哈希内容认证方法,首先对语音信号进行预处理,并对每帧语音信号分别进行10阶的线性预测分析,通过离散傅里叶变换法求得线谱对LSP系数作为感知特征;然后将语音数据顺序分组,并将各组语音的LSP系数加权的期望顺序组合作为最终的认证数据,经哈希构造来压缩认证数据量;最后通过哈希匹配实现了对语音内容的快速认证。该方法对改变音量、回声、重采样等内容保持操作具有鲁棒性,对替换、删除等恶意操作敏感,可实现精确的篡改区域定位,且具有认证数据量小、运行效率高的特性,适用于资源受限的语音通信终端。

【技术实现步骤摘要】

本专利技术属于多媒体信息安全领域,基于语音感知哈希技术,提出了一种高效的可实现篡改区域精确定位的语音内容认证方法,可用于语音通信中的内容认证并可实现精确的篡改区域定位。
技术介绍
随着数字信号处理技术、移动通信技术和互联网等技术的快速发展,对音频数据的伪造趋于隐蔽化,并且可以以极低的成本进行,因此对音频数据的内容完整性认证需求日益增加。语音作为音频的重要组成部分,其完整性在新闻报道、电话通信、金融交易、电子政务等应用中非常重要。语音的语义通过简单的重排或去除几个单词就会改变,因此,语音的完整性与真实性只靠人类听觉来判断是远远不够的。 对人类听觉系统来讲,语音内容认证技术需要保护的是语音内容而不是比特流本身的完整性,因此它应该能够容忍一些保持语音听觉质量或者语义的正常信号处理操作而不触发检测器。有效的内容完整性保护方法,不仅要满足感知内容认证所必需的鲁棒性、区分性,还需要满足语音通信中的实时性,才能真正在语音认证系统中实用。语音内容认证技术可以实现对语音数据完整性、真实性进行保护,它保证接收到的语音数据在传送过程中没有经过第三方的恶意编辑和篡改,即在人类听觉感知系统的意义上与原始语音是完全相同的。可实现语音感知内容认证的技术主要有数字签名,数字水印和感知哈希等。与数字水印技术相比,感知哈希技术不会对语音数据造成任何改变,其鲁棒性也更好。当前针对语音的感知哈希的研究很少,尤其是用于语音内容认证,语音感知内容认证就是实现对通信终端的语音信号进行篡改检测与定位。焦玉华等人(见文献JIAOYu-hua, LI Qiong, NIU Xia-mu. Compressed domain perceptual hashing for MELPcoded speech. IEEE Computer Society, 2008: 410-413.)提出了结合 MELP 的语音感知哈希算法;陈宁等人(见文献CHEN Ning, WAN ffang-gen. Robust speech hashfunction , ETRI Journal, 2010, 32(2) : 345-347.)提出了基于线性预测系数(LPC)的非负矩阵分解(NMF)的鲁棒语音哈希函数;陈宁等人(见文献CHEN Ning, WAN ffang-gen.Speech hashing algorithm based on short-time stability// ICANN 2009, PartII,LNCS 5769,2009:426-434.)还提出了基于短时稳定性的语音哈希算法。这些算法都能够有效检测恶意篡改,然而效率却不是很高,也不能实现篡改定位。线性预测分析是目前分析语音信号最有效的方法之一。线性预测可用很少的参数有效而又正确地表现语音波形及其频谱的性质,而且计算效率高,在应用上灵活方便。从LPC系数到LSP系数的转化可采用多种方法求解,如代数方程式求解法,离散傅里叶变换法(DFT),切比雪夫多项式求解法等。LSP参数是LPC在频域的一种等价表示,比LPC参数有更好的鲁棒性,可用来估计基本的语音特性,与语音谱包络的关系较时域的LPC更为紧密,并且具有更好的量化特性与插值特性,被广泛的应用于各种语音编码标准中,并且在语音识别等方面也得到了较好的应用。一种认证算法的效率主要与提取的特征尺度、算法计算量和特征提取的复杂度三个因素有关。提取何种特征直接影响算法性能,为了达到较小的认证计算量与数据量,应该提取与语义相关的特征,而非信号特征。
技术实现思路
本专利技术的目的是提供一种。本专利技术是,其步骤为 (1)对语音信号A进行分帧,分为20ms的等长帧,使用汉明窗进行加窗,帧移为15ms; (2)对每一帧语音信号进行LPC分析,求得其10阶LPC系数; (3)将每一帧LPC系数转化为LSP系数,每一帧语音信号的LSP系数为一行组合为矩阵A; (4)将LSP系数顺序分组,并将各组加权分解矩阵A得新矩阵Aj; (5)生成哈希向量权利要求1.,其步骤为 (1)对语音信号A进行分帧,分为20ms的等长帧,使用汉明窗进行加窗,帧移为15ms; (2)对每一帧语音信号进行LPC分析,求得其10阶LPC系数; (3)将每一帧LPC系数转化为LSP系数,每一帧语音信号的LSP系数为一行组合为矩阵A; (4)将LSP系数顺序分组,并将各组加权分解矩阵A得新矩阵Aj; (5)生成哈希向量2.根据权利要求I所述的,其特征在于转换LPC系数为LSP系数的方法为DFT法。3.根据权利要求I所述的,其特征在于分解矩阵A的步骤为 (1)确定语音信号总帧数为M,则分解后的矩阵&的行数为M/20;(2)矩阵4.根据权利要求I所述的,其特征在于哈希匹配方法的步骤为 (1)计算不同内容语音的哈希序列的BER,记做BERl; (2)计算原始语音和对其进行篡改操作后的语音的哈希序列的BER,记做BER2; (3)计算原始语音和对其进行内容保持操作后的语音的哈希值的BER,记做BER3。5.根据权利要求I所述的,其特征在于篡改区域定位方法的步骤为 (1)设识别阈值和认证阈值分别为r:和τ2 (.T^t2)- (2)先用识别阈值判别相同语音和不同语音,再对BER分布在T1和r2区间内的语音通过篡改定位进行二次认证,相同语音依然可以通过认证; 其中,篡改定位是基于哈希构造方法的,当某行哈希值的BER大于30%时,认为改行哈希值所对应的300ms,即15msX20的语音遭到篡改,而哈希值的行数决定了篡改语音在原始语音中的位置,能够完成篡改区域的毫秒级定位。全文摘要,首先对语音信号进行预处理,并对每帧语音信号分别进行10阶的线性预测分析,通过离散傅里叶变换法求得线谱对LSP系数作为感知特征;然后将语音数据顺序分组,并将各组语音的LSP系数加权的期望顺序组合作为最终的认证数据,经哈希构造来压缩认证数据量;最后通过哈希匹配实现了对语音内容的快速认证。该方法对改变音量、回声、重采样等内容保持操作具有鲁棒性,对替换、删除等恶意操作敏感,可实现精确的篡改区域定位,且具有认证数据量小、运行效率高的特性,适用于资源受限的语音通信终端。文档编号G10L25/45GK102915740SQ20121040940公开日2013年2月6日 申请日期2012年10月24日 优先权日2012年10月24日专利技术者张秋余, 邸燕君, 黄羿博, 陈海燕, 刘扬威, 省鹏飞, 杨仲平 申请人:兰州理工大学本文档来自技高网
...

【技术保护点】
可实现篡改定位的语音感知哈希内容认证方法,其步骤为:(1)?对语音信号A进行分帧,分为20ms的等长帧,使用汉明窗进行加窗,帧移为15ms;(2)?对每一帧语音信号进行LPC分析,求得其10阶LPC系数;(3)?将每一帧LPC系数转化为LSP系数,每一帧语音信号的LSP系数为一行组合为矩阵A;(4)?将LSP系数顺序分组,并将各组加权分解矩阵A得新矩阵AJ;(5)?生成哈希向量h,????????????????????????????????????????????????;(6)?哈希匹配:按上述步骤先从发送端提取出感知特征,进行计算将其转换为认证数据h1,然后与原始语音一起送入传输信道,当接收端收到数据时一边提取出认证数据h1,一边用同样的方法计算认证数据h2,再将两端的认证数据进行匹配,将匹配结果与阈值相比较;两段感知内容相同语音的哈希的BER值小于匹配阈值,系统不报警;相反,感知不同语音的BER应大于阈值系统报警。159558dest_path_image001.jpg

【技术特征摘要】

【专利技术属性】
技术研发人员:张秋余邸燕君黄羿博陈海燕刘扬威省鹏飞杨仲平
申请(专利权)人:兰州理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1