一种利用字节帧间幅度谱相关性的音频同源篡改检测方法技术

技术编号:18897339 阅读:125 留言:0更新日期:2018-09-08 12:21
本发明专利技术公开了一种利用字节帧间幅度谱相关性的音频同源篡改检测方法,包括音频预加重、分帧加窗、计算各帧过零率,分离字节,剔除短字节,计算两字节间各帧的幅度谱相似度,判断字节复制粘贴关系及篡改定位。发明专利技术方法检测准确率高、定位精度较高且计算复杂度小。

An audio homology tampering detection method based on correlation between byte frames and amplitude spectrum

The invention discloses an audio homology tampering detection method utilizing the correlation of amplitude spectrum between bytes, which includes audio pre-emphasis, sub-frame windowing, calculating the zero-crossing rate of each frame, separating bytes, eliminating short bytes, calculating the amplitude spectrum similarity of each frame between two bytes, judging the byte copy-paste relationship and tamper location. The inventive method has high detection accuracy, high positioning accuracy and small computational complexity.

【技术实现步骤摘要】
一种利用字节帧间幅度谱相关性的音频同源篡改检测方法
本专利技术涉及音频取证
,具体涉及一种利用字节帧间幅度谱相关性的音频同源篡改检测方法。
技术介绍
随着多媒体技术的普遍使用和日趋成熟,人们更容易获取信息,随之产生了如何检验多媒体信息是否完整、可靠的问题。如何对多媒体数据进行有效的篡改检测已成为信息安全领域的一个重要研究课题。相较于图像和视频,针对数字音频的篡改检测研究较少。对于音频篡改,同源复制粘贴篡改是最容易实现的也是最常见的。篡改者将音频中的某个片段进行复制并粘贴到该音频的其他位置,从而改变音频的真实语义。如果不法分子将扭曲的篡改音频用于法庭证据、部门机密信息等方面,则会造成严重的后果。因为同源复制粘贴篡改只在同段音频中操作,使得这类篡改具有隐蔽性高且容易实现的特点。因此,研究音频同源复制粘贴篡改的检测方法对于保证数字多媒体信息的原始性、真实性和完整性具有非常重要的意义。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供一种利用字节帧间幅度谱相关性的音频同源篡改检测方法。本专利技术采用如下技术方案;一种利用字节帧间幅度谱相关性的音频同源篡改检测方法,包括如下步骤:S1将待测音频信号预加重;S2对预加重后的音频进行加窗分帧处理,其中帧时长为m,帧移为n,分帧加窗后的时域音频信号表示为yl,其中帧序号l=1,2,…,Nframe,Nframe为音频帧数量;S3对加窗分帧后的各帧音频信号计算过零率zcr(l);S4根据低频频谱能量分离待测音频中的各个字节;S5剔除无效字节,具体为:设定最短字节时长阈值tm,将时长小于tm的字节剔除,得到有效字节集合X={x1,x2,x3,…,xM},其中xi为第i个字节,M为有效字节的个数;S6计算剔除无效字节后的待测音频信号中的两字节间各帧的幅度谱相似度;S7设定相似度阈值Th,若两个字节中存在两对或两对以上的帧幅度谱相似度大于给定阈值,则判断字节xi和xj存在复制粘贴关系;S8对所有的字节i≠j∈{1,2,...,M},重复步骤6和7,得到所有存在复制粘贴关系的字节对,由此可定位出待测音频中的复制粘贴区域。所述过零率的计算公式为:其中,yl(k)表示第l帧的第k个数据点,K为各帧的数据点数,sgn[]是符号函数,如下式:所述S4中根据低频频谱能量分离待测音频中的各个字节,具体为:对待测音频信号的各帧yl进行长度为Nfft点的傅里叶变换,得到对应的幅度谱S(l,f),其中f表示频率点序号,然后计算待测音频信号中所有帧的低频能量平均值,计算各帧yl的低频能量与低频能量平均值的比值NLFER。所述NLFER其中,若低频部分频率下限为f0_minHz,频率上限为f0_maxHz,设抽样频率为fs,则对应FFT变换频率的上下限分别为:F0_min=(f0_min×2/fs)×Nfft,F0_max=(f0_max/fs)×Nfft;设定能量阈值,将NLFER值大于阈值的帧判定为语音帧,否则判定为噪声帧,连续多个语音帧构成字节,从而分离出待测音频中的各个字节。S2中窗函数选用汉明窗。所述S6中,当两帧的过零率之差的绝对值小于给定阈值Tzcr时才计算其幅度谱相似度。帧时长m在16毫秒到128毫秒之间选取,帧移时长n取音频帧时长1/2~2/3。采用皮尔逊相关系数度量两帧之间的幅度谱相似度。本专利技术的有益效果(1)现有算法在检测复制粘贴区域时并不区分话音片段和噪声片段,考虑到实际应用场合中,通常语音字节才能表达实际的语义信息,因此本专利技术先提取出音频中的有效字节,再针对这些字节进行相似度匹配,一方面可以大大减少运算时间,另一方面也可以提高检测的准确率;(2)因为相关系数的运算量较大,本专利技术在计算两帧之间的幅度谱相关系数时,先用过零率初步判断两帧之间的相似性,当过零率相近时才进一步计算相关系数,可以进一步减少运算时间。附图说明图1是本专利技术的工作流程图;图2是本专利技术实施例中原始音频波形图;图3是本专利技术实施例中幅值粘贴篡改音频波形图;图4是本专利技术实施例中篡改音频每帧的过零率示意图;图5是本专利技术实施例中字节分割效果图;图6是本专利技术实施例中篡改检测结果图。具体实施方式下面结合实施例及附图,对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。实施例如图1所示为本专利技术的流程框图,包括八个步骤,分别为音频预加重,分帧加窗,计算各帧过零率,分离字节,剔除短字节,计算两字节间各帧的幅度谱相似度,判断字节复制粘贴关系及篡改定位。本实施例以一段WAV格式的音频作为分析对象,按照本专利技术进行判断的过程,如图2所示,为原始音频波形图,语音内容为人说话“一二三四、三四”。如图3所示,为篡改音频波形图,语音内容为“一二三四、一二三四”,其中第5和第6个字节是由第1和第2个字节复制粘贴而来,即第1个与第5个字节、第2个与第6个字节分别存在复制关系。两段音频采样率均为8kHz。实施例中将通过本专利技术的方法将篡改音频中的复制粘贴处检测并定位出来。包括如下步骤:S1对待测音频进行预加重,采用一阶高通数字滤波器实现,滤波器响应如下式为:H(Z)=1-uz-1预加重目的在于提升高频部分,便于频谱分析,同时也是为了消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。实施例中预加重系数u取0.97。S2对预加重后的音频进行分帧加窗处理,其中帧时长为m,帧移为n,窗函数可选用汉明窗。分帧加窗后的时域音频信号表示为yl,其中帧序号l=1,2,…,Nframe,Nframe为音频帧数量。预加重后音频的音频帧总数Nframe可由下式进行求取:其中,代表向下取整数运算,ts为待测音频时长,m为音频帧时长,ts>m>0,n为帧移时长,m>n>0。音频帧时长m一般在16毫秒到128毫秒之间选取,音频帧移时长n表示相邻音频帧之间重合的部分大小,一般取音频帧时长的1/2到2/3之间,使帧和帧之间能够平滑过渡。舍弃音频最后不够一帧长度的数据。本实施例中,篡改音频时长为5984毫秒,选取音频帧时长为128毫秒,帧移为帧长的1/2,音频每帧共有128毫秒×8kHz=1024个数据点,根据式(3)计算得到音频共有92帧。音频帧采用汉明窗加窗。S3对分帧加窗后的各帧音频信号计算过零率zcr(l),具体为:其中,yl(k)表示第l帧的第k个数据点,K为各帧的数据点数,sgn[]是符号函数,如式(5):如图4所示,为篡改音频各帧的过零率变化图,可以看到存在复制关系的第1和第5个字节,第2和第6个字节各帧的过零率相近。S4根据低频频谱能量分离待测音频中的各个字节,对待测音频各帧yl进行长度为Nfft点的傅里叶变换,得到对应的幅度谱S(l,f),其中f表示频点序号。计算音频所有帧低频能量平均值,对音频帧yl计算其低频能量与该平均值的比值NLFER(NormalizedLowFrequencyEnergyRatio),如下式:其中,若低频部分频率下限为f0_minHz,频率上限为f0_maxHz,设抽样频率为fs,那么式(1)中对应FFT变换频率的上下限分别为:F0_min=(f0_min×2/fs)×Nfft,F0_max=(f0_max/fs)×本文档来自技高网...

【技术保护点】
1.一种利用字节帧间幅度谱相关性的音频同源篡改检测方法,其特征在于,包括如下步骤:S1将待测音频信号预加重;S2对预加重后的音频进行加窗分帧处理,其中帧时长为m,帧移为n,分帧加窗后的时域音频信号表示为yl,其中帧序号l=1,2,…,Nframe,Nframe为音频帧数量;S3对加窗分帧后的各帧音频信号计算过零率zcr(l);S4根据低频频谱能量分离待测音频中的各个字节;S5剔除无效字节,具体为:设定最短字节时长阈值tm,将时长小于tm的字节剔除,得到有效字节集合X={x1,x2,x3,…,xM},其中xi为第i个字节,M为有效字节的个数;S6计算剔除无效字节后的待测音频信号中的两字节间各帧的幅度谱相似度;S7设定相似度阈值Th,若两个字节中存在两对或两对以上的帧幅度谱相似度大于给定阈值,则判断字节xi和xj存在复制粘贴关系;S8对所有的字节i≠j∈{1,2,...,M},重复S6和S7,得到所有存在复制粘贴关系的字节对,由此可定位出待测音频中的复制粘贴区域。

【技术特征摘要】
1.一种利用字节帧间幅度谱相关性的音频同源篡改检测方法,其特征在于,包括如下步骤:S1将待测音频信号预加重;S2对预加重后的音频进行加窗分帧处理,其中帧时长为m,帧移为n,分帧加窗后的时域音频信号表示为yl,其中帧序号l=1,2,…,Nframe,Nframe为音频帧数量;S3对加窗分帧后的各帧音频信号计算过零率zcr(l);S4根据低频频谱能量分离待测音频中的各个字节;S5剔除无效字节,具体为:设定最短字节时长阈值tm,将时长小于tm的字节剔除,得到有效字节集合X={x1,x2,x3,…,xM},其中xi为第i个字节,M为有效字节的个数;S6计算剔除无效字节后的待测音频信号中的两字节间各帧的幅度谱相似度;S7设定相似度阈值Th,若两个字节中存在两对或两对以上的帧幅度谱相似度大于给定阈值,则判断字节xi和xj存在复制粘贴关系;S8对所有的字节i≠j∈{1,2,...,M},重复S6和S7,得到所有存在复制粘贴关系的字节对,由此可定位出待测音频中的复制粘贴区域。2.根据权利要求1所述的音频同源篡改检测方法,其特征在于,所述过零率的计算公式为:其中,yl(k)表示第l帧的第k个数据点,K为各帧的数据点数,sgn[]是符号函数,如下式:3.根据权利要求1所述的音频同源篡改检测方法,其特征在于,所述S4中根据低频频谱能量分...

【专利技术属性】
技术研发人员:胡永健余颖娟刘琲贝贺前华
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1