本发明专利技术公开了一种音频波形突变的检测方法,根据音频波形突变引起语谱出现脊峰的特点而提出的统计判别方法,属于多媒体信息安全领域。本发明专利技术方法针对数字音频由于复制粘贴操作的波形突变检测,分析语谱对数域中音频拼接点前后的脊峰跨度变化,构造脊峰因子描述一帧音频对数语谱的脊峰带宽以表征短时能量变化特点,并利用差分算子区分音频的突然声响与音频波形突变造成的脊峰因子识别。本发明专利技术方法包括以下步骤:将音频信号进行短时傅里叶变换,及对数变换,得到对数域的音频语谱;计算语谱中每帧的脊线因子;对脊线因子进行差分变换结果做检测判断。本发明专利技术能较有效地对音频波形突变进行识别,为数字音频编辑操作边界的检测提供了一个有效的方法。
【技术实现步骤摘要】
数字音频波形突变的检测方法
本专利技术涉及多媒体信息安全领域,尤其是一种数字音频波形突变的检测方法。
技术介绍
多媒体技术的数字化以及传输技术的进步,使得数字音频的应用迅速增长。数字音频易于通过物理的或电子的系统进行传输传播,但同时正是这些优点也带来了许多新的问题:数字音频在录制和拷贝过程中可能会遭受到有意无意的篡改。无论是蓄谋人为破坏完整性、真实性的篡改,还可能在传输传播过程中发生的错误,都会对本身的信息数据原始性造成破坏,尤其是在一些具有特殊意义的信息,如法庭举证、部门机密文件、历史文献备份等重要内容,一旦遭到恶意篡改,会造成很严重的后果。数字语音复制粘贴/删除篡改是把数字语音中的一段语音片段复制到另一语音片段中,或者删除一段语音中的片段,它是一种简单有效改变语音重要信息的篡改方法,如说明书附图1、2所示。由于在同一段语音中有着一致或相似的噪声,说话人声纹,使得人耳很难对篡改后的语音片段进行辨别,检测此形式的篡改对语音真伪性的判断有着重要的实际意义。
技术实现思路
本专利技术所要解决的技术问题是提供一种数字音频波形突变的检测方法,它能对给定的一段语音,判断其是否经过了语音片段复制粘贴或者删除一段语音而造成的音频波形突变,还能定位出语音篡改的时间范围,从而确认语音的真伪性,以克服现有技术的不足。本专利技术是这样实现的:数字音频波形突变的检测方法,包括以下步骤:1)将音频信号变换得到对数域的音频语谱Y,将获得的音频语谱进行对数变换,得到对数语谱G;2)进行对数语谱G能量二值化计算;3)计算每帧对数语谱G的音频突变系数σt;4)对音频突变系数σt进行判断,进行音频波形突变检测和突变区域定位。步骤1)所述的将音频信号变换得到对数域的音频语谱Y,将获得的音频语谱进行对数变换,得到对数语谱G,具体是,对于长度为h的数字音频信号y进行分帧,得到帧数为Nl,帧长为2*N的矩阵;加入窗函数并进行短时傅里叶变换,得到大小为N*N1的音频语谱Y;对音频语谱Y进行对数变换,得到对数语谱G,其大小为N*N1。步骤2)所述的进对数语谱G能量二值化计算,具体是,先计算得到对数语谱G中的最大值Gmax和最小值Gmin,设每帧频率的能量值为Gti(1≤t≤N,1≤i≤Nl),通过如下公式(1)计算能量二值化值δ(t,i),其中λ为阈值因子。步骤3)所述的计算每帧对数语谱Gt的音频突变系数,具体是,通过公式(2)计算音频突变系数σt(1≤t≤N1);步骤4)所述的对音频突变系数σt进行判断,进行音频波形突变检测和突变区域定位,具体是,假设在步骤3)中得到了对数语谱G第i帧Gi及相邻帧的三个音频突变系数σi-1、σi、σi+1,若满足:则确定音频中存在音频突变,其中第i帧Gi是检测到的音频波形突变区域。与现有技术相比,本专利技术利用在篡改拼接语音过程中信号波形突变,使得该时间片段的频率短时能量突增的性质,利用差分算法区分编辑造成的音频波形突变和强信号的音频突变,通过计算音频突变系数后,检测出该段音频有复制粘贴/删除篡改痕迹,并准确定位篡改时间。本专利技术方法有较好的检测与定位功能,在人耳无法识别、语谱图无法观察出来的情况下能很好地识别出音频的波形突变,是一种有效的音频复制粘贴/删除篡改检测技术。附图说明图1是音频资料插入音频片段示意图;图2是音频资料删除音频片段示意图;图3是语音篡改拼接点处波形突变示意图;图4是检测算法流程图;图5是检测语音的波形图;图6是检测语音的对数语谱;图7是检测语音的音频突变系数。具体实施方式本专利技术的实施例1:数字音频波形突变的检测方法,1)将音频信号y变换得到对数域的音频语谱Y:对于长度为h的数字音频信号y,对音频信号y进行分帧,每帧长度为2*N(设定N=128);重叠率为l(设定l=0.5),则帧数N1为:设分帧信号为yi,i=1...Nl,利用公式(1)进行离散短时傅里叶变换,得到Yti,其中w(N-m)为窗函数(设定为Hamming窗函数)。利用公式(2)计算频谱图,进行对数变换得到对数语谱Gi(i=1...Nl,),即将所有对数幅度值组成矩阵即为语音信号的对数语谱G,其大小为N*N1;2)进行对数语谱Gi能量二值化计算:首先计算对数语谱Gi中的最大值Gmax和最小值Gmin,对于每帧频率的能量值Gi(k),k=1...N,通过公式(3)计算频率的能量二值化值δ(t,i):其中λ为阈值因子(设定λ=0.65),将δ组成的矩阵Δ定义为短时能量二值谱,δ(i,k)取值为0代表第i帧第k频率成分能量低,1为能量高;3)计算每帧对数语谱Gi的音频突变系数σt:由于人工复制粘贴语音片段,在编辑处音频信号会出现波形突变,这一操作引入新的频率成份,使得对数幅度谱包含音频突变的帧所有频率能量相对于相邻帧突然增加,因此,该帧短时能量二值谱的非零值数应明显多于相邻帧;统计步骤2)中短时能量二值谱每帧的均值σi,根据公式(4)计算得到音频突变系数σi(1≤i≤N1);4)对音频突变系数σt进行判断,进行音频波形突变检测和突变区域定位:由于语音特征,强语音信号会使检测得到的音频突变系数变大,但这种信号具有时间延续性,人工复制粘贴造成的音频突变系数只会存在于一帧中,因此,利用差分算法区分编辑造成的音频波形突变和强信号的音频突变,其具体步骤是,通过公式(5)计算每帧对数语谱Gi的音频突变系数σt(1≤t≤N1);步骤4)所述的对音频突变系数σt进行判断,进行音频波形突变检测和突变区域定位,具体是,假设在步骤3)中得到了对数语谱第i帧Gi及相邻帧的三个音频突变系数σi-1、σi、σi+1,若满足:则确定音频中存在音频突变,其中第i帧Gi是检测到的音频波形突变区域。如图5所示,图5是删除部分语音之后的篡改语音波形图,其中虚线标注时刻为音频剪切位置,且无法通过听觉辨别出该编辑痕迹。。如图6所示,虽然该段音频的对数语谱中无明显的短时能量突变,通过计算音频突变系数后如图7所示,检测出该段音频有复制粘贴/删除篡改痕迹,并准确定位篡改时间。从上述实施例可以看出,本专利技术方法有较好的检测与定位功能。在人耳无法识别、语谱图无法观察出来的情况下能很好地识别出音频的波形突变,是一种有效的音频复制粘贴/删除篡改检测技术。本文档来自技高网...

【技术保护点】
一种数字音频波形突变的检测方法,其特征在于:包括以下步骤:1)将音频信号变换得到对数域的音频语谱Y,将获得的音频语谱进行对数变换,得到对数语谱G;2)进行对数语谱G能量二值化计算;3)计算每帧对数语谱G的音频突变系数σt;4)对音频突变系数σt进行判断,进行音频波形突变检测和突变区域定位。
【技术特征摘要】
1.一种数字音频波形突变的检测方法,其特征在于:包括以下步骤:1)将音频信号变换得到对数域的音频语谱Y,将获得的音频语谱进行对数变换,得到对数语谱G;2)进行对数语谱G能量二值化计算;3)计算每帧对数语谱Gt的音频突变系数σt;4)对音频突变系数σt进行判断,进行音频波形突变检测和突变区域定位;步骤1)所述的将音频信号变换得到对数域的音频语谱Y,将获得的音频语谱进行对数变换,得到对数语谱G,具体是,对于长度为h的数字音频信号y进行分帧,得到帧数为Nl,帧长为2*N的矩阵;加入窗函数并进行短时傅里叶变换,得到大小为N*N1的音频语谱Y;对音频语谱Y进行对数变换,得到对数语谱G,其大小为N*N1;步骤2)所述的进行对数语谱G能量二值化计算,具体是,先计算得到对数语谱G中的最大值Gma...
【专利技术属性】
技术研发人员:徐晶,
申请(专利权)人:贵州大学,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。