一种基于完整局部二进制模式的伪装语音检测方法技术

技术编号:21915838 阅读:28 留言:0更新日期:2019-08-21 13:00
本发明专利技术涉及基于完整局部二进制模式的伪装语音检测方法,包括:对真实语音库和相应的伪装语音库中所有语音进行变量Q变换,得到所有真实语音和伪装语音的语谱图;分别将各语谱图转换为相应的灰度图像,并采用完整局部二进制模式处理,生成相应的纹理特征;将所有的纹理特征作为训练支持向量机的训练集,训练得到支持向量机;将待识别语音输入至支持向量机,以进行伪装语音的识别。本发明专利技术采用变量Q变换获取的语谱图,纹理更加清晰,有助于提取语音信号的纹理特征;而且采用完整局部二进制模式,包含语谱图的局部符号差值信息和局部幅度差值信息,可更全面地获取信号的纹理特征,有利于支持向量机的分类,提高识别伪装语音的准确率。

A Camouflage Speech Detection Method Based on Complete Local Binary Mode

【技术实现步骤摘要】
一种基于完整局部二进制模式的伪装语音检测方法
本专利技术属于语音识别
,具体涉及一种基于完整局部二进制模式的伪装语音检测方法。
技术介绍
伪装语音检测是通过对说话人的声音进行分析,进而识别出它是真实说话人的语音还是人为恶意伪装的语音。伪装语音通常由设备回放、语音转换及语音合成技术生成,通过这些蓄意的操作能够伪装成特定的说话人声音,从而达到欺骗说话人识别系统的目的。伪装语音识别系统可针对恶意的伪装语音实现反伪装检测,提高说话人识别系统安全性能,具有广阔的应用前景。伪装语音识别通常需要对目标语音信号特征提取,再跟其对应的真实语音的特征比对分析进而判定真伪。传统的伪装语音检测系统提取的特征参数主要分为两种:一种是语音信号的幅度谱特征,通常有高阶梅尔倒谱系数、梅尔主频率和对数幅度谱等;另一种是语音信号的相位谱特征,通常有修正的群延时和相对相移等。而实际情况下,因为说话人识别系统要应对的是各种未知的伪装语音的攻击,所以根据上述特征的检测效果往往不是很理想。
技术实现思路
基于现有技术中存在的上述不足,本专利技术提供一种基于完整局部二进制模式的伪装语音检测方法。为了达到上述专利技术目的,本专利技术采用以下技术方案:一种基于完整局部二进制模式的伪装语音检测方法,包括以下步骤:S1、对真实语音库和相应的伪装语音库中所有语音进行变量Q变换,得到所有真实语音和伪装语音的语谱图;S2、分别将各语谱图转换为相应的灰度图像,并采用完整局部二进制模式处理,生成相应的纹理特征;S3、将所有的纹理特征作为训练支持向量机的训练集,训练得到支持向量机;S4、将待识别语音输入至支持向量机,以进行伪装语音的识别。作为优选方案,所述步骤S1具体为:利用变量Q变换求取真实语音库和伪装语音库中语音的频谱,并绘制语谱图,即有:其中,Xvq(k)是数字语音序列的VQT频谱;x(n)是有限长的数字语音序列;n是数字语音序列的序号;wNk是长度为Nk的窗函数;k是频谱的频率序号;Nk是窗函数的长度和k值有关;Q是变量因子;变量因子Q通过引入附加参数γ使Q向低频平滑减少,以提高低频处的时间分辨率,即有:Bk=Qfk+γ;其中,Bk是第k频率窗口的带宽;fk是第k频率窗口的中心频率;γ是预先设定的附加参数。作为优选方案,所述步骤S2具体包括:S21、基于灰度图像,分别计算完整局部二进制模式的符号差值特征和幅度差值特征;S22、将完整局部二进制模式的符号差值特征和幅度差值特征级联,得到完整局部二进制模式特征向量,作为语音的纹理特征。。作为优选方案,所述计算完整局部二进制模式的符号差值特征,包括以下步骤:读取灰度图像的每个像素点灰度值,设置3×3的评估窗口进行二进制编码,使其相邻像素点与中心像素点进行灰度值比较;若相邻像素点的灰度值gp大于或等于其中心像素点灰度值gc,二进制位设置为1,否则设置为0,即:其中,CLBP_S是完整局部二进制模式的符号差值;所述评估窗口能生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,则共有256种纹理模式;应用所述评估窗口分析整幅灰度图像,得到一幅包含256种纹理模式的特征图像,统计特征图像上每一种纹理模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将相应的纹理模式的数量作为特征向量在所述维度下的值,则生成的统计直方图可得1×256的完整局部二进制模式的符号差值特征向量。作为优选方案,所述计算完整局部二进制模式的幅度差值特征,包括以下步骤:读取灰度图像的每个像素点灰度值;对相邻像素点灰度值与中心像素点灰度值的差值取绝对值,记为相邻像素点与中心像素点的幅度差值mp;再取整幅图像所有幅度差值平均,记为幅度差值的阈值c;mp=|gp-gc|;其中,gp为相邻像素点的灰度值;gc为中心像素点灰度值;k为幅度差值mp序号;N为mp的总数;每个相邻像素点与中心像素点的幅度差值的绝对值mp作为新的相邻像素点灰度值,幅度差值的阈值c作为新中心像素点灰度值;设置3×3的评估窗口进行二进制编码,使其新的相邻像素点与新的中心像素点进行灰度值比较;若新的相邻像素点的灰度值mp大于或等于其新的中心像素点灰度值c,二进制位设置为1;否则设置为0;即:其中,CLBP_M是完整局部二进制模式的幅度差值;所述评估窗口能生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,则共有256种纹理模式;应用所述评估窗口分析整幅灰度图像,得到一幅包含256种纹理模式的特征图像,统计所述特征图像上每一种纹理模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将相应的纹理模式的数量作为特征向量在所述维度下的值,则生成的统计直方图可得1×256的完整局部二进制模式的幅度差值特征向量。作为优选方案,所述步骤S3具体包括:将获得的训练集设置标签,记(xi,yi),i=1,2,3,...,N,xi∈Rn,yi∈[-1,1];其中,xi是训练样本也就是获得的完整局部二进制模式特征向量;N是训练样本的总数;n是样本空间的维数;Rn是n维样本空间;yi是样本的分类类别;yi=1表示伪装语音;yi=-1表示真实语音;引入错误惩罚因子C和径向基核函数K(xi,xj)以训练最优支持向量确定一个最优超平面;使目标函数最大化的条件为:采用的径向基核函数:其中,αi为每个样本对应的拉格朗日乘子;错误惩罚因子C在确定径向基核函数后,控制错误分类样本的惩罚程度;只有部分αi不为零,其所对应的样本就是训练所得的支持向量机。作为优选方案,所述支持向量机包括SVM输入层、SVM隐层和输出层。作为优选方案,所述支持向量机的分类函数为:其中,b为分类阈值。作为优选方案,所述步骤S4中将待识别语音输入至支持向量机之前,还提取待识别语音的纹理特征。作为优选方案,所述步骤S4具体包括:采用支持向量机的分类函数对待识别语音的纹理特征进行特征分类,以进行伪装语音的识别。作为优选方案,所述步骤S1之前还包括:S0、采集真实说话人语音以建立真实语音库,并训练建立相应的伪装语音库。本专利技术与现有技术相比,有益效果是:(1)本专利技术采用变量Q变换获取的语谱图相比于常用的短时傅里叶变换获取的语谱图,纹理更加清晰,有助于提取语音信号的纹理特征,而且采用的完整局部二进制模式,包含语谱图的局部符号差值信息和局部幅度差值信息,可更全面地获取信号的纹理特征,有利于支持向量机的分类,提高识别伪装语音的准确率。(2)由于伪装语音较于真实语音缺少自然、动态的纹理特征,本专利技术应用语音信号的纹理特征训练的支持向量机,相比于使用传统的幅度和相位特征训练的支持向量机,识别伪装语音的效果更好、泛化能力更强。附图说明图1是本专利技术实施例的基于完整局部二进制模式的伪装语音检测方法的流程图;图2是本专利技术实施例的基于完整局部二进制模式的伪装语音检测方法中利用完整局部二进制模式的符号差值对语谱图的变换图;图3是本专利技术实施例的基于完整局部二进制模式的伪装语音检测方法中训练支持向量机的示意图;图4是本专利技术实施例的基于完整局部二进制模式的伪装语音检测方法对应的检测系统的框架图。具体实施方式为了更清楚地说明本专利技术实施例,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技本文档来自技高网...

【技术保护点】
1.一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,包括以下步骤:S1、对真实语音库和相应的伪装语音库中所有语音进行变量Q变换,得到所有真实语音和伪装语音的语谱图;S2、分别将各语谱图转换为相应的灰度图像,并采用完整局部二进制模式处理,生成相应的纹理特征;S3、将所有的纹理特征作为训练支持向量机的训练集,训练得到支持向量机;S4、将待识别语音输入至支持向量机,以进行伪装语音的识别。

【技术特征摘要】
1.一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,包括以下步骤:S1、对真实语音库和相应的伪装语音库中所有语音进行变量Q变换,得到所有真实语音和伪装语音的语谱图;S2、分别将各语谱图转换为相应的灰度图像,并采用完整局部二进制模式处理,生成相应的纹理特征;S3、将所有的纹理特征作为训练支持向量机的训练集,训练得到支持向量机;S4、将待识别语音输入至支持向量机,以进行伪装语音的识别。2.根据权利要求1所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述步骤S1具体为:利用变量Q变换求取真实语音库和伪装语音库中语音的频谱,并绘制语谱图,即有:其中,Xvq(k)是数字语音序列的VQT频谱;x(n)是有限长的数字语音序列;n是数字语音序列的序号;wNk是长度为Nk的窗函数;k是频谱的频率序号;Nk是窗函数的长度,和k值有关;Q是变量因子;变量因子Q通过引入附加参数γ使Q向低频平滑减少,以提高低频处的时间分辨率,即有:Bk=Qfk+γ;其中,Bk是第k频率窗口的带宽;fk是第k频率窗口的中心频率;γ是预先设定的附加参数。3.根据权利要求2所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述步骤S2具体包括:S21、基于灰度图像,分别计算完整局部二进制模式的符号差值特征和幅度差值特征;S22、将完整局部二进制模式的符号差值特征和幅度差值特征级联,得到完整局部二进制模式特征向量,作为语音的纹理特征。4.根据权利要求3所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述计算完整局部二进制模式的符号差值特征,包括以下步骤:读取灰度图像的每个像素点灰度值,设置3×3的评估窗口进行二进制编码,使其相邻像素点与中心像素点进行灰度值比较;若相邻像素点的灰度值gp大于或等于其中心像素点灰度值gc,二进制位设置为1,否则设置为0,即:其中,CLBP_S是完整局部二进制模式的符号差值;所述评估窗口能生成8位二进制数,同时转换为十进制值,每一个十进制值代表一种纹理模式,则共有256种纹理模式;应用所述评估窗口分析整幅灰度图像,得到一幅包含256种纹理模式的特征图像,统计特征图像上每一种纹理模式的数量生成直方图,将每一种纹理模式作为特征向量的维度,再将相应的纹理模式的数量作为特征向量在所述维度下的值,则生成的统计直方图可得1×256的完整局部二进制模式的符号差值特征向量。5.根据权利要求4所述的一种基于完整局部二进制模式的伪装语音检测方法,其特征在于,所述计算完整局部二进制模式的幅度差值特征,包括以下步骤:读取灰度图像的每个像素点灰度值;对相邻像素点灰度值与中心像素点灰度值的差值取绝对值,记为相邻像素点与中心像素点的幅度差值mp;再取整幅图像...

【专利技术属性】
技术研发人员:简志华徐剑郭珊金易帆
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1