当前位置: 首页 > 专利查询>宁波大学专利>正文

一种基于融合特征的加性噪声环境下手机来源识别方法技术

技术编号:21895749 阅读:16 留言:0更新日期:2019-08-17 16:02
本发明专利技术公开了一种基于融合特征的加性噪声环境下手机来源识别方法,其将从傅里叶域中提取的MFCC特征、STFTSDF特征和从CQT域提取的CQTSDF特征组成的融合特征作为设备指纹,相较于单一特征能够更精确的表征设备区分信息;在训练阶段采用了多场景训练的方式,训练集中不仅有未添加场景噪声的干净的语音样本,还有含有不同场景噪声类型和噪声强度的含噪语音样本,训练得到的M分类模型具有通用性,并且对已知噪声场景和未知噪声场景的语音样本都能进行有效的手机来源识别;其使用深度学习的CNN模型来建立M分类模型,CNN模型不仅提升了对未添加场景噪声的干净的语音样本的来源识别准确性,而且大幅度提升了含噪语音样本的手机来源识别效果,噪声鲁棒性强。

A Mobile Phone Source Recognition Method Based on Fusion Features in Additive Noise Environment

【技术实现步骤摘要】
一种基于融合特征的加性噪声环境下手机来源识别方法
本专利技术涉及手机来源识别
,尤其涉及一种基于融合特征的加性噪声环境下手机来源识别方法。
技术介绍
随着信息技术的发展,易于携带的手机越来越普及,很多人习惯用手机来录制语音,也因此,基于手机录音设备来源识别的研究受到了广泛关注。近些年,基于安静环境下对手机录音设备来源识别取得了一定的研究成果。C.Hanilci等从录音文件中提取梅尔频率倒谱系数(MFCC)作为设备区分性特征,并比较SVM、VQ这两种分类器对设备的识别情况,经对14款不同型号手机识别的闭集识别率分析发现,SVM分类器识别效果突出;随后,C.Hanilci等人又从静音段中提取MFCC作为设备的区分性特征,采用SVM分类器比较MFCC、线性频率倒谱系数(LFCC)、Bark频率倒谱系数(BFCC)和线性预测倒谱系数(LPCC)这四种声学的倒谱特征以及其与动态特征的组合特征在手机来源识别中的性能优劣,得出MFCC分类效果较好;C.Kotropoulos等借鉴对固定麦克风的识别研究,将频谱轮廓特征作为设备指纹,使用稀疏表示分类器对7个不同品牌的21款手机进行识别,闭集识别率达到为95%;金超提出从静音段中提取录音设备的设备噪声方法,将设备噪声作为提取表征录音设备之间区分性信息的载体,以区别手机品牌和型号;SimengQi等采用去噪处理和谱减法得到噪声信号,将噪声信号的傅里叶直方图系数作为深度模型的输入,比较三种不同的深度学习分类算法Softmax、MLP、CNN的识别效果。虽然手机来源识别算法取得了一定发展,但仍存在一些局限性,主要表现为:同品牌不同型号手机误识,由于相同品牌的手机录音设备在电路设计和电子元器件选配方面有着较高相似性和一致性,导致嵌入在语音文件中的设备信息差异较小,难以识别;目前手机来源识别应用背景基本都是在安静环境下,而实际生活中的录音更多是在不同噪音环境中形成,环境噪声会影响设备识别性能,这就导致现有研究算法在噪声攻击情况下鲁棒性差。
技术实现思路
鉴于上述问题,本专利技术的目的在于提供一种手机来源辨识度高,计算复杂度低,噪声鲁棒性强的基于融合特征的加性噪声环境下手机来源识别方法。本专利技术解决上述技术问题所采用的技术方案为:一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述方法包括,步骤一、选取M个不同型号手机,每个手机获取N个人的P个语音样本,得到语音样本N×P个,并形成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,N≥10,P≥10;步骤二、选取噪声类型X种,噪声强度Y种,得到场景噪声共X×Y种,对所述基础语音库中的每个子集中的所有语音样本添加每种场景噪声,形成M个含噪子集共M×N×P个含噪语音样本,形成一个含噪语音库,X×Y种场景噪声共得到X×Y个含噪语音库,其中,X≥2,Y≥2;步骤三、对所述基础语音库中每个子集中的每个语音样本进行常Q变换,得到基础语音库中第m个子集中的第n个语音样本中的第k个频率点的常Q变换域频率值Fm,n(k),频率值的幅值Hm,n(k),常Q变换域频谱分布特征值CQTSDFm,n(k),第n个语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFm,n,CQTSDFm,n=[CQTSDFm,n(1),…,CQTSDFm,n(k),…,CQTSDFm,n(K)];对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的常Q变换域频率值Fi,m,n(k),频率值的幅值Hi,m,n(k),常Q变换域频谱分布特征值CQTSDFi,m,n(k)以及第n个含噪语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFi,m,n,i为正整数,1≤i≤X×Y,CQTSDFi,m,n的维数为1×K;其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,k为正整数,1≤k≤K,K表示常Q变换的频率点的总点数,K≥9,gk为正整数,1≤gk≤Gk,Gk表示常Q变换的过程中分帧的窗口长度,zm,n(gk)表示基础语音库中的第m个子集中的第n个语音样本,w(gk)表示常Q变换的过程中采用的窗函数,e为自然基数,j为虚数单位,fk表示常Q变换的过程中采用的滤波器的中心频率,表示第m个手机的采样率,为Fm,n(k)的共扼,Tk表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数,tk为正整数,1≤tk≤Tk,c为一个随机正数,CQTSDFm,n的维数为1×K,符号“[]”为向量表示符号,CQTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的常Q变换域频谱分布特征值,CQTSDFm,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的常Q变换域频谱分布特征值;步骤四、对所述基础语音库中的每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本对应的第d个频率点的傅里叶变换域频率值Sm,n(d),频率值的幅值Qm,n(d),傅里叶变换域频谱分布特征值STFTSDFm,n(d),第n个语音样本对应的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFm,n,STFTSDFm,n=[STFTSDFm,n(1),…,STFTSDFm,n(d),…,STFTSDFm,n(D)];对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的傅里叶变换域频率值Si,m,n(d),频率值的幅值Qi,m,n(d),傅里叶变换域频谱分布特征值STFTSDFi,m,n(d),第n个含噪语音样本对应的的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFi,m,n,i为正整数,1≤i≤X×Y,STFTSDFi,m,n的维数为1×D;其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,d为正整数,1≤d≤D,D表示傅里叶变换的频率点的总点数,g为正整数,1≤g≤G,G表示傅里叶变换过程中分帧的窗口长度,zm,n(g)表示基础语音库中的第m个子集中的第n个语音样本,w(g)表示傅里叶变换过程中采用的窗函数,e为自然基数,j为虚数单位,为Sm,n(d)的共扼,T表示基础语音库中的每个子集中的每个语音样本的总帧数,t为正整数,1≤t≤T,c为一个随机正数,STFTSDFm,n的维数为1×D,STFTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的傅里叶变换域频谱分布特征值,STFTSDFm,n(D)表示基础语音库中的第m个子集中的第n个语音样本对应的第D个频率点的傅里叶变换域频谱分布特征值;步骤五、对所述基础语音库中每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本中的第d个频率点的傅里叶变换域频率值Sm,n(d),其经每个滤波器组后的对数能量Cm,n(d),再进行离散余弦变换得到MFCC特征值MFCCm,n(a),基础语音库中第m个子集中的第n个语音样本对应的MFCC特征向本文档来自技高网
...

【技术保护点】
1.一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述方法包括,步骤一、选取M个不同型号手机,每个手机获取N个人的P个语音样本,得到语音样本N×P个,并形成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,N≥10,P≥10;步骤二、选取噪声类型X种,噪声强度Y种,得到场景噪声共X×Y种,对所述基础语音库中的每个子集中的所有语音样本添加每种场景噪声,形成M个含噪子集共M×N×P个含噪语音样本,形成一个含噪语音库,X×Y种场景噪声共得到X×Y个含噪语音库,其中,X≥2,Y≥2;步骤三、对所述基础语音库中每个子集中的每个语音样本进行常Q变换,得到基础语音库中第m个子集中的第n个语音样本中的第k个频率点的常Q变换域频率值Fm,n(k),

【技术特征摘要】
1.一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述方法包括,步骤一、选取M个不同型号手机,每个手机获取N个人的P个语音样本,得到语音样本N×P个,并形成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,N≥10,P≥10;步骤二、选取噪声类型X种,噪声强度Y种,得到场景噪声共X×Y种,对所述基础语音库中的每个子集中的所有语音样本添加每种场景噪声,形成M个含噪子集共M×N×P个含噪语音样本,形成一个含噪语音库,X×Y种场景噪声共得到X×Y个含噪语音库,其中,X≥2,Y≥2;步骤三、对所述基础语音库中每个子集中的每个语音样本进行常Q变换,得到基础语音库中第m个子集中的第n个语音样本中的第k个频率点的常Q变换域频率值Fm,n(k),频率值幅值Hm,n(k),常Q变换域频谱分布特征值CQTSDFm,n(k),第n个语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFm,n,CQTSDFm,n=[CQTSDFm,n(1),…,CQTSDFm,n(k),…,CQTSDFm,n(K)];对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的常Q变换域频率值Fi,m,n(k),频率值的幅值Hi,m,n(k),常Q变换域频谱分布特征值CQTSDFi,m,n(k)以及第n个含噪语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFi,m,n,i为正整数,1≤i≤X×Y,CQTSDFi,m,n的维数为1×K;其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,k为正整数,1≤k≤K,K表示常Q变换的频率点的总点数,K≥9,gk为正整数,1≤gk≤Gk,Gk表示常Q变换的过程中分帧的窗口长度,zm,n(gk)表示基础语音库中的第m个子集中的第n个语音样本,w(gk)表示常Q变换的过程中采用的窗函数,e为自然基数,j为虚数单位,fk表示常Q变换的过程中采用的滤波器的中心频率,表示第m个手机的采样率,为Fm,n(k)的共扼,Tk表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数,tk为正整数,1≤tk≤Tk,c为一个随机正数,CQTSDFm,n的维数为1×K,符号“[]”为向量表示符号,CQTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的常Q变换域频谱分布特征值,CQTSDFm,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的常Q变换域频谱分布特征值;步骤四、对所述基础语音库中的每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本对应的第d个频率点的傅里叶变换域频率值Sm,n(d),频率值的幅值Qm,n(d),傅里叶变换域频谱分布特征值STFTSDFm,n(d),第n个语音样本对应的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFm,n,STFTSDFm,n=[STFTSDFm,n(1),…,STFTSDFm,n(d),…,STFTSDFm,n(D)];对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的傅里叶变换域频率值Si,m,n(d),频率值的幅值Qi,m,n(d),傅里叶变换域频谱分布特征值STFTSDFi,m,n(d),第n个含噪语音样本对应的的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFi,m,n,i为正整数,1≤i≤X×Y,STFTSDFi,m,n的维数为1×D;其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,d为正整数,1≤d≤D,D表示傅里叶变换的频率点的总点数,g为正整数,1≤g≤G,G表示傅里叶变换的过程中分帧的窗口长度,zm,n(g)表示基础语音库中的第m个子集中的第n个语音样本,w(g)表示傅里叶变换的过程中采用的窗函数,e为自然基数,j为虚数单位,为Sm,n(d)的共扼,T表示基础语音库中的每个子集中的每个语音样本的总帧数,t为正整数,1≤t≤T,c为一个随机正数,STFTSDFm,n的维数为1×D,STFTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的傅里叶变换域频谱分布特征值,STFTSDFm,n(D)表示基础语音库中的第m个子集中的第n个语音样本对应的第D个频率点的傅里叶变换域频谱分布特征值;步骤五、对所述基础语音库中每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本中的第d个频率点的傅里叶变换域频率值Sm,n(d),其经每个滤波器组后的对数能量Cm,n(d),再进行离散余弦变换得到MFCC特...

【专利技术属性】
技术研发人员:王让定秦天芸严迪群
申请(专利权)人:宁波大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1