一种用于公安刑侦监听的语音分离与跟踪方法技术

技术编号:22023747 阅读:24 留言:0更新日期:2019-09-04 01:45
本发明专利技术涉及语音信号识别处理技术领域,提出一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;建立与训练基于GMM‑UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。

A Speech Separation and Tracking Method for Public Security Criminal Investigation and Monitoring

【技术实现步骤摘要】
一种用于公安刑侦监听的语音分离与跟踪方法
本专利技术涉及语音信号识别处理
,更具体地,涉及一种用于公安刑侦监听的语音分离与跟踪方法。
技术介绍
在公安刑侦监听领域,由于所获取的语音片段内包含有背景噪声、多个说话人声及混响等相关干扰因素,导致难以对该语音片段获取相关的重要信息。因此在对语音信号进行处理的过程中,需要将多个说话人的语音信号进行分离后,再分别进行处理。同时由于刑侦监听的特殊性,多个说话人的语音信号由同一拾音器金西行收录,因此难以对多个说话人的语音信号进行分离处理。另外,在实际的刑侦监听过程中,录入获取的音频中处于同一时间点说话的人数具有不确定性,进一步增大了对语音信号进行处理的难度。目前对语音信号进行分离与跟踪处理的方法包括:1、通过多个麦克风阵列组合对多个目标说话人的位置信息进行对准与捕捉,但是该方法存在多麦克风的非线性组合以及配置平稳性问题;2、通过视觉信息作为辅助信息来增强语音分离与跟踪系统的性能的方法对语音信号进行分离与跟踪处理,然而这种方法需要结合语音信息和视觉信息同时进行处理分析,且在实际应用中所采集的音频和图像存在延时问题导致无法适配;3、通过采用有效位编码向量或者目标说话人语音信息作为语音分离系统的额外输入的方法对语音信号进行处理,但是该方法无法实现端到端的语音跟踪,且与单独的语音跟踪算法相比,由于引入了目标说话人身份信息作为输入,存在训练以及测试的时间复杂度过高的问题。
技术实现思路
本专利技术为克服上述现有技术所述的难以对多个说话人的语音信号进行分离与跟踪处理的缺陷,提供一种用于公安刑侦监听的语音分离与跟踪方法。为解决上述技术问题,本专利技术的技术方案如下:一种用于公安刑侦监听的语音分离与跟踪方法,包括以下步骤:S1:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;S2:对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;S3:对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;S4:利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。本技术方案中,考虑到在一般信号处理系统中需要耗费大量时间在对语音信号的时频分解中,采用对初始语音信号进行分帧加窗处理,从而降低处理时延;采用双向长短时记忆网络(Bi-directionalLSTM,BLSTM)结构将属于同一说话人或说话声音相似的人的时频单元距离减小,再结合聚类算法,将属于同一说话人的时频单元聚类,实现将多个说话人的语音信号进行分离;采用基于GMM-UBM(GaussianMixtureModel-UniversalBackgroundModel)的语音跟踪方法,对目标说话人的语音波形进行辨认,并对完成辨认的语音信号对应的目标说话人进行编号后输出编号结果,即完成目标说话人的语音分离与跟踪。优选地,S1步骤中,对初始语音信号根据预设的固定的时间段进行分帧加窗处理,其公式如下:xw(n)=x(n)×w(n)其中,x(n)表示初始语音信号,w(n)表示窗口函数,xw(n)表示加窗语音信号。优选地,窗口函数采用汉明窗函数,并对窗函数的帧长取值根据延迟占比进行调整,其中窗长为8ms,帧移为4ms,时序长为200。优选地,S2步骤中,对加窗语音信号进行短时傅里叶变换的公式如下:其中,X(t,f)为时频二维信号,t为时间帧,f为频率,w(·)表示汉明窗函数。优选地,S3步骤中,对所述时频二维信号在频域中进行端点检测的公式如下:P(w)=20log(|X|)|Xvad|=|X|>xvad其中,P(w)表示声压级能量,Pmax(w)表示最大声压级能量,|X|为语音信号的幅度谱振幅,xvad表示基于声压级能量阈值转化为幅度谱后的振幅,threshold为预设的阈值;本步骤中,只有当幅度谱振幅大于基于声压级能量阈值转化为幅度谱后的幅度谱振幅xvad才能保留。优选地,S4步骤中,利用BLSTM结构对完成过滤处理的时频二维信号进行语音分离的步骤如下:S41:构建BLSTM结构,将时频二维信号输入BLSTM结构中,所述BLSTM结构的表达公式如下:其中,表示输入的语音特征,X∈RF×T表示C个说话人混合的幅度谱,其中T表示信号的帧,F表示信号的频率;表示将输入的语音特征映射到K维的嵌入向量特征空间,V∈RFT×K表示X映射到K维的嵌入向量的特征空间的结果矩阵;S42:通过学习K维的亲和矩阵VVT得到聚类后的二值亲和矩阵,计算损失函数CY(V):di=YYT其中,Y为类别信息矩阵,YYT表示聚类后的结果的亲和矩阵;vi表示第i个时频单元的值,vj表示第j个时频单元的值;yi、yj为矩阵Y中的数值;di、dj、N为常量;S43:引入正则化对所述损失函数CY(V)进行优化得到总损失函数CY,其公式如下:VVT∈RK×K其中,I表示单位矩阵,||·||F表示矩阵的范数;S44:根据所述总损失函数CY对BLSTM结构中的参数进行训练,得到完成训练的BLSTM结构,然后将完成过滤处理的时频二维信号作为所述网络结构的输入,输出得到目标说话人的多个语音波形。优选地,S41步骤中,采用K-means算法对所述结果矩阵V的聚类效果进行测试,其公式如下:其中,SSE表示聚类效果标准,为各个样本与所在簇的质心的均值的误差平方和,ui表示质心,x为样本所属的类别Ci。优选地,S5步骤中的具体步骤如下:S51:从所述说话人的语音波形中提取说话人的MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导,然后按照比例组成说话人跟踪模型的语音特征输入X=(x1,x2,...,xT),所述MFCC参数Ct(z)的表达方式如下:其中,xT为MFCC参数Ct(z)以及MFCC的一阶偏导、二阶偏导所组成的特征矩阵;Ct(z)表示第t帧的第z个MFCC系数,且0≤z<M,M为三角滤波器的个数;St(m)表示语音信号的对数功率谱,m为三角滤波器的标记;S52:初始化目标说话人的GMM模型的参数根据所述语音特征输入X得到其似然函数L(λ|X),所述其似然函数的公式如下:其中,为GMM模型的参数,φi为参数λ的权重系数,为参数λ的均值,Σi为参数λ的方差;S53:采用期望最大化算法对所述其似然函数L(λ|X)进行迭代处理至其似然函数L(λ|X)的值不超过预设的阈值或迭代次数达到最大迭代次数,完成对目标说话人的GMM模型中参数λ的更新收敛处理;S54:采用期望最大化算法训练获取得到一个稳定的说话人无关UBM模型,然后采用最大后验准则将所述说话人无关UBM模型与目标说话人语音特征混合计算,生成关于目标说话人的GMM模型,得到基于GMM-UBM的目标说话人模型;S55:将所述目标说话人的语音特征xt作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的编号其公式如下:其中,logP(X|λ)表示目标说话人的GMM模型的后验概率。优选地,步骤S55中,通过自适应获取目标说话本文档来自技高网...

【技术保护点】
1.一种用于公安刑侦监听的语音分离与跟踪方法,其特征在于,包括以下步骤:S1:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;S2:对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;S3:对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;S4:利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;S5:建立与训练基于GMM‑UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。

【技术特征摘要】
1.一种用于公安刑侦监听的语音分离与跟踪方法,其特征在于,包括以下步骤:S1:根据时序导入初始语音,对初始语音进行分帧加窗处理,得到加窗语音信号;S2:对加窗语音信号进行时频分解,通过短时傅里叶变换得到时频二维信号;S3:对所述时频二维信号在频域中进行端点检测,将空语言段对应的语音信号段进行过滤处理;S4:利用双向长短时记忆网络结构对完成过滤处理的时频二维信号进行语音分离,输出目标说话人的多个语音波形;S5:建立与训练基于GMM-UBM的目标说话人模型,将所述目标说话人的语音波形作为模型输入,通过自适应获取目标说话人的GMM模型然后对语音波形进行辨认,输出目标说话人的序列编号,即为语音跟踪结果。2.根据权利要求1所述的语音分离与跟踪方法,其特征在于:所述S1步骤中,对初始语音信号根据预设的固定的时间段进行分帧加窗处理,其公式如下:xw(n)=x(n)×w(n)其中,x(n)表示初始语音信号,w(n)表示窗口函数,xw(n)表示加窗语音信号。3.根据权利要求2所述的语音分离与跟踪方法,其特征在于:所述窗口函数采用汉明窗函数,其中窗长为8ms,帧移为4ms,时序长为200。4.根据权利要求2所述的语音分离与跟踪方法,其特征在于:所述S2步骤中,对加窗语音信号进行短时傅里叶变换的公式如下:其中,X(t,f)为时频二维信号,t为时间帧,f为频率,w(·)表示汉明窗函数。5.根据权利要求4所述的语音分离与跟踪方法,其特征在于:所述S3步骤中,对所述时频二维信号在频域中进行端点检测的公式如下:P(w)=20log(|X|)|Xvad|=|X|>xvad其中,P(w)表示声压级能量,Pmax(w)表示最大声压级能量,|X|为语音信号的幅度谱振幅,xvad表示基于声压级能量阈值转化为幅度谱后的振幅,threshold为预设的阈值。6.根据权利要求5所述的语音分离与跟踪方法,其特征在于:所述S4步骤的具体步骤如下:S41:构建双向长短时记忆网络结构,将时频二维信号输入所述双向长短时记忆网络结构中,所述双向长短时记忆网络结构的表达公式如下:其中,表示输入的语音特征,X∈RF×T表示C个说话人混合的幅度谱,其中T表示信号的帧,F表示信号的频率;表示将输入的语音特征映射到K维的嵌入向量特征空间,V∈RFT×K表示X映射到K维的嵌入向量的特征空间的结果矩阵;S42:通过学习K维的亲和矩阵VVT得到聚类后的二值亲和矩阵,计算损失函数CY(V):其中,Y为类别信息矩阵,YYT表示聚类后的结果的亲和矩阵;vi表示第i个时频单元的值,vj表示第j个时频单元的值;yi、yj为矩阵Y中的数值;di、dj、N为常量;S43:引入正则化对所述损失函数CY(V)进行优化得到总损失函数CY,其公式如下:VVT∈RK×K其中,I表示单位矩阵,||·||F表示矩阵的范数;S44:根据所述总损失函数CY对双向长短时记忆网络结构中的参数进行训练,得到完成训练的双向长短时记忆网络结构,然后将完成过滤处理的时频二维信号作为所述网络结构的输入,输出得到目标说...

【专利技术属性】
技术研发人员:郝敏李扬刘航
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1