一种连续语音流中的叠音检测方法技术

技术编号:15642593 阅读:221 留言:0更新日期:2017-06-16 16:06
本发明专利技术提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101-1)对语音流进行端点检测,去除静音段;步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决。

【技术实现步骤摘要】
一种连续语音流中的叠音检测方法
本专利技术属于语音信号处理领域,涉及一种叠音检测方法,可用于连续语音流中,自动查找多人(两人或以上)同时说话的语音段。
技术介绍
叠音检测多见于说话人日志系统(SpeakerDiarization)。该系统中,连续语音流首先被切分为隶属不同说话人的语音段;然后应用某种算法,切分好的语音段被给予相应的说话人标识。但是,当某段语音包含叠音时,这种按照单一说话人标记的方式存在不合理性。因此,往往希望事先检测出连续语流的叠音段,进行特别处理。单通道情况下,叠音检测通常利用各态历经的隐马尔可夫模型(HiddenMarkovModel,HMM)作为基本切分器(Segmenter),把语音流分段为叠音、语音以及静音。HMM的状态空间由象征叠音、语音以及静音的三类状态串构成,并允许它们之间以相互跳转。声学特征一般包括:线性预测编码残差(LinearPredictiveCodingResidue,LPCR)、幅度调制谱(AmplitudeModulationSpectrum,AMS)、谱平坦度(SpectralFlatness,SF)、谐波能量率(HarmonicEnergyRatio,HER)、以及美尔频率倒谱系数(MelFrequencyCepstralCoefficient,MFCC)等。基于HMM框架的叠音检测方法已经应用于说话人日志系统,并产生了一定的效果。目前,此类方法通过给予HMM区分能力更强的特征提升检测模块的性能。如,主流方法通过特征融合找到适合叠音检测的组合特征。从检测结果看,系统检测精度还未达到预期。因此,针对实际需求,研究一种高精度的叠音检测方法显得尤为重要。
技术实现思路
本专利技术的目的在于,为克服上述问题,本专利技术提供一种连续语音流中的叠音检测方法。为了实现上述目的,本专利技术提供的一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。可选的,上述步骤101)进一步包含:步骤101-1)对语音流进行端点检测,去除静音段;步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决。可选的,上述步骤101-2)进一步包含:步骤101-2-1)计算语音流在四种尺度下的特征参数进而得到52维特征值,并将四种尺度下的特征参数分别记为:MLpR1,MLpR2,MLpR3和MLpR4;步骤101-2-2)将以上52维特征分成5组,具体分组结构如下:将第1~12维作为MLpR1的DCT系数、将第13~24维作为MLpR2的DCT系数、将第25~36维作为MLpR3的DCT系数、将第37~48维作为MLpR4的DCT系数、将第49~52维作为四种尺度下的LPCR系数;步骤101-2-3)利用GroupLASSO强制组间稀疏,选取最具区分能力的特征组作为综合特征。可选的,上述步骤101-2-2)进一步包含:首先,计算短时傅立叶分析,且短时傅里叶变换各参量的取值为:帧长为20ms,帧移为10ms且FFT采用1024点;然后,计算得到的短时傅立叶频谱的64个子带的美尔对数谱;接着,采用离散余弦变换压缩得到的能量谱,并取第2至13维系数作为MLpR1;此外,计算该尺度下对数美尔频谱的12阶线性预测残差,将12阶线性预测残差作为MLpR1的一维;MLpR4的分析窗长为200ms,窗移为10ms且FFT采用2048点;MLpR4也由第2至13维DCT系数及12阶LPCR构成;MLpR2和MLpR3通过采用不同尺度的二维高斯窗平滑MLpR1的美尔对数谱,并提取相应的DCT及LPCR获得;所述二维高斯窗分别为5*5和11*11。可选的,上述步骤102)进一步包含:步骤102-1)用非负矩阵分解在训练集上迭代学习,获得一个用以表示不同说话人语音的字典;步骤102-2)用语音字典对初步判决得到的叠音段进行重建;步骤102-3)根据重建误差进行决策,得到最终判决结果。可选的,上述步骤102-1)具体为:计算训练样本的短时傅立叶变换,得到幅度谱Vit,其中短时傅里叶变换的窗长为20ms,帧移为10ms且FFT点数为1024;其中,i=1,…,G,t=1,…,T;i表示当前被分析样本所属说话人的编号;G表示说话人总数量;T表示被分析样本的总帧数;将说话人i的所有幅度谱Vi=[Vit]作为一组,进行分解,得到对应该说话人的语音基Wi,所述的分解通过最小化如下代价函数完成:其中,Wi和Hi分别表示第i个说话人的基和权重,并在优化时保持它们非负;i=1,…,G;Vit,t=1,…,T;表示库尔巴克散度;Xmn表示矩阵X的第m行第n列元素,Ymn表示矩阵Y的第m行第n列元素。可选的,上述步骤102-2)进一步包含:给定待测试信号的幅度谱V,构造如下代价函数,在训练得到的语音基Ws上展开构造的代价函数,并给予一定的正则项,控制展开基群的稀疏性:其中,W=[Ws,WN];H=[Hs,HN]T;i表示说话人编号,且i=1,…,G,G表示训练集中的说话人总数;Ws=[W1,…,WG];Hs=[H1,…,HG];Hs、HN和Ws、WN分别表示语音和噪声的展开权重和基;正则项Θ(Hs)强制使用最少数量的说话人基群重建观测信号;||·||1表示1-范数操作;λ控制基群稀疏性的程度;ε是一个极小值,且ε=10-16。可选的,上述步骤102-3)进一步包含:步骤102-3-1)计算维纳增益Gain=WsHs./(WsHs+WNHN),其中./表示按矩阵元素做除法;步骤102-3-2)利用维纳增益计算重建频谱,并估计重建频谱与原观测信号谱V的二维皮尔森相关系数:mean(V)表示取矩阵V中所有元素的均值;(·)mn表示取矩阵中第m行第n列元素;.*表示按按矩阵元素做乘法;步骤102-3-3)设定阈值θ,如果Corr(Gain.*V,V)>θ,则接受原检测结果;否则,拒绝原检测结果与现有技术相比,本专利技术的优点在于:本专利技术优点:①根据多视角(multi-view)、多尺度(multi-scale)的观点,对信号沿不同“方向”参数化,有助于提高系统稳健性和检测性能。这是基于如下假设:任何干扰都不可能同等程度改变信号的所有方面。通过依赖受噪声影响较小的特征进行决策,能够有效增加系统鲁棒性。另外,一个问题从不同角度分析,通常难度会存在差异。如,频域通常比时域能获得信号的更多有效信息。②采用基于词典重建的二次判决,能够有效减少异常声以及噪声产生的虚警错误。附图说明图1本专利技术实施例提供的HMM框架的两级叠音检测系统;图2本专利技术实施例提供的GroupLASSO的特征选择;图3本专利技术实施例提供的基于NMF重建的二次判决。具体实施方式下面结合附图和实施例对本专利技术所述的进行详细说明。针对现有叠音检测模块精度较低的问题,提出了一种两级检测方法。第一级本文档来自技高网
...
一种连续语音流中的叠音检测方法

【技术保护点】
一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。

【技术特征摘要】
1.一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。2.根据权利要求1所述的连续语音流中的叠音检测方法,其特征在于,所述步骤101)进一步包含:步骤101-1)对语音流进行端点检测,去除静音段;步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决。3.根据权利要求2所述的连续语音流中的叠音检测方法,其特征在于,所述步骤101-2)进一步包含:步骤101-2-1)计算语音流在四种尺度下的特征参数进而得到52维特征值,并将四种尺度下的特征参数分别记为:MLpR1,MLpR2,MLpR3和MLpR4;步骤101-2-2)将以上52维特征分成5组,具体分组结构如下:将第1~12维作为MLpR1的DCT系数、将第13~24维作为MLpR2的DCT系数、将第25~36维作为MLpR3的DCT系数、将第37~48维作为MLpR4的DCT系数、将第49~52维作为四种尺度下的LPCR系数;步骤101-2-3)利用GroupLASSO强制组间稀疏,选取最具区分能力的特征组作为综合特征。4.根据权利要求3所述的连续语音流中的叠音检测方法,其特征在于,所述步骤101-2-2)进一步包含:首先,计算短时傅立叶分析,且短时傅里叶变换各参量的取值为:帧长为20ms,帧移为10ms且FFT采用1024点;然后,计算得到的短时傅立叶频谱的64个子带的美尔对数谱;接着,采用离散余弦变换压缩得到的能量谱,并取第2至13维系数作为MLpR1;此外,计算该尺度下对数美尔频谱的12阶线性预测残差,将12阶线性预测残差作为MLpR1的一维;MLpR4的分析窗长为200ms,窗移为10ms且FFT采用2048点;MLpR4也由第2至13维DCT系数及12阶LPCR构成;MLpR2和MLpR3通过采用不同尺度的二维高斯窗平滑MLpR1的美尔对数谱,并提取相应的DCT及LPCR获得;所述二维高斯窗分别为5*5和11*11。5.根据权利要求1所述的连续语音流中的叠音检测方法,其特征在于,所述...

【专利技术属性】
技术研发人员:胡琦张鹏远潘接林颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1