一种自匹配Top‑N音频事件识别信道自适应方法技术

技术编号:16130742 阅读:52 留言:0更新日期:2017-09-01 21:47
本发明专利技术涉及一种自匹配Top‑N音频事件识别信道自适应方法,从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。本发明专利技术首先进行数据预处理,预处理过程包括量化、采样、预加重和加窗,然后进行特征提取,也就是对所需音频底层特征参数进行抽取,之后进行特征向量生成,也就是对提取的特征帧序列按照段长和段移进行压缩得到段向量,接下来是特征映射,特征映射是将信道相关特征段向量映射为信道无关特征段向量的过程,特征映射FM模块可分为FM训练和FM使用两个部分,最后进行模型训练和识别。本发明专利技术可以解决不同k值信道模型下高斯分量个数Top‑N的选择性问题和覆盖信道信息不均匀的问题,为网络传输编码差异影响下的音频事件识别提供一种较好的信道自适应方法。

【技术实现步骤摘要】
一种自匹配Top-N音频事件识别信道自适应方法
本专利技术涉及一种自匹配Top-N音频事件识别信道自适应方法,从应用场景的角度讲,属于音频事件识别
;从技术实现的角度来讲,亦属于计算机科学与音频处理

技术介绍
音频事件识别系统在实际应用中经常由于录制环境、采集设备、编码方式的不同而产生信道失配问题,较为常见的一类是编码差异引入的信道失配,信道自适应方法是对信道失配中发生畸变的特征参数进行修正,从而更加准确的反应原始语音的特征信息,信道自适应通常可分为特征域自适应、模型域自适应和得分域自适应,可以选择其中一个或多个进行自适应。特征域自适应是目前应用最广泛的信道自适应方法。特征域信道自适应方法可分为信道线性自适应和信道非线性自适应,基于信道线性自适应的方法一般较多而且效果比较好,通常为音频识别系统的标准配置。其中较为典型的信道线性自适应方法和信道非线性自适应方法有:1.倒谱均值减倒谱均值减是一种广泛应用于语音识别中去除信道卷积噪声的方法,该方法的本质是把频域上的卷积噪声变换成倒谱域上的加性噪声,当在倒谱域的倒谱参数上减去均值时,就可以去除卷积噪声,在信道畸变模型为线性特性时该性能尤为突出。但是如果语音时长较短或语音段较干净,使用倒谱均值减方法效果就会不明显,甚至有可能导致系统性能下降。而且当信道畸变为非线性失真的时候,倒谱均值减的有效性也会受到一定限制。2.倒谱均值方差规整倒谱方差规整进一步对倒谱域特征参数的方差进行规整。倒谱均值减和倒谱方差规整合在一起,称为倒谱均值方差规整。倒谱均值方差规整思路和实现方式简单,在语音识别方面取得了较好的成效,但是对于非线性失真的信道畸变效果不是非常明显。3.矢量泰勒级数矢量泰勒级数是一种相对比较实用的特征补偿方法,一般是通过一个显式的模型来描述带噪语音信号的产生,如果纯净语音和噪声分别服从高斯混合模型和单一高斯分布,利用矢量泰勒展开级数方法对非线性环境模型进行线性化,保证含噪语音也服从高斯混合模型,假设训练以及测试语音信号均平稳,利用最大期望算法估计环境噪声统计量,最后利用最小均方误差准则估计出纯净语音特征。矢量泰勒级数算法具有良好的抗噪性能,但是该方法一般都是离线完成并且用到的高斯混合模型一般为128甚至更高,不仅迭代次数多而且计算量大,一般很难满足实时性要求。需要对经典算法进行改进来提升其运算效率和实时性。4.特征映射特征映射方法基于GMM-UBM模型,由说话人模型合成方法发展而来,该方法的目的是将信道相关的语音特征映射到一个信道无关的空间中,利用信道无关的特征向量进行模型训练和识别。主要过程包括两个方面:信道模型训练和特征变换。特征映射方法是目前应用最广泛的信道自适应方法之一,作用在特征域,具有很高的灵活性和便捷性。综上所述,现有的特征映射方法在特征变换时只就得分最大的高斯分量进行自适应,当M为高斯分量个数,会遗漏其余M-1个高斯分量所包含的信道信息,而且最大得分对于不同高斯数目的信道模型往往不同,泛化性一般较差。
技术实现思路
本专利技术的目的是为解决不同k值信道模型下高斯分量个数Top-N的选择性问题和覆盖信道信息不均匀的问题,提出一种自匹配Top-N高斯分量的音频事件信道自适应方法。本专利技术的设计原理为:本专利技术首先进行数据预处理,预处理过程包括量化、采样、预加重和加窗,然后进行特征提取,也就是对所需音频底层特征参数进行抽取,之后进行特征向量生成,也就是对提取的特征帧序列按照段长和段移进行压缩得到段向量,接下来是特征映射,特征映射是将信道相关特征段向量映射为信道无关特征段向量的过程,特征映射FM模块可分为FM训练和FM使用两个部分,最后进行模型训练和识别。本专利技术的技术方案是通过如下步骤实现的:步骤1,音频识别的预处理过程主要包括预加重、分帧、加窗。在特征提取之前一般要对原始语音信号进行预加重处理,提升高频部分谱值用一阶数字滤波器来实现,之后需要进行分帧,分帧可采用连续分段或交叠分段方法,但多采用交叠分段以保证相邻帧之间的平滑性和连贯性,最后进行加窗以减小语音帧的截断效应,降低语音帧两端的变化坡度,需要选取合适的窗口长度。步骤2,采用MFCC进行语音特征提取,将时域信号做FFT变换,之后对它的对数能量谱依照Mel刻度分布的三角滤波器组做卷积,计算每个滤波器组输出的对数能量,再对滤波器组的输出向量做离散余弦变换。步骤3,在完成特征参数提取后,进行特征向量生成。将连续N帧特征向量的每一维特征相加计算其均值或方差,提取帧特征的共性,弱化帧特征的差异性,相邻片段间一般有N-M帧的交叠为了提高过渡的平滑性。步骤4,基于自匹配Top-N高斯分量加权映射规则的特征映射。将来自不同信道的特征通过某种方式映射到同一个与信道无关的特征空间上,用于解决在实际音频事件识别系统中因为训练条件和测试条件不一致导致识别性能下降的问题。具体实现方法为:步骤4.1,使用来自各类信道的数据训练得到一个与信道无关的UBM模型(wi,ui,δi),其中wi表示第i个高斯概率密度函数的权重,ui表示均值,δi表示方差。步骤4.2,根据特定的信道情况选择相对应的训练数据,然后利用各个信道的训练特征数据逐一应用MAP方法自适应出该特定信道下的GMM模型,用(wiA,uiA,δiA)表示在信道A条件下的GMM模型。步骤4.3,利用整个识别系统信道相关的训练和测试特征向量进行信道模型判定,首先提取出输入数据的特征参数,然后根据对数似然度的大小判定该数据从属的信道,我们假设该条数据属于自信道A。步骤4.4,采用自匹配Top-N高斯分量加权的映射规则进行特征变换,根据来源于信道A的测试数据的每一帧特征矢量,在信道A的高斯混合模型的数量M个高斯分量中选出排名得分前N的高斯分量N(ukA,δkA)(N<M,k=1,2,...,N),设定得分阈值为ε(0<ε<1),具体N的个数是利用得分阈值自匹配得到的,当得分前N的高斯分量的分数加和达到阈值ε时,则取该N值作为自匹配Top-N高斯分量加权映射的个数:在N选定之后,分别逐一计算Top-N个高斯分量在特征变换时的方差δkA和均值ukA对应的权重βk,而且需要满足把线性加权之后的UBM和信道A条件下的GMM的基准均值和方差分别记为uk*、δk*、ukA*、δkA*。得到自匹配Top-N高斯分量加权特征映射公式:步骤5,利用信道无关特征向量对整个音频事件进行模型的训练及识别。有益效果相比于归一基准得分最大的方法,本专利技术不会遗漏剩下的M-1个高斯分量所包含的信道信息。相比于Top-1高斯分量特征映射方法和固定Top-N高斯分量加权的特征映射方法,本专利技术有更好的应用性和信道自适应性能,可为网络传输编码差异影响下的音频事件识别提供一种更好的信道自适应方法。附图说明图1为本专利技术的音频事件识别系统原理框图;图2为三种信道失配下不同k值的信道识别率;图3为失配1不同k值Top-1和自匹配Top-N方法信道自适应性能;图4为失配2不同k值Top-1和自匹配Top-N方法信道自适应性能;图5失配3不同k值Top-1和自匹配Top-N方法信道自适应性能。具体实施方式为了更好的说明本专利技术的目的和优点,下面结合实施例对本专利技术方法的实施方式做进一步详细说明。音频事件数据选择枪声集本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/21/201710334633.html" title="一种自匹配Top‑N音频事件识别信道自适应方法原文来自X技术">自匹配Top‑N音频事件识别信道自适应方法</a>

【技术保护点】
一种自匹配Top‑N音频事件识别信道自适应方法,其特征在于所述方法包括如下步骤:步骤1,音频识别的预处理过程主要包括预加重、分帧、加窗,在特征提取之前一般要对原始语音信号进行预加重处理,提升高频部分谱值用一阶数字滤波器来实现,之后需要进行分帧,分帧可采用连续分段或交叠分段方法,但多采用交叠分段以保证相邻帧之间的平滑性和连贯性,最后进行加窗以减小语音帧的截断效应,降低语音帧两端的变化坡度,需要选取合适的窗口长度;步骤2,采用MFCC进行语音特征提取,将时域信号做FFT变换,之后对它的对数能量谱依照Mel刻度分布的三角滤波器组做卷积,计算每个滤波器组输出的对数能量,再对滤波器组的输出向量做离散余弦变换;步骤3,在完成特征参数提取后,进行特征向量生成,将连续N帧特征向量的每一维特征相加计算其均值或方差,提取帧特征的共性,弱化帧特征的差异性,相邻片段间一般有N‑M帧的交叠为了提高过渡的平滑性;步骤4,基于自匹配Top‑N高斯分量加权映射规则的特征映射,将来自不同信道的特征通过某种方式映射到同一个与信道无关的特征空间上,用于解决在实际音频事件识别系统中因为训练条件和测试条件不一致导致识别性能下降的问题;步骤5,利用信道无关特征向量对整个音频事件进行模型的训练及识别。...

【技术特征摘要】
1.一种自匹配Top-N音频事件识别信道自适应方法,其特征在于所述方法包括如下步骤:步骤1,音频识别的预处理过程主要包括预加重、分帧、加窗,在特征提取之前一般要对原始语音信号进行预加重处理,提升高频部分谱值用一阶数字滤波器来实现,之后需要进行分帧,分帧可采用连续分段或交叠分段方法,但多采用交叠分段以保证相邻帧之间的平滑性和连贯性,最后进行加窗以减小语音帧的截断效应,降低语音帧两端的变化坡度,需要选取合适的窗口长度;步骤2,采用MFCC进行语音特征提取,将时域信号做FFT变换,之后对它的对数能量谱依照Mel刻度分布的三角滤波器组做卷积,计算每个滤波器组输出的对数能量,再对滤波器组的输出向量做离散余弦变换;步骤3,在完成特征参数提取后,进行特征向量生成,将连续N帧特征向量的每一维特征相加计算其均值或方差,提取帧特征的共性,弱化帧特征的差异性,相邻片段间一般有N-M帧的交叠为了提高过渡的平滑性;步骤4,基于自匹配Top-N高斯分量加权映射规则的特征映射,将来自不同信道的特征通过某种方式映射到同一个与信道无关的特征空间上,用于解决在实际音频事件识别系统中因为训练条件和测试条件不一致导致识别性能下降的问题;步骤5,利用信道无关特征向量对整个音频事件进行模型的训练及识别。2.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射,其特征在于:使用来自各类信道的数据训练得到一个与信道无关的UBM模型(wi,ui,δi),其中wi表示第i个高斯概率密度函数的权重,ui表示均值,δi表示方差。3.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射,其特征在于:根据特定的信道情况选择相对应的训练数据,然后利用各个信道的训练特征数据逐一应用MAP方法自适应出该特定信道下的GMM模型,用(wiA,uiA,δiA)表示在信道A条件下的GMM模型。4.根据权利要求...

【专利技术属性】
技术研发人员:罗森林佟彤潘丽敏吕英
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1