一种融合了短时与长时特征建模的环境声识别方法及装置制造方法及图纸

技术编号：15022189 阅读：81 留言：0更新日期：2017-04-05 00:02

本发明专利技术公开了一种融合了短时与长时特征建模的环境声识别方法及装置。本发明专利技术提出了一种模型级联融合的方法，使得短时和长时的信息在整个识别过程中都能够得以运用。本发明专利技术的方案包括下列步骤：对于滑动窗，首先基于短时特征使用混合高斯模型(GMM)建模进行预分类；对GMM的分类结果，进行置信度判别，置信度高的结果直接作为最终的分类结果，置信度较低时，则基于长时特征再分类；在第二阶段，基于对GMM分类结果混淆矩阵的分析，找出容易混淆的类，训练这些类之间的支持向量机(SVM)分类模型，使用SVM进行再分类。第二阶段的建模过程使用GMM的概率得分加入长时特征一起作为SVM的输入。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及环境声识别领域，特别涉及环境声的声学建模领域。
技术介绍
近年来，针对非语音感知的研究已逐渐成为研究的热点。非语音的环境声音也能传递有用信息，如在特定环境中人的活动通常会产生种类丰富的声学事件。通过对这些环境声音的分析和处理，能够有效获知人的活动情况和相应的环境状态，如鼓掌声、笑声、脚步声、枪声、爆炸声、玻璃碎裂声等。针对环境声识别，研究者们尝试了各种方法。由于都是对声音的处理，环境声识别首先借鉴了语音识别领域的GMM(GaussianMixtureModel：混合高斯模型)/HMM(HiddenMarkovModel：隐马尔科夫模型)技术。该方法使用HMM为每一个环境声类别建立声学模型，HMM的每一个状态关联一个GMM模型，识别时则采用Viterbi算法进行解码。GMM可作为一个状态的HMM，被用于单独的声学建模。此类方法都是基于分帧后提取的短时特征。在解码过程中，通过逐帧处理实现声音的分割和识别。相比与逐帧的处理策略，另一种环境声识别的策略则是通过滑动窗来分段声音信号，然后进行逐段分类。通过设定合适的窗长，每一次选择一小段音频，处理若干帧数据。此类方法以滑动窗为处理单元，因此可以在滑动窗内，对音频进行长时分析，提取描述声音长时变化的特征。将一个滑动窗使用长时特征表示为一个向量之后，再使用SVM等分类器进行分类。此类方法的优点是可以加入更多的长时特征，不足之处在于，将含有若...

【技术保护点】
一种融合短时与长时特征建模的环境声识别方法，包括以下步骤：步骤1：对待识别声音进行分帧处理，基于每一帧提取短时特征；步骤2：基于短时特征，利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类，给出每个滑动窗的GMM分类结果；其中，所述GMM环境声分类模型预先基于训练语料中的短时特征训练得到；步骤3：对GMM环境声分类模型的分类结果进行置信度判别，若置信度高于预定阈值，则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果，否则转下一步进行再分类；步骤4：对于置信度低于预定阈值的待识别声音，以滑动窗为处理单元，提取所述待识别声音的长时特征；步骤5：将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类，得到最终的识别结果；其中，所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。

【技术特征摘要】
1.一种融合短时与长时特征建模的环境声识别方法，包括以下步骤：
步骤1：对待识别声音进行分帧处理，基于每一帧提取短时特征；
步骤2：基于短时特征，利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类，给出每个滑动窗的GMM分类结果；其中，所述GMM环境声分类模型预先基于训练语料中的短时特征训练得到；
步骤3：对GMM环境声分类模型的分类结果进行置信度判别，若置信度高于预定阈值，则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果，否则转下一步进行再分类；
步骤4：对于置信度低于预定阈值的待识别声音，以滑动窗为处理单元，提取所述待识别声音的长时特征；
步骤5：将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类，得到最终的识别结果；其中，所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。
2.如权利要求1所述的方法，其特征在于，所述步骤1中提取的短时特征包括MFCC及其差分、过零率、质心比率、频谱熵和频谱滚降。
3.如权利要求1所述的方法，其特征在于，使用期望最大化算法训练混合高斯模型并逐渐增加所述混合高斯模型中高斯分量的个数，最终得到所述GMM环境声分类模型。
4.如权利要求1所述的方法，其特征在于，步骤2具体包括：
步骤201：计算滑动窗内每一帧的特征在GMM环境声分类模型上的概率取对数；
步骤202：将所有帧的概率对数相加，最后再除以帧数，得到所有帧平均联合概率的对数形式；
步骤203：根据平均联合概率的对数大小得到分类结果；其中，将所述GMM环境声分类模型中得到的平均联合概率的对数最高的类别作为分类结果。
5.如权利要求1所述的方法，其特征在于，所述步骤3具体包括：
步骤301：对每一个滑动窗，基于识别过程中计算的对数概率，找到最优和次优的GMM的概率等分：L1和L2；然后使用下面的公式计算置信度：
步骤302：若置信度高于预定值，则将GMM环境声分类模型给出的分类结果作为所述待识别语音的最终识别结果。
6.如权利要求1所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：刘文举，胡鹏飞，张邯平，高鹏，董理科，刘晓飞，乔利玮，王桐，
申请(专利权)人：中国科学院自动化研究所，国网山西省电力公司电力科学研究院，山西振中电力股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人