音频信号处理装置和方法以及监控系统制造方法及图纸

技术编号：11018638 阅读：107 留言：0更新日期：2015-02-11 09:16

本发明专利技术公开一种音频信号处理装置和方法以及监控系统。所述音频信号处理装置包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一帧的能量；分段单元，用于根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；以及识别单元，用于根据分类单元的分类结果来识别每个段中的音频信号的声音类别。

全部详细技术资料下载

【技术实现步骤摘要】
音频信号处理装置和方法以及监控系统
本专利技术总体上涉及音频处理领域，更具体而言，本专利技术涉及一种音频信号处理装置和方法以及一种监控系统。
技术介绍
对音频信号进行处理以准确地识别音频信号中的声音类别，从而提取出特定的音频事件，是音频处理领域的一个重要议题。将音频信号划分为连续的片段是音频信号识别的基础。音频信号分段的效果直接影响音频信号识别的精度。如何改进音频信号分段技术以提高分段的准确性、避免虚假分割点过多、运算量大、误检率与漏检率高等问题成为目前本领域研究的重要方面。
技术实现思路
在下文中给出了关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分，也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。本专利技术的目的是提供一种音频信号处理装置和方法以及一种监控系统，以便克服现有技术的上述问题中的至少一个。根据本专利技术的一个方面，提供了一种音频信号处理装置，包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一中贞的能量；分段单兀，用于根据每一窗中的音频信号的每一巾贞的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；以及识别单元，用于根据分类单元的分类结果来识别每个段中的...

【技术保护点】
一种音频信号处理装置，包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一帧的能量；分段单元，用于根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；以及识别单元，用于根据所述分类单元的分类结果来识别每个段中的音频信号的声音类别。

【技术特征摘要】
1. 一种音频信号处理装置，包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一峽的能量；分段单元，用于根据每一窗中的音频信号的每一峽的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续峽；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；W及识别单元，用于根据所述分类单元的分类结果来识别每个段中的音频信号的声音类别。2. 根据权利要求1的音频信号处理装置，其中，所述分段单元包括：聚类单元，用于将所述窗中的峽的能量按大小聚类为多个簇，每个簇中包含大小接近的多个能量；W及段形成单元，用于将同一簇中的连续峽形成一个段。3. 根据权利要求2的音频信号处理装置，其中，所述聚类单元分别W所述窗的能量序列中的最大能量和最小能量为中也，根据最近邻原则将所述窗的能量序列聚类为两个簇， W及分别W每个簇的能量序列中的最大能量和最小能量为中也，根据最近邻原则迭代地对每个簇的能量序列进行聚类，直到不再满足聚类条件为止，其中，所述窗中的峽的能量组成的序列作为所述窗的能量序列，每个簇中的峽的能量组成的序列作为所述簇的能量序列，并且所述聚类条件为所聚类出的两个簇的能量序列的分布与单高斯分布的相似度之和高于从中聚类出所述两个簇的窗或簇的能量序列的分布与单高斯分布的相似度达预定程度。4. 根据权利要求2的音频信号处理装置，其中，所述分段单元还包括：能量规整单元，用于在所述聚类单元进行聚类之前对所述窗中的峽的能量组成的序列进行规整，W增大所述序列中的能量之间的差异性。5. 根据权利要求1的音频信号处理装置，其中，所述分类单元利用异常声音模型和背景声音模型对每个段中的音频信号的每一峽进行分类，所述音频信号处理装置还包括加权单元，用于根据每一峽属于异常声音的可信度对所述分类单元对每一峽的分类结果进行加权，其中可信度越大，分类结果的权重越高，并且所述识别单元根据每一峽加权后的分类结果来识别每个段中的音频信号的声音类别。6. 根据权利要求5的音频信号处理装置，其中，所述加权单元使用W下H项中的任意一项或任意多项的组合作为每一峽属于异常声音的可信度：每一峽音频信号相对于前一峽音频信号的能量变化；每一峽音频信号与异常声音模型的相似度和所述峽音频信号与背景声音模型的相似度的差；W及每一峽所在的段中包含的连续峽的个数。7. 根据权利要求1的音频信号处理装置，还包括能量平滑单元，用于在所述分段单元对所述窗中的音频信号进行划分之前，对所述窗中的音频信号的每一峽的能量进行平滑。8. -种音频信号处理方法，包括：利用滑动窗顺次读取输入的音频信号；计算每一窗中的音频信号的...

【专利技术属性】
技术研发人员：刘昆，
申请(专利权)人：索尼公司，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人