基于声音识别的监控方法、装置及系统制造方法及图纸

技术编号:16920930 阅读:54 留言:0更新日期:2017-12-31 15:50
本发明专利技术提供了一种基于声音识别的监控方法、装置及系统,方法包括以下步骤:S1:进行预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;S2:采集现场声音,对采集的声音进行与所述若干种特定声音对应的特征提取;S3:将提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;S4:根据所述分类结果判断是否需要报警。本发明专利技术可弥补传统视频监控的不足,声音配合视频能更好的对复杂环境进行实时的监控。且能够提高预防和打击犯罪活动的效率,确保监控系统对不安全事件监控的主动性和及时性。

【技术实现步骤摘要】
基于声音识别的监控方法、装置及系统
本专利技术涉及信号处理、语音识别和模式识别
,特别涉及一种基于声音识别的监控方法、装置及系统。
技术介绍
在公共场合中多采用传统的视频监控手段,视频监控相对有效的防范了一些违法犯罪活动。但是视频监控存在以下两个缺点:由于监控人员的疏忽,会错过监控画面捕捉到的不安全事件;由于视频画面的二维性,画面很容易被干扰物所阻挡。虽然在案件发生以后,可以采集案发现场的监控视频,帮助调查取证。但如果错过了最佳的营救时间则会导致案件的恶化。所以传统的视频监控系统很难及时有效的发现一些暴力事件或者是恐怖袭击。其次,声音监控中对声音的分类不能简单的对振幅或者其他特征进行分类,需要结合监控场景实际情况对声音不同的特征进行分类,以使声音监控真正的应用到生活当中。所以设计一款突破传统监控障碍的新型智能化监控系统迫在眉睫。在视频监控的基础上添加三种类型声音监控来辅助,会极大的提高监控效率,减少悲剧的发生,对现实生活具有重要意义。
技术实现思路
本专利技术的目的在于提供一种基于声音识别的监控方法、装置及系统,以解决现有的视频监控功能单一,监控效率较低的问题。为实现上述目的,本专利技术提供了一种基于声音识别的监控方法,包括以下步骤:S1:进行预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;S2:采集现场声音,对采集的声音进行与所述若干种特定声音对应的特征提取;S3:将提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;S4:根据所述分类结果判断是否需要报警。较佳地,所述特定声音包括非语音的异常声音、带情感的语音以及敏感词语音,相应地,所述步骤S2中提取特征时,提取的特征分别为:针对异常声音监控的非语音声音特征;针对人群情绪监控的人群语音情感特征;以及针对人群话语所带敏感词汇监控而提取的语音转文字所需的特征。较佳地,当提取非语音声音特征时,采用基于D-ESMD的异常声音特征提取方法,具体包括以下步骤:①定T分布随机噪声的次数K;②采集现场的声音信号s,并将T分布随机噪声添加至所述声音信号s中,得到加噪信号Si,其中,i为加噪信号的个数;③对所述加噪信号Si利用对称中点插值的ESMD的方法进行分解,得到模态分量④计算所述模态分量的排列熵值H,并通过现场试验确定阈值;⑤若所述排列熵值H大于所述阈值,则所述模态分量为有用信号模态分量,进入步骤⑥,否则所述模态分量为噪声;⑥将作为输入信号,重复③~⑤,直到分解得到的n阶的模态分量为噪声为止,其中,n为为正整数;⑦如果i<K,则令i=i+1,重复②~⑥,直到i=K为止,得到所有的模态分量,并求其总体平均值将总体平均值作为分解信号的最终模态分量;⑧计算各阶模态分量相对于原始的声音信号s的能量比,并组合成特征向量进行归一化处理,作为原始信号的特征向量。较佳地,当提取人群语音情感特征时,采用基于语音情感识别的特征提取方法,具体为:使用国际语音情感挑战赛中使用的特征集进行特征向量的表示。较佳地,当提取语音转文字所需特征时,采用基于Gammatone的语音特征提取方法,具体包括以下步骤:①集的现场的声音信号为x(n),对其进行预加重,设预加重系数为α,预加重之后的声音信号为y(n)=x(n)-α*x(n-1),其中,n为现场采集的声音信号的个数;②对预加重之后的声音信号y(n)进行分帧,帧长为N个采样点,其中,N为2的正整数次幂;;③对预加重之后的声音信号y(n)加汉明窗,加窗后的语音信号S(n)表示为S(n)=y(n)*w(n),其中,w(n)为汉明窗;④对加窗后的语音信号S(n)进行快速傅里叶变换,得到频域信号X(k)=fft(S(n),N);⑤对频域信号X(k)取模的平方得到能量谱,然后用Gammatone滤波器组进行滤波处理,得到信号H(k)=fft(h(n),N);⑥对每个Gammatone滤波器的输出进行对数压缩;⑦将对数压缩的信号进行离散余弦变换,得到GFLCC(GammatoneFrequencyLogCepstrumCoeffient);⑧将经过离散余弦变换得到的特征进行升半正弦倒谱提升,得到最后的特征。较佳地,所述非语音的异常声音包括监控场景中的枪声、爆炸声、撞击声、尖叫声中的一种或多种;所述带情感的语音包括具有开心、正常、平静、热闹、愤怒、生气中的一种情感的语音;所述敏感词语音包括出现救命、杀人、打人中一种或多种危险词汇。较佳地,当所述分类结果为所述非语音的异常声音时,则所述步骤S4中判断出对应的现场事件为枪击事件、撞击事件、爆炸事件、突发危险事件中的一种或多种,并进行报警提示;当所述分类结果为带情感的语音时,则所述步骤S4中判断出对应的人群情感出现愤怒、生气的特征时进行报警提示;当所述分类结果为敏感词语音时,则所述步骤S4中根据所识别到的敏感词进行报警提示。较佳地,所述步骤S1具体包括:使用模糊最小二乘支持向量机的算法对从若干种特定声音中所提取到的特征值进行学习、建立所述声音模型与分类;则所述步骤S3进一步包括,将现场采集到的声音信号的特征与所述声音模型一一对应以进行匹配分类;其中,所述步骤S4中的根据所述分类结果判断输出结果为需要报警的结果与不需要报警的结果。本专利技术还提供了一种基于声音识别的监控装置,包括:拾音器,用于采集声音信号;模型训练模块,用于预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;特征提取模块,用于将现场采集的声音信号进行与若干种特定声音对应的特征提取;匹配分类模块,将所述特征提取模块提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;报警模块,根据所述分类结果判断是否需要报警。本专利技术还提供了一种基于声音识别的监控系统,包括一个或多个如上所述的基于声音识别的监控装置。本专利技术具有以下有益效果:可以有效弥补传统视频监控的不足,声音配合视频能更好的对复杂环境进行实时的监控。本专利技术的技术方案配合视频监控在一定程度上能够提高预防和打击犯罪活动的效率,确保监控系统对不安全事件监控的主动性和及时性。附图说明图1为本专利技术优选实施例基于声音识别的监控方法流程示意图;图2为本专利技术优选实施例基于声音识别的监控装置结构示意图;图3为本专利技术优选实施例声音特征提取模块架构图;图4为本专利技术优选实施例模型建立模块装置结构示意图;图5为本专利技术优选实施例模型建立模块架构图;图6为本专利技术优选实施例匹配分类模块架构图。具体实施方式以下将结合本专利技术的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述和讨论,显然,这里所描述的仅仅是本专利技术的一部分实例,并不是全部的实例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术的保护范围。为了便于对本专利技术实施例的理解,下面将结合附图以具体实施例为例作进一步的解释说明,且各个实施例不构成对本专利技术实施例的限定。如图1所示,本实施例提供的基于声音识别的监控方法,包括以下步骤:S1:进行预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;S2:采集现场声音,对采集的声音进行与所述若干种特定声音对应的特征提取;S3:将提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;S4:根据所述分类结果判断是否需要本文档来自技高网...
基于声音识别的监控方法、装置及系统

【技术保护点】
一种基于声音识别的监控方法,其特征在于,包括以下步骤:S1:进行预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;S2:采集现场声音,对采集的声音进行与所述若干种特定声音对应的特征提取;S3:将提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;S4:根据所述分类结果判断是否需要报警。

【技术特征摘要】
1.一种基于声音识别的监控方法,其特征在于,包括以下步骤:S1:进行预先采集若干种特定声音进行声音模型训练,得到训练后的声音模型;S2:采集现场声音,对采集的声音进行与所述若干种特定声音对应的特征提取;S3:将提取的特征与所述声音模型进行匹配分类,得到现场声音的分类结果;S4:根据所述分类结果判断是否需要报警。2.根据权利要求1所述的基于声音识别的监控方法,其特征在于,所述特定声音包括非语音的异常声音、带情感的语音以及敏感词语音,相应地,所述步骤S2中提取特征时,提取的特征分别为:针对异常声音监控的非语音声音特征;针对人群情绪监控的人群语音情感特征;以及针对人群话语所带敏感词汇监控而提取的语音转文字所需的特征。3.根据权利要求2所述的基于声音识别的监控方法,其特征在于,当提取非语音声音特征时,采用基于D-ESMD的异常声音特征提取方法,具体包括以下步骤:①设定T分布随机噪声的次数K;②采集现场的声音信号s,并将T分布随机噪声添加至所述声音信号s中,得到加噪信号Si,其中,i为加噪信号的个数;③对所述加噪信号Si利用对称中点插值的ESMD的方法进行分解,得到模态分量④计算所述模态分量的排列熵值H,并通过现场试验确定阈值;⑤若所述排列熵值H大于所述阈值,则所述模态分量为有用信号模态分量,进入步骤⑥,否则所述模态分量为噪声;⑥将作为输入信号,重复③~⑤,直到分解得到的n阶模态分量为噪声为止,其中,n为正整数;⑦如果i<K,则令i=i+1,重复②~⑥,直到i=K为止,得到所有的模态分量,并求其总体平均值将总体平均值作为分解信号的最终模态分量;⑧计算各阶模态分量相对于原始的声音信号s的能量比,并组合成特征向量进行归一化处理,作为原始信号的特征向量。4.根据权利要求2所述的基于声音识别的监控方法,其特征在于,当提取人群语音情感特征时,采用基于语音情感识别的特征提取方法,具体为:使用国际语音情感挑战赛中使用的特征集进行特征向量的表示。5.根据权利要求2所述的基于声音识别的监控方法,其特征在于,当提取语音转文字所需特征时,采用基于Gammatone的语音特征提取方法,具体包括以下步骤:①采集的现场的声音信号为x(n),对其进行预加重,设预加重系数为α,预加重之后的声音信号为y(n)=x(n)-α*x(n-1),其中,n为现场采集的声音信号的个数;②对预加重之后的声音信号y(n)进行分帧,帧长为N个采样点,其中,N为...

【专利技术属性】
技术研发人员:台龙飞曹瑞林林伟
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1