声音处理装置和声音处理方法制造方法及图纸

技术编号:15045242 阅读:81 留言:0更新日期:2017-04-05 17:47
本发明专利技术提供一种声音处理装置和声音处理方法。所述声音处理装置包括:检测单元,其适于从通过摄像单元对被摄对象进行摄像而生成的图像数据,检测被摄对象的状况;提取单元,其适于从由与所述摄像单元相对应的声音获取单元生成的声音数据,提取声音的特征量;以及确定单元,其适于根据由所述检测单元检测到的被摄对象的状况,执行将由所述提取单元提取的声音的特征量与特定声音的特征量进行比较的处理,由此确定声音是否包含特定声音。

【技术实现步骤摘要】

本专利技术涉及一种声音处理装置和声音处理方法,尤其是涉及一种检测声音的技术。
技术介绍
在监视摄像机系统中,已知用户用来监视摄像现场声音的声音监视。特别是在近来的监视摄像机系统中,自动检测来自现场的声音的异常并进行通知而无需观察者24小时监视的异常声音检测是已知的。日本特开2004-357014号公报描述了一种基于诸如声音的频率或倒谱(cepstrum)等的特征量来检测异常声音并且进行通知的方法,以及一种为了减少误检测而通过使用特征量数据库存储周围环境声音的特征量来确定环境声音是否是异常声音的方法。不幸的是,传统布置通过参照在特定状况下预先登记现场环境的特征量的特征量数据库来进行确定。因此,在与获得数据库中的特征量的环境不同的状况下,不能获得足够的检测精度。特别是在进行24小时监视的监视摄像机中,根据时区显著地出现现场环境的变化,并且检测精度依据状况而大幅降低。
技术实现思路
本专利技术提供一种能够精确地检测特定声音的技术,并且具有例如以下布置。根据本专利技术的一方面,一种声音处理装置包括:检测单元,其适于,从通过摄像单元对被摄对象进行摄像而生成的图像数据,检测所述被摄对象的状况;提取单元,其适于,从由与所述摄像单元相对应的声音获取单元生成的声音数据,提取声音的特征量;以及确定单元,其适于,根据由所述检测单元检测到的所述被摄对象的状况,执行将由所述提取单元提取的所述声音的特征量、与特定声音的特征量进行比较的处理,由此确定所述声音是否包含所述特定声音。根据本专利技术的另一方面,一种声音处理方法包括:检测步骤,从通过摄像单元对被摄对象进行摄像而生成的图像数据,检测所述被摄对象的状况;提取步骤,从由与所述摄像单元相对应的声音获取单元生成的声音数据,提取声音的特征量;以及确定步骤,根据在所述检测步骤中检测到的所述被摄对象的状况,执行将在所述提取步骤中提取的所述声音的特征量、与特定声音的特征量进行比较的处理,由此确定所述声音是否包含所述特定声音。通过以下(参照附图)对示例性实施例的描述,本专利技术的进一步特征将变得清楚。附图说明图1是示出监视摄像机系统的功能构造的框图;图2是示出监视摄像机系统的硬件构造的框图;图3是示出特征量数据库的布置的图;图4A和图4B是示出异常声音检测的过程的流程图;图5是监视摄像机系统的框图;图6是示出异常声音检测的过程的流程图;图7是监视摄像机系统的框图;图8是示出特征量数据库的布置的图;图9A和图9B是示出异常声音检测的过程的流程图;图10是监视摄像机系统的框图;以及图11是示出异常声音检测的过程的流程图。具体实施方式下面,将参照附图详细说明本专利技术的实施例。注意,在以下实施例中公开的布置仅仅是示例,并且本专利技术并不限于附图中所示的那些实施例。(监视系统)将参照图1说明根据本专利技术的实施例的监视系统的构造示例。图1是示出根据该实施例的监视系统的功能构造的框图。异常声音监视系统A1000是用于在摄像现场监视人的异常的系统。如果人在摄像现场尖叫或呼喊,则异常声音监视系统A1000将它检测为异常声音,并向监视装置A1014通知该事件。异常声音监视系统A1000包括视频输入装置A1008、声音输入装置A1001、信息处理器A1015和通信单元A1013,并且通信单元A1013连接到外部监视装置A1014。声音输入装置A1001是用于输入通过收集被摄对象周围的声音而生成的声音数据的装置,并且包括麦克风等。视频输入装置A1008是用于通过对周围环境进行摄像来生成并输入图像(视频)的装置,并且包括摄像机等。下面,将说明由视频输入装置A1008获得的图像的视角与由声音输入装置A1001收集的声音之间的关系。当由视频输入装置A1008获得的图像的视角与声音输入装置A1001能够收集声音的声音收集范围匹配时,能够更精确地检测特定声音。然而,检测特定声音的一个目的是检测图像的视角外部的变化。例如,在如下的应用中检测特定声音,在该应用中,视频输入装置A1008的视角被改变为在检测到特定声音的方向上进行摄像。因此,能够使声音输入装置A1001能够收集声音的声音收集范围宽于图像的视角。在该情况下,也能够增加特定声音检测精度。信息处理器A1015包括视频信息处理器A1016、声音信息处理器A1017、检测计时器单元A1018和事件通知单元A1012。视频信息处理器A1016处理输入的视频信息。声音信息处理器A1017处理输入的声音信息。检测定时器单元A1018通过使用计时器来确定视频检测的频率。事件通知单元A1012向外部输出通知事件。视频信息处理器A1016包括用于保持输入的图像的视频输入单元A1009,和用于从输入的图像检测现在的周围信息的周围状况检测器A1010。周围状况检测器A1010从通过对被摄对象进行摄像而生成的图像数据,检测该对象的状况。在该实施例中,周围状况检测器A1010对基于从视频输入单元A1009输入的视频的图像帧中的人进行计数,并且以“单人”、“多人”和“许多人(人群)”三个阶段输出结果。作为对人进行计数的方法,使用脸部检测或模板匹配等。能够使用任何方法,作为这种脸部检测或模板匹配。用于输出结果的确定准则是,当存在0人或1人时为“单人”,当存在2至20人时为“多人”,而当存在多于20人时为“许多人”。声音信息处理器A1017包括声音输入单元A1002、特征量提取器A1003、特征量匹配单元A1004、特征量数据库A1005、似然度计算器A1006、检测结果确定单元A1007和数据库构造确定单元A1011。声音输入单元A1002从声音输入装置A1001接收输入声音。特征量提取器A1003从声音输入单元A1002输入的声音数据(输入声音)提取声音的特征量。在此所使用的特征量的示例是,声音的基础频率、共振峰频率或频谱,由声音的倒谱获得的梅尔频率倒谱系数(MFCC),过零点(zerocrossing),以及子带能量。将省略对MFCC、过零点以及子带能量的详细说明。特征量数据库A1005存储并保持包括异常声音的特定声音的特征量。如稍后将要描述的,特征量数据库A1005针对多个周围状况中的各个(在该实施例中是输入图像中的人的数量),保持代表声音特征的特征量。特征量匹配单元A1004具有将由特征量提取器A1003提取的特征量、与特征量数据库A1005中的与周围状况相对应的各个特征量进行比较的功能。似然度计算器A1006基于特征量匹配单元A1004的结果,针对特征量数据库A1005中的各个匹配目标的特征量,计算输入声音的特征量的似然度。似然度计算器A1006通过所谓的N-最佳(N-Best),输出用于检测结果的候选以及它们的似然度计算得分。将省略对N-最佳的详细说明。检测结果确定单元A1007使用从似然度计算器A1006输出的头等候选,作为检测结果。如果该候选是被登记为异常声音的声音并且得分已经超过预定阈值,则检测结果确定单元A1007确定发生了异常,并且向事件通知单元A1012通知异常。数据库构造确定单元A1011具有根据表示由周围状况检测器A1010检测到的人的数量和拥堵的信息来切换在特征量数据库A1005中登记的特征量的构造的功能。图2是示出根据该实施例的异常声音监视系统A1000的硬件构造示例的框图。异常声音本文档来自技高网...

【技术保护点】
一种声音处理装置,所述声音处理装置包括:检测单元,其适于,从通过摄像单元对被摄对象进行摄像而生成的图像数据,检测所述被摄对象的状况;提取单元,其适于,从由与所述摄像单元相对应的声音获取单元生成的声音数据,提取声音的特征量;以及确定单元,其适于,根据由所述检测单元检测到的所述被摄对象的状况,执行将由所述提取单元提取的所述声音的特征量、与特定声音的特征量进行比较的处理,由此确定所述声音是否包含所述特定声音。

【技术特征摘要】
2015.09.24 JP 2015-1874411.一种声音处理装置,所述声音处理装置包括:检测单元,其适于,从通过摄像单元对被摄对象进行摄像而生成的图像数据,检测所述被摄对象的状况;提取单元,其适于,从由与所述摄像单元相对应的声音获取单元生成的声音数据,提取声音的特征量;以及确定单元,其适于,根据由所述检测单元检测到的所述被摄对象的状况,执行将由所述提取单元提取的所述声音的特征量、与特定声音的特征量进行比较的处理,由此确定所述声音是否包含所述特定声音。2.根据权利要求1所述的声音处理装置,其中,所述确定单元执行将根据由所述检测单元检测到的所述被摄对象的状况而选择的特定声音的特征量、与由所述提取单元提取的所述特征量进行比较的处理,由此确定所述声音是否包含所述特定声音。3.根据权利要求1所述的声音处理装置,其中,所述确定单元执行通过根据由所述检测单元检测到的所述被摄对象的状况进行加权,将由所述提取单元提取的所述声音的特征量与所述特定声音的特征量进行比较的处理,由此确定所述声音是否包含所述特定声音。4.根据权利要求1所述的声音处理装置,其中,所述声音获取单元收集所述被摄对象周围的声音。5.根据权利要求1所述的声音处理装置,所述声音处理装置还包括适于保持所述特定声音的特征量的数据库,其中,所述确定单元将所述数据库中保持的所述特定声音的特征量、与由所述提取单元提取的特征量进行比较,由此确定所述声音是否包含所述特定声音。6.根据权利要求5所述的声音处理装置,所述声音处理装置还包括更新单元,所述更新单元适于,基于由所述检测单元检测到的所述被摄对象的状况,更新所述数据库中的特征量,其中,所述确定单元将更新后的数据库中的特征量、与由所述提取单元提取的特征量进行比较,由此确定所述声音是否包含所述特定声音。7.根据权利要求6所述的声音处理装置,其中,所述数据...

【专利技术属性】
技术研发人员:黑木智彦
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1