具有组合视频和音频识别的视频监视系统和方法技术方案

技术编号:5813476 阅读:174 留言:0更新日期:2012-04-11 18:40
新型的视频监视系统由视频和音频压缩引擎、存储装置及视频和音频识别引擎构成。视频识别引擎检测诸如人脸识别、运动检测之类的事件,而音频识别引擎检测表示可能的报警情况的话音和其它声音特征,例如诸如尖叫和叫嚷之类的恐慌声音,或者诸如枪击、爆炸之类的声音。音频和视频信号的组合识别为监视系统生成真实性更高的警报,并且减少虚假警报。另外,音频识别引擎提供引导视频摄像机对准感兴趣的方向,便于更好地捕捉感兴趣场景的信息。

【技术实现步骤摘要】
【国外来华专利技术】
专利技术总的涉及用于提供安全性的监视系统和方法,更具体地说, 涉及用于监视系统的一种新的在线(实时)视频和音频识别系统和用 于监视系统的处理。
技术介绍
常规的视频监视系统一般不包括监视音频的任何功能或者措施; 即,监视系统根本不包括音频输入。最多,典型的视频监视系统,比 如在美国专利No.6724421和6175382中描述的视频监视系统提供视 觉信息和音频信息的同时录制。在这些参考文献中描述的两种视频监 视系统中,视频数据由智能监视引擎分析,并被压缩以便进行数字存 储。这些引擎实现各种识别算法,比如人脸识别,运动检测,恐慌探 测,刺杀(stabbing)运动检测等等。例如,当监视高层建筑的入口 时, 一种报警情况涉及一个人朝着另一人的突然快速运动,意味可能 的抢掠、殴打或类似行动。这种情况下,智能监视引擎将识别(成功 率小于100%)快速的突然运动,并在监控站产生警报。由于报警的 结果,警力可被调派到被监控位置。显然,快速的突然运动可能由儿 童跑向其父母/朋友产生,这种情况下,产生的警报变成虚假警报,这 会浪费警力的调派。智能监视f 1擎误检测的另 一后果是在真正的紧急 情况下,不产生警报。例如,当现场有一个以上的人时可能出现这种 情况。当发生真正的紧急情况时却不派遣警力是目前的监视系统的另图1中描述了现有技术的只有视频的监视系统。摄像机阵列10 通过视频链路11把视频信息送入视频压缩引擎12。视频信息被压缩, 并通过链路16发给存储装置14以便长期保存。另外,视频信息通过相同的视频链路11被送给视频识别引擎13。视频识别引擎13执行视 频识别任务,比如人脸识别、运动检测等等,并产生通过链路17发 送给事件数据库15和监控站18的事件和警报。监控站18可包含人 工操纵的监控站,从而,操作员执行特定数量的摄像机的实时视觉监 控。当操作员认为的紧急情况发生时,是否向被监控区调派警力或者 其它紧急响应队伍取决于他/她的决定。根据上面的描述,显然没有利 用音频信息,尽管在被监控区通常能够获得这样的音频信息。图2中表示了录制具有的现有视频监视系统。摄像机阵列20通 过视频链路21把视频信息送入视频和音频压缩引擎22。同时,音频 信息从麦克风阵列29经音频链路30被送入视频和音频压缩引擎22。 视频和音频信息被压缩,并通过链路26被发给存储装置24以便长期 保存。类似地,视频信息通过相同的视频链路21被送入视频识别引 擎23。视频识别引擎23执行视频识别任务,比如人脸识别、运动检 测等等,并产生通过链路27发给数据库25和监控站28的事件和警 报。监控站28是人工操纵的监控站,从而,操作员执行特定数量的 摄像机的视觉监控。当操作员认为的紧急情况发生时,是否向被监控 区调派警力或者其它紧急响应队伍取决于他/她的决定。根据上面的描 述,显然没有从音频输入提取有用的信息,尽管通常能够在被监控区 获得的音频信号中得到这样的信息。如上所述,第二种监视系统同时录制视频和音频信息,而且实现 用于各种视频识别任务的智能监视引擎。目前,在这些系统中,音频 信息被压缩和录制,而不被分析。当分析视频输入时,目前的监视系统未利用相当宝贵的音频信 息。显然,这种音频信息是有用的,并且在许多监视情况下能够被广 泛使用。从而,非常理想的是把音频信息的使用引入视频监视系统中,预 期音频信息的使用将会降低监视系统产生的虚假警报的数目,而且提 高检测到的真实警报的百分率,同时向评估报警的人提供更多的信 息。另外,和仅仅利用视频信息不能发现一些事件相反,利用音频和视频信息可以发现这些事件。
技术实现思路
从而,本专利技术的一个目的是提供一种视频监视系统和方法,包括 使用与从受监视区获得的音频信息结合的视频信息。本专利技术的监视系统既包括视频信号输入,又包括音频信号输入。 视频信号源自数字或模拟摄像机,音频输入接收自安装在被监控区的 麦克风。视频和音频信息被压缩和发送给数字存储装置。为了节约所 实现的全部摄像机和麦克风所需的数字存储的数量,最好压缩音频和 视频信息。与录制同时地,视频和音频输入被送入智能识别引擎,智 能识别引擎执行视频识别、音频识别,并执行源自视频-音频识别的结 果的瞬时相关,以便检测/识别代表恐慌情形的一组特定事件,比如高 音尖叫声、爆炸、枪击等。智能识别引擎生成的警报可被发送给监控 站,在监控站,操作员决定是否向被监控区调派警察或应急人员。按照本专利技术的一个方面,智能识别引擎执行可用的视频识别算 法,比如人脸识别、运动检测等等,以及用于语音识别特定词汇("救 命"、"抢劫,,等)的音频/语音识别算法。音频识别引擎可被训练,以 识别特殊的音频信号,比如枪击、爆炸等,以及代表报警或紧急情况的高音调和其它语音特征(signature)。通过利用沿特定取向布置的麦克风阵列,能够确定声音的方向。 定向的音频信息随后可被传递给摄像机控制单元,以使一个/多个摄像 机定向到感兴趣的方向。于是能够以更好的效率进行进一步的视频/ 音频识别。从而,例如,利用被监控区中的麦克风阵列,音频识别引 擎可检测爆炸声。结果,将使摄像机定向到爆炸方向,并将在视频引 擎中进行后续动作一从向监控站报警场景识别/了解。即刻把源自视 频和音频识别的结果用于指导录制的音频和视频的进一步评估,以及 指导新的视频和音频输入的改进录制,有利地提高了检测的准确性, 缩短了确定警报的性质所用的时间,并向评估情况的操作员提供更多 的信息。9视频识别引擎和音频识别引擎的输出由相互识别引擎分析,结果 生成最终的警报并转发给监控站。为了实现这些和其它目的,按照本专利技术的一个优选方面,提供一种监视系统和方法,以及计算机程序产品,其中所述系统包括生成实时视频信号的装置,所述实时视频信号包含在受监视区内 获得的视频信息;获得实时音频信号的装置,所述实时音频信号包含来自所述受监 视区的音频信息;同时接收所述视频信号和音频信号,从中确定相关的视频和音频 识别信息,并使实时音频和视频信息彼此相关以确定特定事件的发生 可能性的装置;和根据特定事件的发生,产生报警情况的装置。附图说明按照下面的说明、附加的权利要求和附图,将更好地理解本专利技术 的结构和方法的其它特征、方面和优点,其中图1图解说明按照现有技术的只有视频的监视系统;图2图解说明按照现有技术的具有音频录制能力的视频监视系统;图3图解说明按照本专利技术的具有视频和音频识别的视频监视系 统;以及图4图解说明按照本专利技术的智能识别引擎的细节。 具体实施例方式图3图解说明按照本专利技术的具有视频和音频识别的视频监视系 统。如图3中所示,包含一个或多个彩色或单色的静物或视频电子摄 像机,例如CCD或CMOS摄像机,或者具有拍摄受监视区的组件的 等效组合的摄像机阵列40通过视频通信链路41把视频信号送入数字 视频和音频压缩引擎42。例如在计算机和/或软件控制下,摄像机阵列40的每个摄像机装置的运动和操作可由接收的控制信号控制。此 外,摄像机阵列40中的每个摄像机的操作参数,包括全景(pan)/ 俯仰(tilt)镜、透镜系统、聚焦电机、全景电机、和俯仰电机控制由 接收的控制信号控制,如下更详细所述。在输出数字视频信号之前, 可应用许多信号处理技术以例如降低噪声或提供滤波/图本文档来自技高网
...

【技术保护点】
一种利用视频和音频识别的监视系统,包括: 生成实时视频信号的装置,所述实时视频信号包含在受监视区内获得的视频信息; 获得实时音频信号的装置,所述实时音频信号包含来自所述受监视区的音频信息; 同时接收所述视频信号和音频信号, 从中确定相关的视频和音频识别信息,并使实时音频和视频信息彼此相关以确定特定事件的发生可能性的装置;和 根据所述特定事件的发生,产生报警情况的装置。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:MG基恩兹勒V舍伊宁
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利