触发视频分析的音频事件制造技术

技术编号：21660901 阅读：31 留言：0更新日期：2019-07-20 06:11

一种用于在安全系统中使用音频触发器进行监视的系统、装置、方法和计算机可读介质。该方法包括经由麦克风接收音频输入流。将音频输入流分成音频段。对音频段进行滤波以获得高能量音频段。如果高能量音频段包括语音，则确定语音是否被识别为系统用户的语音。如果高能量音频段不包括语音，则将高能量音频段分类为感兴趣声音或非感兴趣声音。基于作为感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。

Audio events triggering video analysis

全部详细技术资料下载

【技术实现步骤摘要】
触发视频分析的音频事件
实施例总体涉及音频信号处理。更具体地，实施例涉及触发视频分析的音频事件。
技术介绍
当前用于安全分析的方法在能量效率、连接性、遮挡和隐私方面受到限制。捕获、处理和发送视频流到云端需要大量的能量。另外，如果房屋装有许多摄像机，则连续发送所有视频流的计算和电力成本对于消费者来说可能是过高的。更期望在本地处理数据而不是将视频流发送到云端。对于将数据发送到云端的安全摄像机，通常希望不传输正常家庭活动的视频。此外，在浴室、更衣室、卧室等敏感区域不建议使用摄像机。此外，仅摄像机安全解决方案基于摄像机的位置、照明条件和其他障碍物而受到限制。
技术实现思路
本专利技术的实施例提供一种具有音频分析的安全系统，包括：网络接口电路，用于经由麦克风接收音频输入流；处理器，耦合到所述网络接口电路；一个或多个存储设备，耦合到所述处理器，所述一个或多个存储设备包括指令，所述指令在由所述处理器执行时使所述系统：将所述音频输入流分成音频段；对所述音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定所述语音是否被识别为系统用户的语音；如果所述高能量音频段不包括语音，...

【技术保护点】
1.一种具有音频分析的安全系统，包括：网络接口电路，用于经由麦克风接收音频输入流；处理器，耦合到所述网络接口电路；一个或多个存储设备，耦合到所述处理器，所述一个或多个存储设备包括指令，所述指令在由所述处理器执行时使所述系统：将所述音频输入流分成音频段；对所述音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定所述语音是否被识别为系统用户的语音；如果所述高能量音频段不包括语音，则将所述高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。

【技术特征摘要】
2018.01.12 US 15/869,8901.一种具有音频分析的安全系统，包括：网络接口电路，用于经由麦克风接收音频输入流；处理器，耦合到所述网络接口电路；一个或多个存储设备，耦合到所述处理器，所述一个或多个存储设备包括指令，所述指令在由所述处理器执行时使所述系统：将所述音频输入流分成音频段；对所述音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定所述语音是否被识别为系统用户的语音；如果所述高能量音频段不包括语音，则将所述高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。2.根据权利要求1所述的安全系统，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。3.根据权利要求1所述的安全系统，其中，如果所述高能量音频段的分类包括所述感兴趣声音并且所述语音不被识别为系统用户的语音，则所述指令在由所述处理器执行时还使所述系统开启视频。4.根据权利要求1所述的安全系统，其中，如果所述高能量音频段的分类包括所述非感兴趣声音，则所述指令在由所述处理器执行时还使所述系统关闭视频或保持视频关闭。5.根据权利要求1所述的安全系统，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示正常用户行为特性，则所述指令在由所述处理器执行时还使所述系统关闭视频或保持视频关闭以保护用户的隐私。6.根据权利要求1所述的安全系统，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示异常用户行为特性，则所述指令在由所述处理器执行时还使所述系统将视频模式置于警戒状态。7.一种在安全系统中使用音频触发器进行监视的方法，包括：经由麦克风接收音频输入流；将所述音频输入流分成音频段；对所述音频段进行滤波以获得高能量音频段；如果高能量音频段包括语音，则确定所述语音是否被识别为系统用户的语音；如果所述高能量音频段不包括所述语音，则将所述高能量音频段分类为感兴趣声音或非感兴趣声音；并且基于作为所述感兴趣声音的高能量音频段的分类、作为系统用户语音的语音的语音识别以及语境数据来确定是否开启视频。8.根据权利要求7所述的方法，其中，感兴趣声音包括狗吠、玻璃破碎、婴儿哭泣、人跌倒、人尖叫、汽车警报声音、车祸发出的较大声音、枪击以及使人警惕的任何其他声音中的一个或多个。9.根据权利要求7所述的方法，其中，如果所述高能量音频段的分类包括所述感兴趣声音并且所述语音不被识别为系统用户的语音，则所述方法还包括开启视频。10.根据权利要求7所述的方法，其中，如果所述高能量音频段的分类包括所述非感兴趣声音，则所述方法还包括关闭视频或保持视频关闭。11.根据权利要求7所述的方法，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示正常用户行为特性，则所述方法还包括关闭视频或保持视频关闭以保护用户的隐私。12.根据权利要求7所述的方法，其中，如果所述高能量音频段的分类包括所述感兴趣声音，所述语音被识别为系统用户的语音，并且所述语境数据指示异常用户行为特性，则所述方法还包括将视频模式置于警戒状态。13.根据权利要求7所述的方法，其中，将所述高能量音频段分类为感兴趣声音或非感兴趣声音包...

【专利技术属性】
技术研发人员：J·黄，W·贝尔特曼，V·巴尔布拉查，Z·里夫林，D·加贝尔，S·唐宁，N·比斯沃，B·拉温德拉恩，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人