【技术实现步骤摘要】
【国外来华专利技术】跨多个助理设备的同时声学事件检测
技术介绍
[0001]人类可以参加与交互式软件应用的人机对话,交互式软件应用在本文中被称为“自动化助理”(也被称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)。例如,人类(在与自动化助理交互时可以被称为“用户”)可以向自动化助理提供输入(例如,命令、查询和/或请求),该输入可以导致自动化助理生成并提供响应输出,以控制一个或多个物联网(IoT)设备,和/或以执行一个或多个其他功能。由用户提供的输入可以是,例如,在一些情况下可以被转换成文本(或其他语义表示)并且然后被进一步处理的口头自然语言输入(即,口头话语),和/或打字的自然语言输入。
[0002]在一些情况下,自动化助理可以包括:自动化助理客户端,其由助理设备在本地执行并直接由用户雇用;以及基于云的对应体,其充分利用几乎无限的云资源来帮助自动化助理客户端响应用户的输入。例如,自动化助理客户端可以向基于云的对应体提供用户的口头话语(或其文本转换)的音频记录,以及可选地提供指示用户身份的数据(例如,凭证)。基于云的对应 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:经由位于包括多个助理设备的生态系统中的助理设备的一个或多个麦克风来检测捕获声学事件的音频数据;使用被本地存储在所述助理设备处的事件检测模型来处理捕获所述声学事件的所述音频数据,以生成与所述声学事件相关联的度量;经由位于所述生态系统中的附加助理设备的一个或多个附加麦克风来检测也捕获所述声学事件的附加音频数据,所述附加助理设备作为所述助理设备的附加,并且所述附加助理设备与所述助理设备共同位于所述生态系统中;使用被本地存储在所述附加助理设备处的附加事件检测模型来处理捕获所述声学事件的所述附加音频数据,以生成与所述声学事件相关联的附加度量;处理所述度量和所述附加度量两者,以确定由至少所述助理设备和所述附加助理设备两者检测的所述声学事件是否为实际声学事件;以及响应于确定所述声学事件是所述实际声学事件,导致与所述实际声学事件相关联的动作被执行。2.根据权利要求1所述的方法,其中,所述声学事件包括热词检测事件,其中,被本地存储在所述助理设备处的所述事件检测模型包括热词检测模型,所述热词检测模型被训练以检测特定的词或短语是否在所述音频数据中被捕获,并且其中,被本地存储在所述附加助理设备处的所述附加事件检测模型包括附加热词检测模型,所述附加热词检测模型被训练以检测所述特定的词或短语是否在所述附加音频数据中被捕获。3.根据权利要求1或权利要求2所述的方法,其中,与所述声学事件相关联的所述度量包括与所述音频数据是否捕获所述特定的词或短语相对应的置信级别,并且其中,与所述声学事件相关联的所述附加度量包括与所述附加音频数据是否捕获所述特定的词或短语相对应的附加置信级别。4.根据权利要求1至3中的任一项所述的方法,其中,确定所述声学事件是所述实际声学事件包括:基于所述置信级别和所述附加置信级别来确定所述特定的词或短语在所述音频数据和所述附加音频数据两者中被捕获。5.根据权利要求1至4中的任一项所述的方法,其中,导致与所述实际声学事件相关联的动作被执行包括:响应于确定所述声学事件数据指示所述音频数据或所述附加音频数据捕获所述特定的词或短语而激活自动化助理的一个或多个部件。6.根据权利要求2所述的方法,其中,被本地存储在所述助理设备处的所述热词检测模型是不同于被本地存储在所述附加助理设备处的所述附加热词检测模型的不同的热词模型。7.根据权利要求1所述的方法,其中,所述声学事件包括声音检测事件,其中,被本地存储在所述助理设备处的所述事件检测模型包括声音检测模型,所述声音检测模型被训练以检测特定的声音是否在所述音频数据中被捕获,并且其中,被本地存储在所述附加助理设备处的所述附加事件检测模型包括附加声音检测模型,所述附加声音检测模型被训练以检测所述特定的声音是否在所述附加音频数据中被捕获。8.根据权利要求7所述的方法,其中,与所述声学事件相关联的所述度量包括与所述音频数据是否捕获所述特定的声音相对应的置信级别,并且其中,与所述声学事件相关联的
所述附加度量包括与所述附加音频数据是否捕获所述特定的声音相对应的附加置信级别。9.根据权利要求7或权利要求8所述的方法,其中,确定所述声学事件是所述实际声学事件包括基于所述置信级别和所述附加置信级别来确定所述特定的声音在所述音频数据和所述附加音频数据两者中被捕获。10.根据权利要求7至9中的任一项所述的方法,其中,导致与所述实际声学事件相关联的动作被执行包括:生成指示所述实际声学事件发生的通知;以及导致所述通知经由与所述生态系统相关联的用户的计算设备被展示给所述用户。11.根据权利要求7至10中的任一项所述的方法,其中,所述特定的声音包括以下中的一个或多个:玻璃破碎、犬吠、猫叫、门铃响、烟雾报警器响、一氧化碳探测器响、婴儿哭或敲门。12.根据前述权利要求中的任一项所述的方法,其中,对所述度量和所述附加度量两者进行处理以确定由所述助理设备和所述附加助理设备两者检测的所述声学事件是否为所述实际声学事件是由给定助理设备进行的,其中,所述给定助理设备包括以下中的一个或多个:所述助理设备、所述附加助理设备,或与所述助理设备和所述附加助理设备共同位于所述生态系统中的进一步的附加助理设备。13.根据前述权利要求中的任一项所述的方法,进一步包括:由所述助理设备向远程系统传输所述音频数据;以及由所述附加助理设备向所述远程系统传输所述附加音频数据,其中,对所述度量和所述附加度量两者进行处理以确定由所述助理设备和所述附加助理设备两者检测的所述声学事件是否为所述实际声学事件是由所述远程系统进行的。14.根据前述权利要求中的任一项所述的方法,其中,所述音频数据与所述附加音频数据在时间上相对应。15.根据权利要求14所述的方法,其中,响应于确定与所述音频数据相关联的时间戳和与所述附加音频数据相关联的附加时间戳在时间上相对应,对所述度量和所述附加度量两者进行处理以确定由所述助理设备和所述附加助理设备两者检测的所述声学事件是否为所述实际声学事件。16.根据前述权利要求中的任一项所述的方法,进一步包括:响应于经由所述助理设备的所述一个或多个麦克风检测所述音频数据:基于在所述助理设备和所述附加助理设备两者处检测的多个历史声学事件,预期经由所述附加助理设备的所述一个或多个附加麦克风对所述附加音频数据的检测。17.根据前述权利要求中的任一项所述的方法,进一步包括:经由所述助理设备的所述一个或多个麦克风来检测捕获后续声学事件的后续音频数据;使用所述事件检测模型来处理捕获所述后续声学事件的所述后续音频数据,以生成与所述后续声学事件相关联的后续...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。