用于多方交互的多模态波束成形和注意力过滤制造技术

技术编号：35893625 阅读：14 留言：0更新日期：2022-12-10 10:26

披露了用于创建环境视图的系统和方法。示例性实施方式可以：从位于计算设备中的一个或多个麦克风、一个或多个成像设备、雷达传感器、激光雷达传感器、和/或一个或多个红外成像设备中的至少两个接收参数和测量值；分析从该多模态输入接收的这些参数和测量值；生成该计算设备周围的环境的世界地图；以及定期地重复从这些输入设备接收参数和测量值以及分析的步骤，以维护该环境的持久世界地图。以维护该环境的持久世界地图。以维护该环境的持久世界地图。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于多方交互的多模态波束成形和注意力过滤
相关申请
[0001]本申请要求2020年2月29日提交的名称为“Multimodal Beamforming and Attention Filtering for Multiparty Interactions[用于多方交互的多模态波束成形和注意力过滤]”的美国临时专利申请序列号62/983,595和2021年2月27日提交的名称为“Multimodal Beamforming and Attention Filtering for Multiparty Interactions[用于多方交互的多模态波束成形和注意力过滤]”的美国临时专利申请序列号63/154,727的优先权，这两个申请的披露内容通过引用并入本文。

[0002]本披露涉及用于使用元信息和其他信息来确定用户在与机器人计算设备的会话交互中的优先级以及还有用于使用降噪技术的系统和方法。

技术介绍

[0003]会话代理或系统的生态上有效的环境可能嘈杂、人满为患且导航复杂。当前系统无法滤除来自其他源的不必要输入。另外，对于当前的会话代理或系统，如果用户说出唤醒词或以其他方式意外地称呼会话代理(例如，像Alexa)，则会话代理无法忽略输入，并将对其作出错误反应或响应它。进一步地，在当前的会话代理中，所有用户都是一样的，并且未使用元信息来利用主要目标用户。
[0004]当前会话代理的另一个限制是，当前代理只有一种模式，其接收来自每个用户的输入，并且还给予每个用户相同的优先级和关注。当前会话代理的...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种创建环境视图的方法，该方法包括：访问来自一个或多个存储器设备的计算机可读指令以供该计算设备的一个或多个处理器执行；由该计算设备的一个或多个处理器执行从该一个或多个存储器设备访问的计算机可读指令；并且其中，执行这些计算机可读指令进一步包括：在该计算设备的渲染器模块处接收话音文件、视觉效果文件、面部表情文件和/或移动性文件；从位于计算设备中的一个或多个麦克风、一个或多个成像设备、雷达传感器、激光雷达传感器、和/或一个或多个红外成像设备中的至少两个接收参数和测量值；分析从该多模态输入接收的这些参数和测量值；生成该计算设备周围的环境的世界地图，该世界地图包括一个或多个用户和物体；定期地重复从这些输入设备接收参数和测量值以及分析的步骤，以维护该环境的持久世界地图；以及使用所接收的参数和测量值来跟踪该一个或多个用户的互动，以确定与该计算设备互动的一个或多个用户。2.如权利要求1所述的方法，其中，执行这些计算机可读指令进一步包括：从该一个或多个麦克风接收一个或多个话音文件；以及识别该世界地图中传达该一个或多个话音文件的用户；以及如果确定该用户未与该计算设备互动，则不与该用户交流。3.如权利要求1所述的方法，其中，执行这些计算机可读指令进一步包括：从该一个或多个存储器设备中检索用户的特性；将该用户的特性与该持久世界地图中的一个或多个用户的特性进行比较，以在该一个或多个用户中识别目标用户。4.如权利要求3所述的方法，其中，该用户的特性包括用户的姓名或身份、用户的历史、用户的身体特性、或用户的优先级状态。5.如权利要求1所述的方法，其中，执行这些计算机可读指令进一步包括：从该一个或多个用户接收声音到达方向测量值；以及滤除来自该一个或多个用户中未与该计算设备互动的任何用户的声音或声音文件。6.如权利要求5所述的方法，其中，执行这些计算机可读指令进一步包括：在滤除声音或声音文件之后，确定先前互动用户之一不再与该计算设备互动；以及关闭对声音或声音文件的滤除以允许处理这些声音或声音文件。7.如权利要求5所述的方法，其中，响应于接收到一个或多个全局命令，可以停止对声音或声音文件的滤除。8.如权利要求5所述的方法，其中，一个或多个全局命令的接收可以允许该计算设备滤除来自这些互动用户之一的声音文件。9.如权利要求5所述的方法，其中，执行这些计算机可读指令进一步包括：停用对未互动用户的声音或声音文件的滤除；以及基于该计算设备的一般上下文分析这些未互动用户的声音文件以重新评定是否应处
理这些未互动用户的声音或声音文件。10.如权利要求1所述的方法，其中，执行这些计算机可读指令进一步包括：从该一个或多个麦克风接收一个或多个声音文件；从该一个或多个成像设备接收图像文件；分析来自该一个或多个成像设备的图像文件以识别该一个或多个用户中正在说话的用户；以及将该一个或多个声音文件指派给被识别为正在说话的用户的一个或多个用户。11.如权利要求1所述的方法，其中，执行这些计算机可读指令进一步包括：确定该一个或多个用户的互动水平；以及基于该互动水平为该计算设备指派优先级队列以响应或参与这些用户的会...

【专利技术属性】
技术研发人员：保罗，
申请(专利权)人：具象有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人