用于多方交互的多模态波束成形和注意力过滤制造技术

技术编号:35893625 阅读:14 留言:0更新日期:2022-12-10 10:26
披露了用于创建环境视图的系统和方法。示例性实施方式可以:从位于计算设备中的一个或多个麦克风、一个或多个成像设备、雷达传感器、激光雷达传感器、和/或一个或多个红外成像设备中的至少两个接收参数和测量值;分析从该多模态输入接收的这些参数和测量值;生成该计算设备周围的环境的世界地图;以及定期地重复从这些输入设备接收参数和测量值以及分析的步骤,以维护该环境的持久世界地图。以维护该环境的持久世界地图。以维护该环境的持久世界地图。

【技术实现步骤摘要】
【国外来华专利技术】用于多方交互的多模态波束成形和注意力过滤
相关申请
[0001]本申请要求2020年2月29日提交的名称为“Multimodal Beamforming and Attention Filtering for Multiparty Interactions[用于多方交互的多模态波束成形和注意力过滤]”的美国临时专利申请序列号62/983,595和2021年2月27日提交的名称为“Multimodal Beamforming and Attention Filtering for Multiparty Interactions[用于多方交互的多模态波束成形和注意力过滤]”的美国临时专利申请序列号63/154,727的优先权,这两个申请的披露内容通过引用并入本文。


[0002]本披露涉及用于使用元信息和其他信息来确定用户在与机器人计算设备的会话交互中的优先级以及还有用于使用降噪技术的系统和方法。

技术介绍

[0003]会话代理或系统的生态上有效的环境可能嘈杂、人满为患且导航复杂。当前系统无法滤除来自其他源的不必要输入。另外,对于当前的会话代理或系统,如果用户说出唤醒词或以其他方式意外地称呼会话代理(例如,像Alexa),则会话代理无法忽略输入,并将对其作出错误反应或响应它。进一步地,在当前的会话代理中,所有用户都是一样的,并且未使用元信息来利用主要目标用户。
[0004]当前会话代理的另一个限制是,当前代理只有一种模式,其接收来自每个用户的输入,并且还给予每个用户相同的优先级和关注。当前会话代理的进一步限制是,当前会话代理利用声音的到达方向来改善嘈杂环境中的音频输入,但它们无法主动进一步优化该输入并降噪。因此,用于解决会话代理和/或系统的这些问题和限制的改进系统是必要的。

技术实现思路

[0005]在参考附图考虑以下描述和所附权利要求时,这些和其他特征和本专利技术技术的特性、以及相关结构元素的操作方法和功能、以及零件的组合与制造的经济性将变得更加显而易见,所有附图形成本说明书的一部分,在附图中,相同的附图标记表示各个附图中的对应部分。然而,将明确了解的是,附图仅出于说明和描述的目的,而不旨在作为对本专利技术的限制的限定。如在本说明书和权利要求中所使用的,除非上下文中另外明确指明,否则单数形式的“一个(a)”、“一个(an)”以及“该(the)”包括复数对象。
附图说明
[0006]图1A图示了根据一种或多种实施方式的用于与儿童和/或父母互动的社交机器人或数字伴侣的系统。
[0007]图1B图示了根据一种或多种实施方式的社交机器人或数字伴侣。
[0008]图1C图示了根据一种或多种实施方式的儿童与社交机器人或数字伴侣互动的系
统中的模块或子系统。
[0009]图2图示了根据一些实施方式的示例性机器人计算设备的系统架构。
[0010]图3A图示了根据一些实施方式的多模态波束成形和注意力过滤系统中的模块;
[0011]图3B图示了根据一种或多种实施方式的被配置用于创建环境视图的系统;
[0012]图4A图示了根据一种或多种实施方式的确定交流互动的方法;
[0013]图4B图示了根据一种或多种实施方式的在机器人计算设备与(多个)用户之间的交流交互期间过滤声音的方法;
[0014]图4C图示了根据一些实施方式的在会话交互中指派互动水平的方法;
[0015]图4D图示了根据一些实施方式的使用多模态波束成形和注意力过滤系统来增强交流交互和互动的多种方法;以及
[0016]图5A图示了根据一些实施例的包括多个用户、一个或多个物体、移动生物体和/或机器人计算设备的环境。
具体实施方式
[0017]以下详细描述根据本文披露的实施例提供了对在本披露中描述的专利技术的特征和优点的更好了解。尽管详细描述包括许多具体实施例,但这些仅作为示例提供并且不应被解释为限制本文所披露的专利技术的范围。
[0018]在一些实施方式中,多模态波束成形系统和/或注意力过滤系统是会话代理、会话引擎或会话系统的一部分,和/或被包括在其中。在一些实施方式中,会话代理、会话引擎或会话系统可以位于或驻留在计算设备内。在一些实施方式中,计算设备可以是机器人计算设备、数字伴侣、包括话音识别软件和/或声音识别软件的计算设备、和/或包括面部检测和识别软件和/或面部表情软件的计算设备。在说明书和权利要求中,术语“会话代理”、“会话引擎”和/或“会话系统”可以互换使用。在说明书和权利要求中,术语“机器人计算设备”、“数字伴侣”和/或“机器人”可以互换使用。
[0019]当前的会话代理只有一种模式,其接收来自每个用户的输入,每个用户具有相同的优先级和注意力。在一些实施方式中,本文描述和要求保护的会话代理和/或系统提供了优于当前系统的许多优点。如上文所讨论的,当前的会话代理或系统利用声音的到达方向来改进嘈杂环境中的音频输入,然而,本文描述和要求保护的会话代理和/或系统使用声音的到达方向来滤除不相关或无用的语音,并且一次只刻意关注一个目标用户。另外,本文描述的会话代理能够跟踪和理解包括会话代理的计算设备所在的环境,并且可以使用一个或多个传感器来辅助完成该任务并维护会话代理周围的世界的模型(例如,世界地图)。通过拥有世界地图并了解哪些用户参与了互动,这将允许会话代理或系统忽略突然来自与互动用户所在位置不同方向的输入。
[0020]虽然一些当前会话代理具有相机(例如,Facebook Portal、Echo Show),但当两个用户出现在画面中时这些会话代理无法评定谁在说话,并且无法清楚地将语音归属于确切的说话者。本文描述和要求保护的会话代理可以评定谁在说话,以及要清楚地将哪些语音归属于确切的说话者。另外,可以利用用户的声纹或其他特性来随时间跟踪说话者的活动模式和身份。本文描述的会话代理或系统的另一个优点是会话代理能够区分更高优先级的输入和/或还能够在变化的交互类型(单人与多人)期间改变其模式。
[0021]在一些实施方式中,会话代理或系统利用视频输入来改进嘈杂环境中的自动语音识别(ASR)结果。在一些实施方式中,会话代理或系统可以使用面部表情分析来识别嘴巴是否在移动(就像在讲话期间那样),并且还可以使用唇读来理解用户可能在说什么。在一些实施方式中,如果噪声水平太高,当前的会话代理或系统会失败,在噪声太大的环境中工作时无法识别问题,甚至可能忽略这个问题。
[0022]本文描述和要求保护的会话代理和/或系统包括用于针对与用户的二元和多方交互进行多模态信号波束成形和滤波的算法和系统。在一些实施方式中,本文描述和要求保护的会话代理和/或系统使交互式机器能够在广泛的社交情境中自然且高效地进行交流。
[0023]在一些实施方式中,会话代理或系统可以安装在机器人计算设备、数字伴侣、包括语音识别软件的计算设备、包括面部和手势识别软件的计算设备、和/或通过话音和/或成像与人类用户交互的计算设备中,或与其驻留在一起。在一些实施方式中,会话代理和/或系统可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种创建环境视图的方法,该方法包括:访问来自一个或多个存储器设备的计算机可读指令以供该计算设备的一个或多个处理器执行;由该计算设备的一个或多个处理器执行从该一个或多个存储器设备访问的计算机可读指令;并且其中,执行这些计算机可读指令进一步包括:在该计算设备的渲染器模块处接收话音文件、视觉效果文件、面部表情文件和/或移动性文件;从位于计算设备中的一个或多个麦克风、一个或多个成像设备、雷达传感器、激光雷达传感器、和/或一个或多个红外成像设备中的至少两个接收参数和测量值;分析从该多模态输入接收的这些参数和测量值;生成该计算设备周围的环境的世界地图,该世界地图包括一个或多个用户和物体;定期地重复从这些输入设备接收参数和测量值以及分析的步骤,以维护该环境的持久世界地图;以及使用所接收的参数和测量值来跟踪该一个或多个用户的互动,以确定与该计算设备互动的一个或多个用户。2.如权利要求1所述的方法,其中,执行这些计算机可读指令进一步包括:从该一个或多个麦克风接收一个或多个话音文件;以及识别该世界地图中传达该一个或多个话音文件的用户;以及如果确定该用户未与该计算设备互动,则不与该用户交流。3.如权利要求1所述的方法,其中,执行这些计算机可读指令进一步包括:从该一个或多个存储器设备中检索用户的特性;将该用户的特性与该持久世界地图中的一个或多个用户的特性进行比较,以在该一个或多个用户中识别目标用户。4.如权利要求3所述的方法,其中,该用户的特性包括用户的姓名或身份、用户的历史、用户的身体特性、或用户的优先级状态。5.如权利要求1所述的方法,其中,执行这些计算机可读指令进一步包括:从该一个或多个用户接收声音到达方向测量值;以及滤除来自该一个或多个用户中未与该计算设备互动的任何用户的声音或声音文件。6.如权利要求5所述的方法,其中,执行这些计算机可读指令进一步包括:在滤除声音或声音文件之后,确定先前互动用户之一不再与该计算设备互动;以及关闭对声音或声音文件的滤除以允许处理这些声音或声音文件。7.如权利要求5所述的方法,其中,响应于接收到一个或多个全局命令,可以停止对声音或声音文件的滤除。8.如权利要求5所述的方法,其中,一个或多个全局命令的接收可以允许该计算设备滤除来自这些互动用户之一的声音文件。9.如权利要求5所述的方法,其中,执行这些计算机可读指令进一步包括:停用对未互动用户的声音或声音文件的滤除;以及基于该计算设备的一般上下文分析这些未互动用户的声音文件以重新评定是否应处
理这些未互动用户的声音或声音文件。10.如权利要求1所述的方法,其中,执行这些计算机可读指令进一步包括:从该一个或多个麦克风接收一个或多个声音文件;从该一个或多个成像设备接收图像文件;分析来自该一个或多个成像设备的图像文件以识别该一个或多个用户中正在说话的用户;以及将该一个或多个声音文件指派给被识别为正在说话的用户的一个或多个用户。11.如权利要求1所述的方法,其中,执行这些计算机可读指令进一步包括:确定该一个或多个用户的互动水平;以及基于该互动水平为该计算设备指派优先级队列以响应或参与这些用户的会...

【专利技术属性】
技术研发人员:保罗
申请(专利权)人:具象有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1