对自主系统进行安全且有效的超控的系统和方法技术方案

技术编号:32868882 阅读:25 留言:0更新日期:2022-04-02 11:56
描述了一种用于自主系统的胜任力评估的系统。所述系统提取表示情境的语义概念。将自主系统采取的动作与在情境中采取所述动作时激活的语义概念集合相关联。所述系统测量在情境中采取的动作的结果并生成奖励度量。将表示情境的语义概念连同在情境中采取的动作和奖励度量一起存储为记忆。基于记忆的回忆生成前瞻性模拟结果。确定胜任力度量和经验度量。当胜任力度量和经验度量中的至少一者高于最小值时,维持对自主系统的胜任力操作控制。当胜任力度量和经验度量中的至少一者低于最小值时,生成警报。生成警报。生成警报。

【技术实现步骤摘要】
【国外来华专利技术】对自主系统进行安全且有效的超控的系统和方法
[0001]相关申请的交叉引用
[0002]本申请是2019年9月26日在美国提交的名称为“System and Method for Autonomous System Introspection”的美国临时申请No.62/906,269的非临时申请,其全部内容通过引用并入本文。
[0003]专利技术背景
[0004](1)

[0005]本专利技术涉及一种用于自主系统的胜任力评估(competency assessment)的系统,并且更具体地,涉及以下用于自主系统的胜任力评估的系统,该系统能够在预测到低胜任力的情况下启动到人类或辅助系统的移交。
[0006](2)相关技术描述
[0007]自主系统需要不断估计其处理即将发生的情况的能力。胜任力估计和警告的现有技术(诸如Daftry等人(参见并入的参考文献列表中的参考文献No.9))使用了深度学习,深度学习只在明确定义且受控的情况下才能运行良好、仅基于提前一帧的运动学投影并且无法评估对于假设的未来情况的胜任力。
[0008]Kansky等人(参见参考文献No.4)表明,即使是输入的细微变化也可能导致深度网络的灾难性故障。该领域没有成熟的方法来解决深度网络对输入(或低级特征)的微小变化过度敏感的问题。因此,现有技术无法针对假设情况和新情况来评估胜任力。此外,现有技术直接预测有偏差的胜任力度量,容易产生响应偏差。此外,现有技术没有评估经验深度。
[0009]因此,仍然需要如下系统:该系统不仅能够学习和适应并且在处理其尚未被训练或编程以进行处理的情况时表现出弹性适应,而且还能够知道它能够胜任地处理所述情况中的哪一种情况,以及何时寻求帮助。人类可以对知道其极限的机器更有信心。

技术实现思路

[0010]本专利技术涉及一种用于自主系统的胜任力评估的系统,并且更具体地,涉及以下用于自主系统的胜任力评估的系统,该系统能够在预测到低胜任力的情况下启动到人类或辅助系统的移交。所述系统包括非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,所述一个或更多个处理器执行多个操作。所述系统提取表示情境的多个语义概念。将所述自主系统采取的动作与在所述情境中采取所述动作时激活的语义概念集合相关联。使用所述自主系统的性能的任务特定奖励函数,所述系统测量在所述情境中采取的所述动作的结果并生成奖励度量。将表示所述情境的所述多个语义概念连同在所述情境中采取的所述动作和所述奖励度量一起存储为记忆。基于所述记忆的回忆生成前瞻性模拟结果。基于所述前瞻性模拟结果,所述系统确定表示所述自主系统在所述情境中的胜任力的胜任力度量和表示所述自主系统在所述情境中的经验的经验度量中的至少一者。当所述胜任力度量和所述经验度量中的至少一者高于建立的最小允许值时,维持对所述自主系统的有胜任力操作控制。当所述胜任力度量和所述经验度量中的至少一者低于所述建立的最小允许值时,生成警报。
[0011]在另一方面,所述系统确定经验深度估计结果,所述经验深度估计结果表示在以任务目标为条件的已学习潜在空间中的任何点处的访问密度。
[0012]在另一方面,所述胜任力度量是基于受试者

操作者特性(Receiver

Operator Characteristic,ROC)曲线的胜任力度量。
[0013]在另一方面,当所述胜任力度量和所述经验度量中的至少一者低于建立的最小允许值时,所述系统启动将对所述自主系统的控制移交给用户。
[0014]在另一方面,当所述胜任力度量和所述经验度量中的至少一者低于建立的最小允许值时,所述系统启动将控制从人类用户移交给辅助系统。
[0015]在另一方面,所述自主系统是自主驾驶系统。
[0016]最后,本专利技术还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括被存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令可以由具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,所述计算机实现的方法包括使计算机执行这些指令并执行所得操作的动作。
附图说明
[0017]根据本专利技术的各个方面的以下详细描述,结合参考以下附图,本专利技术的目的、特征和优点将显而易见,在附图中:
[0018]图1是描绘了根据本公开的一些实施方式的用于自主系统的胜任力评估的系统的部件的框图;
[0019]图2是根据本公开的一些实施方式的计算机程序产品的例示图;
[0020]图3是根据本公开的一些实施方式的用于自主系统自省的方法的操作的例示图;
[0021]图4是根据本公开的一些实施方式的动作生成器的训练的例示图;
[0022]图5是根据本公开的一些实施方式的情节世界模型如何基于经有效编码的过去经验来预测未来的例示图;
[0023]图6A例示了根据本公开的一些实施方式的在两千万个帧上训练的代理的前瞻性模拟结果的真实分布和诱饵奖励分布;
[0024]图6B例示了根据本公开的一些实施方式的在一百万个帧上训练的代理的前瞻性模拟结果的真实分布和诱饵奖励分布;
[0025]图6C例示了根据本公开的一些实施方式的根据二十个真实情节(episode)中的各个真实情节的模拟结果中得出的平均受试者操作特征(ROC)曲线;以及
[0026]图6D例示了根据本公开的一些实施方式的来自二十个真实情节的ROC曲线下面积(AUC)分数的分布。
具体实施方式
[0027]本专利技术涉及一种用于自主系统的胜任力评估的系统,并且更具体地,涉及一种能够学习并适应新情况的自主系统的胜任力评估的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本专利技术并将其并入特定应用的上下文中。对于本领域技术人员而言,各种修改以及在不同应用中的多种用途将显而易见,并且本文定义的一般原理可以被应用
Scalable Neural Turing Machines through HyperNEAT.”International Conference on the Applications of Evolutionary Computation,750

766.
[0041]8.Daftry,S.,Zeng,S.,Bagnell,J.A.,and Hebert,M.(2016).“Introspective Perception:Learning to Predict Failures in Vision Systems.”In 2016IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),1743

1750.
[0042]9.Mnih,V.,Kavukcuoglu,K.,Silver本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对自主系统进行安全且有效的超控的系统,所述系统包括:非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,所述一个或更多个处理器执行以下操作:提取表示情境的多个语义概念;将所述自主系统采取的动作与在所述情境中采取所述动作时激活的语义概念集合相关联;使用所述自主系统的性能的任务特定奖励函数,测量在所述情境中采取的所述动作的结果并生成奖励度量;将表示所述情境的所述多个语义概念连同在所述情境中采取的所述动作和所述奖励度量一起存储为记忆;基于所述记忆的回忆生成前瞻性模拟结果;基于所述前瞻性模拟结果,确定表示所述自主系统在所述情境中的胜任力的胜任力度量和表示所述自主系统在所述情境中的经验的经验度量中的至少一者;当所述胜任力度量和所述经验度量中的至少一者高于建立的最小允许值时,维持对所述自主系统的胜任力操作控制;以及当所述胜任力度量和所述经验度量中的至少一者低于所述建立的最小允许值时,生成警报。2.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行以下操作:确定经验深度估计结果,所述经验深度估计结果表示在以任务目标为条件的已学习潜在空间中的任何点处的访问密度。3.根据权利要求1所述的系统,其中,所述胜任力度量是基于受试者

操作者特性(ROC)曲线的胜任力度量。4.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行以下操作:当所述胜任力度量和所述经验度量中的至少一者低于所述建立的最小允许值时,启动将对所述自主系统的控制移交给人类用户。5.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行以下操作:当所述胜任力度量和所述经验度量中的至少一者低于所述建立的最小允许值时,启动将控制从人类用户移交给辅助系统。6.根据权利要求1所述的系统,其中,所述自主系统是自主驾驶系统。7.一种对自主系统进行安全且有效的超控的计算机实现的方法,所述方法包括以下动作:使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令,使得在执行时,所述一个或更多个处理器执行以下操作:提取表示情境的多个语义概念;将所述自主系统采取的动作与在所述情境中采取所述动作时激活的语义概念集合相关联;使用所述自主系统的性能的任务特定奖励函数,测量在所述情境中采取的所述动作的结果并生成奖励度量;将表示所述情境的所述多个语义概念连同在所述情境中采取的所述动作和所述奖励
度量一起存储为记忆;基于所述记忆的回忆生成前瞻性模拟结果;基于所述前瞻性模拟结果,确定表示所述自主系统在所述情境中的胜任力的胜任力度量和表示所述自主系统在所述情境中的经验的经验度量中的至少一者;当所述胜任力度量和所述经验度量中的至少一者高于建立的最小允许值时,维持对所述自主系统的胜任力操作控制;以及当所述胜任力度量和所述经验度量中的至少一者低于所述建立的最小允许值时,生成警报。8.根据权利要求7所述的方法...

【专利技术属性】
技术研发人员:P
申请(专利权)人:赫尔实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1