用于自动做出决策的方法技术

技术编号:18465744 阅读:52 留言:0更新日期:2018-07-18 15:53
本发明专利技术涉及一种用于对在情景上下文中实施动作自动做出决策的方法。根据本发明专利技术的方法可以使用在自主系统、诸如具有一个或多个动作的机器人中,以便对在给定的时间点应由机器人实施所述动作中的哪些动作进行决策。根据本发明专利技术的方法适合于对实施动作进行决策,动作的实施需求不仅取决于瞬时测量值而且取决于测量值的时间过程。

A method for making automatic decision making

The invention relates to a method for automatically making actions in scenario context. The method in accordance with the present invention can be used in an autonomous system, such as a robot with one or more actions, so as to make decisions on which actions in the action of the robot should be implemented by the robot at a given time point. According to the method of the present invention, it is suitable to make decisions on the execution of the action. The implementation requirement of the action depends not only on the instantaneous measurement value but also on the time process of the measured value.

【技术实现步骤摘要】
【国外来华专利技术】用于自动做出决策的方法
本专利技术涉及一种根据权利要求1所述的用于对在情景上下文(situativerKontext)中实施动作自动做出决策的方法。此外,本专利技术涉及一种根据权利要求11所述的受程序控制的机器,用于执行根据本专利技术的方法。根据本专利技术的方法可以使用在自主系统、诸如具有一个或多个动作的机器人中,以便对在给定的时间点应由机器人实施所述动作中的哪些动作进行决策。根据本专利技术的方法适合于对实施动作进行决策,动作的实施需求不仅取决于瞬时测量值而且取决于测量值的时间过程。
技术实现思路
出发点是,情景上下文通过至少一个测量变量M来限定,所述测量变量可以通过至少一个传感器来检测。在此,所述传感器提供测量变量特定的测量值M(tk),所述测量值在时间过程中在限定的时间点t0、...、tm可用。通过人工神经网络,可以在当前的时间点ta基于直到时间点ta的测量值M(tk)(k=a,a-1,...,a-m)导出第一函数V1(ta)或回报值。函数V1(ta)反映对在时间点ta实施动作的瞬时需求。此外,第二函数V2(ta)或基本回报值可以被分配给在时间点ta的动作,该第二函数V2(ta)或基本回报值通过第一算法根据第一函数V1(ta)和时间上在前的V2(ta-1)的值来计算。函数V2(ta)反映对在时间点ta实施动作的累积的需求。这两个函数V1(ta)和V2(ta)也可以通过手动地引导受程序控制的机器或受程序控制的机器的一部分、尤其教学工具来创建和改进。由此,可以实现系统的自动序列生成和连续的改进。对在时间点ta实施动作的决策通过第二算法作出,该第二算法实现第三函数F(ta,M(ta),V1(ta),P1,P2)->{0,1},所述第三函数在时间点ta将在时间点ta的测量值与第一参数P1比较并且将在时间点ta的第二函数V2(ta)的值与第二参数P2比较。在此,P1是动作和测量变量特定的参数或极限测量值,所述动作和测量变量特定的参数或极限测量值根据测量变量是上阈值或下阈值,并且P2是动作特定的参数或极限回报值。根据本专利技术的方法的主要优点因此在于,不仅从瞬时测量值与极限测量值的比较而且从累积的基本回报值导出对实施动作的决策,其中必须超过或低于所述极限测量值,以便得到对实施动作的决策,所述累积的基本回报值由瞬时回报值聚合而成。在此,瞬时回报值也可以具有负值,使得累积的基本回报值在时间过程中不仅可以升高而且可以下降。如果累积的基本回报值升高超过基本回报值,那么也作出对实施动作的决策。此外,通过手动地引导受程序控制的机器或受程序控制的机器的一部分、尤其教学工具生成的值也可以被用于计算函数V1(ta)和V2(ta)。由此可以实现系统的自动序列生成和连续的改进,即可以通过手动干预(反馈回路)使序列生成能够学习,使得例如在将来也可以避免过去的失败。根据本专利技术的方法用于受程序控制的机器对在情景上下文中实施至少一个动作A自动做出决策。受程序控制的机器在此包括:•至少一个传感器,用于检测至少一个测量变量M,所述传感器在限定的时间点t0、...、tm提供所述测量变量M的测量值M(tk)(k=0,...,m);•至少一个人工神经网络(KNN),所述人工神经网络在当前时间点ta基于所述测量值M(tk)(k=a,a-1,...,a-m)导出第一函数V1(ta);•第一算法(Algo1),所述第一算法在时间点ta根据第一函数V1(ta)和时间上在前的V2(ta-1)的值计算第二函数V2(ta);•第二算法(Algo2),所述第二算法实现第三函数F(ta,M(ta),V2(ta),P1,P2)->{0,1},所述第三函数在时间点ta将在时间点ta的测量值M(ta)与第一参数P1比较并且将第二函数V2(ta)与第二参数P2比较;其中该方法在每个时间点ta(a>0)包括如下步骤:•通过传感器检测测量值M(ta),•通过人工神经网络(KNN)基于测量值M(tk)(k=a,a-1,...,a-m)导出第一函数V1(ta),•通过第一算法(Algo1)根据第一函数V1(ta)和第二函数的时间上在前的值V2(ta-1)计算第二函数V2(ta),通过第二算法(Algo2)根据第三函数F对实施动作A进行决策,•当第三函数F提供值1时实施动作A,•当第三函数F提供值1时使第二函数V2(ta)复位。在本专利技术的一种有利的实施方式中,第一算法(Algo1)将在时间点ta的第二函数V2(ta)的值计算为在时间点ta的第一函数V1(ta)的值与在在前的时间点ta-1的V2(ta-1)的值的和:V2(ta):=V1(ta)+V2(ta-1)。但是,当然也可能的是,第一算法(Algo1)将在时间点ta的第二函数V2(ta)的值计算为在时间点ta的第一函数V1(ta)的值与在在前的时间点ta-1的V2(ta-1)的值的积或差。也可能的是,第一参数P1和/或第二参数P2是时间相关的和/或与其他变量、尤其位置相关。在一种特别有利的实施方式中,通过多个传感器检测多个测量变量M,其中对实施唯一的动作A进行决策。也可能的是,通过一个传感器或多个传感器检测唯一的测量变量M,并且对实施多个动作A进行决策。当然也可设想的是,通过多个传感器检测多个测量变量M,并且对实施多个动作A进行决策。有利地,第一参数P1是上阈值或下阈值。最后,受程序控制的机器是固定安装的机器或移动式机器、尤其机器人,借助所述受程序控制的机器执行根据本专利技术的方法。本专利技术也涉及一种受程序控制的机器,用于执行根据权利要求1至10中之一所述的方法,其中受程序控制的机器包括:•至少一个传感器,用于检测至少一个测量变量M,所述传感器在限定的时间点t0、...、tm提供所述测量变量M的测量值M(tk)(k=0,...,m);•至少一个人工神经网络(KNN),所述人工神经网络在当前时间点ta基于所述测量值M(tk)(k=a,a-1,...,a-m)导出第一函数V1(ta);•第一算法(Algo1),所述第一算法在时间点ta根据第一函数V1(ta)和时间上在前的V2(ta-1)的值计算第二函数V2(ta);•第二算法(Algo2),所述第二算法实现第三函数F(ta,M(ta),V2(ta),P1,P2)->{0,1},所述第三函数在时间点ta将在时间点ta的测量值M(ta)与第一参数P1比较并且将第二函数V2(ta)与第二参数P2比较,并且当第三函数F提供值1时,在时间点ta实施动作A。附图说明根据本专利技术的方法现在借助实施例和根据图1的图表更详细地予以描述。具体实施方式在该实施例中,借助于该方法根据唯一的测量变量M对实施唯一的动作A进行决策。当然,根据本专利技术的方法也可以被用于根据唯一的测量变量M和/或多个测量变量M对实施唯一的动作A或多个动作A进行决策。根据本专利技术的方法例如将可以被使用在用于花园的自动灌溉系统中,该自动灌溉系统是在本专利技术意义上的受程序控制的机器。可能的动作A在此将可以是通过喷洒设备对花园进行灌溉。可能的测量变量M将是过去的100小时的降水量。测量变量M将可以通过传感器来检测,所述传感器在限定的时间点t0、...、tm提供相应的测量值M(tk)。针对动作A花园的灌溉和测量本文档来自技高网...

【技术保护点】
1.一种用于受程序控制的机器对在情景上下文中实施至少一个动作A自动做出决策的方法,其中所述受程序控制的机器包括:• 至少一个传感器,用于检测至少一个测量变量M,所述传感器在限定的时间点t0、...、tm提供所述测量变量M的测量值M(tk)(k=0, ... , m);• 至少一个人工神经网络(KNN),所述人工神经网络在当前时间点ta基于所述测量值M(tk) (k=a, a‑1, ... , a‑m)导出第一函数V1(ta);• 第一算法(Algo1),所述第一算法在时间点ta根据所述第一函数V1(ta)和时间上在前的V2(ta‑1)的值计算第二函数V2(ta);• 第二算法(Algo2),所述第二算法实现第三函数F(ta, M(ta), V2(ta), P1, P2)‑>{0,1},所述第三函数在时间点ta将在时间点ta的测量值M(ta)与第一参数P1比较并且将所述第二函数V2(ta)与第二参数P2比较;其中所述方法在每个时间点ta(a>0)包括如下步骤:• 通过所述传感器检测所述测量值M(ta),• 通过所述人工神经网络(KNN)基于所述测量值M(tk) (k=a, a‑1, ... , a‑m)导出所述第一函数V1(ta),• 通过所述第一算法(Algo1)根据所述第一函数V1(ta)和所述第二函数的时间上在前的值V2(ta‑1)计算所述第二函数V2(ta),• 通过所述第二算法(Algo2)根据所述第三函数F对实施所述动作A进行决策,• 当所述第三函数F提供值1时实施所述动作A,• 当所述第三函数F提供值1时使所述第二函数V2(ta)复位。...

【技术特征摘要】
【国外来华专利技术】2015.11.06 US 62/2517561.一种用于受程序控制的机器对在情景上下文中实施至少一个动作A自动做出决策的方法,其中所述受程序控制的机器包括:•至少一个传感器,用于检测至少一个测量变量M,所述传感器在限定的时间点t0、...、tm提供所述测量变量M的测量值M(tk)(k=0,...,m);•至少一个人工神经网络(KNN),所述人工神经网络在当前时间点ta基于所述测量值M(tk)(k=a,a-1,...,a-m)导出第一函数V1(ta);•第一算法(Algo1),所述第一算法在时间点ta根据所述第一函数V1(ta)和时间上在前的V2(ta-1)的值计算第二函数V2(ta);•第二算法(Algo2),所述第二算法实现第三函数F(ta,M(ta),V2(ta),P1,P2)->{0,1},所述第三函数在时间点ta将在时间点ta的测量值M(ta)与第一参数P1比较并且将所述第二函数V2(ta)与第二参数P2比较;其中所述方法在每个时间点ta(a>0)包括如下步骤:•通过所述传感器检测所述测量值M(ta),•通过所述人工神经网络(KNN)基于所述测量值M(tk)(k=a,a-1,...,a-m)导出所述第一函数V1(ta),•通过所述第一算法(Algo1)根据所述第一函数V1(ta)和所述第二函数的时间上在前的值V2(ta-1)计算所述第二函数V2(ta),•通过所述第二算法(Algo2)根据所述第三函数F对实施所述动作A进行决策,•当所述第三函数F提供值1时实施所述动作A,•当所述第三函数F提供值1时使所述第二函数V2(ta)复位。2.根据权利要求1所述的方法,其中所述第一算法(Algo1)将在时间点ta的所述第二函数V2(ta)的值计算为在时间点ta的所述第一函数V1(ta)的值与在在前的时间点ta-1的V2(ta-1)的值的和:V2(ta):=V1(ta)+V2(ta-1)。3.根据权利要求1或2所述的方法,其中所述第一参数P1是时间相关的。4.根据权利要求1至3之一所述的方法,其中所述第二...

【专利技术属性】
技术研发人员:L埃彻尔C穆尔HR弗鲁
申请(专利权)人:FP个人通用机器人公司
类型:发明
国别省市:瑞士,CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1