【技术实现步骤摘要】
预测计算机控制实体的状态
专利
[0001]本专利技术涉及一种计算机实现的方法,用于通过预测计算机控制实体或其环境的未来状态来使能对计算机控制实体的控制或对计算机控制实体进行监视。本专利技术进一步涉及一种用于训练预测系统的方法、一种用于使能对计算机控制实体的控制或对计算机控制实体进行监视的预测系统、一种用于训练预测系统的训练系统以及一种暂时性或非暂时性计算机可读介质。
技术介绍
[0002]计算机控制实体通常基于其当前状态进行控制,其当前状态经常从传感器数据确定。越来越多地,计算机控制实体的状态可以通过使用训练的或机器学习的模型来预测。这样的模型的常见示例是其中基于例如基于全球定位系统(GPS)数据等的当前位置预测诸如机器人、汽车或无人机之类的自主代理的移动的模型。作为自主代理的这样的计算机控制实体通常耦合到或包括至少一个传感器——用于收集从中可以推断当前状态的数据,以及至少一个致动器——可以用于执行影响计算机控制实体和/或其环境的动作。例如,当前状态可以是诸如车辆速度的物理状态,或者诸如表示车辆剩余范围的参数的物理状态和内部
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法(500),用于通过使用指示在环境中操作的计算机控制实体和/或其环境的当前状态的传感器数据预测计算机控制实体和/或其环境的未来状态,来使能对计算机控制实体的控制或对计算机控制实体进行监视,所述方法包括:
‑
接收(510)指示计算机控制实体和/或其环境的当前状态的传感器数据;
‑
访问(520)用于近似随机微分方程的漂移分量的第一训练神经网络和用于近似随机微分方程的扩散分量的第二训练神经网络;
‑
将随机微分方程离散化(530)成时间步长,其中离散化的随机微分方程将计算机控制实体和/或其环境的第二状态定义为取决于计算机控制实体的当前状态以及在当前状态的时间步长k与第二状态的时间步长k+1之间的时间间隔;
‑
基于离散化获得(540)时间演变的均值函数和时间演变的协方差函数,其中在任何时间t,计算机控制实体和/或其环境的状态被表述为由时间t处的均值和时间t处的协方差定义的分布;
‑
获得(550)计算机控制实体和/或其环境的当前状态的概率分布,所述概率分布由当前均值和当前协方差定义;
‑
通过以下各项确定(560)计算机控制实体和/或其环境的第二状态的转移概率分布:
‑
通过使用当前均值对时间演变的均值函数进行展开来估计(570)第二状态的均值,
‑
使用第二状态的估计均值和当前协方差来估计(580)第二状态的协方差。2.根据权利要求1所述的方法,其中所述随机微分方程的离散化是欧拉
‑
丸山离散化。3.根据权利要求1或权利要求2所述的方法,其中估计第二状态的均值包括以下各项中的一个:
‑
使用诸如一阶泰勒展开的线性展开,来展开时间演变的均值函数;和
‑
使用容积近似。4.根据任一前述权利要求所述的方法,其中估计第二状态的协方差包括使用容积近似。5.根据任一前述权利要求所述的方法,进一步包括从所确定的转移概率分布进行采样,以获得对于第二状态的预测。6.根据任一前述权利要求所述的方法,进一步包括输出所确定的转移概率分布的均值作为预测,以及输出所确定的转移概率分布的协方差作为所述预测的置信度值。7.根据任一前述权利要求所述的方法,进一步包括为致动器生成控制数据。8.根据任一前述权利要求所述的方法,其中所述当前均值被初始化为当前状态的测量值,并且所述当前协方差被初始化为由任意小的正值()缩放的单位矩阵。9.根据任一前述权利要求所述的方法,进一步包括通过迭代地进行如下各项,基于对紧接在前状态的预测,顺序地近似计算机控制实体和/或其环境的至少一个另外的状态:
‑
选择所述至少一个另外的状态的新状态x(i)作为紧接在最后预测状态x(i
‑
1)之后的状态,
‑
通过使用为最后预测状态x(i
‑
1)确定的均值来估计对于新状态x(i)的均值,
‑
使用对于新状态x(i)的估计均值和为最后预测状态x(i
‑
1)确定的协方差来估计对于新状态x(i)的协方差,以及
‑
使用估计的均值和估计的协方差来确定新状态的转移概率分布。
10.一种用于训练机器可学习模型的计算机实现的方法(600),所述机器可学习模型供在控制或监视计算机控制实体和/或其环境中使用,其中所述模型被训练以基于指示计算机控制实体和/或其环境的当前状态的传感器数据来预测计算机控制实体和/或其环境的未来状态,所述机器可学习模型包括用于近似随机微分方程的漂移分量的第一神经网络和用于近似随机微分方程的扩散分量的第二神经网络,所述方法包括:
‑
获得(610)N个观测的集合,每个观测包括时间步长和指示计算机控制实体和/或其环境在所述时间步长的状态的变量;
‑
获得(620)随机微分方程的离散化;
‑
基于随机微分方程的离散化获得(630)时间演变的均值函数和时间演变的协方差函数;
‑
获得(640)第一神经网络、第二神经网络和用于第一神经网络和第二神经网络中的每一个的权重集合;
‑
使用最大似然估计为第一神经网络和第二神经网络中的每一个确定(650)最优权重集合,以在给定权重集合的情况下最大化N个观测的集合的概率,其中最大似然估计包括迭代地执行以下步骤:
‑
近似(660)与计算机控制实体和/或其环境在N个观测的集合的每个时间步长n的状态相对应的变量的概率分布;
‑
对于每个时间步长n:
‑
使用对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。