【技术实现步骤摘要】
【国外来华专利技术】利用第一原则和约束进行有效、连续和安全学习的系统和方法相关申请的交叉引用本申请要求于2018年11月16日提交的申请号为62/768,467、专利技术名称为“利用第一原则和约束进行有效、连续和安全学习的系统和方法”的美国临时申请的优先权,其全部内容通过引用结合在本申请中。
本公开的实施例涉及机器学习领域,并且具体地,涉及利用第一原则和约束进行有效、连续和安全学习的系统和方法。
技术介绍
机器学习是一种计算机程序,其可以在没有人为干扰的情况下学习并适应新数据。深度学习是机器学习的子集。深度学习是一种人工智能(artificialintelligence,AI)功能,它模仿人脑在处理数据和创建模式用于决策方面的工作。例如,深度学习可以通过归纳解决方案来从新的、尚未被观察到的状态(或情境输入)中推断出结果。传统上,深度学习已用于图像和语音识别。强化学习(reinforcementlearning,RL)是通过反复试验进行学习的过程,以发现哪些动作可以产生最佳结果。与监督式机器学习基于已知正确答案来训 ...
【技术保护点】
1.一种用于控制系统的自学习的计算机实现的方法,所述方法包括:/n创建初始知识库;/n使用所述知识库学习第一原则;/n创建从所述知识库导出的初始控制命令;/n生成用于所述控制命令的约束;/n通过执行具有所述约束的所述控制命令并观察反馈,执行约束强化学习以改善所述控制命令;以及/n基于所述反馈来丰富所述知识库。/n
【技术特征摘要】
【国外来华专利技术】20181116 US 62/768,4671.一种用于控制系统的自学习的计算机实现的方法,所述方法包括:
创建初始知识库;
使用所述知识库学习第一原则;
创建从所述知识库导出的初始控制命令;
生成用于所述控制命令的约束;
通过执行具有所述约束的所述控制命令并观察反馈,执行约束强化学习以改善所述控制命令;以及
基于所述反馈来丰富所述知识库。
2.根据权利要求1所述的方法,其中创建从所述知识库导出的初始控制命令包括:
通过所述知识库中的数据挖掘,建立系统动力学和运动学参数与控制参数之间的关系,其中,所述动力学和运动学参数是使用简化的动力学和运动学公式来计算的;以及
基于所述动力学和运动学参数,生成所述初始控制命令。
3.根据权利要求1所述的方法,其中创建从所述知识库导出的初始控制命令包括:
根据当前状态和目标状态,将初始控制命令细分为所述初始控制命令的各个组成部分;
为所述初始控制命令的各个组成部分创建相应的查询项;
从所述知识库中为每个查询项检索对应的查询结果;以及
组合多个查询结果以生成所述初始控制命令。
4.根据权利要求3所述的方法,其中,所述多个查询结果是根据分配给所述初始控制命令的各个组成部分的相应权重来组合的。
5.根据权利要求1至4中的任一项所述的方法,其中,用于所述控制命令的约束包括规定不能被逾越的条件的硬约束。
6.根据权利要求1至5中的任一项所述的方法,其中,用于所述控制命令的约束包括指定优选条件的软约束。
7.根据权利要求1至6中的任一项所述的方法,其中,生成用于所述控制命令的约束包括:
基于操作环境的状态生成约束项的第一子集;
基于主机的状态和目标状态,生成用于一组过滤的移动物体的约束项的第二子集;
生成用于一组过滤的固定障碍物的约束项的第三子集;以及
组合所述约束项的第一子集、所述约束项的第二子集以及所述约束项的第三子集。
8.根据权利要求1至7中的任一项所述的方法,其中,执行所述约束强化学习以改善所述控制命令包括:
将所述控制命令分解为多个类别和维度,以便分别学习每个类别和维度中的控制命令;
基于所述初始控制命令,生成控制命令候选;
将所述约束应用于所述控制命令候选;以及
如果状态已被学习,则基于过去的经验来完善所述控制命令,否则,
使学习的状态的结果适应新环境。
9.根据权利要求1至8中的任一项所述的方法,其中,基于所述反馈来丰富所述知识库包括:完善所述知识库的动力学和运动学模型的表现。
10....
【专利技术属性】
技术研发人员:刘立峰,朱颖璇,张军,殷晓田,李剑,陶永祥,梁达尧,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。