机器学习系统的更新技术方案

技术编号:16102519 阅读:16 留言:0更新日期:2017-08-29 22:50
本发明专利技术特别涉及一种用于更新机器学习系统的模型的计算机实现的方法。所述方法包括提供相似事件的第一观察集合,每个观察与一个或多个变量和目标值关联,每个变量与值关联;利用每个观察对应的一个或多个变量和目标值来索引第一集合的每个观察;接收允许选择所述第一观察集合的子集的针对所述索引的查询;返回所述第一观察集合的子集作为所述查询的结果;提供第二模型;利用所述第一观察集合的被返回的子集来训练所提供的第二模型;以及加载所训练的第二模型。

【技术实现步骤摘要】
机器学习系统的更新
本专利技术涉及计算机程序及系统领域,尤其是一种用于更新机器学习系统的方法、系统及程序。
技术介绍
推荐用于工程中所做的决策。譬如,在正在进行卫星发射中,需要推荐紧急动作以最小化事故风险的函数(例如,控制燃料箱的温度、燃料消耗、发射速度)。推荐不限于设备控制,但它们也能用在设备的概念及制造期间,例如,CAD系统能够为设备的设计提供推荐,从而使得将所设计的设备的故障风险最小化。存在数种已知类别的推荐系统。第一类别包括所谓的推荐者系统,其为访问者接收基于已访问内容的内容建议的系统。譬如,搜索引擎基于访问页面的个人历史给搜索结果排序。在Marko和YoavShoham.的“Fab:content-based,collaborativerecommendation.”CommunicationsoftheACM40.3(1997):66-72中或者还在Sarwar、Badrul等人的“Item-basedcollaborativefilteringrecommendationalgorithms.”,Proceedingsofthe10thinternationalconferenceonWorldWideWeb.ACM,2001中讨论了这样的系统的示例。然而,这些推荐者系统在集中了大量用户的历史的应用中工作。例如,搜索有10亿以上用户。宿于(host)公司服务器上的系统没有此类决策者池来学习。决策者一般将最佳业务实践或管理咨询公司用于基于相似情况下他们同行累积的经验的建议。但商业的相对孤立、来自不同公司的操作及装备数据使得难以通过计算机程序自动化此学习过程。因此决策者基于描述触发决策需求的情况的数据(譬如描述他们自己操作及装备的变量)来评估情况,而不是查看他们同行的决策历史。因此,这些推荐者系统不适合这些情况。第二类别包括专家系统,其基于专家写入并自动应用的规则,自动做出某个问题相关的决策。当选项的数目很小、且输入变量可由人管理或处理为在可管理的判别变量集中归纳时,那么专家可能规定大多数情况下产生最佳动作的规则。第一种方案叫做“仅有专家规则”,其中规则由应用系统的
的专家手工写入。第二种方案叫做“结合经验模型的专家规则”,其中基于机器学习创建经验模型,以处理可用的输入并返回数量可管理的输入。此类模型一般返回估计的概率。由于减少了提供给人写入的规则的输入的复杂性,因此减小了人为错误的空间。作为经验模型的示例,例如Delmia的经验规则生成系统。这些系统示出了处理此类现象所需的复杂性。经验规则生成系统给由大量变量描述的现象建模。它们通过以下进行工作:产生许多各个具有低再次调用(recall)和低精确率,并因而可能相互矛盾的规则,利用投票解决它们的不同结果,并输出投票结果,该结果用作新的合成变量来描述情况。这些系统一般同时实现高再次调用及高精确率(每个都在80%以上),但为了这样做,这些系统产生了专家无法产生的、数量无法管理(对于几十个变量,达到数万至百万量级)的规则。然而,此第二类别具有许多缺点;尤其是,当独立因子的数目与选项的数目导致人类专家无法管理的问题时,第一种方案不起作用。第二种方案需要大量硬件资源来训练经验模型。实践中,决策的需求一般由新数据触发。并且一般必须迅速进行决策。因此,进一步限制可获得的资源量和能够使用这些系统的情况的数量。在第三类别中,诸如DelmiaOI的经验规则生成系统。这些系统示出了处理此类现象所需的复杂度。经验规则系统生成系统给由大量变量描述的现象建模。它们通过以下进行工作:产生许多各个具有低再次调用(recall)和低精确率,并因而可能相互矛盾的规则,利用投票解决它们的不同结果,并输出投票的结果,该结果用作新的合成变量来描述情况。这些系统一般同时实现高再次调用和高精确率(每个都在80%以上),但为了这样做,这些系统产生了专家无法产生的、数量无法管理(对于几十个变量,达到数万至数百万的量级)的规则。在具有许多输入参数和两种决策替换方法的情况中,此类系统能够成功用于“结合经验模型的专家规则”方案。然而,此类经验模型不让决策者考虑在训练系统和写入专家规则时不存在或不予考虑的数据。另外,此第三种类可能需要大量硬件资源来训练。实践中,决策的需求一般由新数据触发。并且,一般必须迅速进行决策。因此,进一步限制可获得的资源量和能够使用这些系统的情况的数量。第三类别包括可理解模型、表示和交互界面,其通过以使相关信息可由决策者或其助手管理的形式呈现该相关信息来有助于做决策。譬如,商业智能工具提供了譬如通过散点图的方式选择变量并可视化其交互的手段。分析人员选取相关的可视化,产生静态报告,并将它们发送给决策者。所谓的“白盒模型”取决于经验(受训练的)模型,其给出变量之间关系的可视化或解释。譬如,在训练决策树(例如,如在Quinlan、J.Ross.的″Inductionofdecisiontrees.″Machinelearning1.1(1986):81-106.[1]中所讨论的),规则创建引擎或贝叶斯网络(例如,如在Heckerman、David、DanGeiger和DavidM.Chickering.的″LearningBayesiannetworks:Thecombinationofknowledgeandstatisticaldata.″Machinelearning20.3(1995):197-243中讨论的)之后,可能理解以某种概率将目标变量链接到描述现象的变量中若干前提的规则。当输入数据能够在图表中表示时,存在以以下方式将图表映射到二维图的技术,该方式为2D图上两个实体之间的距离表示它们在图表中的连接性。这些技术允许定性地表示描述情况的元素之间的交互程度。这些技术还能应用于映射2D图上的复杂观察(complexobservation),从而使得相似观察(在N维中接近,所述维度为描述观察的变量),最终在2D图上彼此接近,例如,如在Balasubramanian、Mukund和EricL.Schwartz.的″Theisomapalgorithmandtopologicalstability.″Science295.5552(2002):7-7中所讨论的。在Jain、AnilK.、M.NarasimhaMurty和PatrickJ.Flynn.的″Dataclustering:areview.″ACMcomputingsurveys(CSUR)31.3(1999):264-323中讨论了聚类技术,并且这些聚类技术允许以可管理数量分组的方式将在N维中相似的观察分组在一起。在Wall、MichaelE.、AndreasRechtsteiner和LuisM.Rocha.的″Singularvaluedecompositionandprincipalcomponentanalysis.″Apracticalapproachtomicroarraydataanalysis.SpringerUS,2003.91-109中讨论了降维技术,并且它们允许找到数据沿其变化最大的维度或维度组合。存在其它技术来发现什么维度(描述性变量)对给定目标变量的值影响最大。然而,“白盒模本文档来自技高网
...
机器学习系统的更新

【技术保护点】
一种用于更新机器学习系统的模型的计算机实现的方法,包括:‑提供相似事件的第一观察集合(S100),每个观察与目标值和一个或多个变量关联,每个变量与对应于所述观察的值关联;‑利用每个观察相对应的一个或多个变量和目标值来索引第一集合中的每个观察(S120);‑接收允许选择所述第一观察集合的子集的对所述索引的查询(S220);‑返回所述第一观察集合的子集作为所述查询的结果;‑提供第二模型;‑利用所述第一观察集合的被返回的子集来训练所提供的第二模型(S240);以及‑加载(S250)所训练的第二模型。

【技术特征摘要】
2015.12.31 EP 15307196.41.一种用于更新机器学习系统的模型的计算机实现的方法,包括:-提供相似事件的第一观察集合(S100),每个观察与目标值和一个或多个变量关联,每个变量与对应于所述观察的值关联;-利用每个观察相对应的一个或多个变量和目标值来索引第一集合中的每个观察(S120);-接收允许选择所述第一观察集合的子集的对所述索引的查询(S220);-返回所述第一观察集合的子集作为所述查询的结果;-提供第二模型;-利用所述第一观察集合的被返回的子集来训练所提供的第二模型(S240);以及-加载(S250)所训练的第二模型。2.根据权利要求1所述的计算机实现的方法,进一步包括:-提供第一模型;-利用所述第一观察集合来训练所述第一模型(S140);-存储(S150)所训练的第一模型。3.根据权利要求1至2中的一项所述的计算机实现的方法,进一步包括:在接收对所述索引的查询之前:-采集(S200)当前事件的第二观察集合;并且其中接收对所述索引的查询进一步包括:-接收允许选择所述第一观察集合的子集(S220)的对所述索引的查询(S220),利用所述第二观察集合的一个或多个变量来执行所述查询。4.根据权利要求3所述的计算机实现的方法,进一步包括:在接收对所述索引的查询之前:-识别所述第二观察集合的一个或多个变量;并且其中接收对所述索引的查询进一步包括:-接收允许选择所述第一观察集合的子集(S220)的对所述索引的查询(S220),利用所识别的、所述第二观察集合的一个或多个变量来执行所述查询。5.根据权利要求4所述的计算机实现的方法,其中识别所述第二观察集合的一个或多个变量包括:-识别(S210)缓慢移动的变量和/或识别快速移动的变量。6.根据权利要求4或5所述的计算机...

【专利技术属性】
技术研发人员:X·格勒昂
申请(专利权)人:达索系统公司
类型:发明
国别省市:法国,FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1