当前位置: 首页 > 专利查询>波音公司专利>正文

用于机器学习的高级分析基础构架制造技术

技术编号:14236064 阅读:38 留言:0更新日期:2016-12-21 10:20
用于机器学习的高级分析基础构架。具体地,公开了用于比较候选机器学习算法的机器学习系统和计算化方法。该机器学习系统包括:机器学习算法库;数据输入模块,该数据输入模块用于接收数据集和对从由机器学习算法库导出的机器学习模型的选择;试验模块;以及聚合模块。试验模块被配置成,训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果。聚合模块被配置成,聚合针对全部机器学习模型的性能结果,以形成性能比较统计。计算化方法包括以下步骤:接收数据集;接收对机器学习模型的选择;训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果;聚合性能结果,以形成性能比较统计;以及呈现性能比较统计。

Advanced analytical framework for machine learning

Advanced analytical framework for machine learning. Specifically, for comparing candidate machine learning algorithms of machine learning systems and computerized method disclosed. The machine learning system including: machine learning algorithms library; the data input module, data input module for receiving data collection and selection of the learning model from machine learning algorithm library derived machine; test module; and the aggregation module. The test module is configured to train and evaluate each machine learning model to generate performance results for each machine learning model. The aggregation module is configured to aggregate performance results for all machine learning models to form performance comparison statistics. Computerized method comprises the following steps: receiving data set; receiving the machine learning model selection; training and evaluation of every machine learning model, to generate for each machine learning model performance results; polymerization performance results to form performance comparison and present performance statistics; statistical comparison.

【技术实现步骤摘要】

本公开涉及用于机器学习的高级分析基础构架
技术介绍
机器学习是这样一种用于分析数据的过程,即,使用数据集来确定将输入数据(还称作解释变量或预测值)映射至输出数据(独立变量或响应变量)的模型(还称作规则或功能)。一种类型机器学习是监督学习,其中,利用包括针对足够数量的输入数据的已知输出数据的数据集来训练模型。模型一旦受到训练,其就可以加以部署,即,应用至新的输入数据来预测希望输出。机器学习可以应用至回归问题(其中,输出数据是数字的,例如,电压、压力、多个周期)和分类问题(其中,输出数据是标签、类别和/或种类,例如通过-不通过、失效类型等)。针对两类问题,可获得广泛的机器学习算法,而且新算法是活跃的研究主题。例如,人工神经网络、学习决策树、以及支持矢量机是可以应用至分类问题的不同类别算法。而且,这些示例中的每一个可以通过选择诸如学习率(用于人工神经网络)、树的数目(用于全体学习决策树)、以及核心类型(用于支持矢量机)这样的特定参数来特制。可用于寻求解决问题的大量机器学习选项使得难于选择最佳选项甚或满意执行的选项。数据的量、类型以及质量影响了训练和所得的训练模型的准确度和稳定性。而且,诸如出错(例如,假阳性、假阴性)的容限、可量测性、以及执行速度这样的专门问题考虑限制了可接受选择。因此,存在用于针对各种专门问题来比较机器学习模型的可应用性的需要。
技术实现思路
一种机器学习系统,该机器学习系统可以被配置成针对特殊数据分析问题对候选机器学习算法进行。所述机器学习系统包括:机器学习算法库、数据输入模块、试验模块以及聚合模块。所述机器学习算法库包括被配置成利用公用接口来测试的多个机器学习算法。所述数据输入模块被配置成接收对机器学习模型的选择和数据集。每一个机器学习模型包括来自所述机器学习算法库的机器学习算法和一个或更多个关联参数值。所述试验模块被配置成,训练和评估每一个机器学习模型,以生成针对每一个机器学习模型的性能结果。所述聚合模块被配置成,聚合针对全部所述机器学习模型的所述性能结果,以形成性能比较统计。一种计算机化方法,该计算机化方法用于测试机器学习算法,该方法包括以下步骤:接收数据集,接收对机器学习模型的选择,训练和评估每一个机器学习模型,聚合结果,以及呈现结果。机器学习模型的选择的每一个机器学习模型包括机器学习算法和一个或更多个关联参数值。训练和评估每一个机器学习模型的步骤包括生成针对每一个机器学习模型的性能结果。聚合步骤包括聚合针对全部所述机器学习模型的所述性能结果,以形成性能比较统计。呈现步骤包括呈现所述性能比较统计。附图说明图1是本公开的机器学习系统的表示图。图2是机器学习系统内的模块的表示图。图3是本公开的方法的表示图。图4是训练和评估机器学习模块的表示图。具体实施方式图1-4例示了用于机器学习的系统和方法。一般来说,在图中,很可能被包括在指定实施方式中的部件按实线例示,而可选或另选的部件按虚线例示。然而,按实线例示的部件对于本公开的所有实施方式来说不是基本的,而且在不脱离本公开的范围的情况下,按实线示出的部件可以从特定实施方式中省略。服务类似,或至少大致类似目的的部件用在附图当中一致的数字来标注。每一个图中的相同数字,和对应部件在此可以不参照每一个图详细讨论。类似的是,所有部件不是在每一个图中都加以标注或示出,而为了一致性可以使用与其相关联的标号。在不脱离本公开的范围的情况下,参照一个或更多个图讨论的部件、组件和/或特征可以被包括在任何图中和/或与该图一起使用。如图1所示,机器学习系统10是包括可操作地联接至存储单元14的处理单元12的计算机化系统。处理单元12是被配置成执行用于软件和/或固件的指令的一个或更多个装置。处理单元12可以包括一个或更多个计算机处理器,并且可以包括分布式计算机处理器组。存储单元14(还称作计算机可读存储单元)是被配置成存储计算机可读信息的一个或多个装置。存储单元14可以包括存储器16(还称作计算机可读存储器)和持久性存储部18(还称作计算机可读持久性存储部、存储介质、和/或计算机可读存储介质)。持久性存储部18是非暂时且不是仅仅暂时的电子和/或电磁信号的一个或更多个计算机可读存储装置。持久性存储部18可以包括一个或更多个(非暂时)存储介质和/或分布式(非暂时)存储介质组。机器学习系统10可以包括一个或更多个计算机、服务器、工作站等,其皆可以直接或间接地独立互连(包括通过网络连接互连)。由此,机器学习系统10可以包括彼此远程定位的处理器、存储器16和/或持久性存储部18。机器学习系统10可以被编程成执行在此描述的方法,和/或可以存储用于执行该方法的指令。机器学习系统10的存储单元14包括这样的指令,即,该指令在通过处理单元12执行时,使机器学习系统10执行在此描述的一个或更多个方法。在描述的流程图和框图例示了根据各个例示性实施方式的系统、方法以及计算机程序产品的可能实现的架构、功能以及操作。在这点上,该流程图或框图中的每一个框都可以表示模块、区段、或代码的一部分,其包括用于实现该指定逻辑功能或多个功能的一个或更多个可执行指令。还应注意到,在一些另选实现中,框中提到的功能可以出现在图中所提到的次序之外。例如,根据所涉及的功能,接连示出的两个框的功能可以大致同时执行,或者这些框的功能有时可以按逆序执行。如图2中示意性地表示,机器学习系统10可以包括几个模块(例如,存储在存储单元14中并且被配置成通过处理单元12执行的指令和/或数据)。这些模块(其还可以被称为代理程序(agent)、程序、处理和/或过程)可以包括数据输入模块20、机器学习算法库22、数据预处理器24、试验模块30、聚合模块40以及呈现模块44。机器学习系统10被配置用于机器学习模型选择,即,便于选择针对特殊数据分析问题的恰当机器学习模型32,例如,用于对候选机器学习模型进行比较。一般来说,机器学习系统10被配置成针对指定的一组数据,计算和/或估计利用一个或更多个特定参数(还称为超参数)设置的一个或更多个机器学习算法的性能。该机器学习算法连同其关联特定参数值至少部分地形成机器学习模型32(还称为特定机器学习模型和候选机器学习模型,并且在图2中,称为ML模型1至ML模型N)。数据分析问题可以是分类问题或回归(regression)问题。数据分析问题可以涉及时间相关数据,其可以被称作序列数据、时间系列数据、时间数据、和/或时间标记数据。时间相关数据涉及可观察量(observable)(还称作量、属性、特性或特征)按一序列和/或通过时间(例如,按连续时段测量)的进展。例如,时间相关数据可以涉及诸如飞行器和它们的子系统(例如,推进系统、飞行控制系统、环境控制系统、电气系统等)的设备的运转健康。相关可观察量可以是测量电气、光学、机械、液压、流体、气动、和/或空气动力组件的状态、针对其的输入和/或其输出。数据输入模块20被配置成接收(例如,从用户选择)对机器学习模型32和诸如时间相关数据集这样的数据集的选择。由此,机器学习系统10被配置成接收数据集。该数据集(还称作输入数据集)可以采用公用格式,以与机器学习模型32和/或试验模块30接口连接。如果输入数据集未采用可与针对机器学本文档来自技高网...
用于机器学习的高级分析基础构架

【技术保护点】
一种机器学习系统(10),该机器学习系统(10)用于针对特定数据分析问题对候选机器学习算法进行比较,所述机器学习系统(10)包括:机器学习算法库(22),该机器学习算法库(22)包括被配置成利用公用接口来测试的多个机器学习算法;数据输入模块(20),该数据输入模块(20)被配置成接收数据集和对机器学习模型(32)的选择,其中,每一个机器学习模型(32)包括来自所述机器学习算法库(22)的机器学习算法和一个或更多个关联参数值;试验模块(30),该试验模块(30)被配置成,训练和评估每一个机器学习模型(32),以生成针对每一个机器学习模型的性能结果;以及聚合模块(40),该聚合模块被配置成,聚合针对全部所述机器学习模型(32)的所述性能结果,以形成性能比较统计。

【技术特征摘要】
2015.06.04 US 14/730,6551.一种机器学习系统(10),该机器学习系统(10)用于针对特定数据分析问题对候选机器学习算法进行比较,所述机器学习系统(10)包括:机器学习算法库(22),该机器学习算法库(22)包括被配置成利用公用接口来测试的多个机器学习算法;数据输入模块(20),该数据输入模块(20)被配置成接收数据集和对机器学习模型(32)的选择,其中,每一个机器学习模型(32)包括来自所述机器学习算法库(22)的机器学习算法和一个或更多个关联参数值;试验模块(30),该试验模块(30)被配置成,训练和评估每一个机器学习模型(32),以生成针对每一个机器学习模型的性能结果;以及聚合模块(40),该聚合模块被配置成,聚合针对全部所述机器学习模型(32)的所述性能结果,以形成性能比较统计。2.根据权利要求1所述的机器学习系统(10),其中,所述公用接口限定以下各项中的至少一个:公用输入、公用输出、用于输入数据的公用方法、用于输出数据的公用方法、以及针对所述机器学习算法库(22)中的每一个机器学习算法的公用过程调用。3.根据权利要求1或2所述的机器学习系统(10),所述机器学习系统(10)还包括数据预处理器(24),该数据预处理器(24)被配置成制备所述数据集,以由所述试验模块(30)进行处理,其中,所述数据预处理器(24)被配置成执行以下各项中的至少一个操作:离散化所述数据集、向所述数据集应用独立组件分析、向所述数据集应用主要组件分析、从所述数据集消除缺失数据、从所述数据集选择特征、以及从所述数据集提取特征。4.根据权利要求1或2所述的机器学习系统(10),所述机器学习系统(10)还包括预处理算法库(26),该预处理算法库(26)包括多个预处理算法,并且其中,所述多个预处理算法符合公用预处理接口。5.根据权利要求1或2所述的机器学习系统(10),其中,至少一个机器学习模型(32)是宏过程(36),该宏过程(36)组合全体微过程(38)的结果,其中,每一个微过程(38)包括机器学习算法和一个或更多个关联参数值,其中,所述宏过程(36)被配置成通过以下各项中的至少一个来组合所述全体微过程(38)的结果:累积值、最大值、最小值、中值、平均值、众数值、最常见值、以及多数票。6.根据权利要求1或2所述的机器学习系统(10),其中,所述试验模块(30)被配置成,将所述数据集划分成训练数据集和评估数据集,并且其中,所述训练数据集和所述评估数据集是所述数据集的互补子集。7.根据权利要求1或2所述的机器学习系统(10),其中,所述试验模块(30)被配置成,利用作为所述数据集的子集的训练数据集来训练每一个机器学习模型(32),以生成针对每一个机器学习模型的训练模型,并且其中,所述试验模块(30)被配置成,利用作为所述数据集的子集的评估数据集来评估每一个训练模型,以生成针对每一个机器学习模型的性能结果。8.根据权利要求1或2所述的机器学习系统(10...

【专利技术属性】
技术研发人员:L·E·斯图劳格森J·M·埃辛顿
申请(专利权)人:波音公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1