Advanced analytical framework for machine learning. Specifically, for comparing candidate machine learning algorithms of machine learning systems and computerized method disclosed. The machine learning system including: machine learning algorithms library; the data input module, data input module for receiving data collection and selection of the learning model from machine learning algorithm library derived machine; test module; and the aggregation module. The test module is configured to train and evaluate each machine learning model to generate performance results for each machine learning model. The aggregation module is configured to aggregate performance results for all machine learning models to form performance comparison statistics. Computerized method comprises the following steps: receiving data set; receiving the machine learning model selection; training and evaluation of every machine learning model, to generate for each machine learning model performance results; polymerization performance results to form performance comparison and present performance statistics; statistical comparison.
【技术实现步骤摘要】
本公开涉及用于机器学习的高级分析基础构架。
技术介绍
机器学习是这样一种用于分析数据的过程,即,使用数据集来确定将输入数据(还称作解释变量或预测值)映射至输出数据(独立变量或响应变量)的模型(还称作规则或功能)。一种类型机器学习是监督学习,其中,利用包括针对足够数量的输入数据的已知输出数据的数据集来训练模型。模型一旦受到训练,其就可以加以部署,即,应用至新的输入数据来预测希望输出。机器学习可以应用至回归问题(其中,输出数据是数字的,例如,电压、压力、多个周期)和分类问题(其中,输出数据是标签、类别和/或种类,例如通过-不通过、失效类型等)。针对两类问题,可获得广泛的机器学习算法,而且新算法是活跃的研究主题。例如,人工神经网络、学习决策树、以及支持矢量机是可以应用至分类问题的不同类别算法。而且,这些示例中的每一个可以通过选择诸如学习率(用于人工神经网络)、树的数目(用于全体学习决策树)、以及核心类型(用于支持矢量机)这样的特定参数来特制。可用于寻求解决问题的大量机器学习选项使得难于选择最佳选项甚或满意执行的选项。数据的量、类型以及质量影响了训练和所得的训练模型的准确度和稳定性。而且,诸如出错(例如,假阳性、假阴性)的容限、可量测性、以及执行速度这样的专门问题考虑限制了可接受选择。因此,存在用于针对各种专门问题来比较机器学习模型的可应用性的需要。
技术实现思路
一种机器学习系统,该机器学习系统可以被配置成针对特殊数据分析问题对候选机器学习算法进行。所述机器学习系统包括:机器学习算法库、数据输入模块、试验模块以及聚合模块。所述机器学习算法库包括被配置成利用公用接口 ...
【技术保护点】
一种机器学习系统(10),该机器学习系统(10)用于针对特定数据分析问题对候选机器学习算法进行比较,所述机器学习系统(10)包括:机器学习算法库(22),该机器学习算法库(22)包括被配置成利用公用接口来测试的多个机器学习算法;数据输入模块(20),该数据输入模块(20)被配置成接收数据集和对机器学习模型(32)的选择,其中,每一个机器学习模型(32)包括来自所述机器学习算法库(22)的机器学习算法和一个或更多个关联参数值;试验模块(30),该试验模块(30)被配置成,训练和评估每一个机器学习模型(32),以生成针对每一个机器学习模型的性能结果;以及聚合模块(40),该聚合模块被配置成,聚合针对全部所述机器学习模型(32)的所述性能结果,以形成性能比较统计。
【技术特征摘要】
2015.06.04 US 14/730,6551.一种机器学习系统(10),该机器学习系统(10)用于针对特定数据分析问题对候选机器学习算法进行比较,所述机器学习系统(10)包括:机器学习算法库(22),该机器学习算法库(22)包括被配置成利用公用接口来测试的多个机器学习算法;数据输入模块(20),该数据输入模块(20)被配置成接收数据集和对机器学习模型(32)的选择,其中,每一个机器学习模型(32)包括来自所述机器学习算法库(22)的机器学习算法和一个或更多个关联参数值;试验模块(30),该试验模块(30)被配置成,训练和评估每一个机器学习模型(32),以生成针对每一个机器学习模型的性能结果;以及聚合模块(40),该聚合模块被配置成,聚合针对全部所述机器学习模型(32)的所述性能结果,以形成性能比较统计。2.根据权利要求1所述的机器学习系统(10),其中,所述公用接口限定以下各项中的至少一个:公用输入、公用输出、用于输入数据的公用方法、用于输出数据的公用方法、以及针对所述机器学习算法库(22)中的每一个机器学习算法的公用过程调用。3.根据权利要求1或2所述的机器学习系统(10),所述机器学习系统(10)还包括数据预处理器(24),该数据预处理器(24)被配置成制备所述数据集,以由所述试验模块(30)进行处理,其中,所述数据预处理器(24)被配置成执行以下各项中的至少一个操作:离散化所述数据集、向所述数据集应用独立组件分析、向所述数据集应用主要组件分析、从所述数据集消除缺失数据、从所述数据集选择特征、以及从所述数据集提取特征。4.根据权利要求1或2所述的机器学习系统(10),所述机器学习系统(10)还包括预处理算法库(26),该预处理算法库(26)包括多个预处理算法,并且其中,所述多个预处理算法符合公用预处理接口。5.根据权利要求1或2所述的机器学习系统(10),其中,至少一个机器学习模型(32)是宏过程(36),该宏过程(36)组合全体微过程(38)的结果,其中,每一个微过程(38)包括机器学习算法和一个或更多个关联参数值,其中,所述宏过程(36)被配置成通过以下各项中的至少一个来组合所述全体微过程(38)的结果:累积值、最大值、最小值、中值、平均值、众数值、最常见值、以及多数票。6.根据权利要求1或2所述的机器学习系统(10),其中,所述试验模块(30)被配置成,将所述数据集划分成训练数据集和评估数据集,并且其中,所述训练数据集和所述评估数据集是所述数据集的互补子集。7.根据权利要求1或2所述的机器学习系统(10),其中,所述试验模块(30)被配置成,利用作为所述数据集的子集的训练数据集来训练每一个机器学习模型(32),以生成针对每一个机器学习模型的训练模型,并且其中,所述试验模块(30)被配置成,利用作为所述数据集的子集的评估数据集来评估每一个训练模型,以生成针对每一个机器学习模型的性能结果。8.根据权利要求1或2所述的机器学习系统(10...
【专利技术属性】
技术研发人员:L·E·斯图劳格森,J·M·埃辛顿,
申请(专利权)人:波音公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。