预测建模优化制造技术

技术编号:16270603 阅读:36 留言:0更新日期:2017-09-22 22:13
技术被描述用于识别存储在底层数据平台内的输入训练数据集;并且向数据平台发送指令,所述指令可由数据平台运行以通过将一个或多个数据处理操作委托给数据平台上的多个节点、基于输入训练数据集来训练预测模型。

【技术实现步骤摘要】
预测建模优化相关申请的交叉引用本申请要求美国临时专利申请序列号第62/307,971号、标题为“预测建模优化”和美国临时专利申请序列号第62/307,671号、标题为“用于分布式处理平台的统一客户端”的优先权,它们两者均提交于2016年3月14日。在此通过引用将两个临时申请的全部内容并入本申请。本申请与提交于_的美国专利申请第_号、标题为“用于分布式处理平台的统一客户端”有关,在此通过引用将其全部内容并入本申请。
本说明书涉及优化预测建模。
技术介绍
预测建模是利用统计和数学方法分析数据、找到模式(pattern)并且产生可以帮助预测具体结果的模型的过程。出于商业目的,预测模型一般被建立在历史数据的样本上并且之后可被应用到通常具有当前数据或事件的不同数据集。
技术实现思路
本说明书中所述主题的创新方面可在包括以下动作的方法中被具体化:识别存储在底层数据平台内的输入训练数据集;并且向数据平台发送指令,所述指令可由数据平台运行,以通过将一个或多个数据处理操作委托给数据平台上的多个节点,基于输入训练数据集来训练预测模型。这些方面的其它实施例包括相应系统、装置和计算机程序,被配置为执行编码在计算机存储设备上的方法的动作。这些和其它实施例可以每个可选地包括以下特征中的一个或多个。例如,对业务数据集应用预测模型来识别一个或多个结果,每个结果与出现概率关联。数据平台包括开源集群计算框架。开源集群计算框架包括ApacheSpark。该方法独立于来自数据平台的输入训练数据集的数据传输。一个或多个处理操作包括计算与输入训练数据集关联的一个或多个统计量以减少用于生成预测模型的变量的数目。一个或多个处理操作包括编码输入训练数据集的数据,包括将字母数字数据转变为数字数据。一个或多个处理操作包括执行关于输入训练数据集的协方差矩阵计算和矩阵求逆计算。一个或多个处理操作包括将输入训练数据集分片,并且关于分片对预测模型评分。一个或多个处理操作包括基于一个或多个结果重计算一个或多个统计量。一个或多个处理操作包括基于结构风险最小化来迭代地评估预测模型的性能。本说明书所述主题的具体实施方案可被实现以便实现以下优点的一个或多个。例如,相比传统学习技术,预测建模的学习阶段通常可被减少到1/10或更多。传统学习技术中出现的性能和可扩展性限制可被从预测服务器或桌面型计算机转移到诸如分布式处理平台(如,ApacheHadoop)的数据库服务器或数据平台。主题的实施方案可被引入到现有预测建模软件而无需主要架构变化。对比传统学习技术,数据传输要求可被减少或消除,并且因而,训练可在更大数据集上进行并且解决方案可扩展到大数据。优化训练过程还使能到更广数据集(如,产生于数据准备阶段)的扩展性。例如,50,000列训练数据集可在实施方案中采用以训练预测模型。而且,传统模型的训练通常可被在客户端侧执行,因而要求大数据集被从数据存储装置通信到客户端,并且因而消耗大量网络带宽。一些实施方案中,处理中的至少一些被在分布式处理平台(如,Hadoop集群)上执行,并且一些由客户端应用(如,建模器)执行,因此减少向客户端应用传输大数据集和仅在客户端侧执行建模作业所需的网络带宽量。一些实例中,更多数据密集和/或处理密集的处理步骤可在集群上执行以利用集群的更大处理能力。并且,因为集群可以更靠近网络拓扑中的数据存储装置,所以集群的更多数据密集操作的执行可以避免消耗、使用传统训练技术时可能发生的通过在数据存储装置和建模器之间来回通信大量数据本将被消耗的网络带宽。鉴于数据库内(如,集群上)分析可以避免在可能不安全的通信信道上通信数据,实施方案还可以提供安全的优点。而且,诸如个人可识别信息(PII)的敏感和/或私人数据可在集群上比在其它系统上更安全地处理。关于可在预测建模中采用的机器学习,实施方案还提供更多优点。例如,机器学习中使用的更复杂和/或处理密集的内部步骤中的至少一些,诸如编码和/或其它数据准备操作,无需任何用户交互就可被执行,如,这些步骤可能向终端用户隐藏。实施方案还可以采用一个或多个优化,其可被怠惰地实现。这样的优化可以包括减少正被分析的数据集的维度以提供建模器的高性能。鉴于模型可能不会非常适用于被用来训练模型的具体训练集,依照结构风险最小化(SRM)的原理,较简单的模型(如,具有减少的维度)在处理新数据时通常更有用且鲁棒。本说明书所述主题的一个或多个实施例的细节在附图和以下描述中阐释。主题的其它潜在特性、方面和优点将从描述、附图和权利要求中变得显见。附图说明图1和图2描述用于数据库内建模(in-databasemodeling)的示例环境。图3A-3D描述数据库内建模的示例过程流。图4描述用于数据库内建模的示例过程。图5描述可被用来实现本文所述技术的示例计算系统。图6描述根据本公开的实施方案包括用于分布式处理平台的统一客户端的示例系统。图7A描述根据本公开的实施方案包括采用统一客户端的应用的示例系统。图7B描述根据本公开的实施方案的用于为数据处理而采用统一客户端的过程的示例流图。图8描述根据本公开的实施方案的示例类图。具体实施方式有许多不同方法来预测建模。例如,回归建模预测值,而分类区分数据中的隐组。此外,有大量在现成方法(例如,R中的k均值算法)到专有方法之间变化的机器学习算法、技术和实施方案。特别地,专有方法可以利用诸如Vapnik-Chervonenkis理论和结构风险最小化(StructuralRiskMinimization)的机器学习技术来建立更好的质量和更普遍适用的模型。模型的质量和鲁棒性可被基于以下内容分析:i)质量,如,模型如何好地描述现有数据——这通过最小化经验主义错误来实现;ii)可靠性或鲁棒性:当模型被应用到新数据时,模型将如何好地预测——这通过最小化不可靠性来实现。在预测建模方面,传统预测建模解决方案依靠诸如开发数据库连接(OBDC)和java数据库连接(JDBC)的数据库连接来连接关系型数据库管理系统(RDBMS)、将数据拉取回存储器并且之后处理该数据。为此,预测建模可以是数据密集型。具体地,数据准备阶段和学习(训练)阶段可能需要对相同数据的许多扫描和对每个单独输入参数的许多计算。例如,算法中的交叉统计步骤可能需要对每个输入变量和每个目标变量计算统计量。如下表所示,对于具有N个输入变量、T个目标变量和R行的输入数据集,交叉统计计算被进行NxTxR次。行号输入变量1输入变量2输入变量3输入变量N目标变量1目标变量21A1276.2完成99.67产品D2R8798.2准备142.32产品X…RB462.5完成150.1产品A传统架构设计利用了分层方法,其中数据源在一层并且数据处理在另一架构层。该分离还可被表示为以下景观,其中数据驻留在数据库(数据库服务器计算机或服务器集群)中并且数据处理在单独机器(如,服务器或桌面型计算机)上。一些示例中,层之间的通信经由SQL进行并且连接性使用诸如JDBC和ODBC的技术来使能。然而,当该架构被应用到预测建模软件时,由于需要将全部训练数据集从数据库跨网络传输到不同机器以进行处理,所以其引入了性能和可扩展性限制。为此,依赖于所采用的算法或方法,完全训练数据集的数据传输的性能惩罚可能在学习(训练)阶段多次发生本文档来自技高网...
预测建模优化

【技术保护点】
一种由至少一个处理器执行的计算机实现的方法,所述方法包含:由所述至少一个处理器识别存储在包括多个子系统的分布式处理平台内的输入训练数据集;由所述至少一个处理器将指令从客户端应用发送到所述分布式处理平台以请求所述多个子系统中的至少一个被运行以执行至少一个数据处理操作,来基于所述输入训练数据集确定预测模型;以及由所述至少一个处理器提供所述预测模型以确定一个或多个结果,每个结果与数据集中值的出现概率关联。

【技术特征摘要】
2016.03.14 US 62/307,971;2016.09.09 US 15/261,2151.一种由至少一个处理器执行的计算机实现的方法,所述方法包含:由所述至少一个处理器识别存储在包括多个子系统的分布式处理平台内的输入训练数据集;由所述至少一个处理器将指令从客户端应用发送到所述分布式处理平台以请求所述多个子系统中的至少一个被运行以执行至少一个数据处理操作,来基于所述输入训练数据集确定预测模型;以及由所述至少一个处理器提供所述预测模型以确定一个或多个结果,每个结果与数据集中值的出现概率关联。2.如权利要求1所述的计算机实现的方法,其中所述指令被经包括多个子客户端的统一客户端从所述客户端应用发送到所述分布式处理平台,每个子客户端被配置为与所述分布式处理平台的相应子系统接口。3.如权利要求1所述的计算机实现的方法,进一步包含:由所述至少一个处理器在所述客户端应用上运行至少一个本地数据处理操作以确定所述预测模型;其中所述至少一个本地数据处理操作接受包括从在所述分布式处理平台上执行的至少一个数据处理操作得到的结果集的输入。4.如权利要求1所述的计算机实现的方法,其中所述分布式处理平台是Hadoop平台。5.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括由所述多个子系统中的Spark子系统执行的数据处理操作。6.如权利要求1所述的计算机实现的方法,其中所述方法独立于来自所述分布式处理平台的所述输入训练数据集的数据传输。7.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括计算与所述输入训练数据集关联的一个或多个统计量以减少用于生成所述预测模型的变量的数目。8.如权利要求7所述的计算机实现的方法,其中所述至少一个数据处理操作进一步包括基于所述一个或多个结果重计算所述一个或多个统计量。9.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括编码所述输入训练数据集的数据,其包括将字母数字数据转变为数字数据。10.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括执行关于所述输入训练数据集的协方差矩阵计算和矩阵求逆计算。11.如权利要求1所述的计算机实现的方法,其中所述至少一个数据处理操作包括将所述输入训练数据集分片以确定一个或多个...

【专利技术属性】
技术研发人员:A麦克沙恩J多恩胡B拉米A卡米N杜利安A阿卜杜勒拉赫曼L奥洛格姆F马利M凯雷斯E马凯德
申请(专利权)人:商业对象软件有限公司
类型:发明
国别省市:爱尔兰,IE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1