对机器学习模型进行处理的方法及装置制造方法及图纸

技术编号:18895753 阅读:20 留言:0更新日期:2018-09-08 11:33
本发明专利技术实施例公开了一种对机器学习模型进行处理方法及装置,涉及互联网技术领域,能够提高基于机器学习模型的服务的实时性。本发明专利技术包括:通过机器学习平台运行训练实验,生成对应所述训练实验的模型文件,并根据所述模型文件创建预测实验;通过所述机器学习平台,获取所述预测实验对应的实验数据,所述实验数据包括:XML信息、所述预测实验所依赖的算法包;调用所述预测实验所依赖的算法包解析所述XML信息,并将所述解析结果加载至所述模型后,执行所述预测实验。本发明专利技术适用于实时性要求较强的机器学习模型服务。

Method and device for processing machine learning model

The embodiment of the invention discloses a processing method and a device for machine learning model, which relates to the technical field of Internet and can improve the real-time performance of the service based on machine learning model. The invention comprises: generating a model file corresponding to the training experiment by running the training experiment on the machine learning platform, and creating a prediction experiment according to the model file; obtaining the corresponding experimental data of the prediction experiment through the machine learning platform, the experimental data includes: XML information, the prediction experiment. The algorithm package on which the prediction experiment depends is invoked to parse the XML information and load the parsing result into the model to perform the prediction experiment. The invention is suitable for machine learning model service with strong real-time requirement.

【技术实现步骤摘要】
对机器学习模型进行处理的方法及装置
本专利技术涉及互联网电子商务
,尤其涉及一种对机器学习模型进行处理的方法及装置。
技术介绍
随着互联网技术的发展,机器学习技术逐步应用在了各类在线业务中,目前最常用的领域,就是通过机器学习训练的模型,建立相应的应答机器人,以便于提高在线业务的自动化程度,从而提高业务系统的运营效率。目前,在机器学习模型的训练和部署过程中,业界传统的做法有如下:先将模型保存成pmml格式文件,再利用对应pmml格式文件的工具(比如JPMML)或自定义解析方法将pmml格式文件解析后进行实验。但是,由于需要依赖pmml的方式,这种方式要求算法代码必须满足特定的规范,规则复杂,导致了代码编写繁琐,需要按照特定格式\规范编写,且难以编写自定义的一些算法,费时费力,导致模型的开发效率很低,难以适应实时性要求越来越高的业务系统。
技术实现思路
本专利技术的实施例提供一种对机器学习模型进行处理方法及装置,能够提高基于机器学习模型的开发效率。为达到上述目的,本专利技术的实施例采用如下技术方案:通过机器学习平台运行训练实验,生成对应所述训练实验的模型文件,并根据所述模型文件创建预测实验;通过所述机器学习平台,获取所述预测实验对应的实验数据,所述实验数据包括:XML信息、所述预测实验所依赖的算法包;调用所述预测实验所依赖的算法包解析所述XML信息,并将所述解析结果加载至所述模型后,执行所述预测实验。通过本实施例中的机器学习平台,实现了用于建立机器人的模型的自动化训练,尤其是通过训练实验实现了模型的实验准备,并自动提取相关的实验数据,再通过预测实验自动校验模型的训练效果。使得模型文件的准备和训练过程不再受制于pmml格式,从而提高了模型的开发效率,使其能够更好地适应实时性要求越来越高的业务系统。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1a、图1b为本专利技术实施例提供的提供架构示意图;图2为本专利技术实施例提供的方法流程示意图;图3、图4、图5为本专利技术实施例提供的具体实例的示意图。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术作进一步详细描述。下文中将详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。本实施例中的方法流程,具体可以在一种如图1a所示的系统上实现,具体来说,该系统包括:机器学习平台、离线计算平台和Spark计算集群,系统的各端设备相互之间可以通过互联网建立信道,并通过各自的数据传输端口进行数据交互。本实施例中所揭示的离线计算平台,在硬件层面上具体可以是工作站、超级计算机等设备,或者是由多台服务器组成的一种用于数据处理的服务器集。离线计算平台,具体用于获取实验所需的的XML信息、依赖的算法包以及模型文件,并向spark提交执行指令。Spark计算集群,包括多个计算节点,每个计算节点都可以是服务器、计算机或者通过分配的计算资源建立的虚拟机,执行任务的Spark进程作为客户端向”集群”申请资源(运算节点),“集群”分配资源以后,这个Spark进程会分解一些计算工作,并把他们放到这些申请来的资源中运行。机器学习平台,在硬件层面上具体可以是由多台服务器、超算等具备计算功能的硬件设备组成的。本专利技术实施例提供一种对机器学习模型进行处理方法,如图2所示,包括:S1、通过机器学习平台运行训练实验,生成对应所述训练实验的模型文件,并根据所述模型文件创建预测实验。需要说明的是,业内一般会将用于做机器学习类模型训练的平台称作为机器学习平台。所述的“实验”,可以理解为从单个入口点执行的一个或多个任务的统称,可以包含诸如数据引入、特征工程、模型训练或模型评估等任务。其中,以训练模型为目标的实验称为训练实验。将训练好的模型作为实验中的任务节点的实验称为预测实验。模型文件具体可以理解为一种用于实验的模型存储在计算机中的文件,模型是一种序列化后的二进制文档。在机器学习平台创建一个训练实验,实验运行完后,生成对应的模型文件。在预测过程中,模型文件可以反序列化为模型,模型父类有预测接口。之后,根据生成的模型,在机器学习平台再创建对应的预测实验。其中,“模型的父类”可以按照业内所公认的意思来理解,即所述模型的父类是指所有算法模型类的基类,所述模型的父类定义了模型共同需要的接口,如fit和transform接口。S2、通过所述机器学习平台,获取所述预测实验对应的实验数据。其中,所述实验数据包括:XML信息、所述预测实验所依赖的算法包。离线计算平台可以通过机器学习平台的提供的接口,获取预测实验的XML信息、依赖的算法包以及模型文件。具体的,所述XML信息中包括了:所述预测实验执行的步骤流程,其中,每一个步骤对应一个job任务,每一个job任务包含所对应步骤的逻辑类和参数信息,前一个job任务的输出结果作为后一个job任务的输入。例如:XML信息包含了实验执行的顺序和步骤。每个步骤作为一个独立的job任务,每个job任务包含当前阶段的处理逻辑类以及相关参数。前面job任务的输出结果,会作为下面job任务的输入。S3、调用所述预测实验所依赖的算法包解析所述XML信息,并将所述解析结果加载至所述模型后,执行所述预测实验。通过本实施例中的机器学习平台,实现了用于建立机器人的模型的自动化训练,尤其是通过训练实验实现了模型的实验准备,并自动提取相关的实验数据,再通过预测实验自动校验模型的训练效果。使得模型文件的准备和训练过程不再受制于pmml格式,从而提高了模型的开发效率,使其能够更好地适应实时性要求越来越高的业务系统。具体的,实验中所有节点的配置信息以xml的格式保存,这些节点包括但不限于:数据读写节点,数据预处理节点,特征工程的节点和算法应用节点等,XML信息中具体包含了每个节点的参数和各节点之间的本文档来自技高网
...

【技术保护点】
1.一种对机器学习模型进行处理方法,其特征在于,包括:通过机器学习平台运行训练实验,生成对应所述训练实验的模型文件,并根据所述模型文件创建预测实验,其中,所述模型文件被反序列化则得到模型,所述模型的父类具有对应所述预测实验的接口;通过所述机器学习平台,获取所述预测实验对应的实验数据,所述实验数据包括:XML信息、所述预测实验所依赖的算法包;调用所述预测实验所依赖的算法包解析所述XML信息,并将所述解析结果加载至所述模型后,执行所述预测实验。

【技术特征摘要】
1.一种对机器学习模型进行处理方法,其特征在于,包括:通过机器学习平台运行训练实验,生成对应所述训练实验的模型文件,并根据所述模型文件创建预测实验,其中,所述模型文件被反序列化则得到模型,所述模型的父类具有对应所述预测实验的接口;通过所述机器学习平台,获取所述预测实验对应的实验数据,所述实验数据包括:XML信息、所述预测实验所依赖的算法包;调用所述预测实验所依赖的算法包解析所述XML信息,并将所述解析结果加载至所述模型后,执行所述预测实验。2.根据权利要求1所述的方法,其特征在于,还包括:当所述模型通过所述预测实验时,发布所述模型,其中,所述模型用于在目标业务系统建立机器人。3.根据权利要求1所述的方法,其特征在于,所述XML信息中包括:所述预测实验执行的步骤流程,其中,每一个步骤对应一个job任务,每一个job任务包含所对应步骤的逻辑类和参数信息,前一个job任务的输出结果作为后一个job任务的输入。4.根据权利要求3所述的方法,其特征在于,所述将所述解析结果加载至所述模型后,执行所述预测实验,包括:调用所述预测实验所依赖的算法包,从所述XML信息中提取有源表,并输入job任务1;根据所述有源表和数据源的映射关系提取源数据,并转成弹性分布式数据集(RDD),再根据转换得到的RDD执行所述job任务1,将所述job任务1的运行结果输出到目标表;重复上述过程,依次执行job任务2至job任务N,并将所述job任务2至所述job任务N的运行结果输出到目标表,N为大于且等于2的正整数。5.根据权利要求1所述的方法,其特征在于,所述根据所述有源表和数据源的映射关系提取源数据,包括:根据所述有源表和数据源的映射关系,从消息队列(MQ)提取所述源数据;job任务1至job任务N的运行结果通过MQ方式输出到所述目标表。6.根据权利要求1所述...

【专利技术属性】
技术研发人员:周鹏程侯海涛高祥友代稳
申请(专利权)人:苏宁易购集团股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1