数据处理方法及装置制造方法及图纸

技术编号:20916122 阅读:19 留言:0更新日期:2019-04-20 09:36
本发明专利技术公开了一种数据处理方法及装置。其中,该方法包括:预先创建目标模型,目标数据库和计算实例;将封装得到的上述目标模型的数据包存储至上述目标数据库,其中,上述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算,得到计算结果。本发明专利技术解决了现有技术中的互联网Web控制Spark机器学习算法,无法记录和分析机器学习算法中的整个过程,导致工作效率较低的技术问题。

Data Processing Method and Device

The invention discloses a data processing method and device. Among them, the method includes: creating target model, target database and computing instance in advance; storing the encapsulated data packets of the target model to the above-mentioned target database, in which the above-mentioned data packets include at least input parameters, parameter types, eigenvectors, target vectors and output results; and running the above-mentioned calculation examples to the above-mentioned target database. Distributed computation is carried out on data packet, and the results are obtained. The invention solves the technical problem that the Spark machine learning algorithm of Internet Web control in the prior art can not record and analyze the whole process of the machine learning algorithm, resulting in low work efficiency.

【技术实现步骤摘要】
数据处理方法及装置
本专利技术涉及计算机
,具体而言,涉及一种数据处理方法及装置。
技术介绍
在移动互联网高速发展的时期,网民数量也在不断提高,海量数据成为常态,大数据技术则是大数据存储、计算、分析、应用的重要工具,这些技术大部分都已经开源,可以帮助技术人员快速掌握大数据相关技术,提高工作效率。但是,在互联网web控制spark机器学习算法方面,开源技术效率较低,提交运行分析的步骤较为松散,没有实现流程化,对过程的记录不够,无法对整个过程分析,以及优化整个过程的流程,不能快速的调节参数,需要使用人员熟练掌握大数据技术和Spark集群学习算法。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据处理方法及装置,以至少解决现有技术中的互联网Web控制Spark机器学习算法,无法记录和分析机器学习算法中的整个过程,导致工作效率较低的技术问题。根据本专利技术实施例的一个方面,提供了一种数据处理方法,包括:预先创建目标模型,目标数据库和计算实例;将封装得到的上述目标模型的数据包存储至上述目标数据库,其中,上述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算,得到计算结果。进一步地,在封装得到上述目标模型的数据包之前,上述方法还包括:预先配置上述数据包中的上述输入参数,其中,用于配置上述输入参数的配置数据包括以下至少之一:参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值;预先配置上述数据包中的上述特征向量和/或上述目标向量,其中,上述特征向量的配置数量为一列或多列,上述目标向量的配置数量为一列。进一步地,在预先配置上述数据包中的上述输入参数之后,上述方法还包括:对在配置上述输入参数过程中存在异常的代码进行处理,其中,上述异常包括以下至少之一:异常判断,空值判断,数据转换。进一步地,在封装得到上述目标模型的数据包之前,上述方法还包括:预先配置上述目标模型的基本信息,其中,上述基本信息包括以下至少之一:模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传;预先配置上述目标模型的模型参数信息,其中,上述模型参数信息至少包括:上述基本信息、上述特征向量和上述目标向量;预先配置上述数据包中的上述输出结果,其中,上述输出结果包括以下至少之一:输出图形、输出字段。进一步地,在预先创建上述目标数据库之后,上述方法还包括:获取上述目标数据库中的业务数据;对上述业务数据进行数据清洗处理,其中,上述数据清洗处理为清洗处理上述业务数据中以下至少之一数据:残缺数据、错误数据、重复数据;将进行上述数据清洗处理后的上述业务数据存储至数据仓库中。进一步地,在通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算,得到计算结果之后,上述方法还包括:将上述计算结果存储至与上述计算实例对应的数据表中,其中,上述数据表存储在上述目标数据库中。进一步地,在通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算,得到计算结果之后,上述方法还包括:通过数据列表的形式展示上述计算结果,以及与上述计算结果对应的原始数据。根据本专利技术实施例的另一方面,还提供了一种数据处理装置,包括:创建模块,用于预先创建目标模型,目标数据库和计算实例;处理模块,用于将封装得到的上述目标模型的数据包存储至上述目标数据库,其中,上述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;计算模块,用于通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算,得到计算结果。根据本专利技术实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的数据处理方法。根据本专利技术实施例的另一方面,还提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的数据处理方法。在本专利技术实施例中,通过预先创建目标模型,目标数据库和计算实例;将封装得到的上述目标模型的数据包存储至上述目标数据库,其中,上述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算,得到计算结果,达到了记录spark机器学习算法的每一个过程,可以确定每一个流程实例的具体情况的目的,从而实现了提高工作效率,有利于更好的建模分析数据的技术效果,进而解决了现有技术中的互联网Web控制Spark机器学习算法,无法记录和分析机器学习算法中的整个过程,导致工作效率较低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种数据处理方法的流程图;图2是根据本专利技术实施例的一种可选的数据处理方法的流程图;图3是根据本专利技术实施例的一种可选的数据处理方法的流程图;图4是根据本专利技术实施例的一种可选的数据处理方法的流程图;以及图5是根据本专利技术实施例的一种数据处理装置的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。首先,为方便理解本专利技术实施例,下面将对本专利技术中所涉及的部分术语或名词进行解释说明:计算引擎Spark:是指专为大规模数据处理而设计的快速通用的计算引擎。命令解析器Shell:是指计算机科学中,为使用者提供操作界面的软件,接收用户命令并调用相应的应用程序。分布式计算:是一种计算方法,和集中式计算是相对的。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理,可以节约整体计算时间,大大提高计算效率。机器学习(MachineLearning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。安全协议SecureShell,SSH:是指建立在应用层基础上的安全协议,是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议,可以有效防止远程管理过程中的信息泄露问题。数据仓库工具Hive:是指基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。清洗处理:是指发现并纠正数据文件中可识别的错误的本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:预先创建目标模型,目标数据库和计算实例;将封装得到的所述目标模型的数据包存储至所述目标数据库,其中,所述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;通过运行所述计算实例对所述目标数据库中的所述数据包进行分布式计算,得到计算结果。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:预先创建目标模型,目标数据库和计算实例;将封装得到的所述目标模型的数据包存储至所述目标数据库,其中,所述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;通过运行所述计算实例对所述目标数据库中的所述数据包进行分布式计算,得到计算结果。2.根据权利要求1所述的方法,其特征在于,在封装得到所述目标模型的数据包之前,所述方法还包括:预先配置所述数据包中的所述输入参数,其中,用于配置所述输入参数的配置数据包括以下至少之一:参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值;预先配置所述数据包中的所述特征向量和/或所述目标向量,其中,所述特征向量的配置数量为一列或多列,所述目标向量的配置数量为一列。3.根据权利要求2所述的方法,其特征在于,在预先配置所述数据包中的所述输入参数之后,所述方法还包括:对在配置所述输入参数过程中存在异常的代码进行处理,其中,所述异常包括以下至少之一:异常判断,空值判断,数据转换。4.根据权利要求1所述的方法,其特征在于,在封装得到所述目标模型的数据包之前,所述方法还包括:预先配置所述目标模型的基本信息,其中,所述基本信息包括以下至少之一:模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传;预先配置所述目标模型的模型参数信息,其中,所述模型参数信息至少包括:所述基本信息、所述特征向量和所述目标向量;预先配置所述数据包中的所述输出结果,其中,所述输出结果包括以下至少之一:输出图形、输出字段。5.根据权利要求1所述的...

【专利技术属性】
技术研发人员:马龙飞李海涛姚斌丁屹峰陆斯悦张禄徐蕙杨烁宫成陈建树
申请(专利权)人:国网北京市电力公司国家电网有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1