The invention discloses a data processing method and device. Among them, the method includes: creating target model, target database and computing instance in advance; storing the encapsulated data packets of the target model to the above-mentioned target database, in which the above-mentioned data packets include at least input parameters, parameter types, eigenvectors, target vectors and output results; and running the above-mentioned calculation examples to the above-mentioned target database. Distributed computation is carried out on data packet, and the results are obtained. The invention solves the technical problem that the Spark machine learning algorithm of Internet Web control in the prior art can not record and analyze the whole process of the machine learning algorithm, resulting in low work efficiency.
【技术实现步骤摘要】
数据处理方法及装置
本专利技术涉及计算机
,具体而言,涉及一种数据处理方法及装置。
技术介绍
在移动互联网高速发展的时期,网民数量也在不断提高,海量数据成为常态,大数据技术则是大数据存储、计算、分析、应用的重要工具,这些技术大部分都已经开源,可以帮助技术人员快速掌握大数据相关技术,提高工作效率。但是,在互联网web控制spark机器学习算法方面,开源技术效率较低,提交运行分析的步骤较为松散,没有实现流程化,对过程的记录不够,无法对整个过程分析,以及优化整个过程的流程,不能快速的调节参数,需要使用人员熟练掌握大数据技术和Spark集群学习算法。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据处理方法及装置,以至少解决现有技术中的互联网Web控制Spark机器学习算法,无法记录和分析机器学习算法中的整个过程,导致工作效率较低的技术问题。根据本专利技术实施例的一个方面,提供了一种数据处理方法,包括:预先创建目标模型,目标数据库和计算实例;将封装得到的上述目标模型的数据包存储至上述目标数据库,其中,上述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;通过运行上述计算实例对上述目标数据库中的上述数据包进行分布式计算,得到计算结果。进一步地,在封装得到上述目标模型的数据包之前,上述方法还包括:预先配置上述数据包中的上述输入参数,其中,用于配置上述输入参数的配置数据包括以下至少之一:参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值;预先配置上述数据包中的上述特征向量和/或上述目标向量,其中, ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:预先创建目标模型,目标数据库和计算实例;将封装得到的所述目标模型的数据包存储至所述目标数据库,其中,所述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;通过运行所述计算实例对所述目标数据库中的所述数据包进行分布式计算,得到计算结果。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:预先创建目标模型,目标数据库和计算实例;将封装得到的所述目标模型的数据包存储至所述目标数据库,其中,所述数据包至少包括:输入参数、参数类型、特征向量、目标向量、输出结果;通过运行所述计算实例对所述目标数据库中的所述数据包进行分布式计算,得到计算结果。2.根据权利要求1所述的方法,其特征在于,在封装得到所述目标模型的数据包之前,所述方法还包括:预先配置所述数据包中的所述输入参数,其中,用于配置所述输入参数的配置数据包括以下至少之一:参数序号、参数名称、英文名称、参数类型、参数分类、取值范围、默认值;预先配置所述数据包中的所述特征向量和/或所述目标向量,其中,所述特征向量的配置数量为一列或多列,所述目标向量的配置数量为一列。3.根据权利要求2所述的方法,其特征在于,在预先配置所述数据包中的所述输入参数之后,所述方法还包括:对在配置所述输入参数过程中存在异常的代码进行处理,其中,所述异常包括以下至少之一:异常判断,空值判断,数据转换。4.根据权利要求1所述的方法,其特征在于,在封装得到所述目标模型的数据包之前,所述方法还包括:预先配置所述目标模型的基本信息,其中,所述基本信息包括以下至少之一:模型名称、模型类型、模型描述、创建时间、算法入口、算法文件上传;预先配置所述目标模型的模型参数信息,其中,所述模型参数信息至少包括:所述基本信息、所述特征向量和所述目标向量;预先配置所述数据包中的所述输出结果,其中,所述输出结果包括以下至少之一:输出图形、输出字段。5.根据权利要求1所述的...
【专利技术属性】
技术研发人员:马龙飞,李海涛,姚斌,丁屹峰,陆斯悦,张禄,徐蕙,杨烁,宫成,陈建树,
申请(专利权)人:国网北京市电力公司,国家电网有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。