【技术实现步骤摘要】
一种大数据清洗配置式字段解析方法
本专利技术涉过大数据清洗字段解析
,具体是一种大数据清洗配置式字段解析方法。
技术介绍
随着大数据时代的到来,海量数据的不断剧增给,各个行业可通过大数据技术的支持,实现对现有资源的整合和重新调整,提高行业运行效率,挖掘产业巨大潜力,并且需要不断的进行对数据的采集。目前最大区别是人员需要采集新数据时,开发人员每次都需要根据新的模版写对应的解析程序,然后再测试更新到生产服务器才能进行新的数据入库工作,导致工作量巨大业务流程较多且容易出错。
技术实现思路
本专利技术的目的在于提供一种大数据清洗配置式字段解析方法,以解决人员需要采集新数据时,开发人员每次都需要根据新的模版写对应的解析程序,然后再测试更新到生产服务器才能进行新的数据入库工作,工作量大的问题。为实现上述目的,本专利技术提供如下技术方案:一种大数据清洗配置式字段解析方法,包括如下具体步骤:S1、设置文件的类型ID,用户通过excel模版的数据设置文件的类型ID,每一个字段对应的数据类型可为字符串、
【技术保护点】
1.一种大数据清洗配置式字段解析方法,其特征在于,包括如下具体步骤:/nS1、设置文件的类型ID,用户通过excel模版的数据设置文件的类型ID,每一个字段对应的数据类型可为字符串、整形、浮点数;/nS2、建立程序配置文件目录,将设置文件的类型ID上传到程序配置文件目录;/nS3、模版数据清洗,当用户进行模版数据清洗时,上传excel模版并选择模版类型的ID;/nS4、字段解析,清洗程序根据数据来源,模版ID会自动调用响应的解析配置对应的字段进行解析。/n
【技术特征摘要】
1.一种大数据清洗配置式字段解析方法,其特征在于,包括如下具体步骤:
S1、设置文件的类型ID,用户通过excel模版的数据设置文件的类型ID,每一个字段对应的数据类型可为字符串、整形、浮点数;
S2、建立程序配置文件目录,将设置文件的类型ID上传到程序配置文件目录;
S3、模版数据清洗,当用户进行模版数据清洗时,上传excel模版并选择模版类型的ID;
S4、字段解析,清洗程序根据数据来源,模版ID会自动调用响应的解析配置对应的字段进行解析。
2.根据权利要求1所述的一种大数据清洗配置式字段解析方法,其特征在于,所述建立程序配置文件目录包括多个程序配置文件目录模块,程序配置文件目录检测模板、程序配置文件目录保存模块;
多个所述程序配置文件目录模块之间互相独立运行,并对应每一个字段对应的数据类型;
所述程序配置文件目录检测模板,用于检测上传文件的类型ID时是否出现数据丢失,其程序配置文件目录检测模板内设置有中间数据服务模块,其中,中间数据服务模块可将数据分化成多个中介点;
所述程序配置文件目录保存模块,将上传至多个程序配置文件目录模块的ID进行保存在数据库。
3.根据权利要求2所述的一种大数据清洗配置式字段解析方法,其特征在于,所述中间数据服务模块的中介点段两点作为输出点X与输入点Y,通过程序配置文件目录检测模板检测输出点X与输入点Y两点检测收集信息;
当上传数据无丢失时,将输入点X的数据信息A1和A2、输出点Y的数据信息B1和B2按照第一公式生成一元二次方程,如公式1所示:
Y=KX
(1)
当上传数据无丢失时,可通过公式1变形为公式2所示:
Y=KX+B
(2)
其中,B为数据截距,生成公式(3):
Y=X+B
(3)
其中输入点的坐...
【专利技术属性】
技术研发人员:任毅,
申请(专利权)人:成都商通数治科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。