一种数据的处理方法及系统技术方案

技术编号:30088539 阅读:17 留言:0更新日期:2021-09-18 08:49
本发明专利技术提供一种数据的处理方法及系统,方法包括:根据预设的治理方式分类规则对训练数据设置分类标签;建立分类标签与处理算法的映射关系;根据预设的属性分析方法提取得到训练数据的至少一个属性,其中属性分析方法包括多个对属性进行判断的属性分析子方法;将训练数据对应的属性输入至xgboost分类模型中,结合训练数据对应的分类标签对xgboost分类模型进行训练,以得到训练好的xgboost分类模型;提取待处理数据的至少一个属性,将待处理数据的属性输入至训练好的xgboost分类模型中,以得到待处理数据的分类标签;根据映射关系获取待处理数据的分类标签对应的处理算法,以根据处理算法对待处理数据进行处理;提高对数据的处理速度,提升治理人员效率,减轻系统负担。减轻系统负担。减轻系统负担。

【技术实现步骤摘要】
一种数据的处理方法及系统


[0001]本专利技术涉及数据库的数据治理领域,尤其涉及一种数据的处理方法及系统。

技术介绍

[0002] 随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB

PB

EB

ZB的级别暴增。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的领域,数据治理应运而生。
[0003]现行数据治理多依赖人工判断,无法从根本上提升效率,且人工经常出现漏判误判等问题因此治理效果也千差万别,并且对于相似数据问题经常出现对于不同数据的相同解决思路的要重复性操作。本专利主要是结合机器学习人工智能中流行的分类方法,提升数据治理综合效果。现行常用的数据治理方案,往往需要针对不同的表格,不同表格中的属性分别依照相关业务规则生成对应处理语句(往往为sql),假设业务方提供业务需求为对m张表进行数据治理,则至少需要编写M条sql语句实现自动化数据治理(M为m张表中的各个数据的各自属性相加之和,且由于某一字段至少需要一条处理规则,故至少为M现实情况往往大于M条规则)。
[0004]因此现有技术存在以下几点问题:第一、由于表格中的存在属性之间相似程度过高的数据,从而导致需要重复编写相似的sql处理语句对相似属性的数据进行治理,进而影响治理效率。
[0005]第二、由于数据处理规则的相似性,因此重复编写sql处理语句也会带来效率下降的问题。
[0006]第三、对于M比较大的业务问题,相对应的sql处理语句也会成指数级别上升,对于大量的数据在实时数据治理业务中,实时查找相应sql规则也会由于M过于庞大(经过实际实验规则数M大于万条时,会出现明显延时),影响数据治理体验流程,严重时会造成阻塞系统崩溃。

技术实现思路

[0007]针对现有技术中存在的上述问题,现提供一种数据的处理方法及系统。
[0008]具体技术方案如下:一种数据的处理方法,其中,包括以下步骤:获取训练数据,根据预设的治理方式分类规则对训练数据设置分类标签;对分类标签设置对应的处理算法,并建立分类标签与处理算法的映射关系;根据预设的属性分析方法提取得到训练数据的至少一个属性,其中属性分析方法包括多个对属性进行判断的属性分析子方法;
将训练数据对应的属性输入至xgboost分类模型中,结合训练数据对应的分类标签对xgboost分类模型进行训练,以得到训练好的xgboost分类模型;获取待处理数据,并提取待处理数据的至少一个属性,将待处理数据的属性输入至训练好的xgboost分类模型中,以得到待处理数据的分类标签;根据映射关系获取待处理数据的分类标签对应的处理算法,以根据获取得到的处理算法对待处理数据进行处理。
[0009]优选的,数据的处理方法,其中,属性分析方法采用并行的方式对训练数据进行每个属性分析子方法对应的属性判断,将每个属性分析子方法对应的判断结果进行记录,以获取得到训练数据的至少一个属性。
[0010]优选的,数据的处理方法,其中,训练数据对应唯一的分类标签,待处理数据对应唯一的分类标签。
[0011]优选的,数据的处理方法,其中,分类标签对应至少一个处理算法。
[0012]优选的,数据的处理方法,其中,根据映射关系获取待处理数据的分类标签对应的处理算法,以根据获取得到的处理算法对待处理数据进行处理,具体包括以下步骤:根据映射关系获取待处理数据的分类标签对应的每个处理算法;依照预设处理顺序依次根据获取得到的处理算法对待处理数据进行处理。
[0013]优选的,数据的处理方法,其中,属性包括:数据地址、字段类别、长度、标点和数学计算符号。
[0014]优选的,数据的处理方法,其中,属性分析子方法包括:对训练数据或待处理数据的字段类别进行分析,将分析得到的字段类别作为属性;判断训练数据或待处理数据中是否包括标点属性;确定训练数据或待处理数据的数据长度;判断训练数据或待处理数据中是否包括数学符号属性;中的至少一个。
[0015]还包括一种数据的处理系统,其中,包括:分类标签设置模块,用于获取训练数据,根据预设的治理方式分类规则对训练数据设置分类标签;建立映射模块,用于对分类标签设置对应的处理算法,并建立分类标签与处理算法的映射关系;属性提取模块,用于根据预设的属性分析方法提取得到训练数据的至少一个属性,其中属性分析方法包括多个对属性进行判断的属性分析子方法;训练模块,用于将训练数据对应的属性输入至xgboost分类模型中,结合训练数据对应的分类标签对xgboost分类模型进行训练,以得到训练好的xgboost分类模型;获取模块,获取待处理数据,并提取待处理数据的至少一个属性,将待处理数据的属性输入至训练好的xgboost分类模型中,以得到待处理数据的分类标签;处理模块,用于根据映射关系获取待处理数据的分类标签对应的处理算法,以根据获取得到的处理算法对待处理数据进行处理。
[0016]还包括一种数据的管理设备,其中,包括存储器和处理器,存储器上保存有可在处
理器上运行的数据管理程序,数据管理程序被处理器执行时实现如上述任一项的数据的处理方法。
[0017]还包括一种计算机可读存储介质,其中,计算机可读存储介质上保存有可在处理器上运行的数据管理程序,数据管理程序被处理器执行时实现如上述任一项的数据的处理方法。
[0018]上述技术方案具有如下优点或有益效果:使用xgboost分类模型可以防止过拟合的情况出现,并且xgboost分类模型不仅使用到了一阶导数,还使用二阶导数,损失更精确,还可以自定义损失;XGBoost分类模型采用的是并行优化,其并行是在特征粒度上的,使得优化效果更好;根据预设的属性分析方法提取得到训练数据的至少一个属性,其中属性分析方法包括多个对属性进行判断的属性分析子方法,从而实现对不同的属性进行选择;通过训练数据对应的分类标签对xgboost分类模型进行训练,提高后续的对提高对数据进行处理的速度,提升数据治理人员对数据进行治理的效率,减轻数据治理系统的负担;直接根据属性分析方法中的所有属性分析子方法采用并行的方式对同一个训练数据或待处理数据进行分析,以直接提取得到训练数据的至少一个属性,本实施例采用并行的方式对同一个训练数据或待处理数据进行分析,减少了分析时间,进一步提高数据的治理效率。
附图说明
[0019]参考所附附图,以更加充分的描述本专利技术的实施例。然而,所附附图仅用于说明和阐述,并不构成对本专利技术范围的限制。
[0020]图1为本专利技术数据的处理方法的实施例的流程图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据的处理方法,其特征在于,包括以下步骤:获取训练数据,根据预设的治理方式分类规则对所述训练数据设置分类标签;对所述分类标签设置对应的处理算法,并建立所述分类标签与所述处理算法的映射关系;根据预设的属性分析方法提取得到所述训练数据的至少一个属性,其中所述属性分析方法包括多个对属性进行判断的属性分析子方法;将所述训练数据对应的属性输入至xgboost分类模型中,结合所述训练数据对应的所述分类标签对xgboost分类模型进行训练,以得到训练好的xgboost分类模型;获取待处理数据,并提取所述待处理数据的至少一个属性,将所述待处理数据的属性输入至所述训练好的xgboost分类模型中,以得到所述待处理数据的分类标签;根据所述映射关系获取所述待处理数据的分类标签对应的处理算法,以根据获取得到的所述处理算法对所述待处理数据进行处理。2.如权利要求1所述的数据的处理方法,其特征在于,所述属性分析方法采用并行的方式对所述训练数据进行每个所述属性分析子方法对应的属性判断,将每个属性分析子方法对应的判断结果进行记录,以获取得到所述训练数据的至少一个属性。3.如权利要求1所述的数据的处理方法,其特征在于,所述训练数据对应唯一的分类标签,所述待处理数据对应唯一的所述分类标签。4.如权利要求1所述的数据的处理方法,其特征在于,所述分类标签对应至少一个所述处理算法。5.如权利要求4所述的数据的处理方法,其特征在于,所述根据所述映射关系获取所述待处理数据的分类标签对应的处理算法,以根据获取得到的所述处理算法对所述待处理数据进行处理,具体包括以下步骤:根据映射关系获取所述待处理数据的分类标签对应的每个处理算法;依照预设处理顺序依次根据获取得到的所述处理算法对所述待处理数据进行处理。6.如权利要求1或2所述的数据的处理方法,其特征在于,所述属性包括:数据地址、字段类别、长度、标...

【专利技术属性】
技术研发人员:张聪潘澳涔贾立锋
申请(专利权)人:浙江非线数联科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1