一种基于决策树算法的ETL文件数据采集到库的方法技术

技术编号:33885930 阅读:17 留言:0更新日期:2022-06-22 17:18
本发明专利技术公开了一种基于决策树算法的ETL文件数据采集到库的方法,采用使用决策树算法得到最优的规则筛选顺序去运行ETL采集可以大大提高采集的效率速度。本发明专利技术的一种基于决策树算法的ETL文件数据采集到库的方法,以算法为基础,充分发挥了算法的优势提高了处理大数据量文件数据精确采集的效率,加强了对数据的掌控与可分析数据的上限,同时内置大量规则,基础数据元,可以自由化配置以此可操作控制在大量数据中去对采集的目标数据进行操作,并且同时也能结合用户的实际业务应用,适用于各种数据场景。本发明专利技术的一种基于决策树算法的ETL文件数据采集到库的方法具有配置简单,应用场景广,采集效率高的优点。采集效率高的优点。采集效率高的优点。

【技术实现步骤摘要】
一种基于决策树算法的ETL文件数据采集到库的方法


[0001]本专利技术涉及数据采集
,尤其涉及一种配置简单,采集效率高的基于决策树算法的ETL文件数据采集到库的方法。

技术介绍

[0002]现有的ELT将数据采集到库的方法,包括将数据从来源抽取、转换、加载到数据库目的端,ETL是极其复杂的过程,每次搭建采集任务的时候都需要先配置相对应的模板规则等,配置相对繁琐,并且,结构越复杂的数据采集,占用内存越多,采集效率较低。
[0003]因此,有必要提出一种改进,以克服现有技术缺陷。

技术实现思路

[0004]本专利技术的目的是解决现有技术中的问题,提供一种配置简单,采集效率高的基于决策树算法的ETL文件数据采集到库的方法。
[0005]本专利技术的技术方案是:
[0006]一种基于决策树算法的ETL文件数据采集到库的方法,包括以下步骤:S1、管理员根据要采集的目标数据进行采集规则的配置;S2、使用ETL工具进行数据抽取,存入数据集;S3、使用决策树算法,根据熵值比较构建最优规则筛选树结构;将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵,将最优熵所代表的规则属性从规则集中删除,直至规则集中只剩一条规则得到最终叶子节点;S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式;S5、将正则表达式导入ETL运行,进行清洗与筛选,得到结果,将结果导入数据库。
[0007]作为一种优选的技术方案,所述步骤S3具体为:S31、识别查看父级规则下是否有任意子集,若有子集则将所有子集存入规则集,进行步骤S32;若无,则将该父级规则生成正则表达式;S32、将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵;S33、查看规则集现有规则数量,若还有两个以上,将当前最优熵所代表的规则属性从规则集中删除,进行步骤S34;若只有两个,则将所代表的规则属性从规则集中删除后得到最优规则筛选树结构;S34、将当前最优熵所代表的规则筛选出的目标数据替换到数据集,循环S32、S33。
[0008]作为一种进一步优选的技术方案,所述步骤S32中,熵的计算公式为:其中,a为属性,V为属性a可能取值的数量,D为数据,选取属性a对数据D进行划分,会产生V个分支,其中第u个结点包含了数据集D中所有在特征a上取值为au的样本总数,记为Du。
[0009]作为另一种进一步优选的技术方案,所述步骤S32求熵若为首次计算,则该节点为决策树的根节点。
[0010]本专利技术的一种基于决策树算法的ETL文件数据采集到库的方法,采用使用决策树算法得到最优的规则筛选顺序去运行ETL采集可以大大提高采集的效率速度。本专利技术的一种基于决策树算法的ETL文件数据采集到库的方法,以算法为基础,充分发挥了算法的优势提高了处理大数据量文件数据精确采集的效率,加强了对数据的掌控与可分析数据的上限,同时内置大量规则,基础数据元,可以自由化配置以此可操作控制在大量数据中去对采集的目标数据进行操作,并且同时也能结合用户的实际业务应用,适用于各种数据场景。本专利技术的一种基于决策树算法的ETL文件数据采集到库的方法具有配置简单,应用场景广,采集效率高的优点。
附图说明
[0011]图1为本专利技术一种基于决策树算法的ETL文件数据采集到库的方法具体实施方式流程框图。
具体实施方式
[0012]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0013]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
[0014]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0015]取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0016]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
[0017]如图1所示为本专利技术的一种基于决策树算法的ETL文件数据采集到库的方法具体实施方式。本实施例的一种基于决策树算法的ETL文件数据采集到库的方法,包括以下步骤:
[0018]S1、管理员根据要采集的目标数据进行采集规则的配置;
[0019]S2、使用ETL工具进行数据抽取,存入数据集;
[0020]S3、使用决策树算法,根据熵值比较构建最优规则筛选树结构;将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵,将最优熵所代表的规则属性从规则集中删除,直至规则集中只剩一条规则得到最终叶子节点;
[0021]S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式;
[0022]S5、将正则表达式导入ETL运行,进行清洗与筛选,得到结果,将结果导入数据库。
[0023]其中,熵是用来定量表示信息的聚合程度的,是信息的期望值也是度量样本集合纯度的一种常用指标。决策树算法关键就在于怎么去选择最优的划分属性分类,所谓的最优对于二元分类也就是判断次数最少,就是尽量使划分的数据属于同一类别,即“纯度”最高的属性。
[0024]具体的,所述步骤S3具体为:
[0025]S31、识别查看父级规则下是否有任意子集,若有子集则将所有子集存入规则集,进行步骤S32;若无,则将该父级规则生成正则表达式;
[0026]S32、将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵;
[0027]S33、查看规则集现有规则数量,若还有两个以上,将当前最优熵所代表的规则属性从规则集中删除,进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于决策树算法的ETL文件数据采集到库的方法,其特征在于:包括以下步骤:S1、管理员根据要采集的目标数据进行采集规则的配置;S2、使用ETL工具进行数据抽取,存入数据集;S3、使用决策树算法,根据熵值比较构建最优规则筛选树结构;将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵,将最优熵所代表的规则属性从规则集中删除,直至规则集中只剩一条规则得到最终叶子节点;S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式;S5、将正则表达式导入ETL运行,进行清洗与筛选,得到结果,将结果导入数据库。2.根据权利要求1所述的一种基于决策树算法的ETL文件数据采集到库的方法,其特征在于:所述步骤S3具体为:S31、识别查看父级规则下是否有任意子集,若有子集则将所有子集存入规则集,进行步骤S32;若无,则将该父级规则生成正则表达式;S32、...

【专利技术属性】
技术研发人员:李晓俊孙朝晖孙启明万虹博
申请(专利权)人:上海天好信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1