一种基于决策树算法的ETL文件数据采集到库的方法技术

技术编号：33885930 阅读：29 留言：0更新日期：2022-06-22 17:18

本发明专利技术公开了一种基于决策树算法的ETL文件数据采集到库的方法，采用使用决策树算法得到最优的规则筛选顺序去运行ETL采集可以大大提高采集的效率速度。本发明专利技术的一种基于决策树算法的ETL文件数据采集到库的方法，以算法为基础，充分发挥了算法的优势提高了处理大数据量文件数据精确采集的效率，加强了对数据的掌控与可分析数据的上限，同时内置大量规则，基础数据元，可以自由化配置以此可操作控制在大量数据中去对采集的目标数据进行操作，并且同时也能结合用户的实际业务应用，适用于各种数据场景。本发明专利技术的一种基于决策树算法的ETL文件数据采集到库的方法具有配置简单，应用场景广，采集效率高的优点。采集效率高的优点。采集效率高的优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于决策树算法的ETL文件数据采集到库的方法

[0001]本专利技术涉及数据采集
，尤其涉及一种配置简单，采集效率高的基于决策树算法的ETL文件数据采集到库的方法。

技术介绍

[0002]现有的ELT将数据采集到库的方法，包括将数据从来源抽取、转换、加载到数据库目的端，ETL是极其复杂的过程，每次搭建采集任务的时候都需要先配置相对应的模板规则等，配置相对繁琐，并且，结构越复杂的数据采集，占用内存越多，采集效率较低。
[0003]因此，有必要提出一种改进，以克服现有技术缺陷。

技术实现思路

[0004]本专利技术的目的是解决现有技术中的问题，提供一种配置简单，采集效率高的基于决策树算法的ETL文件数据采集到库的方法。
[0005]本专利技术的技术方案是：
[0006]一种基于决策树算法的ETL文件数据采集到库的方法，包括以下步骤：S1、管理员根据要采集的目标数据进行采集规则的配置；S2、使用ETL工具进行数据抽取，存入数据集；S3、使用决策树算法，根据熵值比较构建最优规则筛选树...

【技术保护点】

【技术特征摘要】
1.一种基于决策树算法的ETL文件数据采集到库的方法，其特征在于：包括以下步骤：S1、管理员根据要采集的目标数据进行采集规则的配置；S2、使用ETL工具进行数据抽取，存入数据集；S3、使用决策树算法，根据熵值比较构建最优规则筛选树结构；将数据集与规则集进行计算，得到各个规则与数据集对应的熵，将多个熵进行对比，得到最优熵，将最优熵所代表的规则属性从规则集中删除，直至规则集中只剩一条规则得到最终叶子节点；S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式；S5、将正则表达式导入ETL运行，进行清洗与筛选，得到结果，将结果导入数据库。2.根据权利要求1所述的一种基于决策树算法的ETL文件数据采集到库的方法，其特征在于：所述步骤S3具体为：S31、识别查看父级规则下是否有任意子集，若有子集则将所有子集存入规则集，进行步骤S32；若无，则将该父级规则生成正则表达式；S32、...

【专利技术属性】
技术研发人员：李晓俊，孙朝晖，孙启明，万虹博，
申请(专利权)人：上海天好信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人