【技术实现步骤摘要】
一种基于决策树算法的ETL文件数据采集到库的方法
[0001]本专利技术涉及数据采集
,尤其涉及一种配置简单,采集效率高的基于决策树算法的ETL文件数据采集到库的方法。
技术介绍
[0002]现有的ELT将数据采集到库的方法,包括将数据从来源抽取、转换、加载到数据库目的端,ETL是极其复杂的过程,每次搭建采集任务的时候都需要先配置相对应的模板规则等,配置相对繁琐,并且,结构越复杂的数据采集,占用内存越多,采集效率较低。
[0003]因此,有必要提出一种改进,以克服现有技术缺陷。
技术实现思路
[0004]本专利技术的目的是解决现有技术中的问题,提供一种配置简单,采集效率高的基于决策树算法的ETL文件数据采集到库的方法。
[0005]本专利技术的技术方案是:
[0006]一种基于决策树算法的ETL文件数据采集到库的方法,包括以下步骤:S1、管理员根据要采集的目标数据进行采集规则的配置;S2、使用ETL工具进行数据抽取,存入数据集;S3、使用决策树算法,根据熵值比较构建最优规则筛选树 ...
【技术保护点】
【技术特征摘要】
1.一种基于决策树算法的ETL文件数据采集到库的方法,其特征在于:包括以下步骤:S1、管理员根据要采集的目标数据进行采集规则的配置;S2、使用ETL工具进行数据抽取,存入数据集;S3、使用决策树算法,根据熵值比较构建最优规则筛选树结构;将数据集与规则集进行计算,得到各个规则与数据集对应的熵,将多个熵进行对比,得到最优熵,将最优熵所代表的规则属性从规则集中删除,直至规则集中只剩一条规则得到最终叶子节点;S4、按照决策树树形代表的的最优筛选顺序将规则依次生成对应顺序正则表达式;S5、将正则表达式导入ETL运行,进行清洗与筛选,得到结果,将结果导入数据库。2.根据权利要求1所述的一种基于决策树算法的ETL文件数据采集到库的方法,其特征在于:所述步骤S3具体为:S31、识别查看父级规则下是否有任意子集,若有子集则将所有子集存入规则集,进行步骤S32;若无,则将该父级规则生成正则表达式;S32、...
【专利技术属性】
技术研发人员:李晓俊,孙朝晖,孙启明,万虹博,
申请(专利权)人:上海天好信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。