一种基于kettle解决图数据的准实时加载方法技术

技术编号:37305203 阅读:15 留言:0更新日期:2023-04-21 22:49
本发明专利技术涉及一种基于kettle解决图数据的准实时加载方法,包括以下步骤:(1)建立kettle转换1,生成顶点和关系数据文本,若无文件生成,调度短信接口进行消息提醒;(2)建立kettle转换2,将指定目录下的文件推送至远程服务器指定目录,推送完成后将目录下文件删除,避免重复推送;(3)建立JOB,由转换1和转换2构成,且定时执行;(4)建立shell脚本,由HugeGraph

【技术实现步骤摘要】
一种基于kettle解决图数据的准实时加载方法


[0001]本专利技术属于大数据领域,涉及对各种类数据的处理,通过数据抽取、质量检测、数据清洗、数据转换、数据过滤等过程,实现数据的准实时加载过程。

技术介绍

[0002]在当前大数据环境下,我们处理数据迁移、转换的工作会越来越多,数据仓库的概念也越来越被熟知,现在有很多成熟的工具提供ETL功能,即将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。例如Datastage做为最专业的ETL,占据了不少的市场份额,但其价格昂贵;DecisionStream和Powercenter相对便宜一些,但同样价格不菲;OWB和ODI做为数据库厂商提供的ETL工具,其局限性就是和oracle数据库的耦合度太深;ETL Automation提供了一套ETL框架,但是其对数据库依赖性强。而Kettle作为一个少有的开源的ETL工具,绿色无需安装,数据抽取高效稳定,可以在Window、Linux、Unix上运行,并且提供了一套界面操作的解决方案,从而可代替原有的程序开发,且可以开发其插件扩展原本功能。HugeGraph

Loader是HugeGragh的数据导入组件,能够将多种数据源的数据转化为图的顶点和边并批量导入到图数据库中。

技术实现思路

[0003]本专利技术的目的是充分利用Kettle的特性,提供一种基于kettle解决图数据的准实时加载方法,解决上述现有技术中存在的问题。
[0004]本专利技术的技术方案如下:
[0005]一种基于kettle解决图数据的准实时加载方法,其特征在于包括以下步骤:
[0006](1)建立kettle转换1,目的是生成顶点和关系数据文本,若无文件生成,调度短信接口进行消息提醒;
[0007](2)建立kettle转换2,目的是将指定目录下的文件推送至远程服务器指定目录,推送完成后将目录下文件删除,避免重复推送;
[0008](3)建立JOB,由转换1和转换2构成,且定时执行;
[0009](4)建立shell脚本,由HugeGraph

Loader加载指定目录下的文件至图数据库中,并生成日志;
[0010](5)建立Crontab任务,定时执行shell脚本。
[0011]本专利技术可自动化导入图数据,可实现可自动化运维。
具体实施方式
[0012]HugeGraph

Loader是HugeGragh的数据导入组件,能够将多种数据源的数据转化为图的顶点和边并批量导入到图数据库中。
[0013]目前支持的数据源包括:本地磁盘文件或目录,支持TEXT、CSV和JSON格式的文件,支持压缩文件;HDFS文件或目录,支持压缩文件;主流关系型数据库,如MySQL、PostgreSQL、
Oracle、SQL Serve。
[0014]本专利技术主要包括三个模块,分别为数据生成、数据推送与数据导入模块。
[0015]数据生成模块由kettle连接关系数据库,生成主要的顶点和关系数据。
[0016]数据推送模块由kettle连接图数据库所在服务器,将生成的节点和关系数据以文件形式推送到双方协定的文件目录下。
[0017]数据导入模块由HugeGraph

Loader将目录下的文件导入至指定图数据库中。
[0018]其中数据生成和推送模块由ketlle定时执行,且监测到若无数据生成,则以短信方式进行消息提醒;导入数据由shell脚本crontab或ketlle远程调度。
[0019]本专利技术的具体实施方式如下:
[0020]Step1建立kettle转换1,目的是生成顶点和关系数据文本,若无文件生成,调度短信接口进行消息提醒。
[0021]Step2建立kettle转换2,目的是将指定目录下的文件推送至远程服务器指定目录,推送完成后将目录下文件删除,避免重复推送。
[0022]Step3建立JOB,由转换1和转换2构成,且定时执行。
[0023]Step4建立shell脚本,由HugeGraph

Loader加载指定目录下的文件至图数据库中,并生成日志。
[0024]Step5建立Crontab任务,定时执行shell脚本。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于kettle解决图数据的准实时加载方法,其特征在于包括以下步骤:(1)建立kettle转换1,目的是生成顶点和关系数据文本,若无文件生成,调度短信接口进行消息提醒;(2)建立kettle转换2,目的是将指定目录下的文件推送至远程服务器指定目录,推送完成后将目录下文...

【专利技术属性】
技术研发人员:董雪梅
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1