【技术实现步骤摘要】
基于大数据的数据自动抽取系统
本专利技术涉及数据抽取
,尤其涉及一种基于大数据的数据自动抽取系统。
技术介绍
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。据不完全统计,数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以致于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而数据抽取则是主要的一个技术手段。目前常见的数据抽取过程主要还是需要手动编写shell脚本,设置数据源连接、创建数据库以及建表等操作都需手动完成,这种数据抽取的方式是非常浪费时间和人力成本的。如:目前已有的数据抽取方案为ETL工具,ETL工具实质上仍为一类数据转换器,提供一种从源到目标系统转换数据的方法。即从操作型系统提取、清洗并转换数据,然后将数据载入决策支持系统的操作型数据存储、数据仓库或数据集市中。具体功能针对不同的数据源编写不同的数据抽取、转换和加载程序 ...
【技术保护点】
1.一种基于大数据的数据自动抽取系统,其特征在于,包括数据源服务器、客户端、数据抽取服务器、数据存储服务器;数据源服务器,用于存储待抽取数据;客户端,用于提供可视化配置界面,通过参数选择来实现数据抽取服务器的自动化数据抽取的配置;数据抽取服务器,包括配置存储模块、全量抽取模块、增量抓取模块、数据对比模块;配置存储模块,用于存储记录有将数据源的相关配置以及数据源表信息的POLL表,在之后的抽取过程中只需要根据页面参数来读取POLL表信息即可获取抽取前的所有配置;完成配置后,会将选择的参数传递到数据抽取服务器的shell中,然后启动全量抓取模块或增量抓取模块来进行数据抽取的任务 ...
【技术特征摘要】
1.一种基于大数据的数据自动抽取系统,其特征在于,包括数据源服务器、客户端、数据抽取服务器、数据存储服务器;数据源服务器,用于存储待抽取数据;客户端,用于提供可视化配置界面,通过参数选择来实现数据抽取服务器的自动化数据抽取的配置;数据抽取服务器,包括配置存储模块、全量抽取模块、增量抓取模块、数据对比模块;配置存储模块,用于存储记录有将数据源的相关配置以及数据源表信息的POLL表,在之后的抽取过程中只需要根据页面参数来读取POLL表信息即可获取抽取前的所有配置;完成配置后,会将选择的参数传递到数据抽取服务器的shell中,然后启动全量抓取模块或增量抓取模块来进行数据抽取的任务;全量抓取模块,根据客户端的配置要求每次将数据源服务器中的数据全部抽取到数据存储服务器中,每次抽取的数据结果会直接覆盖在数据存储服务器的数据表中;增量抓取模块,根据客户端的配置要求每次将数据源服务器中的新增、修改、删除的数据抽取到数据存储服务器中,每次抽取的数据结果会直接添加在数据存储服务器的数据表中;数据对比模块,比对抽取前后的数据量;日志存储模块,用于记录在抽取过程中将相关信息以参数的形式传递并记录在日志信息表中;数据存储服务器,用于存储抽取之后的结果数据。2.根据权利要求1所述的基于大数据的数据自动抽取系统,其特征在于,数据源服务器内设有时间戳生成模块,用于源表数据更新时,该时间戳生...
【专利技术属性】
技术研发人员:陈华,郁东风,吴途,毛晨杰,
申请(专利权)人:江苏开拓信息与系统有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。