一种基于大数据模式的信息资源整合方法技术

技术编号:37634984 阅读:10 留言:0更新日期:2023-05-20 08:55
本发明专利技术涉及一种基于大数据模式的信息资源整合方法,包括:数据采集入库,制定数据抽取方案和校核规则,将数据存储入共享资源数据库;数据资源处理,通过数据质量分析工具对共享信息资源库的数据进行相应的校验;数据整合,依托大数据整合平台solr,将批量数据按条件迁入服务平台并进行数据程序调试;数据资源管理,包括数据注册管理、数据标准管理、数据质量管理和数据运行监控。本发明专利技术能够将各种多元异构信息有机融合,实现信息平滑流动、共享和增值。增值。增值。

【技术实现步骤摘要】
一种基于大数据模式的信息资源整合方法


[0001]本专利技术属于大数据技术应用领域,涉及一种基于大数据模式的信息资源整合方法。

技术介绍

[0002]大数据时代,信息资源已经成为社会运行和发展不可缺少的生产要素、无形资产和社会财富。在信息化建设的初期阶段,由于各业务部门在数据采集和加工时的管理条块化、任务分割化,导致数据分散、资源碎片化、标准不统一,导致目前数据资产同一管理和利用难度大,无法实现信息增值。

技术实现思路

[0003]本专利技术的目的是针对上述问题,提供一种基于大数据模式的信息资源整合方法,对各部门信息进行统一整合,便于数据挖掘和利用。
[0004]本专利技术的技术方案如下:
[0005]一种基于大数据模式的信息资源整合方法,其特征在于,包括:
[0006](1)数据采集入库:数据采集入库分为两个阶段,第一个阶段为数据准备阶段,制定数据抽取方案,同时根据抽取数据的特点制定校核规则;第二个阶段为数据采集入库阶段,根据第一个阶段准备的前置数据库进行直接抽取,将数据存储入共享资源数据库;
[0007](2)数据资源处理:通过数据质量分析工具对共享信息资源库的数据进行相应的校验,发现问题数据,并将问题数据信息记录到问题数据库中;
[0008](3)数据整合:数据整合的流程主要依托大数据整合平台solr来操作,主要分为以下几个流程:
[0009](31)批量数据按条件迁入:从信息资源整合平台发起批量数据整合,明确所需数据种类、范围、数据项,根据需求参数完成数据的配置文档编写,将编写好的配置文件上传至solr服务平台,按照配置文件更新任务;
[0010](32)数据程序调试:将数据抽取至专用的整合服务器集群上,在上传完部分数据后,根据用户提交的查询服务请求,按关键字段或者层级字段筛选获得相应的信息;
[0011](4)数据资源管理:数据资源管理主要包括数据注册管理、数据标准管理、数据质量管理和数据运行监控四个方面:
[0012](41)数据注册管理:通过可视化、规范化的数据资源地图管理,帮助数据管理人员了解管理的数据内容,对应数据的含义;同时,利用记录数据环境的相关信息,为其他应用系统的数据转换、加工和应用提供信息支持;
[0013](42)数据标准管理:建立统一的数据信息资源共享标准规范,为信息资源质量管理、信息资源运行监控功能提供支持;
[0014](43)数据质量管理:提供对平台上数据整合处理过程以及处理后形成的资源库中的数据进行数据质量检测,形成质量问题数据记录;同时将在使用中所发现的信息资源数
据质量问题,录入登记为质量问题数据记录;
[0015](44)数据运行监控:对数据转换过程中的各个环节进行整理与归类,针对各个环节的特定指标进行实时监控,一旦某个环节出现异常,通过报警接口向指定人员提供多种方式报警。
[0016]本专利技术针对现有的信息管理系统提供的信息增值性不强,造成信息使用者对信息的理解有困难的问题,通过广泛的信息收集,深入的整合分析,能够将各种多元异构信息有机融合,实现信息平滑流动和共享,向信息使用者提供多元化的有效信息。
附图说明
[0017]图1是本专利技术的数据采集入库流程图。
具体实施方式
[0018]本专利技术的具体实施方式如下:
[0019](1)数据采集入库:
[0020]如图1所示,数据初次采集入库分为两个阶段,第一个阶段为数据准备阶段,制定数据抽取方案,同时根据抽取数据的特点制定校核规则,以保证入库的数据均为完整有效;第二个阶段为数据采集入库阶段,根据第一个阶段准备的前置数据库进行直接抽取;
[0021]对于网络能够直接互联,并具备统一管理的共享资源数据库,在得到充分授权后,对数据进行抽取。根据共享需求将必要信息项采集到前置服务器的缓存数据区中,再通过内外网交换平台将数据传输到信息资源整合平台中,经过采集、清洗、转换、集成等过程以确保数据的有效性,最终将数据存储入共享资源数据库。
[0022](2)数据资源处理:
[0023]共享信息资源库建立完毕后,通过数据质量分析工具对共享信息资源库的数据进行相应的校验,发现问题数据,并将问题数据信息记录到问题数据库中;
[0024](3)数据整合:
[0025]数据整合的流程主要是依托大数据整合平台solr来操作,主要分为以下几个流程:
[0026](31)批量数据按条件迁入:
[0027]从信息资源整合平台发起批量数据整合,明确所需数据种类、范围、数据项,根据需求参数完成数据的配置文档编写,编写过程可自定义数据种类、数据过滤条件、数据记录数限制、数据项选择、执行时间点、执行频率等参数,将编写好的配置文件上传至solr服务平台,按照配置文件更新任务。
[0028](32)数据程序调试:
[0029]将数据抽取至专用的整合服务器集群上,在上传完部分数据后,根据用户提交的查询服务请求,按关键字段或者层级字段筛选获得相应的信息;
[0030](4)数据资源管理:
[0031]数据资源管理主要包括:数据注册管理、数据标准管理、数据质量管理和数据运行监控四个方面:
[0032](41)数据注册管理:数据资源注册管理通过可视化、规范化的数据资源地图管理,
帮助数据管理人员了解管理的数据内容,对应数据的含义;同时,利用记录数据环境的相关信息,为其他应用系统的数据转换、加工和应用提供信息支持;
[0033](42)数据标准管理:建立统一的数据信息资源共享标准规范,如信息代码标准、数据结构/数据交换共享标准、信息资源服务接口规范,为信息资源质量管理、信息资源运行监控功能提供支持;
[0034](43)数据质量管理:提供对平台上数据整合处理过程以及处理后形成的资源库中的数据进行数据质量检测,形成质量问题数据记录;同时将在使用中所发现的信息资源数据质量问题,录入登记为质量问题数据记录;
[0035](44)数据运行监控:对数据转换过程中的各个环节进行整理与归类,针对各个环节的特定指标进行实时监控,一旦某个环节出现异常,通过报警接口向指定人员提供多种方式报警。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据模式的信息资源整合方法,其特征在于,包括:(1)数据采集入库:数据采集入库分为两个阶段,第一个阶段为数据准备阶段,制定数据抽取方案,同时根据抽取数据的特点制定校核规则;第二个阶段为数据采集入库阶段,根据第一个阶段准备的前置数据库进行直接抽取,将数据存储入共享资源数据库;(2)数据资源处理:通过数据质量分析工具对共享信息资源库的数据进行相应的校验,发现问题数据,并将问题数据信息记录到问题数据库中;(3)数据整合:数据整合的流程主要依托大数据整合平台solr来操作,主要分为以下几个流程:(31)批量数据按条件迁入:从信息资源整合平台发起批量数据整合,明确所需数据种类、范围、数据项,根据需求参数完成数据的配置文档编写,将编写好的配置文件上传至solr服务平台,按照配置文件更新任务;(32)数据程序调试:将数据抽取至专用的整合服务器集群上,在上传完部分数据后,根据用户提交的查询服务请求,按关...

【专利技术属性】
技术研发人员:张欢
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1