一种信息系统服务平台用数据采集系统技术方案

技术编号:14945413 阅读:98 留言:0更新日期:2017-04-01 11:50
许昌开普电气研究院对于企业信息的搜集停留在手工收集,手工整理,手工做报表的传统信息化水平,大量的离线业务数据零散的分布在单机PC中,形成一个个信息孤岛,离散化的数据,使得难以对业务数据进行快速历史、横向对比、纵向研究等有效的分析和利用;无法用信息化的手段实现零散数据的整理和积累,并及时的对数据进行分析应用。许昌开普研究院发明专利技术了“一种信息系统服务平台用数据采集系统”,建立的信息系统服务平台用开发了结构化和半结构化数据采集及非结构化数据的采集录入,实现用信息化技术对离散数据的采集整理,解决手工采集、整理数据及海量数据快速处理的问题。

【技术实现步骤摘要】

技术介绍
设立在许昌开普研究院的“中国电器工业继电保护及自动化设备协会”,隶属中国电气工业协会,下属有30多个行业协会分支机构,拥有一万多家行业企业会员。协会需要搜集大量的企业信息,目前对于企业信息的搜集停留在过去手工收集,手工整理,手工做报表的传统信息化水平。随着行业规模不断壮大,大量的离线业务数据零散的分布在单机PC中,形成一个个信息孤岛,使得难以对业务数据进行快速历史、横向对比、纵向研究等有效的分析和利用,削弱了服务质量,降低了工作效率,影响了研究院对协会成员的服务质量。为消除以上问题、弥补不足、建立健全统计工作网络、增加统计企业数量、缩短统计工作时间、更好服务行业企业,我们开发了行业数据采集系统。
技术实现思路
许昌开普电气研究院的数据采集主要分为结构化和半结构化数据采集和非机构化数据采集(通过网络爬虫方式获取网络数据)。在许昌开普电气研究院的数据仓库(EDW)系统中,数据由数据源系统加载到数据仓库(EDW)的各个数据层中,并通过提供数据接口给相关使用者。其实现的困难在于数据采集(数据整合)系统将面临的数据环境复杂,包括巨大的加载数据量、错综复杂的数据关系和参差不齐的数据质量,这些都使数据采集的架构和应用设计需要解决的问题。结构化和半结构化数据采集结构化和半结构化数据采集模型如图1所示。图1中:1、用系统的BPM平台可以支持多个应用,每个应用是一个运行时的实例;2、一个应用包含有一个或多个模块,在应用上可以定义角色、函数、样式、组件等技术的工件,并应用于各个业务模块;3、一个模块式一组业务功能的集合,他包括表单、工作流、视图、报表、任务等。通过高效的数据采集系统结构、层次化的应用功能划分和标准的程序模板,数据仓库(EDW)系统能够达到以下目标:1、支持在此框架下实现行业信息系统服务平台所需要的数据采集功能;2、支持在规定的批处理时间窗口(BatchWindow)内能够完成数据加载工作,即需要满足日常数据加载的性能需求;3、能够支持有效的应用程序开发模式,提高开发效率,尽量减少应用开发成本;4、减少系统维护的复杂性,支持后续增加新数据或功能的开发工作;5、和上系统接口的松耦合设计,避免上系统的变更导致数据采集程序本身频繁变更。许昌开普电气研究院的数据仓库(EDW)系统数据采集复杂,应用系统数据需求旺盛,数据质量参差不齐,结合以上系统目标及设计原则,采用的是BPM数据采集工具。BPM的数据结构设计如图2所示。图2中:1、设计时数据--包含发Form、View、WorkFlow的设计模板,仅在系统设计时被改变和存储;2、授权类数据—包含User、Role、Dept信息,表现用户的基本信息、角色信息、组织架构,以及定义对系统各功能模块的访问权限;3、运行时数据—包含Counter、Document、WorkFlowstate数据,分别存储计算器、文档、工作流状态。考虑到需要不同的实例(一个实例对应一个应用,比如可以为不同的应用系统分别建立不同的实例)逻辑上分开,所以对于每一个不同的实例,提供不同的数据源定义。非结构化数据采集示例非结构化数据采集模型如图3所示。本系统通过开发的数据爬虫技术,可以通过互联网把数据爬虫到hadoop平台中,通过Hadoop处理快速非机构化的文本,把数据整合到关系型数据库中进行分析。利用Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。Hadoop带有用Java语言编写的框架,运行在Linux生产平台上Hadoop上的应用程序也可以使用其他语言编写,比如C++。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。实现非结构化数据的自动采集。附图清单:图1结构化和半结构化数据采集模型图2BPM的数据结构设计模型图3非结构化数据采集模型。本文档来自技高网...

【技术保护点】
本专利技术涉及一种信息系统服务平台用数据采集系统,其设计思想是利用硬件和软件结合,设计了数据采集架构、数据采集效率、数据采集调度、数据采集监控、数据采集开发规范化的算法,实现电工行业企业统计数据采集工作。

【技术特征摘要】
1.本发明涉及一种信息系统服务平台用数据采集系统,其设计思想是利用硬件和软件结合,设计了数据采集架构、数据采集效率、数据采集调度、数据采集监控、数据采集开发规范化的算法,实现电工行业企业统计数据采集工作。
2.根据权利要求1所述的数据采集系统,其描述数据架构以数据仓库为核心,构建与业务系统相分离但又紧密联系的、集中统一共享的、面向管理决策的、以客户为中心的数据统计分析平台系统,进行网络数据的采集和获取,本发明开发设计的算法实现了行业协会...

【专利技术属性】
技术研发人员:姚致清胡韵华李志勇张喜玲韩万林杨慧霞闫黎明贠雨含刘政蒋冠前陈勇苏静杨静
申请(专利权)人:许昌开普电气研究院电力系统保护与控制杂志社
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1