数据信息集成系统技术方案

技术编号:18445033 阅读:77 留言:0更新日期:2018-07-14 10:25
本发明专利技术涉及一种数据信息集成系统,包括通信服务器、数据中心、安全隔离装置;通信服务器与第一网络直接连接,并且通过安全隔离装置与第二网络通信连接,通信服务器用于通过第一、二网络获取多个数据源中的数据信息;数据中心包括数据库和信息处理服务器,用于对获取的数据信息进行存储和处理;数据库包括种子表、多个数据表,种子表存储有可信种子信息,每个数据表包括主索引字段、多个第一类型字段和多个第二类型字段,数据表中每条记录在主索引字段中的数据信息均来源于种子表;数据库中还存储有可信数据源的唯一标识,第一类型字段中的数据信息均来源于可信数据源,第二类型字段中的数据信息来源于可信数据源以及非可信数据源。

Data information integration system

The invention relates to a data information integration system, which includes a communication server, a data center, a security isolation device, a communication server connected directly with the first network, and a second network communication connected by a security isolation device, and the communication server is used to obtain data information from a number of data sources through a first, second network. A data center includes a database and an information processing server for storage and processing of acquired data; the database includes a seed table and multiple data tables, and the seed table stores trusted seed information. Each table includes a main index field, multiple first type segments, and multiple second types of fields, and a data table. The data information of each record in the main index field is derived from the seed table; the database also stores the unique identity of the trusted data source. The data information in the first type field is derived from the trusted data source, and the data information in the second type fields is derived from the trusted data source and the untrusted data source.

【技术实现步骤摘要】
数据信息集成系统
本专利技术属于信息处理领域,尤其涉及一种数据信息集成系统。
技术介绍
随着计算机和信息技术的发展,大型企业或机构中,各个分支机构或者分支部门往往独立建设信息系统。相关资料和调研成果显示,国家电网公司的集体企业共有270余种信息系统,各个系统间分散独立,“孤岛”效应严重,带来以下技术问题:第一,信息需要重复录入。例如,同一人员的信息被不同部门的信息系统反复录入,同一人员在不同的分支机构调动时,相应的信息也需要在新的分支机构进行录入,浪费大量的时间和精力。第二,信息不共享,在单个的系统中,无法检索、查询、汇总、统计相关信息。因此,希望提供一种数据信息集成系统,建立统一的数据库或者数据中心,在一个系统内部有效的消除信息孤岛,提供相应的功能。同时,也希望能够有效利用已经存在数据信息,通过自动化的手段完成有效数据信息的抽取、清洗、加工,避免再次的进行大规模的数据录入。
技术实现思路
为克服上述问题,本专利技术涉及一种数据信息集成系统,其特征在于,包括通信服务器、数据中心、安全隔离装置;通信服务器与第一网络直接连接,并且通过安全隔离装置与第二网络通信连接,通信服务器用于通过第一、二网络获取多个数据源中的数据信息;数据中心包括数据库和信息处理服务器,用于对获取的数据信息进行存储和处理;数据库包括一个或多个种子表、一个或多个数据表,每个种子表存储有可信的字段信息,每个数据表包括主索引字段、多个第一类型字段和多个第二类型字段,数据表中每条记录在主索引字段中的数据信息均来源于种子表;数据库中还存储有可信数据源的唯一标识,第一类型字段中的数据信息均来源于可信数据源,第二类型字段中的数据信息来源于可信数据源以及非可信数据源。信息处理服务器执行计算机程序,对每个数据表操作,具体包括以下步骤:步骤S100,根据主索引字段的字段名,在种子表中检索对应的可信字段,并将可信字段的内容复制到主索引字段中;步骤S200,对于每条记录,判断是否存在内容为Null的字段,如果存在,填充该Null字段;具体包括:步骤S210,根据主索引字段的内容和Null字段的字段名,在种子表中检索,如果检索到对应的内容,则根据检索到的内容填充Null字段;如果没有检索到对应的内容,则执行步骤S230;步骤S230,根据主索引字段的内容和Null字段的字段名,在可信数据源中进行检索,如果检索到对应的内容,则根据检索到的内容填充Null字段;如果没有检索到对应的内容,判断Null字段的类型,如果为第一类型字段,则执行步骤S250,如果为第二类型字段,则执行步骤S260;步骤S250,向用户提示Null字段的内容无法自动填充;步骤S260,根据主索引字段的内容和Null字段的字段名,在非可信数据源中进行检索,如果检索到对应的内容,则根据检索到的内容填充Null字段,如果没有检索到对应的内容,向用户提示Null字段的内容无法自动填充。附图说明图1是本专利技术的数据信息集成系统的结构图;图2是本专利技术的信息处理服务器执行计算机程序的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,将结合附图对本专利技术作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本专利技术的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本专利技术,在不脱离本专利技术的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。下面通过实施例对本专利技术做进一步的描述,但不是对本专利技术的限制。如图1所示,本专利技术提供了一种数据信息集成系统,包括通信服务器、数据中心、安全隔离装置;通信服务器与第一网络(即安全的内部局域网,简称内网)直接连接,并且通过安全隔离装置与第二网络(即不安全的外部广域网,简称外网)通信连接,通信服务器用于通过第一、二网络获取多个数据源中的数据信息。进一步的,数据源包括可信数据源以及非可信数据源。一个实施例中,可信数据源/非可信数据源和内网/外网之间不必有必然的关系,即可信数据源可以位于外网中,不可信数据源也可以位于内网中。一个优选实施例中,可信数据源均位于内网中;不可信数据源位于内网或外网中。数据中心包括数据库和信息处理服务器,用于对获取的数据信息进行存储和处理;数据库包括一个或多个种子表、一个或多个数据表,每个种子表存储有可信的字段信息,每个数据表包括主索引字段、多个第一类型字段和多个第二类型字段,数据表中每条记录在主索引字段中的数据信息均来源于种子表。根据本专利技术,数据表初始化为空表,即数据表中的内容均为Null,数据表为数据信息集成系统期望填充的目标表。数据表中的主索引字段为唯一标识数据表中记录的字段,第一类型字段为需要填充准确信息的字段,第二类型字段为可以填充非准确信息的字段。示例性的举例中,在职工数据表中,工号字段为主索引字段,姓名、学历、参加工作时间等字段为第一类型字段(即要求准确信息),爱好、家庭成员等字段为第二类型字段(即不要求信息特别准确,即使有一些瑕疵,也不会产生明显的影响)。种子表为用户直接提供的表,用于向数据信息集成系统的数据表提供主索引字段中的内容,由于种子表为用户直接提供的表,因此种子表中的每条记录中的所有内容都认为是可信的。仍以职工数据表为例,需要用户(例如企业的人力资源部门)至少提供准确全面的工号信息,作为种子表中的内容,进而作为数据表主索引字段。更一般的情况是,用户提供的种子表中不仅包括工号信息,还包括其他的字段信息,例如姓名、出生日期、职务、级别等。数据库中还存储有可信数据源的唯一标识,第一类型字段中的数据信息均来源于可信数据源,第二类型字段中的数据信息来源于可信数据源以及非可信数据源。一个实施例中,可信数据源的唯一标识包括数据源的物理地址和数据源名称。通过可信数据源的唯一标识,信息处理服务器可以确定可信数据源。信息处理服务器执行计算机程序,对每个数据表操作,如图2所示,具体包括以下步骤:步骤S100,根据主索引字段的字段名,在种子表中检索对应的可信字段,并将可信字段的内容复制到主索引字段中。值得注意的是,数据表中的字段和种子表中的字段数量并不相同,一般情况下,数据表中的字段数量要多与种子表中的字段数量。而且,一个数据表可能对应多个种子表。例如,职工数据表为一个表,为了填充该表中的职工工号,可能需要几十个二、三级分公司和子公司提供的种子表。本领域技术人员知晓,该步骤完成后,数据表将从空表变为包括多条记录的表,但是每条记录都存在多个内容为Null的字段。步骤S200,对于每条记录,判断是否存在内容为Null的字段,如果存在,填充该Null字段,直到所有Null字段均被填充完全。具体包括:步骤S210,根据主索引字段的内容和Null字段的字段名,在种子表中检索,如果检索到对应的内容,则根据检索到的内容填充Null字段;如果没有检索到对应的内容,则执行步骤S230。根据本专利技术,种子表一方面是用户提供的可信信息,另一方面也被存储在数据中心本地,因此首先根据种子表的内容填充数据表,即能够保证可信性,又能够提升填充效率。步骤S230,根据主索引字段的内容和Null字段的字段名,在可信数据源中进行检索,如果检索到对应的内容,则根据检索到的内容填本文档来自技高网...

【技术保护点】
1.一种数据信息集成系统,其特征在于,包括通信服务器、数据中心、安全隔离装置;所述通信服务器与第一网络直接连接,并且通过所述安全隔离装置与第二网络通信连接,所述通信服务器用于通过第一、二网络获取多个数据源中的数据信息;所述数据中心包括数据库和信息处理服务器,用于对获取的数据信息进行存储和处理;所述数据库包括一个或多个种子表、一个或多个数据表,每个所述种子表存储有可信的字段信息,每个所述数据表包括主索引字段、多个第一类型字段和多个第二类型字段,所述数据表中每条记录在主索引字段中的数据信息均来源于种子表;所述数据库中还存储有可信数据源的唯一标识,所述第一类型字段中的数据信息均来源于可信数据源,所述第二类型字段中的数据信息来源于可信数据源以及非可信数据源。所述信息处理服务器执行计算机程序,对每个数据表操作,具体包括以下步骤:步骤S100,根据主索引字段的字段名,在种子表中检索对应的可信字段,并将可信字段的内容复制到主索引字段中;步骤S200,对于每条记录,判断是否存在内容为Null的字段,如果存在,填充该Null字段,直到所有Null字段均被填充完全;具体包括:步骤S210,根据主索引字段的内容和Null字段的字段名,在种子表中检索,如果检索到对应的内容,则根据检索到的内容填充Null字段;如果没有检索到对应的内容,则执行步骤S230;步骤S230,根据主索引字段的内容和Null字段的字段名,在可信数据源中进行检索,如果检索到对应的内容,则根据检索到的内容填充Null字段;如果没有检索到对应的内容,判断Null字段的类型,如果为第一类型字段,则执行步骤S250,如果为第二类型字段,则执行步骤S260;步骤S250,向用户提示Null字段的内容无法自动填充;步骤S260,根据主索引字段的内容和Null字段的字段名,在非可信数据源中进行检索,如果检索到对应的内容,则根据检索到的内容填充Null字段,如果没有检索到对应的内容,向用户提示Null字段的内容无法自动填充。...

【技术特征摘要】
1.一种数据信息集成系统,其特征在于,包括通信服务器、数据中心、安全隔离装置;所述通信服务器与第一网络直接连接,并且通过所述安全隔离装置与第二网络通信连接,所述通信服务器用于通过第一、二网络获取多个数据源中的数据信息;所述数据中心包括数据库和信息处理服务器,用于对获取的数据信息进行存储和处理;所述数据库包括一个或多个种子表、一个或多个数据表,每个所述种子表存储有可信的字段信息,每个所述数据表包括主索引字段、多个第一类型字段和多个第二类型字段,所述数据表中每条记录在主索引字段中的数据信息均来源于种子表;所述数据库中还存储有可信数据源的唯一标识,所述第一类型字段中的数据信息均来源于可信数据源,所述第二类型字段中的数据信息来源于可信数据源以及非可信数据源。所述信息处理服务器执行计算机程序,对每个数据表操作,具体包括以下步骤:步骤S100,根据主索引字段的字段名,在种子表中检索对应的可信字段,并将可信字段的内容复制到主索引字段中;步骤S200,对于每条记录,判断是否存在内容为Null的字段,如果存在,填充该Null字段,直到所有Null字段均被填充完全;具体包括:步骤S210,根据主索引字段的内容和Null字段的字段名,在种子表中检索,如果检索到对应的内容,则根据检索到的内容填充Null字段;如果没有检索到对应的内容,则执行步骤S230;步骤S230,根据主索引字段的内容和Null字段的字段名,在可信数据源中进行检索,如果检索到对应的内容,则根据检索到的内容填充Null字段;如果没有检索到对应的内容,判断Null字段的类型,如果为第一类型字段,则执行步骤S250,如果为第二类型字段,则执行步骤S260;步骤S250,向用户提示Null字段的内容无法自动填充;步骤S260,根据主索引字段的内容和Null字段的字段名,在非可信数据源中进行检索,如果检索到对应的内容,则根据检索到的内容填充Null字段,如果没有检索到对应的内容,向用户提示Null字段的内容无法自动填充。2.根据权利要求1所述的数据信息集成系统,其特征在于,所述步骤S230中的根据检索到的内容填充Null字段具体包括:如果检索到的内容只有一项,那么将该项内容填充到Null字段,如果检索到的内容有多项,那么从中选择一项填充到Null字段。3.根据权利要求2所述的数据信息集成系统,其特征在于,所述第一网络为安全的内部局域网;所述第二网络为不安全的外部广域网。4.根据权利要求2所述的数据信息集成系统,其特征在于,所述可...

【专利技术属性】
技术研发人员:罗奕杨小蕾黄文思朱友卫叶延峰郑诗书王海元吴曦
申请(专利权)人:国网信通亿力科技有限责任公司国家电网公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1