基于最小依赖的细粒度科研数据融合系统技术方案

技术编号:8271461 阅读:173 留言:0更新日期:2013-01-31 03:41
本发明专利技术涉及一种基于最小依赖的细粒度科研数据融合系统,该系统主要通过利用数据的最小依赖,采用主动式登记的方式,增强数据源所有者参与的主动性,降低数据源参与者的技术难度,解决一些较小且不完整数据源的数据融合问题。系统采用一种分布式结构,使系统具有良好的扩展性;以最小依赖、基础数据模式和基础数据表的融合系统的数据逻辑层为数据源映射关系提供了一种灵活的机制。系统应用层的系统交互管理服务器和数据发布服务器分别为不同用户提供了可视化的数据管理、登记、访问的方法。存储着系统的信息融合服务器不间断运行,保证数据的及时性,同时融合规则的灵活使用也大大提高了融合的智能性和系统数据的准确性。

【技术实现步骤摘要】
本专利技术涉及的是信息
的系统,具体的说是基于最小依赖的细粒度科研数据融合系统,用于有目标地收集Internet上科学研究方面的数据。
技术介绍
信息融合系统是对多源异构数据提供统一的存储、查询和管理的系统。由于数据在不同的数据源中有不同的表示方式,所以需要针对各个数据源设定特定的数据获取方法,并对这些数据加以整合,形成具有实用意义的数据。当前,数据融合的数据来源是由数据融合系统方主动查找,并且在找到的数据源模式和融合系统的目标模式之间建立映射关系。这种方式具有很大的被动性,容易忽略一些较小的、零散的、未被广泛知晓的数据源,例如科研课题发布信息。同时,当前使用的数据映射方法需要较为专业的知识,这在某种程度上也就造成了普通的数据源提供者加入数据融合系统、为数据融合系统提供数据的难度。因此,为了从根本上解决多源异构数据融合系统的灵活性、可扩展性和简单易用性,需要研发一个开放的,使数据源所有者可以主动参与的,并且能够为广大使用者提供服务的新数据融合系统。 经对现有技术文献的检索发现,中国专利申请号200710042896. X,专利技术名称基于海量交通信息的融合系统,公开号CN101075227,该专利的数据融合系统中,主要考虑到若干个集中的数据源,提供专业应用人员使用;其并没有考虑到当数据源是一些较小,较零散,且数据源来源多样的情况。
技术实现思路
本专利技术的目的在于克服现有技术和系统的不足,提供基于最小依赖的细粒度科研数据融合系统,保证系统的开放性,增强数据源所有者参与的主动性,降低数据源参与者的技术难度。本专利技术采用基于路径的数据导航技术,使其能够在网络环境下为不同信息来源提供一种灵活,高效的数据融合系统,解决当前信息集成系统不能对非结构化数据进行细粒度分析和提取的问题;同时采用开放式结构,可视化的基础数据表映射技术,使所有潜在的数据提供者都可以加入该数据融合系统,为系统提供数据的支持。同时对信息融合系统进行模块化构造,以解决数据融合系统重复开发,共享性差等问题,推动数据融合的应用和发展。本专利技术采用以下方案实现一种基于最小依赖的细粒度科研数据融合系统,其特征在于包括数据采集服务器、信息融合服务器、映射及依赖管理服务器、系统交互管理服务器以及数据发布服务器;其中系统交互管理服务器和信息融合服务器之间以及系统交互管理服务器和映射及依赖管理服务器之间分别通过网络连接;信息融合服务器分别与映射及依赖管理服务器、数据采集服务器、数据发布服务器、系统交互服务器连接;所述数据采集服务器是能够以指定方式访问网络上的数据库、HTML、XML数据,并获取相应信息的计算机;所述映射及依赖管理服务器是专门用于存储和管理数据源、系统最小依赖集和数据源模式到该融合系统基础数据模式映射关系的计算机;所述信息融合服务器是从映射及依赖管理服务器获取数据源信息,调度数据采集服务器,获取数据采集服务器返回结果,并进行数据融合处理的计算机;所述系统交互管理服务器是为管理用户和数据源用户提供数据融合系统可视化操作界面的计算机;所述数据发布服务器是指专门用于接受数据用户请求,并把结果反馈给数据用户的计算机。本专利技术系统具有良好的扩展性和简单易用性。本专利技术系统采用分布式系统架构,各个服务器遵循既定的通信接口,系统的各个组成部分可以放置于同一台服务器,也可以是分布式环境下多台服务器,使系统可以适应不同规模的应用。系统中各类服务器可以进行增加、扩展,使系统能够适应更大的吞吐量。整个系统通过系统交互管理服务器提供统一的用户注册、维护数据源维护、管理用户管理整个系统的门户;数据发布服务器提供统一的数据用户数据请求调用接口和可视化Web页面,方便数据用户使用。本专利技术系统具有良好的开放性,使数据源用户可以主动参与数据融合系统的建·设。现有数据集成系统通常是有目标的获取数据源,并有系统管理用户建立两者之间数据的映射关系。而本专利技术系统则是通过基础数据模式,由数据源用户在系统上注册自身数据源,并且建立数据源和系统基础数据模式之间的映射关系。这种做法使系统能够集中成千上万具有少量数据的用户为整个系统的服务,从而达到数据数据源的多样性。本专利技术系统具有良好的灵活性,可以使数据用户根据自身的需要从数据融合系统基础数据模式的基础上重组得到自身要求格式。本专利技术系统所采集数据都是以基础数据表加以存储的,用户可以从这些小的存储表中进行选择、投影、连接操作,从而得到满足自身需要的数据格式。本专利技术提出一种基于细粒度的数据融合方法。该方法以数据之间的最小依赖为中心,从最小依赖构造融合信息数据库的基础数据模式和基础数据表。当数据源用户登记数据时,需要根据数据源数据的具体含义,以及数据之间的依赖关系,把数据分解为更细粒度的数据表,并映射到基础数据表上。当数据用户在使用时,则以数据融合系统中的基础数据表为基础,按照自身的需求进行组合操作。由于所有数据都是按照依赖关系进行最小化分解,所以在采集数据和发布数据时都具有很好的灵活性。本专利技术的特点和效果 I)数据组织的灵活性和参与的广泛性对于任何一个数据源,只要该数据源上数据的模式分解能够满足某一基础数据模式,那么该数据源便可以为系统贡献自己的信息。反之,任何复杂的数据要求,都可以从基础数据表中组合出来,这两方面极大提高了该专利技术系统数据来源的广泛性和应用的灵活性。2)数据的高效性和准确性一旦数据源用户登记了数据源的基本信息,并建立起映射关系,数据融合系统就会间隔一定时间访问数据源,获取数据源数据的变化,更新已有融合数据,这样避免了数据用户请求数据时才进行数据采集花费的时间,大大提高系统数据服务的高效性。而系统不定期的访问数据源,更新数据,这也就保证了系统所提供数据的准确性; 3)系统的开放性本专利技术系统具有很强的开放性,系统的数据源用户可以自主加入系统,为系统提供相关数据;同时,数据用户可以方便的从系统获得数据服务。由于更多用户的参与,使整个系统成为一个开放的系统,具有更多的信息来源,也为更多用户提供服务。4)很强的扩展性本专利技术系统可以把各部分功能集中在一台服务器上,也可以是在网络中的多台服务器,同时,系统还可以根据数据源多少、数据用户的多少增加数据发布服务器、信息融合服务器和数据采集服务器以应对吞吐规模的变化。5)使用及管理方便本专利技术系统的数据源参与、系统管理等都通过系统交互管理服务器的Web页面直观呈现;而数据请求操作不但可以通过Web页面,也可以通过程序接口获取数据,返回的数据使用XML描述。这使系统管理和应用不受地域限制,可以在任意可以上网的计算机上执行,同时人机交互界面友好,操作简单。附图说明图I为本专利技术系统整体架构示意图。 图2为信息融合服务器主要模块及交互图。图3为映射及依赖管理服务器主要模块连接示意图。图4为数据发布服务器主要模块连接示意图。具体实施例方式本专利技术的数据融合系统包括数据采集服务器、信息融合服务器、映射及依赖管理服务器、系统交互管理服务器以及数据发布服务器。其中系统交互管理服务器和信息融合服务器之间,系统交互管理服务器和映射及依赖管理服务器之间分别通过网络连接。信息融合服务器以通信方式分别与映射及依赖管理服务器、数据采集服务器、数据发布服务器、系统交互服务器连接。其中上述数据采集服务器是指能够以指定方式访问网络上的数据库、H本文档来自技高网...

【技术保护点】
一种基于最小依赖的细粒度科研数据融合系统,其特征在于:包括数据采集服务器、信息融合服务器、映射及依赖管理服务器、系统交互管理服务器以及数据发布服务器;其中系统交互管理服务器和信息融合服务器之间以及系统交互管理服务器和映射及依赖管理服务器之间分别通过网络连接;信息融合服务器分别与映射及依赖管理服务器、数据采集服务器、数据发布服务器、系统交互服务器连接;所述数据采集服务器是能够以指定方式访问网络上的数据库、HTML、XML数据,并获取相应信息的计算机;所述映射及依赖管理服务器是专门用于存储和管理数据源、系统最小依赖集和数据源模式到该融合系统基础数据模式映射关系的计算机;所述信息融合服务器是从映射及依赖管理服务器获取数据源信息,调度数据采集服务器,获取数据采集服务器返回结果,并进行数据融合处理的计算机;所述系统交互管理服务器是为管理用户和数据源用户提供数据融合系统可视化操作界面的计算机;所述数据发布服务器是指专门用于接受数据用户请求,并把结果反馈给数据用户的计算机。

【技术特征摘要】
1.一种基于最小依赖的细粒度科研数据融合系统,其特征在于包括数据采集服务器、信息融合服务器、映射及依赖管理服务器、系统交互管理服务器以及数据发布服务器;其中系统交互管理服务器和信息融合服务器之间以及系统交互管理服务器和映射及依赖管理服务器之间分别通过网络连接;信息融合服务器分别与映射及依赖管理服务器、数据采集服务器、数据发布服务器、系统交互服务器连接; 所述数据采集服务器是能够以指定方式访问网络上的数据库、HTML、XML数据,并获取相应信息的计算机; 所述映射及依赖管理服务器是专门用于存储和管理数据源、系统最小依赖集和数据源模式到该融合系统基础数据模式映射关系的计算机; 所述信息融合服务器是从映射及依赖管理服务器获取数据源信息,调度数据采集服务器,获取数据采集服务器返回结果,并进行数据融合处理的计算机; 所述系统交互管理服务器是为管理用户和数据源用户提供数据融合系统可视化操作界面的计算机; 所述数据发布服务器是指专门用于接受数据用户请求,并把结果反馈给数据用户的计算机。2.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于所述的信息融合服务器包括数据融合引擎、融合信息数据库、查询处理模块、融合规则管理模块以及融合规则数据库;其中数据融合引擎和映射和依赖管理服务器相连,用于获取映射信息和数据源信息;数据融合引擎和融合规则数据库相连,用于处理采集器返回数据的融合问题;融合规则管理模块和融合规则数据库相连,为融合规则的管理提供接口 ;融合规则管理模块和系统交互管理服务器相连,用于响应管理用户对融合规则的管理;数据融合引擎和融合信息数据库相连,用于存储融合结果;数据存储数据库和数据发布服务器相连,把数据融合结果反馈给用户。3.根据权利要求I所述的基于最小依赖的细粒度科研数据融合系统,其特征在于所述映射及依赖管理服务器包括映射规则及依赖关系数据库、映射规则存取模块以及映射规则管理模块;其中映射规则存取模块则为信息融合服务器提供了访问映射规则及依赖关系数据库的接口 ;映射规则管理模块是为系统交互管理服务器提供管理映射规则及依赖关系数据库的接口。4.根据权利要求I所述的基于最小依赖的细粒度科研数据融...

【专利技术属性】
技术研发人员:赖会霞张仕
申请(专利权)人:福建师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1