数据集成平台制造技术

技术编号:3964433 阅读:476 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种数据集成平台,其包括查询处理模块和响应收集模块。该查询处理模块被构造为接收查询,并将该查询翻译成一些适当的用于对各种源进行查询的形式。响应收集模块被构造为根据所述经翻译的查询,从各种源收集结果,并提供结果。本公开还提供了一种基于该数据集成平台的数据集成方法。

【技术实现步骤摘要】

本公开内容总体涉及数据集成平台领域。
技术介绍
当越来越多的数据库可通过门户网站、可编程接口等从因特网等网络获取时,基于互联网的数据库和数据的集成变得越来越重要。然而,由于数据形式、结构和语义上存在 的异构问题,难以获取和集成多样化的数据。存储在因特网上的数据可能借助于不同的方 法进行了处理,这使它们彼此间难以相互比较,以及可能因不一致的技术术语和命名习惯 而彼此不一致,甚至彼此冲突。一些数据甚至存在严重的质量问题,例如,它们可能是有很 多噪声的,并且并不可靠。这些数据还可能缺少一些内部相关性注释来支持生物信息学上 常做的跨学科分析。
技术实现思路
本公开内容的一个实施方案描述了一种数据处理平台,其包括查询处理模块和响 应收集模块。该查询处理模块被构造为接收查询,并将该查询翻译成一些适当的用于对各 种源进行查询的形式。响应收集模块被构造为根据所述经翻译的查询,从各种源收集结果, 并提供结果。本公开内容的另一个实施方案描述了一种数据集成方法,其包括以下步骤接收 查询并将该查询翻译成一些适当的用于对各种源进行查询的形式;以及根据所述经翻译的 查询,从各种源收集结果,并提供结果。以上是综述,因此必然涵盖了对细节的简化、概括以及省略;所以,本领域普通技 术人员将明白该综述只是示例性的,并不意在构成任何限制。所述器件和/或过程的其他 方面、特征、优点和/或本文描述的其他主题将通过本文所给的教导而变得清楚。综述的提 供意在以一种简化的方式引入对概念的选取,而该概念的具体内容将稍后做进一步说明。 该综述并不意在明确表明所要求保护主题的关键特征或必要特征,也并不用于辅助限定所 要求保护的主题的范围。附图说明本公开内容的上述特征和其他特征将通过以下描述、所附权利要求以及附图而变 得更为清楚。应理解,这些附图只是描述了本公开内容的几个实施方案,因此,它们并不被 考虑用于限制本公开内容的范围,借助于这些附图,将对本公开内容的更多说明和细节进 行描述。图1示出了根据一示例性实施方案的数据集成平台(DIP) 100的示意性概图;图2示出了根据一示例性实施方案的数据集成平台(DIP) 100的示意图;图3示出了根据一示例性实施方案的功能注释过程的示意图;图4示出了根据一示例性实施方案的DIP的功能的三层结构的示意图5示出了根据一示例性实施方案的基于多个DIP的数据集成方法的示意图;图6示出了根据一示例性实施方案的结果呈现图。具体实施例方式在以下详细描述中,参考了附图,所述附图构成本公开内容的一部分。在附图中, 相同的符号一般表示相同的部分,除非上下文另有说明。具体说明、附图以及权利要求中所 描述的说明性的实施方案并不意在构成限制。可以利用其他实施方案,以及进行其他改变, 这些并不脱离此处所给主题的精神和范围。易于理解的是,可以以各种不同的构造布置、替 换、组合和设计本公开内容中如此处从整体上加以描述和图示的那些方面,所有这些都被 确切预期并构成本公开内容的一部分。本公开内容主要涉及一些与数据集成平台有关的方法、装置、计算机程序、存储计 算机程序的计算机可读介质以及系统。图1示出了数据集成平台(DIP)IOO的示意性概图。DIP包括查询处理模块101, 其被构造为接收原始查询104,并将该原始查询104翻译成一些适当的用于对各种源103进 行查询的形式。DIP 100还包括响应收集模块102,其被构造为根据所述经翻译的查询,从 各种源103收集一些结果105,并提供结果106。原始查询可以接收自客户计算机设备108。在一示例性实施方案中,查询处理模块101,例如如图2所示,包括查询翻译器 (QT) 2010响应收集模块102包括查询桥(QB) 202,以及结果集结器(RA)203。查询翻译器 201接收诸如关键词查询之类的原始查询104,并将其翻译成内部表达或统一的形式——例 如基于请求分析器(request parsar)等。接着,将所述经翻译的查询传送至查询桥202。查询桥202包括适配器(adapter) 2021、查询调用器2022以及结果收集器2023。 该适配器2021基于每个数据源的信息(如,基本的查询模式、检索数据的方法等),生成应 用接口所要求的正确的或针对性的陈述或表达。将生成的陈述传送至调用每个数据库系统 提供的查询服务的查询调用器2022。查询调用器2022分发,即,传送每个生成的陈述至其 所针对的或对应的数据源。数据源206、207和208接收各自对应的陈述并在数据源处运行 查询。结果收集器2023通过各种方式从诸如数据库206、API207和互联网服务208等各种 源收集结果。例如,结果收集器2023可以被构造具有一个抓取模块(crawlingmodule),该 抓取模块在因特网、局域网或数据库上抓取结果。结果收集器2023还可以被构造为通过可 编程接入点,如API207和网络服务208,来收集结果。适配器2021还将异构的查询结果的 结构和形式转换为统一的内部表达。适配器2021可以针对每个已知源来具体地构造。从 多个数据源获取的结果可能具有各种形式,即文本形式、表示图表的URI、超链接等、后续可 以转化为HTML表目标的数据表;一个错误消息等。结果集结器203处理查询结果,例如分 析交叉查询结果的一致性、识别冲突和矛盾的结果、过滤重复的记录以及产生一整理过的 结果集或结果106。DIP还可以包含一个作为DIP的助理的查询域知识数据库205。该知识数据库可以 包括查询关键词数据。这类数据帮助适配器2021针对不同的源生成正确的查询语句。以 复杂的ID系统为例,知识数据库含有基因的映射关系,从而只需输入一个ID(基因标识), 适配器2021将以正确但不同的关键词自动生成数据库查询语句。在多个查询以后,将不同 形式的数据返回到请求者,而查询域数据库205协助“理解”结果的意思,并将它们组合到标准化的结果中。可以理解的是,该特征可以利用后端应用处的映射系统来实现。例如,可 以利用本体(ontology)来提供该领域里的统一的概念模型。在训练过程中,关键词被附加 上其到概念本体(concept ontology)的映射,以及该关键词通过从使用历史进行学习来保 持更新。一个关键词可以被映射到多个本体概念。因此首先基于后端映射系统分析在线提交的关键词,以识别其统一的本体概念, 以及不同数据库中映射到该相同的本体概念的相应关键词。在这种知识的辅助下,DIP非常智能,能够使用仅仅一个类型的输入,自动地对不 同的互联网站点/数据库进行操作。该多源数据被提供用以供科学家进行分析。在上述描述中,DIP可以接受不同方式的查询请求,包括对某一个数据类型或多个 数据类型、某一平台或交叉平台等的查询请求。在知识系统或查询域知识数据库205的支 持下,也可以以生物模型的形式提出查询,所述生物模型用以表示所有相关的信息,包括基 本的基因信息、实验结果、功能注释以及所推得的结论。可以使用统一的表达首先将所提交 的查询具体化。例如,它可以被编码进XML。然后根据不同的互联网数据库的接口限定,将 统一的查询翻译成不同的形式。DIP含有转换规则方面的知识。例如,它是标准的SQL,或参数化的API。此处的一个假设是互联网数据库遵循本文档来自技高网...

【技术保护点】
数据集成平台,包括:查询处理模块,其被构造为接收查询,并将该查询翻译成一些适当的用于对各种源进行查询的形式;以及响应收集模块,其被构造为根据所述经翻译的查询,从各种源收集结果,并提供结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:张宝宇
申请(专利权)人:北京宇辰龙马信息技术服务有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1