用于深层网数据集成的数据源选择方法技术

技术编号:4069833 阅读:354 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于深层网数据集成的数据源选择方法。本发明专利技术方法首先基于查询接口语义特征并结合本体库,选择与用户查询相关度较大的深层网数据源;接着通过数据源的质量评估模型对数据源的质量进行评估,最后根据质量评估情况质量较高的数据源,最终得到与客户查询相关度大且质量较高的数据源集。相比现有技术,本发明专利技术方法能够提高深层网页查询的准确度,同时降低信息冗余,提高查询效率。

【技术实现步骤摘要】

本专利技术涉及一种基于网络的数据源选择方法,具体涉及一种由网络查询接口连接 的深层网的数据源选择方法,用于深层网数据源的集成服务。
技术介绍
随着网络数据库的广泛应用,网络正在加速的“深化”。互联网上有大量页面是由 后台数据库动态产生,这部分信息不能直接通过静态链接获取,只能通过填写表单提交查 询来获取,由于传统的网络爬虫(Crawler)不具有填写表单的能力,爬不出这些页面。因 此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见 的,被称为深层网(De印Web,又称为Invisible Web, Hidden Web)。Deep Web是一个与 Surface Web相对应的概念,最初由Dr. Jill Ellsworth于1994年提出,指那些由普通搜索 引擎难以发现其信息内容的Web页面。De印Web信息一般存储在数据库中,需要通过查询 接口提交查询进行访问,和静态页面相比通常信息量更大,主题更专一,信息质量更好,信 息结构化更好,增长速度更快。研究表明,De印Web信息是Surface Web信息的500倍,有 近450,000个De印Web站点。实现大规模DeepWeb数据集成是方便用户使用De印Web信 息的一个有效途径。大规模De印Web集成系统主要包含1)数据源发现(De印Web Discovery) ;2) 查询接口抽取(Query Interface Extraction) ;3)数据源选择(Source selection) ;4)查 询转换(Query Transfer) ;5)结果合成(Result Merging)这五个关键部分。Deep Web数据源包括多种主题的数据资源,而且在某个主题上De印Web数据源 也有许多,这些数据源属于同一主题,但数据质量上差别很大有些是过时的、不准确或不 一致的,而有些是更新及时、准确一致的。并且这些数据源包含的数据量大小不一,互相覆 盖,有的覆盖大,有的甚至完全包含其它的数据源。以商业和教育这两个领域为例,根据 Complete Planet的统计,存在上千个Web数据库,由于Complete Planet只是搜集了整个 Deep Web数据源中大约7%的Web数据库,所以在现实中还要远远大于这个数字(Bergman Μ.K. The Deep Web :Surfacing Hidden Value. In Journal of Electronic Publishing, 2002,7(1) =8912-8914)。Kabra G等提出了一种选择那些和用户查询请求内容最为接近的 (Top-k)k个De印 Web数据源进行查询的方法(Kabra G,Li CK,Chang KCC. Query routing Finding Ways in the Maze of the Deep Web. In Proc. of the ICDE,2005,64—73)。上述 方法只处理查询接口简单属性关系,而且是通过关键词进行查询表单,这些方法没有考虑 到查询接口各属性间语义关系,而且进行相应数据源选择过程中数据源选择结果的准确率 低,而且返回数据源结果不全等。随着Web数据库数量的不断增长,使得Deep Web数据源 的选择成为一个亟待解决的关键问题。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供一种高效、准确的深层网数据源选择方法,从而提高深层网数据源的选择效率和准确度。数据源选择是指在给定Deep Web数据源查询接口集和某个用户查询的条件下,选 择与用户查询相关度大于某一设定的阈值的查询接口集或者选择相关度值较大的前k个 数据源的查询接口集的过程。数据源选择主要是为了选择覆盖程度高,重叠程度小的数据 库,避免出现大量的冗余和无关信息;用户希望找到相应的高质量的查询结果,又希望能得 到相同结果之间的对比情况。现有数据源选择方法大多是直接计算用户查询与查询接口的 相关度来进行关键词匹配,由于以下三方面原因导致使用现有方法时,用户查询通常是不 准确的,并且具有较高的冗余度,同时会发现一些不相关的数据源首先是由于同一个领域中存在大量可访问De印Web资源,访问Internet上大量 的Deep Web是个费时又费力的过程;其次各数据库的数据质量相差很大,有些是过时的、 不准确或不一致的,而有些是更新及时、准确一致的,并不是每一个Deep Web都能够满足一 个特定的查询,显然任何一个领域的Deep Web不可能包含该领域中所有的信息,因此也不 可能满足这个领域的任意查询;最后就是一个领域中大部分的Deep Web数据源包含的数 据量大小不一,互相覆盖,有的覆盖大,甚至完全包含其它的数据源;而且它们之间还存在 着冗余的信息,而对于一个查询而言,访问Deep Web次数越多,返回信息的冗余度也会越 大,极大地增加冗余信息的处理难度。基于以上分析可知,在De印Web数据源的选择这一步要达到的目标是如何从一个 领域中大量的Deep Web数据源中选择出合适的子集,减少访问Deep Web的数量和使得查 询结果中冗余度足够小,而且查询代价更低。为此,我们利用查询接口语义特征,基于领域本体将用户查询进行了扩展,这样, 所选择的查询接口集更能满足用户的查询要求。具体的说,本专利技术技术方案如下一种,其特征在于,包括以下步骤步骤A、对查询接口进行解析;步骤B、构建本体库并通过本体库把相应查询信息转化为本体信息;步骤C、计算本体信息与各数据源的相关度,根据相关度选择满足预先设定的条件 的数据源;对于给定目标查询接口对象DWIi和查询本体Qi,相关度按照如下公式计算其中,R(DffIi, Qi)表示查询本体Qi与查询接口对象DWIi的相关度,m为查询接口 中的对象个数。本体是一种具有更多语义和结构信息的复杂模型,上述步骤B中的本体库可以使 用现有的公用本体库;也可以通过采集现有的公用本体库,并对这些本体库进行扩充,得到 新的本体库;而本专利技术采用后者。这类本体学习的主要任务就是分析关系模型中蕴涵的语义信息,并将其映射到本 体中的相应部分。其次,查询接口和数据源结果页面通常包含丰富的信息如概念、实例以及 领域有关的概念之间的关系,查询接口以HTML表单格式出现,在无法获得数据库模式的情 况下,可以通过分析HTML表单的结构和数据来获取Web数据库中的语义,从而构建本体。根 据以上分析,可以通过以下各步骤构建本专利技术的本体库步骤Bi、通过现有本体库分析HTML表单模式结构来获取查询接口的语义,构建相 应本体库中的类;步骤B2、从查询接口和结果页面抽取概念和实例,提取现有本体库中类的层次关 系和函数关系;步骤B3、从某个主题的多个数据源中提取上述步骤B2中得到的本体类之间关系, 然后推理映射不同的关系,最后合并成一个更高层的领域本体;针对每个本体库中的每个 类,构建与该类对应的关键词集合,组成本体库的词汇层。为了进一步提高数据源选择的准确性,减少信息冗余,降低查询代价;本专利技术又在 上述技术方案的基础上引入了数据源质量得分的概念,通过数据源的质量得分来度量数据 源的质量,选择质量得分较高的若干数据源而放弃其他质量较低的数据源,从而大大降低本文档来自技高网
...

【技术保护点】
一种用于深层网数据集成的数据源选择方法,其特征在于,包括以下步骤:步骤A、对查询接口进行解析;步骤B、构建本体库并通过本体库把相应查询信息转化为本体信息;步骤C、计算本体信息与各数据源的相关度,根据相关度选择满足预先设定的条件的数据源;对于给定目标查询接口对象DWI↓[i]和查询本体Q↓[i],相关度按照如下公式计算:***其中,R(DWI↓[i],Q↓[i])表示查询本体Q↓[i]与查询接口对象DWI↓[i]的相关度,m为查询接口中的对象个数。

【技术特征摘要】

【专利技术属性】
技术研发人员:方巍毕硕本文学志
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1