一种基于循环策略的深层网页数据获取方法技术

技术编号:7786556 阅读:178 留言:0更新日期:2012-09-21 07:38
本发明专利技术公开了一种基于循环策略的深层网页数据获取方法。本发明专利技术提出使用循环策略分多次完成对所有数据源的数据获取,当获取某一数据源的效率下降到某一阈值时,停止当前数据源的数据获取,爬虫开始获取下一个数据源的数据,依次类推直到把所有待集成数据源都获取一遍;然后再重复上述过程,直到所有待集成数据源都已达到结束条件。本发明专利技术使一部分应该从一些数据源数据获取后期获得的数据,从另一些数据源数据获取的前期或中期获得。与传统一次性穷尽数据获取方法相比,本发明专利技术能减少数据源后期的数据获取,降低了数据获取的代价,同时也能减少重复数据的获取,降低数据集成的代价。

【技术实现步骤摘要】

本专利技术涉及深层网页数据获取方法,尤其涉及。
技术介绍
目前主流搜索引擎还只能搜索Internet表面可索引的信息,在Internet深处还隐含着大量通过主流搜索引擎少量或无法涉及的海量信息,这些信息我们称之为深层网页(Deep Web,又称为 Invisible Web 或Hidden Web) oDeep Web 的信息一般存储在服务端 Web数据库中,与静态页面相比通常信息量更大、主题更专一、信息质量和结构更好。为了方便 用户快捷高效的使用De印Web信息,国内外学者对Deep Web数据集成进行了广泛的研究。Deep Web数据集成的一种方案是与构建传统搜索引擎一样,将Deep Web数据库里内容爬取出来,存储到本地拷贝库中并建立索引,它能在最短时间内响应用户的查询要求。目前这种方案在许多特定领域已成为Deep Web数据集成研究的主流。由于集成系统可能需要集成数十个甚至更多的Deep Web数据源,因此,该方案中一个关键并十分有挑战性问题是如何高效的获取De印Web数据。目前DeepWeb数据集成的实现方法为首先独立穷尽获取每一个待集成的DeepWeb数据源,然后通过数据清洗、实体识别、合并去重等步骤完成获取数据的集成。这种实现方法在数据获取方面主要存在两个缺陷第一,每个数据源数据获取的后期代价十分巨大,花费较大的代价仅仅获取极少的新数据,同时数据集成时需要处理来自不同数据源的大量重复数据,数据集成的代价也非常巨大;第二,每个数据源数据获取独立进行,爬虫主要依据该数据源已获取数据的统计信息进行查询选择,由于统计信息缺乏和查询候选池有限,该方法存在查询选择的准确性较差、数据获取覆盖率较低等问题。
技术实现思路
针对上述技术问题,本专利技术设计开发了。本专利技术的一个目的在于,提供。集成系统中待集成的数据源之间并不是相互独立的,而是相互关联。数据源之间数据相互覆盖,甚至一些数据源之间相互依赖。具体而言,就是在集成环境中,从某一数据源获取的数据,可能从另一个或一些待集成的数据源中获取,因此从某一数据源数据获取后期获取的数据,可能出现在另一个或一些数据源数据获取的前期或中期。在这一研究发现的基础之上,本专利技术提出使用循环策略分多次完成对所有数据源的数据获取,当获取某一数据源的效率下降到某一阈值时,中止当前数据源的数据获取,爬虫开始获取下一个数据源的数据,依次类推直到把所有待集成数据源都获取一遍;然后再重复上述过程,直到所有待集成数据源都已达到结束条件。本专利技术使一部分应该从一些数据源数据获取后期获得的数据,从另一些数据源数据获取的前期或中期获得。与传统一次性穷尽数据获取方法相比,本专利技术能减少数据源后期的数据获取,降低了数据获取的代价,同时也能减少重复数据的获取,降低数据集成的代价。本专利技术的另一个目的在于,提供。集成系统中待集成的数据源之间并不是相互独立的,而是相互关联。数据源之间数据相互覆盖,甚至一些数据源之间相互依赖。基于上述情况,还发现了这样的规律,即同领域的数据源之间具有相似的属性值并且这些属性值也具有相似的分布特征。本专利技术利用集成系统已获取的数据动态构建知识,并在集成系统动态知识的基础之上进行查询关键词的选择。本专利技术丰富了查询选择的知识,提高了查询选择的准确性,同时扩展了查询候选池,可提高数据获取的覆盖率。在使用循环策略进行数据获取时,对于每个数据源可以多次利用丰富后的集成系统动态知识进行查询选择,从而有效率提高查询选择的准确性,提高数据获取的效率。本专利技术提供的技术方案为 ,包括以下步骤步骤一、分别对多个同一领域的数据源中的每一个数据源预设多个不同的查询关键词;步骤二、依次对每一个数据源进行数据获取,其中,当对所述多个数据源中的第一个数据源进行数据获取时,计算当前数据源中的各查询关键词的查询效率,并按照查询效率对当前数据源中的查询关键词进行排序,根据查询效率从大到小的顺序依次选择各查询关键词对当前数据源进行一次又一次的数据获取,直到所述当前数据源的连续进行的a次数据获取的新数据获取率均不大于一新数据获取率阈值,则中止对当前数据源的数据获取,并对当前数据源的下一个数据源进行数据获取,直到最后一个数据源达到中止;步骤三、检验所述多个数据源的数据获取是否均满足预设结束条件,如果不满足,则重复步骤一,直至所述多个数据源的数据获取均满足预设结束条件,其中,当对所述多个数据源中的任一个数据源满足预设结束条件时,则结束对该数据源的数据获取。优选的是,所述的基于循环策略的深层网页数据获取方法中,所述步骤二中,对多个数据源中的任一个数据源进行数据获取,通过以下步骤实现,(I)当前数据源预设有n个查询关键词,计算各查询关键词的查询效率,并按照查询效率对查询关键词进行排序,根据查询效率从大到小的顺序选择第一个查询关键词,根据该查询关键词在当前数据源上进行第一次数据获取,所述数据获取过程为在当前数据源上执行,从当前数据源下载与当前查询关键词匹配的数据记录;(2)重复步骤(I),且当重复步骤(I)的次数达到rK次之后,其中,rK<n,r为大于等于I的整数,在根据第rK+1个查询关键词在当前数据源上获得与第rK+1个查询关键词匹配的数据记录之后,再从已经下载的数据记录中提取z个新的查询关键词,使得当前数据源对应的查询关键词的个数为n+z个。优选的是,所述的基于循环策略的深层网页数据获取方法中,所述K值逐渐增大。优选的是,所述的基于循环策略的深层网页数据获取方法中,所述查询关键词的查询效率Ef f i c i ent (qi,DBj)与该查询关键词qi在当前数据源DB」上的查询回报率Reward (Qi, DBj)成正比,且与该查询关键词%在当前的数据源DBj上的数据获取代价Cost (qi; DB」)成反比。优选的是,所述的基于循环策略的深层网页数据获取方法中,所述查询关键词qi在当前数据源上的查询回报率RewarcKqi, DBj)为在当前数据源DBj中与该查询关键词qi匹配的数据记录数中减去在当前数据源DBj中与该查询关键词Qi匹配的已经下载的数据记录数numh, DBjj Local),在当前数据源中与该查询关键词匹配的数据记录数num(qi,DBj)通过以下方式得到,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于循环策略的深层网页数据获取方法,其特征在于,包括以下步骤 步骤一、分别对多个同一领域的数据拳中的每一个数据源预设多个不同的查询关键词; 步骤二、依次对每一个数据源进行数据获取,其中,当对所述多个数据源中的第一个数据源进行数据获取时,计算当前数据源中的各查询关键词的查询效率,并按照查询效率对当前数据源中的查询关键词进行排序,根据查询效率从大到小的顺序依次选择各查询关键词对当前数据源进行一次又一次的数据获取,直到所述当前数据源的连续进行的a次数据获取的新数据获取率均不大于一新数据获取率阈值,则中止对当前数据源的数据获取,并对当前数据源的下一个数据源进行数据获取,直到最后一个数据源达到中止; 步骤三、检验所述多个数据源的数据获取是否均满足预设结束条件,如果不满足,则重复步骤一,直至所述多个数据源的数据获取均满足预设结束条件,其中,当对所述多个数据源中的任一个数据源满足预设结束条件时,则结束对该数据源的数据获取。2.如权利要求I所述的基于循环策略的深层网页数据获取方法,其特征在于, 所述步骤二中,对多个数据源中的任一个数据源进行数据获取,通过以下步骤实现, (1)当前数据源预设有n个查询关键词,计算各查询关键词的查询效率,并按照查询效率对查询关键词进行排序,根据查询效率从大到小的顺序选择第一个查询关键词,根据该查询关键词在当前数据源上进行第一次数据获取,所述数据获取过程为在当前数据源上执行,从当前数据源下载与当前查询关键词匹配的数据记录; (2)重复步骤(I),且当重复步骤(I)的次数达到rK次之后,其中,rK<n,r为大于等于I的整数,在根据第rK+1个查询关键词在当前数据源上获得与第rK+1个查询关键词匹配的数据记录之后,再从已经下载的数据记录中提取z个新的查询关键词,使得当前数据源对应的查询关键词的个数为n+z个。3.如权利要求2所述的基于循环策略的深层网页数据获取方法,其特征在于,所述K值逐渐增大。4.如权利要求I或2或3所述的基于循环策略的深层网页数据获取方法,其特征在于,所述查询关键词的查询效率Efficient (Qi, DBj)与该查询关键词qi在当前数据源DB」上的查询回报率RewarcKqi, DBj)成正比,且与该查询关键词qi在当前的数据源DBj上的数据获取代价Cost (qi; DB」)成反比。5.如权利要求4所述的基于循环策略的深层网页数据获取方法,其特征在于,所述查询关键词qi在当...

【专利技术属性】
技术研发人员:鲜学丰崔志明杨元峰赵朋朋梁颖红
申请(专利权)人:江苏省现代企业信息化应用支撑软件工程技术研发中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1