当前位置: 首页 > 专利查询>江苏省现代企业信息化应用支撑软件工程技术研发中心专利>正文

一种基于循环策略的深层网页数据获取方法技术

技术编号：7786556 阅读：178 留言：0更新日期：2012-09-21 07:38

本发明专利技术公开了一种基于循环策略的深层网页数据获取方法。本发明专利技术提出使用循环策略分多次完成对所有数据源的数据获取，当获取某一数据源的效率下降到某一阈值时，停止当前数据源的数据获取，爬虫开始获取下一个数据源的数据，依次类推直到把所有待集成数据源都获取一遍；然后再重复上述过程，直到所有待集成数据源都已达到结束条件。本发明专利技术使一部分应该从一些数据源数据获取后期获得的数据，从另一些数据源数据获取的前期或中期获得。与传统一次性穷尽数据获取方法相比，本发明专利技术能减少数据源后期的数据获取，降低了数据获取的代价，同时也能减少重复数据的获取，降低数据集成的代价。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深层网页数据获取方法，尤其涉及。
技术介绍
目前主流搜索引擎还只能搜索Internet表面可索引的信息，在Internet深处还隐含着大量通过主流搜索引擎少量或无法涉及的海量信息，这些信息我们称之为深层网页(Deep Web,又称为 Invisible Web 或Hidden Web) oDeep Web 的信息一般存储在服务端 Web数据库中，与静态页面相比通常信息量更大、主题更专一、信息质量和结构更好。为了方便用户快捷高效的使用De印Web信息，国内外学者对Deep Web数据集成进行了广泛的研究。Deep Web数据集成的一种方案是与构建传统搜索引擎一样，将Deep Web数据库里内容爬取出来，存储到本地拷贝库中并建立索引，它能在最短时间内响应用户的查询要求。目前这种方案在许多特定领域已成为Deep Web数据集成研究的主流。由于集成系统可能需要集成数十个甚至更多的Deep Web数据源，因此，该方案中一个关键并十分有挑战性问题是如何高效的获取De印Web数据。目前DeepWeb数据集成的实现方法为首先独立穷尽获取每一个待集成的DeepWeb数据源，然后通过数据清洗、实体识别、合并去重等步骤完成获取数据的集成。这种实现方法在数据获取方面主要存在两个缺陷第一，每个数据源数据获取的后期代价十分巨大，花费较大的代价仅仅获取极少的新数据，同时数据集成时需要处理来自不同数据源的大量重复数据，数据集成的代价也非常巨大；第二，每个数据源数据获取独立进行，爬虫主要依据该数据源已获取数据的统计信息进行查询选择，由于统计信息缺乏和查询候选池有限，该方法...

【技术保护点】

【技术特征摘要】
1.一种基于循环策略的深层网页数据获取方法，其特征在于，包括以下步骤步骤一、分别对多个同一领域的数据拳中的每一个数据源预设多个不同的查询关键词；步骤二、依次对每一个数据源进行数据获取，其中，当对所述多个数据源中的第一个数据源进行数据获取时，计算当前数据源中的各查询关键词的查询效率，并按照查询效率对当前数据源中的查询关键词进行排序，根据查询效率从大到小的顺序依次选择各查询关键词对当前数据源进行一次又一次的数据获取，直到所述当前数据源的连续进行的a次数据获取的新数据获取率均不大于一新数据获取率阈值，则中止对当前数据源的数据获取，并对当前数据源的下一个数据源进行数据获取，直到最后一个数据源达到中止；步骤三、检验所述多个数据源的数据获取是否均满足预设结束条件，如果不满足，则重复步骤一，直至所述多个数据源的数据获取均满足预设结束条件，其中，当对所述多个数据源中的任一个数据源满足预设结束条件时，则结束对该数据源的数据获取。2.如权利要求I所述的基于循环策略的深层网页数据获取方法，其特征在于，所述步骤二中，对多个数据源中的任一个数据源进行数据获取，通过以下步骤实现， (1)当前数据源预设有n个查询关键词，计算各查询关键词的查询效率，并按照查询效率对查询关键词进行排序，根据查询效率从大到小的顺序选择第一个查询关键词，根据该查询关键词在当前数据源上进行第一次数据获取，所述数据获取过程为在当前数据源上执行，从当前数据源下载与当前查询关键词匹配的数据记录； (2)重复步骤(I)，且当重复步骤(I)的次数达到rK次之后，其中，rK<n，r为大于等于I的整数，在根据第rK+1个查询关键词在当前数据源上获得与第rK+1个查询关键词匹配的数据记录之后，再从已经下载的数据记录中提取z个新的查询关键词，使得当前数据源对应的查询关键词的个数为n+z个。3.如权利要求2所述的基于循环策略的深层网页数据获取方法，其特征在于，所述K值逐渐增大。4.如权利要求I或2或3所述的基于循环策略的深层网页数据获取方法，其特征在于，所述查询关键词的查询效率Efficient (Qi, DBj)与该查询关键词qi在当前数据源DB」上的查询回报率RewarcKqi, DBj)成正比，且与该查询关键词qi在当前的数据源DBj上的数据获取代价Cost (qi; DB」)成反比。5.如权利要求4所述的基于循环策略的深层网页数据获取方法，其特征在于，所述查询关键词qi在当...

【专利技术属性】
技术研发人员：鲜学丰，崔志明，杨元峰，赵朋朋，梁颖红，
申请(专利权)人：江苏省现代企业信息化应用支撑软件工程技术研发中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人