一种基于动态知识的深层网页数据获取方法技术

技术编号：7786550 阅读：319 留言：0更新日期：2012-09-21 07:37

本发明专利技术公开了一种基于动态知识的深层网页数据获取方法。本发明专利技术利用集成系统已获取的数据动态构建知识，并在集成系统动态知识的基础之上进行查询关键词的选择，也就是说在对数据源进行数据获取时，利用所获取的数据提取新的查询关键词，以扩展查询候选池，并更新查询关键词的统计知识，从而提高了查询选择的准确性，并进一步提高了数据获取的覆盖率。在使用循环策略进行数据获取时，对于每个数据源可以多次利用丰富后的集成系统动态知识进行查询选择，从而有效率提高查询选择的准确性，提高数据获取的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深层网页数据获取方法，尤其涉及。
技术介绍
目前主流搜索引擎还只能搜索Internet表面可索引的信息，在Internet深处还隐含着大量通过主流搜索引擎少量或无法涉及的海量信息，这些信息我们称之为深层网页(Deep Web,又称为 Invisible Web 或 Hidden Web)。DeepWeb 的信息一般存储在服务端 Web数据库中，与静态页面相比通常信息量更大、主题更专一、信息质量和结构更好。为了方便用户快捷高效的使用De印Web信息，国内外学者对Deep Web数据集成进行了广泛的研究。Deep Web数据集成的一种方案是与构建传统搜索引擎一样，将Deep Web数据库里内容爬取出米，存储到本地拷贝库中并建立索引，它能在最短时间内响应用户的查询要求。目前这种方案在许多特定领域已成为Deep Web数据集成研究的主流。由于集成系统可能需要集成数十个甚至更多的Deep Web数据源，因此，该方案中一个关键并十分有挑战性问题是如何高效的获取De印Web数据。目前DeepWeb数据集成的实现方法为首先独立穷尽获取每一个待集成的DeepWeb...

【技术保护点】

【技术特征摘要】
1.一种基于动态知识的深层网页数据获取方法，其特征在干，对同一领域的多个数据源进行数据获取，其中，对所述多个数据源中的ー个数据源进行数据获取，是通过以下过程实现的，包括以下步骤步骤ー、为当前数据源预设η个查询关键词，从η个查询关键词中选择第一个查询关键词，根据该查询关键词在当前数据源上进行第一次数据获取，所述数据获取过程为在当前数据源上执行，从当前数据源下载与当前查询关键词匹配的数据记录；步骤ニ、重复步骤一，且当重复步骤一的次数达到rK次之后，其中rK < n，r为大于等于I的整数，在根据第rK+Ι个查询关键词在当前数据源上获得第rK+Ι个查询关键词匹配的数据记录之后，再从已经下载的数据记录中提取z个新的查询关键词，使得当前数据源对应的查询关键词的个数为n+z个。2.如权利要求I所述的基于动态知识的深层网页数据获取方法，其特征在于，所述K值逐渐増大。3.如权利要求I或2所述的基于动态知识的深层网页数据获取方法，其特征在于，对所述多个数据源进行数据获取，通过以下过程实现的， (1)依次对每ー个数据源进行数据获取，其中，当对所述多个数据源中的第一个数据源进行数据获取时，从η个查询关键词中依次选择各查询关键词对当前数据源进行一次又一次的数据获取，直到所述当前数据源的连续进行的α次数据获取的新数据获取率均不大于一新数据获取率阈值，则中止对当前数据源的数据获取，并对当前数据源的下一个数据源进行数据获取，直到最后ー个数据源达到中止， (2)检验所述多个数据源的数据获取是否均满足预设结束条件，如果不满足，则重复步骤(I)，直至所述多个数据源的数据获取均满足预设结束条件，其中，当对所述多个数据源中的任一个数据源满足预设结束条件吋，则结束对该数据源的数据获取。4.如权利要求3所述的基于动态知识的深层网页数据获取方法，其特征在于，所述步骤(I)中，计算当前数据源中的各查询关键词的查询效率，并按照查询效率对当前数据源中的查询关键词进行排序，根据查询效率从大到小的顺序依次选择各查询关键词对当前数据源进行一次又一次的数据获取。5.如权利要求4所述的基于动态知识的深层网页数据获取方法，其特征在干，查询关键词的查询效率Efficient (qi，DBp与该查询关键词qi在当前数据源DBj上的查询回报率RewarcKqi, DBj)成正比，且与该查询关键词Qi在当前的数据源DBj上的数据获取代价Cost (qi； DBj)成反比。6.如权利要求5所述的基于动态知识的...

【专利技术属性】
技术研发人员：崔志明，鲜学丰，赵朋朋，杨元峰，
申请(专利权)人：崔志明，鲜学丰，赵朋朋，杨元峰，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人