一种基于最小可查询模式的Deep Web自适应爬取方法技术

技术编号:2915490 阅读:389 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于最小可查询模式的Deep Web自适应爬取方法。针对当前DeepWeb爬取方法存在的数据孤岛导致的爬取效率较低问题,本发明专利技术首先提出了最小可查询模式MEP的概念,并在此基础上提出了MEP生成算法与基于MEP的自适应爬取方法。本发明专利技术将查询接口由单文本框推广到最小可查询模式集,一次查询由一个MEP和与该MEP匹配的关键词向量共同确定,自适应地产生期望最优的下一个查询直到满足查询停止条件。本发明专利技术使用最小可查询模式不但提高了表单填写准确率,而且充分利用各个模式的特性选取关键词较好地克服数据孤岛问题。

【技术实现步骤摘要】

本专利技术属计算机应用领域,主要涉及Web挖掘、信息获取,特别涉及一种基于最小可查询模式的Deep Web自适应爬取方法,主要解决当前同类爬取方法中存在的数据孤岛问题。
技术介绍
Deep Web爬取的目标是获取尽可能多的Deep Web数据记录[2],其关键在于如何产生合适的爬取。目前,Deep Web爬取可分为基于先验知识和无先验知识两类查询方法。基于先验知识的爬取方法需要在爬取前建立相应的先验知识库,进而在先验知识的指导下产生查询。这类方法的不足之处在于:一、要求查询表单含有较多可供学习先验知识的信息,对包含较少信息的查询表单,如只包含接受关键词查询的单文本框表单,其处理能力比较受限;二、一次查询需要完成整个表单的填写,降低了爬取效率。无先验知识的爬取方法克服了上述方法的不足,爬取过程不依赖先验知识,能较好地处理包含信息较少的查询表单。该类方法通过解析当前已获取的Deep Web数据记录以产生新的候选查询关键词。相对于基于先验知识的爬取方法,无先验知识的爬取方法提高了爬取处理能力,然而该类方法仍存在以下两方面问题:一、仅能对单文本框进行爬取并默认获取到的关键词与该文本框匹配;二、初始爬取的关键词选择缺乏足够依据。上述问题限制了Deep Web爬取方法的能力,从而导致数据孤岛现象,即仅能获得整个数据库中的一部分记录。申请人检索出以下国内外相关文献:1.S.Raghavan and H.Garcia-Molina.Crawling the Hidden Web.27th InternationalConference on Very Large Data Bases(VLDB),2001,129-1382.郑东东,赵朋朋,崔志明.Deep Web爬虫研究与设计.清华大学学报(自然科学版).2005.45(1):1896-19023.Alvarez M.,Raposo J.,Pan,A.,Cacheda,F.,Bellas,F.,Carneiro,V.DeepBot:AFocused Crawler for Accessing Hidden Web Content.DEECS,20074.Barbosa L,Freire J.Siphoning hidden-web data through keyword-based interfaces.InSBBD,2004-->5.Ntoulas A,Zerfos P,Cho J.Downloading textual hidden Webcontentthrough keywordqueries.JCDL,2005:100-109.6.Ping Wu,Ji-Rong Wen,Huan Liu,Wei-Ying Ma.Query Selection Techniques forEfficient Crawling of Structured WebSources.ICDE,2006.7.Zhang Z.,He B.,Chang K.C.C.Understanding Web Query Interfaces:Best EffortParsing with Hidden Syntax[C].In Proceedings of the ACM SIGMOD InternationalConference on Management of Data,2004,107-118.文献[1]提出了一种基于先验知识的方法,即基于LVS(Label Value Set)表的爬取方法,该方法通过学习查询表单来建立LVS表。该方法是基于先验知识方法的代表,由于其依赖于先验知识库的先天缺陷,爬取效率不高。文献[2]在[1]的基础上,提出了基于预定义的领域本体知识库的爬取方法,通过引入本体模型,增强了爬取领域的扩展性。文献[3]提出了基于领域定义(Domain Definitions)的爬取方法,在表单识别与填写的准确率上有所改进。文献[4]最先提出无先验知识的思想,并给出了基于频率的需按此方法,通过选择在已获记录中频率最高的关键词进行爬取。然而使用已获取记录中的高频关键词并不能保证爬取获得较多的新纪录。文献[5]提出了一种基于期望回报率的贪婪选词方法,该方法根据本地已有信息产生候选关键词并估算其期望回报率,选择回报率最大的关键词进行爬取。该方法是无先验知识方法的代表,但其仅能对单文本框进行爬取,容易导致“数据孤岛”现象。文献[6]用图对Web数据库进行建模,将求解最优选词策略的问题转化为寻找图的最低带权支配集的问题,提出了基于链的贪婪爬取选词策略来求解近似最优解,并引入领域知识增强了爬取效果。但其仅能对单文本框进行爬取,容易导致“数据孤岛”现象。文献[7]提出了2P grammar & Best-effort Parser,通过解析Deep Web查询接口的语义,构造出完全解析树,实现对查询界面的模式抽取。经过分析对比,国内外文献介绍的Deep Web爬取方法未涉及Deep Web查询表单的最小可查询模式抽取方法和基于最小可查询模式的爬取方法。
技术实现思路
本专利技术的目的在于克服上述无先验知识方法现有技术存在的数据孤岛问题,提供一种一种基于最小可查询模式的Deep Web自适应爬取方法,该方法能够提升Deep Web爬取-->效率。专利技术提出了最小可查询模式的概念,提出一种自适应的Deep Web爬取方法。本方法将查询由单文本框推广到最小可查询模式集合,通过选择最小可查询模式和与该模式匹配的关键词向量共同确定一次查询,根据已获取的Deep Web信息自适应地产生效率最大的下一个查询,直到满足查询停止条件。本专利技术包含以下步骤:1)生成目标Deep Web查询表单的最小可查询模式集合Smep,其中查询表单:查询表单是Deep Web的查询接口,可表示为所包含控件元素的集合,即查询表单F={e1,...,en本文档来自技高网
...

【技术保护点】
一种基于最小可查询模式的Deep Web自适应爬取方法,其特征在于,包含以下步骤: 1)生成目标Deep Web查询表单的最小可查询模式集合S↓[mep],其中查询表单:查询表单是Deep Web的查询接口,可表示为所包含控件元 素的集合,即查询表单F={e↓[1],…,e↓[n]},其中e↓[i]为F的控件元素; 可查询模式:给定查询表单F={e↓[1],…,e↓[n]},*{e′↓[l],…,e′↓[m]}∈2↑[F],1≤m≤n,若对{e′↓[1],…, e′↓[m]}中至少一个控件元素赋值后进行Deep Web数据库检索能返回检索结果,则称集合{e′↓[1],…,e′↓[m]}为F的一个可查询模式; 最小可查询模式:F={e↓[1],…,e↓[n]}的查询模式{e′↓[1],…,e ′↓[m]}(1≤m≤n)是最小可查询模式当且仅当{e′↓[1],…,e′↓[m]}的任意一个真子集都不是可查询模式,记作MEP(e′↓[1],…,e′↓[m]); 2)添加种子候选查询q↓[i]进候选查询集合,候选查询可表示为q↓[ i](kv,mep↓[j])其中q↓[i](kv,mep↓[j])为第i次Deep Web查询,该次查询是通过向最小可查询模式mep↓[j]提交关键词向量kv实现的,这里,mep↓[j]∈S↓[MEP]为包含m个控件元素的最小查询模式,k v=(kv↓[1],kv↓[2],…,kv↓[m])为m维的关键词向量; 3)对最小可查询模式集合中的每个最小可查询模式mep↓[j],预测其模式回报率P↓[new](q(mep↓[j])),模式回报率表示最小可查询模式独立于关键词向 量选择的获取新记录的回报率,该值取决于查询模式本身; 4)对候选查询集合中的每个候选查询q↓[i](kv,mep↓[j])估计其关键词向量kv对新纪录的条件回报率P↓[new](q↓[i](kv|mep↓[j])),P↓[new](q ↓[i](kv|mep↓[j]))表示q↓[i]在mep↓[j]查询模式下使用关键词向量kv查询对新结果的条件回报率,该值取决于给定模式下关键词向量的查询能力; 5)对于候选查询集合中的查询q↓[i](kv,mep↓[j])计算查询q ↓[i]对新纪录的回报率P↓[new](q↓[i](kv,mep↓[j]))和提交其所花费的时间代价cost(q↓[i](kv...

【技术特征摘要】
1、一种基于最小可查询模式的Deep Web自适应爬取方法,其特征在于,包含以下步骤:1)生成目标Deep Web查询表单的最小可查询...

【专利技术属性】
技术研发人员:刘均郑庆华蒋路吴朝晖常晓
申请(专利权)人:西安交通大学
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1