当前位置: 首页 > 专利查询>东北大学专利>正文

一种DeepWeb响应页面数据抽取方法技术

技术编号:3755637 阅读:312 留言:0更新日期:2012-04-11 18:40
一种DeepWeb响应页面数据抽取方法,属于深层网络数据管理领域,该方法包括以下步骤:(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page;(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,分隔并过滤公共token字符序列得到模板信息;(3)数据抽取;(4)token块合并;(5)数据表格聚类;本发明专利技术的有益效果:采用本发明专利技术的数据抽取方法,适用性强,精度高,效率得到大大提高。

【技术实现步骤摘要】

本专利技术属于深层网络数据管理领域,特别涉及一种De印Web响应页面数据抽取方法。
技术介绍
随着Web的发展,Web上的信息呈爆炸式增长。Web按其所含信息的深度可分为Surface Web和Deep Web (深层网络)两大部分。Surface Web是指可以通过超链接被传统的搜'索引 擎索引到的页面的集合;而Deep Web是指Web中不能被传统的搜索引擎索引到的那部分内 容,只能通过在査询接口动态提交查询来访问Web中的内容。随着Deep Web数据源数量的 增加,其重要性日趋突现。因为这些数据源中蕴含了大量的高质量的结构化信息。然而,这 些数据源只能通过其査询接口访问,最终返回一系列包含大量半结构化信息的Web页面,因 此如何自动而准确地抽取这些高质量的结构化数据给人们提出了挑战。近年来,较为典型的 方法有RoadRunner 、 MDR、 MDRII、 ViNTs、 ViPER等。RoadRunner是一个包装器归纳系统,其方法是进一步发掘Html文档内在的特征,通过 对比样本页面间的异同来生成抽取规则,并通过比较样本页面的标签结构来识别结构之间的 不匹配。RoadRunner可以分析出模式中的可选属性和嵌套属性(可以在一条记录中重复出现 多次属性),但其推导时间复杂性为指数级,抽取代价高。MDR和MDRII都是基于DOM Tree结构特征,完成对多记录页面的抽取。它们实现的 关键在于利用页面的嵌套结构和表现特征把査询结果从整个页面中分离出来,并精确地划分 结果中的多个记录。MDR把标签树中节点的路径看作一个字符串,并使用字符串编辑距离从 数据区中发现数据记录结点;MDRII是以树的结构信息代替标签字符串,可更准确地识别数 据记录。该类方法适合于DOM结构简单的页面,对DOM Tree结构复杂、数据区内噪声节 点过多的结果页面不适合,并且不支持嵌套结构的数据。ViNTs和ViPER都是基于可视化特征的抽取方法。该类方法需要建立一个有效的可视化 模型,模拟人眼对页面的识别过程。其识别效率低于直接分析页面文档的识别方法。当页面 没有明显的视觉特征时,抽取精度会变得很低。
技术实现思路
针对己有DeepWeb响应页面数据抽取方法的不足,本专利技术提供了一种De印Web响应页面 数据抽取方法。本专利技术采用的技术方案是,包括以下步骤步骤(1)选取DeepWeb响应页 面Page;在査询页面输入关键字Key,査询得到响应页面Page,响应页面Page是HTML语4法描述的字符串数组,用DOM解析工具(采用HTML Parser)将HTML字符串转化为DOM 树结构,DOM树中的结点定义(N,Kn,Wn,Tn),其中N表示结点N, K。表示结点N包含关键字的个数,Wn表示结点N中包含关键字的孩子结点的个数,Tn表示结点N的文本内容,则DOM树结构描述为廳={〔dcc rc;)降丽,(福,L n>廳}其中,N为DOM树中的结点,CNJ为结点N的第i个孩子结点;步骤(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,保存该结点的绝对路径{^12,...^},绝对路径的起始结点为根结点root,则P结点可以表示为尸=P结点所有的孩子结点子树即为记录结点子树集。保存该结点的绝对路径,绝对路径的起 始结点为根结点root;将记录结点DOM结构转化为带标记的token块序列,统计记录token 块序列中非空结点最小深度,记为lownum,再将带标记的token块序列转化为带标记的token 字符序列;用LCS算法处理任意两个记录的带标记的token字符序列,得到一个公共token字符序列;分隔并过滤公共token字符序列得到模板信息;首先找到包含关键字的孩子结点个数(即Wn信)最多的双亲结点,保存该结点的绝,对路 径。绝对路径的起始结点为根结点root。若生成的绝对路径为{2, 8, 3},则记录结点的双亲结点为Cc4。,。1)记录结点DOM结构转化为带标记的token块序列,再将带标记的token块序列转化 为带标记的token字符序列。带标记的token块序列结构为{(字符串,结点深度,块序列)}; 带标记的token字符序列结构为U字符,结点深度,块序列,字符序列))。记录结点DOM结构转化为带标记的token块序列过程是先根遍历记录结点,对每个结 点作如下处理①标记结点深度;②标记结点序列号(流水号,从1开始)。(i)统计记录pken 块序列中非空结点最小深度,记为lownum。带标记的token块序列转换为带标记的token字符序列过程是顺序读取每一 token块序5列,对每个token块作如下处理①若token块的字串为空,将其删除,不做其它处理,否则 按后面过程处理;②将每个token块分裂成字符token,每个字符都生成一个字符token;③ 保留其结点深度,结点序列号,增加一个字符序列号(流水号,从l开始)。2) 应用LCS算法处理任意两个记录的带标记的token字符序列,得到一个公共tokfen字 符序列。3) 分隔并过滤公共token字符序列得到模板信息(锚文本)对公共token字符序列做如下处理①如果结点深度相同并且结点序列号相同并且字符 序列号连续,进行合并,合并后的结点保留结点深度和结点序列号。②将不包含字符""的 结点全部去掉,剩余的结点信息即为模板信息。步骤(3)数据抽取;根据绝对路径取得记录结点的双亲结点P, P下的每个记录结点子树的根结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容Tn,得到一个记录的文本内容,即得到记录级数据;基于模板信息对token块进行切割,得到新的token 块序列,设A为待切割的token块,B为模板信息,U为模板信息中token块集合,若A切 割必需满足①35(5 ^ 且②A的内容必需完全包含B的内容,并且A的token块深度等 于B的token块深度;1) 获取记录级数据。根据绝对路径取得记录结点的双亲结点,该结点下的每个孩子结点即为 记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容,得到一个记翠的文本内 容,即得到记录级数据。2) 切割token块序列,基于模板信息对token块进行切割,得到新token块序列。设A为待 切割token块,B为模板信息,U为模板信息中token块集合。若A切割必需满足:①35(5^C7) 且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度。'如果A的内容完全包含B的内容,并且A的token块深度等于B的token块深度表示为 (A的部分内容(Al) —B的内容(B) —A的部分内空(A2), token块深度),则切割规则为 将(Al—B一A2, token块深度,块序号)切割为(Al, token块深度,块序号),(B—A2, token块深 度,块序号)*两部分,"*"表示该结点被打上了模板信息标记B。步骤(4)token块合并;依据统计值lownum继续对token块进行合并,合并规则为(1) 如果token块深度高于lownum,则将当前token块合并到下一 token块中;(2)如果本文档来自技高网
...

【技术保护点】
一种DeepWeb响应页面数据抽取方法,其特征是该方法包括以下步骤: 步骤(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page,响应页面Page是HTML语法描述的字符串数组,用DOM解析工具将HTML字符串转化为DOM树结构,DOM树中的结点定义:(N,K↓[n],W↓[n],T↓[n]),其中N表示结点N,K↓[n]表示结点N包含关键字的个数,W↓[n]表示结点N中包含关键字的孩子结点的个数,T↓[n]表示结点N的文本内容,则DOM树结构描述为: DOM={(C↓[N]↑[i],K↓[C↓[N]↑[i]],W↓[C↓[N]↑[i]],T↓[C↓[N]↑[i]])|*N∈DOM,(root,K↓[root],W↓[root],T↓[root])∈DOM}其中,N为DOM树中的结点,C↓[N]↑[i]为结点N的第i个孩子结点; 步骤(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数W↓[n]最多的双亲结点P,保存该结点的绝对路径{i↓[1],i↓[2],…,i↓[n]},绝对路径的起始结点为根结点root,则P结点可以表示为 *** P结点所有的孩子结点子树即为记录结点子树集;将记录结点子树集所有记录结点子树先根遍历转化为带标记的token块序列,统计记录token块序列中非空结点最小深度,记为lownum,再将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,得到一个公共token字符序列;分隔并过滤公共token字符序列得到模板信息;步骤(3)数据抽取;根据绝对路径取得记录结点的双亲结点P,P下的每个记录结点子树的根结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容Tn,得到一个记录的文本内容,即得到记录级数据;基于模板信息对token块进行切割,得到新的token块序列,设A为待切割的token块,B为模板信息,U为模板信息中token块集合,若A切割必需满足:①*B(B*U)且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度; 步骤(4)token块合并;依据统计值lownum继续对token块进行合并,合并规则为:(1)如果token块深度高于lownum,则将当前token块合并到下一token块中;(2)如果tok...

【技术特征摘要】

【专利技术属性】
技术研发人员:申德荣于戈孙高尚聂铁铮寇月王振华
申请(专利权)人:东北大学
类型:发明
国别省市:89[中国|沈阳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1