当前位置: 首页 > 专利查询>孟小峰专利>正文

基于视觉的Web数据抽取系统和方法技术方案

技术编号:2827354 阅读:321 留言:0更新日期:2012-04-11 18:40
一种基于视觉的Web数据抽取系统和方法,其中该系统包括:输入模块,用于输入包含记录的页面;预处理模块,用于对输入的页面进行预处理;页面表现模块,用于对页面进行视觉表示;数据记录抽取模块,用于从页面中抽取出完整的记录;数据项抽取模块,用于把抽取到的每个记录分解成数据项序列,并把表示相同属性的数据项对齐;输出模块,用于输出结构化数据表格。

【技术实现步骤摘要】

本专利技术涉及计算机数据库领域,尤其是涉及一种基于视觉的Web数 据抽取系统和方法。
技术介绍
随着Web的飞速发展,Web中蕴藏了海量的信息,据保守估计,目前 整个Web超过了 200, 000TB的信息量,而且仍在快速的增长,而且这些 信息覆盖了现实世界的各个领域(比如商业、娱乐、体育等)。这使得Web 逐渐成为人们获取有用信息的最重要的途径之一。然而海量的信息也经 常使得人们不能快速准确地从Web中发现自己想要的信息。如何高效地 从当前巨大的Web中获取有用的信息成为人们面临的一个新的挑战。为 了解决这个问题,许多研究者'们正在致力于如何用自动化的方法帮助人 们完成对Web中信息有效的获取,其中一个热点研究问题是Web数据抽 取,即从网页中自动抽取出结构化的数据。在Web中信息发布者主要是通过网页为载体对外发布信息,因此人 们主要也是通过浏览网页的方式获取Web中的信息,比如浏览新闻、查 阅资料、网上购物等。网页是由特定的编程语言编写,目前绝大部分的 网页由最流行的Html语言实现的,它是一种超文本标记语言,其特点是 应用广泛,格式简单,利用特定的标记格式化文本,以达到特定的效果。 因其易于使用,且可以编写出丰富多彩的网页,所以被广大的网页设计 者采用。随着Web的发展和人们需求的提高,Html语言的版本在不断地 提高,同时也出现了新的网页编程语言,比如XHtml和XML。不同设计者 对网页的个性化设计也导致了 Web中信息的表达缺乏统一的标准。众所 周知,网页设计的目的是为了人们浏览阅读,而不是为计算机进行自动 处理。 一般情况下,大部分的网页除了包含要抽取的数据外,还会包含 大量无用的信息,比如广告、导航信息等,这样就使得Web数据抽取成 为一件非常困难的事情。目前已有的Web数据抽取方法主要是针对Html网页,基本思想是通 过分析Html源文件从中发现要抽取的数据。这些方法虽然在当时可以较 好地完成对Web数据的抽取,但是它们依赖于特定的页面编程语言。因 此,它们的缺点随着Web的发展而显得日益突出,主要表现在Html语言新的版本在不断的出现,只是针对当前版本提出的方法需 要做较大的改动才能适应新的版本;新的网页编程语言的出现,使得现有方法完全不能凑效。然而,作为信息发布载体的网页,和杂志、电视一样,信息的展现 都符合人们的视觉上的浏览习惯。在这种背景下,我们提出了一种基于 网页视觉信息的Web数据抽取方法。
技术实现思路
为了解决上述传统问题,因此本专利技术的一个目的就是提出了 一种基 于视觉的Web数据抽取系统和方法。在本专利技术的一个方面中, 一种基于视觉的Web数据抽取系统包括 输入模块,用于输入包含记录的页面;预处理模块,用于对输入的页面 进行预处理;页面表现模块,用于对页面进行视觉表示;数据记录抽取 模块,用于从页面中抽取出完整的记录;数据项抽取模块,用于把抽取 到的每个记录分解成数据项序列,并把表示相同属性的数据项对齐;以 及输出模块,用于输出结构化数据表格。根据这个方面,其中数据记录抽取模块进一步包括发现模块,用 于发现数据区域;清除模块,用于清除噪音数据;分类模块,用于对视 觉块进行分类;重组模块,用于把属于同一记录的视觉块组合在一起。根据这个方面,其中发现模块进一步包括建立模块,用于建立一 个初始集合B,放入视觉树根节点的所有孩子节点;扫描模块,用于对B 中每一个节点进行扫描;判断模块,用于在扫描到其中一个节点b时, 判断其是否符合两个条件 一是被网页的中垂线穿越;二是与整个网页 的面积比大于值0.4;删除模块,用于在不符合的情况下,将其删除;加 入模块,用于在符合的情况下,把b加入集合Bs中,从Bs中删除b的 父亲节点,把b的所有孩子节点加入B;输出模块,用于在如果B中所有 节点都已扫描完的情况下,把Bs中面积最小的节点输出作为数据区域。根据这个方面,其中该清除模块进一步包括获取最上端模块,用 于获取数据区域中最上端视觉块bt。p;获取最下端模块,用于获取数据区 域中最下端视觉块bb。t最上端删除模块,用于在如果bt叩与它相邻的下 一块没有对齐的情况下,则将其删除;最下端删除模块,用于在如果bt。。 与它相邻的下一块没有对齐的情况下,则将其删除。根据这个方面,其中视觉块分类模块进一步包括建立模块,用于 建立一个集合B,该集合B包含数据区域中所有孩子节点;判断模块,用 于对B中节点按视觉进行分类;输出模块,用于输出一个集合C, C中包 含若干子集合,每个子集合对应一个分类。根据这个方面,其中该重组模块进一步包括选择模块,用于从视 觉块分类模块输出的集合C中选择第一个子集合d作为cmax;建立模块, 用于取出c脂中每个节点bi,建立一个初始子集合ri;放入模块,用于把 所有初始子集合放入集合R;扫描模块,用于对C中每一个子集合Ci进行 扫描;对应模块,用于将Ci中的节点根据在网页上的位置对应到R的中 n中;输出模块,用于在如果C中所有子集合都已扫描完的情况下,输出 R, R中每一个子集合为一个记录。根据这个方面,其中该数据项抽取模块进一步包括接收模块,用 于接收机灵集合;切分模块,用于把一个记录按照属性出现顺序切分成 一个数据项的序列;对齐模块,用于把每个记录中的数据项按照属性对 齐。根据这个方面,其中该对齐模块进一步包括扫描^t块,用于对每 个记录进行扫描;放入模块,用于将每个记录当前未对齐的第一个数据 项放入集合C;分类模块,用于对集合C中的数据项进行分类;选定模块, 用于根据分类模块中的当前分类选定位置最前的分类,将其中的数据项 进行对齐;输入模块,用于在如果所有记录的数据项都对齐完毕的情况 下,输出结构化表格。在本专利技术的另一方面中, 一种基于视觉的Web数据抽取方法包括步 骤A、输入包含记录的页面;B、对输入的页面进行预处理;C、对页面 进行视觉表示;D、从页面中抽取出完整的记录;E、把抽取到的每个记 录分解成数据项序列,并把表示相同属性的数据项对齐;以及F、输出模 块输出结构化数据表格。根据这个方面,其中步骤D进一步包括步骤Dl、发现数据区域; D2、清除噪音数据;D3、对视觉块进行分类;以及D4、把属于同一记录 的视觉块组合在一起。根据这个方面,其中步骤D1进一步包括步骤Dl_l、建立一个初始 集合B,放入视觉树根节点的所有孩子节点;Dl_2、对B中每一个节点进 行扫描;Dl —3、当扫描到其中一个节点b时,判断其是否符合两个条件 一是被网页的中垂线穿越;二是与整个网页的面积比大于值O. 4; Dl_4、 如果不符合步骤Dl-3中的条件,则将其删除;Dl_5、如果符合步骤Dl-3 中的条件,把b加入集合Bs中,从Bs中删除b的父亲节点,把b的所 有孩子节点加入B; Dl-6、如果B中所有节点都已扫描完,就把Bs中面 积最小的节点输出作为数据区域。才艮据这个方面,其中步骤D2进一步包括步骤D2_l、获取数据区域 中最上端视觉块b帥;D2 —2、获取数据区域中最下端视觉块tw咖;DL3、 如果b柳与它相邻的下一块没有对齐,则将其删除;D2—4、如果b鄉与它 相邻的下一块没有对齐,则将其删除。根据这个方面,其中步骤D3进一步包括步骤D3-l、建立一个集合 B,该集合本文档来自技高网
...

【技术保护点】
一种基于视觉的Web数据抽取系统,该系统包括:输入模块,用于输入包含记录的页面;预处理模块,用于对输入的页面进行预处理;页面表现模块,用于对页面进行视觉表示;数据记录抽取模块,用于从页面中抽取出完整的记录;   数据项抽取模块,用于把抽取到的每个记录分解成数据项序列,并把表示相同属性的数据项对齐;输出模块,用于输出结构化数据表格。

【技术特征摘要】
1. 一种基于视觉的Web数据抽取系统,该系统包括输入模块,用于输入包含记录的页面;预处理模块,用于对输入的页面进行预处理;页面表现模块,用于对页面进行视觉表示;数据记录抽取模块,用于从页面中抽取出完整的记录;数据项抽取模块,用于把抽取到的每个记录分解成数据项序列,并把表示相同属性的数据项对齐;输出模块,用于输出结构化数据表格。2 、 根据权利要求1的系统,其中数据记录抽取模块进一步包括发现模块,用于发现数据区域;清除模块,用于清除噪音数据;分类模块,用于对视觉块进行分类;重组模块,用于把属于同一记录的视觉块组合在一起。3、 根据权利要求2的系统,其中发现模块进一步包括建立模块,用于建立一个初始集合B,放入视觉树根节点的所有孩子节点;扫描模块,用于对B中每一个节点进行扫描;判断模块,用于在扫描到其中一个节点b时,判断其是否符合两个 条件 一是被网页的中垂线穿越;二是与整个网页的面积比大于值 0. 4;删除模块,用于在不符合的情况下,将其删除;加入模块,用于在符合的情况下,把b加入集合Bs中,从Bs中删除b的父亲节点,把b的所有孩子节点加入B;输出模块,用于在如果B中所有节点都已扫描完的情况下,把Bs中面积最小的节点输出作为数据区域。4、 根据权利要求2的系统,其中该清除模块进一步包括 获取最上端模块,用于获取数据区域中最上端视觉块bt。p; 获取最下端模块,用于获取数据区域中最下端视觉块bb。tt。m; 最上端删除模块,用于在如果bt。p与它相邻的下一块没有对齐的情况下,则将其删除;最下端删除模块,用于在如果b一与它相邻的下一块没有对齐的情况 下,则将其删除。5、 根据权利要求2的系统,其中视觉块分类模块进一步包括 建立模块,用于建立一个集合B,该集合B包含数据区域中所有孩子 节点;判断模块,用于对B中节点按视觉进行分...

【专利技术属性】
技术研发人员:孟小峰刘伟
申请(专利权)人:孟小峰
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1