一种基于关系机制的多类别WEB对象抽取方法技术

技术编号:7315542 阅读:303 留言:0更新日期:2012-05-04 00:30
本发明专利技术是一种基于关系机制的多类别WEB对象抽取方法,包括:利用维基百科数据构造多类别WEB对象关系库,该关系库由WEB对象及其类别、对象间关系、类别层次关系组成;在多类别WEB对象关系库中,迭代计算WEB对象类别间关系权值,提取WEB对象类别核心关系模板;将WEB页面转换为HTML标签树,根据HTML标签树节点的尺寸和特点,从WEB页面中抽取WEB对象记录块;利用模板匹配获得WEB对象记录块所属类别,并根据WEB对象类别核心关系模板,采用投票策略抽取WEB对象记录块的核心WEB对象及其相关WEB对象;利用信息可视化的方法,展示多类别WEB对象关系库中WEB对象的各种关系。本发明专利技术可以广泛的应用于互联网数据挖掘、信息检索等领域。

【技术实现步骤摘要】

本专利技术属于计算机网络、信息检索与集成
,具体地说是一种基于关系机制的多类别WEB对象抽取方法
技术介绍
WEB信息抽取是海量hternet信息检索的有效手段。而WEB对象抽取也已经被广泛用于垂直搜索引擎应用当中。WEB对象的概念随着垂直搜索引擎的出现而产生,旨在解决传统搜索引擎搜索结果冗余、精确度低等问题。微软将WEB对象定义为“TOB的基本数据对象,其相关信息将被收集、索引并排序”。WEB对象的展现分为两个层次对象块级别和属性级别。对象块级别的WEB对象只向用户展示与WEB对象相关的文字记录块,而WEB对象的具体属性由用户自己通过阅读该记录判断。属性级别的WEB对象则包含了对象相关属性信息,这是在对象文字记录块基础上进一步抽取得到的。WEB对象块的抽取包括基于TOB 文档结构的抽取方法和基于WEB文档视觉信息的方法。美国南加州大学的Lerman等人提出了一种根据WEB文档结构自动抽取信息的方法。该方法通过学习某一网站的相似文档而学习同类文档的结构,该方法通常假设具有同一个父结点的子结点表达具有很强相关性的信息,以文档结构上的相似性来区分表达不同对象的结点,并根据该内容和位置假设从文档中抽取信息。Gupta等人通过保留一个不断更新的广告服务器列表来移除广告,通过计算链接数、非链接文字数来移除链接列表。但是这种方法不能识别相关图片,也极易删除相关链接列表。而且对于不同的网页,需要手工调整参数的阈值才能达到最佳抽取效果。Lin和Ho提出的hfoDiscover系统首先根据TABLE标签把网页分成若干个内容块,然后将词作为特征抽取出来并计算每个词的熵值,进而计算每个内容块的熵值。最后通过设定熵的阈值来划分有关内容块和无关内容块。尽管以上方法取得了一定的效果,但都是针对单一的站点,所以有一定的局限性。美国芝加哥大学的Liu和Grossman等人提出了一种从结构化TOB页面中提取TOB 对象列表的方法。该方法分为3步构建HTML标签树,挖掘数据区域,识别数据记录。该方法对标签树进行预处理,对HTML标签中不需要配对的标签进行修正,以使原WEB文档中的所有标签都能够匹配,并将WEB文档转换为HTML标签树。Kovacevic等人利用位置将页面分为头、脚、左、右和中间区域。这种方法的缺点是这种网页结构模板不可能适用于所有网页,而且这种划分区域的方法也难以保证每个区域的语义一致性。微软亚洲研究院的Cai等人根据TOB文档的颜色、文字区域、文字大小等视觉特征对WEB文档进行分块,从而生成一棵WEB文档的视觉结构树。2008年在世界万维网会议上Yao等人提出类一种WEB实体全局模板的提取方法。 该方法要求用户最先提供类别的部分属性,并以这些属性为关键词对搜索引擎返回的结果进行迭代分析,从而获取到网络上已经定义的给类别WEB对象的属性、属性别名等信息。该方法一次运行只能获取一项类别的描述模板,同时也需要用户提供先验知识,一定程度上4也限制了多类别WEB对象的抽取。在WEB对象可视化方面,德国康斯坦茨大学的Keim与Mansmarm等人提出了层次圆环算法。在该算法中,各个层次被布局为多个放射状的同心圆环,内侧圆环代表着外侧的父结点,所有圆环按照最内层结点的数据类型被分为若干扇区以利于表现与内层结点对应的层次化信息。该算法利于表示分组信息;但不利于显示大数据量的信息,此时需要一定的用户交互(如气泡提示,信息过滤)作为辅助。2008年印度大学的Herr和Holloway实现了马赛克视图用以可视化维基中的编辑活动。用黄色点表示每篇文,用点的大小表示文章的编辑频率,频率最大的文章则显示为其对应的图片,用红色点表示最近频繁编辑的文章。 通过这种方法可以反映出维基的总体情况和热点话题,但是该可视化缺少与用户的交互功能使用户难以获取细节信息。2007年美国印第安纳大学的Holloway和borner设计了维基可视化工具,用以用宏观角度可视化维基页面所覆盖的类别、编辑时间等属性。该工具定义并计算了维基类别间得相似度,以点代表维基中的一个页面,将维基所有页面的点按相似度分布在页面中,并用不同颜色代表页面所属的不同类别。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提出一种基于关系机制的多类别 WEB对象抽取方法,使其能够同时适合结构化和非结构化WEB页面的多类别WEB对象块抽取,并通过可视化使用户能够直观地浏览WEB对象之间的关系、WEB对象类别之间的关系、 以及WEB对象和类别之间的从属关系。为完成专利技术目的,本专利技术采取的技术方案是利用维基百科数据构造多类别WEB 对象关系库,其中包括WEB对象类别、TOB对象、TOB对象间关系、以及相关继承层次关系,从而构建TOB对象类别之间的关系;迭代计算WEB对象类别间关系权值,并提取WEB对象类别之间的核心关系模板;将WEB页面转换为HTML标签树,以标签树结点的文本数量作为结点尺寸,滤除结点尺寸较小或文本支持度较低的标签树结点,以兄弟结点之间的尺寸相似度和结点的文本支持度,分别提取出结构化结点和非结构化结点,选取出尺寸最大的结点作为TOB对象记录块;利用模板匹配对WEB对象记录块进行分类,获得WEB对象所属的类别, 通过WEB对象类别的核心关系模板,采用投票策略抽取出WEB对象记录块的核心TOB对象及其相关WEB对象;可视化TOB对象的各种关系,使用户能够直观地浏览WEB对象之间的关系、WEB对象类别之间的关系、以及WEB对象和类别之间的从属关系。在学习多类别核心关系模板方面,构造核心关系模板的第一步是要生成类别间关系。为此,本专利技术基于维基百科数据构造了多类别WEB对象关系库,其中包括TOB对象类别、 WEB对象、WEB对象间关系、以及相关继承层次关系。对每项WEB对象间关系,在关系主、客体的类别间建立类别间关系,类别间关系具有权值,值为关系客体用于描述关系主体的频率。由于对象数、对象间关系数巨大,因此能够获得较为全面的类别间的关系。第二步是从生成的类别间关系中抽取核心关系模板。本专利技术提出WEB对象类别间关系权值计算和迭代算法获取核心关系模板。将同一类别主体的所有类别间关系按权值由大到小排序,每次将当前权值最大的关系加入核心关系集并计算该集合的信息冗余度。当核心关系集的冗余度大于某一阈值,且剩余关系的权值均小于一指定频率时,即认为获取到了该类别主体的核心关系集合。利用该方法对每一项WEB对象类别进行迭代,从而获得类别间相互描述的核心关系模板。在抽取WEB对象记录块方面,选取选定HTML标签树上结点的尺寸作为网页类型判断、WEB对象记录块提取的依据。基于对大量WEB页面的实际观察,给出一系列结构化和非结构化页面判别和提取的前提假设,并根据这些假设给出网页类型判断和对象记录块提取的规则。该规则主要包括3点。第一,对于所有网页,该页面的主要内容占据了页面主体, 因此,HTML标签树中同层兄弟结点间,那些尺寸明显较小的结点将被滤除,从而实现页面的粗过滤。第二,对于非结构化页面,由于其采用大段文字叙述的形式描述WEB对象,其特征为对应HTML标签树的结点包含了大量的文字和标点。为衡量这一特征给出了文本支持度的概念。当结点的文本支持度的取值大于某一阈值时,该结点被判断为非结构化结点本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:陈小武赵沁平蒋恺马永焘
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术