当前位置: 首页 > 专利查询>武汉大学专利>正文

基于文本结构权重的主题区域识别方法技术

技术编号:7042229 阅读:298 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了基于文本结构权重的主题区域识别方法,该方法基于树结构,将Web网页解析为标签树,在树匹配基础上,改进了数据区域挖掘和语义链接块识别技术,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果识别主题区域;最后采用归一化的方法计算主题区域内的文本结点相对长度值,利用归一化相对长度值,有效的去除和主题内容无关的文本节点实现了主题区域去噪,得到准确的主题内容。应用本发明专利技术技术方案能准确快速的挖掘出Web上有价值的信息,有着广阔的应用前景。

【技术实现步骤摘要】

本专利技术涉及Web数据挖掘领域的Web信息抽取技术,特别是针对文本为主的半结构化Wfeb网页,抽取Wfeb网页中与其主题相符的文本内容的方法。
技术介绍
目前,Web信息抽取按自动化程度分有以下三种方式(1)人工方法这种方法是通过人工观察出Web页面的特征,然后进行手工标记, 提取目标信息的模式,再根据此模式有针对性的编写程序生成包装器(Wrapper),然后通过 Wrapper抽取目标信息。这种方法只能针对指定站点,不具通用性。这类系统要求用户具有扎实的计算机编程基础。正因为如此,人工方法适合少量站点的情况,无法适应海量站点的场合。(2)半自动抽取这种方式是半自动的,相对于手工方法,这种方式减轻了人工劳动。它通过从训练网页中提取规则,然后将此规则应用于与此类网页相似的网页中。在这种方法里,如何判断相类似的网页是关键。这类方法不需要用户具有计算机专业基础,只需要用户利用系统提供的用户界面,输入训练用例即可。国外已有许多关于这种方法的研究, 典型的系统有WHISK、STALKER、S0FTMEALY等。WHISK系统适合于结构化、半结构化数据和自由文本,对结构化和半结构化数据,WHISK根据语义项的上下文定位目标信息。对于自由文本,则采用分割方式处理。但是WHISK在规则学习过程中规则不能保证以最优的方式进行扩展,且生成规则集的时间较长。STALKER系统将Web数据建模成嵌套关系,利用地标思想,得到SkipToWlR)序列的抽取规则。S0FTMEALY系统M中曾用归纳学习方法学习两个属性间的上下文规则集来确定属性间的顺序,由元组转换机提取信息的内容,但效率较低。(3)自动抽取这种方式起始于1998年,给定一张或者若干网页,程序自动从其中发现规则,然后抽取目标数据。它不需要太多人工干预,因此适合于大量站点的情形。这类系统的代表有RoadRunner,该系统通过对2个或多个样本页面结构的比较,提取一个利用正则表达式表示通用结构模式,然后根据结构模式实现对相似页面的信息抽取,该系统利用了结构模式中文档对象模型(DOM,Document Object Model)标记的关系,如节点之间的嵌套的关系。Web信息抽取按照抽取技术路线可以分为以下几种(1)基于HTML解析的数据抽取技术基于HTML解析的数据抽取方法可以分为两个类别,第一种是将HTML网页看作是一个由HTML标记和普通字符串构成的序列集合。简单的说就是把整个文档当成一个字符串,利用现在已有的通用编程语言如Perl,Java等设计程序对此字符串进行处理,以文档字符串为输入,利用正则表达式进行模型匹配,输出目标信息字符串。这种方法是基于字符串的,没有利用到HTML网页已有的半结构化特征,不涉及其层次结构。STALKER是利用这种方法的典型系统,此系统基于地标思想。每一个地标是一个连续的标志序列,此标志序列用于定位一个目标项的开头或结尾。例如对于已知文档Name :<b>Hotel 0ne</bX/p>, 则利用规则Rl =SkipTo (<b>)可以识别名字的开头。这条规则意味着系统应该从网页的开头开始,跳过所有的字符,直到看到第一个<b>字符串为止,此时<b>就是一个地标。同理, 识别名字的结尾可以使用规则R2 =SkipTo (</b>),不同的是R2从文档结尾应用到文档的开头。因此Rl被称为开始规则,R2被称为结束规则。第二种是利用HTML文档的结构,将其转换为一棵有层次的DOM树,然后通过分析和处理树的层次结构,抽取所需要的数据。这类方法的常用代表系统有W4F,XWrapm等。(2)基于包装器(Wrapper)归纳的数据抽取技术包装器归纳是基于有监督学习的,它从一个标注好的训练样例集合中学习抽取规则。标注通常是手工完成的,包括标记训练网页或样例中用户希望抽取的数据项。随后学到的规则被用于其他相同标记编码或者有相同模板的网页中抽取目标数据。采用这类技术的典型系统有WIEN,WL2, SOFTMEALYm等。WL2是一个能够利用文档的不同展示方式的抽取系统。对WL2来说,文档既可以是DOM水平的,也可以是节点水平的,以及几何二维展现的页面(如表格数据)。(3)基于自然语言处理的数据抽取技术基于自然语言处理的数据抽取技术适合于文档中包含大量文本的情况,它借鉴了自然语言处理技术,通常包括句法分析、语义标注、对象识别和规则生成等步骤。采用这种技术的系统抽取信息速度不够快,典型系统有WHISK,SRV。WHISK系统适用性较广,能同时适合于结构化、半结构化数据和自由文档。其基础为正则表达式,通过正则表达识别出目标短语所在位置和短语之间的分隔符。此系统采用自上而下的方式进行归纳,先用最抽象的规则开始覆盖训练实例,然后通过不断调节,在此规则上添加约束。直到抽取目标信息为止。(4)基于本体论的数据抽取技术按照斯坦福大学人工智能专家Tom Gruber的定义,本体(Ontology)是程序与人共享知识的概念化规范,描述了代理之间的概念和关系,采用此技术的系统主要利用数据本身的特性,而不太重视这些数据所拥有的结构。但是目前的系统需要相关专家对Web网页进行本体(Ontology)建模。采用这类技术的典型系统有BYU、QUIXOTEm等。BYU是由杨柏翰大学(Brigham Yong University)开发的。在使用时先要某领域专家完成本体 (Ontology)建模,如对象的模式,关键字等。然后根据启发式信息和地标对文档进行分块, 这些块的描述均有同样的抽象特征;在此基础上根据本体中的信息生成规则,最后利用规则抽取结果。从抽取技术的智能度来看,手工式的抽取技术几乎不需要智能因素,因为其所要抽取的数据已经通过手工方式进行了标注,比如数据所在位置,是否可选项等信息均人工发现。因此这种技术对使用者要求高,一般只适合于专业人士。半自动抽取和自动抽取技术则降低了使用者的要求,同是提升了智能度。正因为如此,可以自动化的处理大量数据抽取任务。从抽取技术的应用范围来看,手工抽取方法不限于特定领域,其适用范围最广泛, 延伸性最好。而随着智能因素的增加,半自动化和全自动化抽取则逐渐受到应用领域的影响。比如半自动抽取器STALKER是基于HTML解析的数据抽取技术,其对纯文本的抽取显得力不从心。全自动的抽取算法RoadRunner则是基于HTML解析结构的抽取,其对结构不标准的源数据抽取也不尽人意。而且,现有的全自动的抽取技术大多数都釆用的人工智能、机器学习的方法,这些方法计算量大,抽取速度慢,影响实际应用效果。另外这类方法往往需要附加一些前提条件,如RoadRunner需要提供同一模板生成的2个页面,要求页面里含有重复模式,使得其使用受到限制。针对上述问题,本
亟待出现文本为主的半结构化Web网页的自动信息抽取方案。参考文献 S0DERLAND S. Learning Information Extraction Rules for Semi-structured and Free Text. Machine Learning,1999,34(1-3) :233-272.Muslea,I.,本文档来自技高网
...

【技术保护点】
1.一种基于文本结构权重的主题区域识别方法,其特征在于,包括以下步骤:步骤1,将待识别Web网页转换成标签树,具体通过以下步骤实现,步骤1.1,通过对待识别Web网页的HTML文档进行字符扫描,识别出起始节点、结束节点、全结构节点和文本节点;所述起始节点是以字符“(”开始,以字符“)”为结束,且这两者之间不存在字符“(”和“)”的字符串;所述结束节点是以字符“(/”开始,以字符“)”为结束,且这两者之间不存在字符“(”、“)”和“/”的字符串;所述全结构节点是以字符“(”开始,以字符“/)”为结束,且这两者之间不存在字符“(”、“)”和“/”的字符串;所述文本节点是以上三种节点以外的字符串;步骤1.2,采用解析器,依据步骤1.1识别出的起始节点、结束节点、全结构节点和文本节点进行标签树的构建,得到的标签树记为A;构建过程利用堆栈操作来确定各节点的层次关系,包括以下堆栈操作,当解析器发现一个起始节点时,触发入栈操作和在当前标签树中新建标签操作,当解析器发现一个结束节点时,触发退栈操作,当解析器发现一个全结构节点时,触发入栈操作,同时更新标签树,在更新标签树完成后立刻退栈操作;当解析器发现一个文本节点时,触发入栈操作,入栈操作后立刻退栈操作;步骤2,在步骤1所得标签树A中搜索相似区域,并进行去链接预处理,得到标签树B,具体通过以下步骤实现,步骤2.1,在步骤1所得标签树A中搜索相似区域;所述相似区域是由一组相似节点组成的,相似节点是标签树A中满足以下特性的节点,(1)所有的节点共同拥有同一个父节点;(2)所有节点是相邻的;(3)相似节点是子树的根节点或叶子节点;(4)与同一区域中的其他节点的相似度大于预设的阈值a;步骤2.2,在步骤2.1搜索到的所有相似区域中识别语义链接块,并将识别出的语义链接块从标签树A中摘除,得到标签树B;所述语义链接块是指由链接组成的,在视觉上呈列表状,每一项表现为超级链接的网页区域;步骤3,对步骤2所得标签树B进行主题内容抽取,具体通过以下步骤实现,步骤3.1,求出标签树B中所有节点的文本结构权重,找出某棵子树链下文本结构权重值最大的节点,该节点所在相似区域即主题区域,该节点记为主题区域节点C;所述文本结构权重是指文本在相似区域中所占的比重;步骤3.2,对步骤3.1所得主题区域进行去噪,包括两个步骤;步骤3.2.1,获取步骤3.1所得主题区域节点C的子树所包含的所有文本节点的长度,其中最大长度记为maxlength;步骤3.2.2,遍历主题区域节点C的子树,根据最大长度maxlength对子树中每一个文本节点的长度计算归一化值,并与预设的阈值K比较;如果不小于预设的阈值K则保留,否则从主题区域节点C的子树中摘除该文本节点;步骤3.3,对步骤3.2所得去噪后的主题区域所对应的节点输出,即输出最底层叶子节点的文本内容,得到待识别Web网页的主题内容。...

【技术特征摘要】

【专利技术属性】
技术研发人员:徐武平徐爱萍杨少博
申请(专利权)人:武汉大学
类型:发明
国别省市:83

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1