本发明专利技术提出了一种网页信息块提取装置和方法。在本发明专利技术中,首先生成网页的结构信息块树,并对结构信息块进行分类归并和合并,对结果块的语义进行标记,从而根据内容和功能把网页分割为信息块。特别地,结构层次的自动重复模式发现和语义层次的分类归并是实现本发明专利技术的方法和装置的基础和保证。根据本发明专利技术的方法和装置,网页处理的粒度从整个页面扩展为页面内的信息块,使网页更容易由机器处理。本发明专利技术的方法和装置可以应用于几乎所有类型的网页。(*该技术在2024年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及用于提取网页中内聚区域的方法和装置。该方法和装置能够根据内容和功能把网页分割为信息块,并且把网页处理的粒度从整个页面扩展为页面内的信息块,从而可以使网页更容易由机器处理。
技术介绍
最近,出于商业目的,网页的内容和结构变得越来越复杂,以方便访问且对用户友好。网页通常是不同主题和功能的集合,它们被松散地结合起来形成一个整体。人们可以容易地识别出网页中具有不同含义和功能的信息区,但对于自动处理系统这非常困难,原因在于HTML的设计初衷是用于显示,而不是用于内容描述。现在,多数现有的网络IR(信息检索)、IE(信息提取)和DM(数据挖掘)系统把网页当作基本单元,而没有对网页内的信息块给予应有的考虑,从而在机器处理过程中出现许多问题。由于上面提到的问题,人们开始考虑如何根据内容和功能来分割网页。下面是现有的相关研究。Xiaoli Li,Bing Liu,Tong-Heng phang,Minqing Hu,2002.UsingMicro Information Units for Internet Search.CIKM’02,November4-9,2002,McLean,Virginia,USA. Ziv Bar-Yossef and Sridhar Rajagopalan 2002.TemplateDetection via Data Mining and its Applications.In proceedings ofthe WWW2002,May 7-11,2002,Honolulu,Hawaii,USA. Soumen Chakrabarti,Mukul Joshi,Vivek Tawde 2001.EnhancedTopic Distillation using Text,Markup Tags,and Hyperlinks.SIGIR’01,September 9-12,2001,New Orleans,Louisiana,USA.Shian-Hua Lin,Jan-Ming Ho 2002.Discovering InformativeContent Blocks from Web Documents.SIGKDD’02,July 23-26,2002,Edmonton,Alberta,Canda. (Xiaoli Li 2002和Ziv Bar-Yossef 2002)各自提出了把网页分割为语义内聚区域的方法,但他们都使用了非常简单的启发式方法。(Shian-Hua Lin 2002)的检测网页内信息内容块的方法由于只能处理含有<Table>标记的表格式页面,因而缺乏通用性。(Soumen Chakrabarti,2001)分割HTML DOM树以计算与其它页面和链接相关的中间子树的权威度和集中度。这不同于本专利技术的寻找当前页面中相关主题区域的目的。
技术实现思路
考虑到现有技术中存在的这些问题而提出了本专利技术。本专利技术的目的是提供一种改进的提取网页中内聚区域的方法和装置。根据本专利技术的一个方面,提供了一种信息块提取方法,用于将网页分割为具有内聚内容的多个信息块,该方法包括以下步骤结构信息块提取步骤,生成网页的结构信息块树;以及语义信息块提取步骤,对结构信息块进行分类归并和合并,并对结果块的语义进行标记。在本专利技术的方法中,将网页表达为HTML DOM树和HTML标记token流;自动地归纳网页中的重复模式,过滤出不合适的重复模式,且生成候选模式和相应实例的集合;将重复模式与网页中的相应区域匹配;根据检测到的页面区域构建RST树;识别各个信息块中的全部信息项;并根据RST树和信息项的划分而构建最终的结构信息块树。另外,在本专利技术的方法中,从结构信息块树中以适当的粒度获取基本信息块;把基本信息块分类归并和合并为语义信息块;并对网页的语义块中的主文本信息块和相关链接块进行标记。根据本专利技术的另一个方面,提供了一种信息块提取装置,用于将网页分割为具有内聚内容的多个信息块,其包含以下单元结构信息块提取单元,用于生成网页的结构信息块树;语义信息块提取单元,用于对结构信息块进行分类归并和合并,并对结果块的语义进行标记。优选地,结构信息块提取单元包含页面表达单元,用于将网页表达为HTML DOM树和HTML标记token流;重复模式发现单元,用于自动归纳网页中的重复模式,过滤出不合适的重复模式,且生成候选模式和相应实例的集合;区域检测单元,用于将重复模式与网页中的相应区域匹配;RST树生成单元,用于根据检测到的页面区域构建RST树;信息项检测单元,用于识别各个信息块中的全部信息项;以及结构信息块树生成单元,根据RST树和信息项的划分而构建最终的结构信息块树。优选地,语义信息块提取单元包含基本信息块获取单元,用于从结构信息块树中以适当的粒度获取基本信息块;语义信息块生成单元,用于把基本信息块分类归并和合并为语义信息块;以及主文本块和相关链接块检测单元,用于对网页的语义块中的主文本信息块和相关链接块进行标记。本专利技术的方法和装置可应用于几乎所有类型的网页,用以自动归纳提取网页内信息块的规则。由于实现了两个不同层次,即结构和语义的信息块提取,本专利技术的方法何装置新颖有效。在网页内的信息块提取之后,机器处理系统,诸如IR、IE和DM能够以更精细的粒度处理网页并极大提高其性能。附图说明图1是本专利技术的构成图;图2是结构信息块提取单元的结构框图;图3是语义信息块提取单元的结构框图;图4是具有输入token流的后缀树的一个示例;图5是紧凑标准的一个示例;图6是信息块中包含的信息项的一个示例;图7是识别RST树的叶节点中的信息项的一个示例;图8是对内部RST节点的子DOM树进行变换的一个示例;图9是提升首部和尾部的一个示例;图10是结构信息块树的一个示例; 具体实施例方式图1是本专利技术的构成图。该装置的输入是网页101。首先,在重复模式发现的基础上,利用结构信息块提取单元102构建结构信息块树。然后,语义信息块提取单元103从结构信息树中提取语义信息块,并对主文本块和相关的链接块进行标记。图2显示了构建结构信息块提取单元的关键步骤。首先,页面表达单元202把输入的网页201解析成HTML DOM树和HTML标记token流(HTML tagtoken stream)。然后,重复模式发现单元203自动归纳网页内所有的重复模式,过滤出不合适的重复模式,并生成候选模式组和相应的实例。区域检测单元204把重复模式映射回网页中的相应区域。根据检测到的页面区域,RST树生成单元205生成信息块,并构建具有分层结构的RST树。信息项检测单元206识别各个信息块内所有的信息项。结构信息块树生成单元207根据RST树构建最终的结构信息块树。在页面表达单元202中,本专利技术使用了HTML解析器,以构建输入网页的HTML DOM树,并按照先根次序遍历DOM树,获得HTML标记token流。还创建了标记token流与DOM树之间的映射表。提取HTML文件中的文本作为特殊标记<TEXT>。在重复模式发现单元203中,构建了HTML标记token流的后缀树,并从后缀树中检索出所有本文档来自技高网...
【技术保护点】
一种信息块提取方法,用于将网页分割为具有内聚内容的多个信息块,该方法包括以下步骤:结构信息块提取步骤,生成网页的结构信息块树;以及语义信息块提取步骤,对结构信息块进行分类归并和合并,并对结果块的语义进行标记。
【技术特征摘要】
CN 2003-9-18 03157365.71.一种信息块提取方法,用于将网页分割为具有内聚内容的多个信息块,该方法包括以下步骤结构信息块提取步骤,生成网页的结构信息块树;以及语义信息块提取步骤,对结构信息块进行分类归并和合并,并对结果块的语义进行标记。2.根据权利要求1所述的信息块提取方法,其中,所述的结构信息块提取步骤包括将网页表达为HTML DOM树和HTML标记token流;自动地归纳网页中的重复模式,过滤出不合适的重复模式,且生成候选模式和相应实例的集合;将重复模式与网页中的相应区域匹配;根据检测到的页面区域构建RST树;识别各个信息块中的全部信息项;以及根据RST树和信息项的划分而构建最终的结构信息块树。3.根据权利要求1所述的信息块提取方法,其中,所述的语义信息块提取步骤包括从结构信息块树中以适当的粒度获取基本信息块;把基本信息块分类归并和合并为语义信息块;以及对网页的语义块中的主文本信息块和相关链接块进行标记。4.一种信息块提取装置,用于将网页分割为具有内聚...
【专利技术属性】
技术研发人员:王俊,王继成,武港山,津田宏,
申请(专利权)人:富士通株式会社,南京大学,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。