当前位置: 首页 > 专利查询>微软公司专利>正文

基于频繁子树来导出记录模板的方法技术

技术编号:8387152 阅读:181 留言:0更新日期:2013-03-07 07:49
本发明专利技术公开了一种基于频繁子树来导出记录模板的方法。该方法包括从网页中挖掘最大频繁子树和闭合频繁子树,对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组。在分组内标识模板子树,该模板子树是仅包括所有必要节点的模板。基于标识出的模板子树来标识可选节点并消除噪音。并基于模板子树从各个节点中抽取结构化信息。

【技术实现步骤摘要】
基于频繁子树来导出记录模板的方法
本专利技术涉及记录模板的导出,更具体地说,涉及一种用于基于频繁子树来导出记录模板的方法。
技术介绍
计算机网络技术正成为日常生活中的重要组成部分。万维网(WorldWideWeb)正变成人们日常生活的组成部分,其被用于工作、娱乐、研究等。可以说,万维网是目前最大的信息源。通常,网上大量的信息具有由模板(template)生成的结构化的数据实体形式,诸如出现在购物网页上产品列表中的产品描述。一般,可以将结构化的数据实体定义为数据记录(datarecord)。为了将一数据记录列表中的所有数据记录呈现为具有相似的外观和布局,通常使用预先开发好的记录模板来生成数据记录。具体而言,通过将底层数据库的数值填到预先开发好的同一记录模板的各个片断内来动态地生成数据记录列表内的各个数据记录。然而,在此以标签树(tagtree)或标签森林(tagforest)形式呈现的记录模板在服务器代码中是被明确定义的,但在客户端处的HTML源代码中是被隐藏的。由于记录模板能够便于从网页容易地提取结构化的数据并合并来自不同网站的数据,因此,对于客户端而言,从网页中导出这些记录模板是非常有用的。并且,导出这些记录模板对于诸如产品搜索、元搜索和数据融合等应用而言也是有利的。由此,需要一种能够从网页中导出记录模板的方法。
技术实现思路
根据一实施例,本专利技术描述了一种用于从网页中导出数据记录模板。首先,从网页中挖掘出了最大频繁子树和闭合频繁子树。为了从网页中挖掘出了最大频繁子树和闭合频繁子树,首先计算网页的文档对象模型DOM树的频繁1-子树,频繁1-子树是网页的文档对象模型DOM树中仅具有一个节点的频繁子树。接着,基于计算出的频繁1-子树,通过最右扩展来枚举所有按频繁排序的导出的子树。最右扩展包括通过迭代地将新的子树附加到频繁子树的最右分支上的节点来增长频繁子树。对于所有按频繁排序的导出的子树,将这些子树区分为最大频繁子树和闭合频繁子树。由此,从网页中挖掘出了最大频繁子树和闭合频繁子树。基于从网页挖掘出的最大频繁子树和闭合频繁子树,对这些频繁子树进行分组。在这些分组内标识模板子树(TEN),该模板子树是仅包括所有必要节点的模板。通过该模板子树,可标识可选节点并消除噪音。并且,基于该模板子树,从各个节点中抽取结构化信息,由此导出数据记录模板。根据另一实施例,本专利技术还描述了一种用于挖掘子树结构的方法。首先,计算网页的文档对象模型DOM树的频繁1-子树,频繁1-子树是该DOM树中仅具有一个节点的频繁子树。接着,基于计算出的频繁1-子树,通过最右扩展来枚举所有按频繁排序的导出的子树。最右扩展包括通过迭代地将新的子树附加到频繁子树的最右分支上的节点来增长频繁子树。对于所有按频繁排序的导出的子树,将这些子树区分为最大频繁子树和闭合频繁子树。根据另一实施例,本专利技术还描述了一种用于从子树结构得出数据记录模板的方法。首先,对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组。接着,在这些分组内标识模板子树(TEN),该模板子树是仅包括所有必要节点的模板。通过该模板子树,可标识可选节点并消除噪音。并且,基于该模板子树,从各个节点中抽取结构化信息,由此得出数据记录模板。附图说明本专利技术上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的详细描述而变得更加明显,在附图中,相同的附图标记始终表示相同的特征,其中:图1是根据本专利技术的用于挖掘子树结构的流程图;图2是根据本专利技术的用于从子树结构得出数据记录模板的流程图;图3是根据本专利技术的用于从网页中导出数据记录模板的流程图。具体实施方式本专利技术利用了一种未受监督(unsupervised)的算法,RWDE(鲁棒的网络数据抽取算法)(RobustWebDataExtraction),该算法被设计来标识复杂网页内的数据记录并导出相应的记录模板。RWDE算法将网页作为文档对象模型(DocumentObjectModel,DOM)而非标签串来处理。文档对象模型DOM是一种用于HTML和XML文档的编程接口,它给文档提供了一种结构化的表示方法,可以改变文档的内容和呈现方式。在本专利技术中,RWDE算法基于对网页的DOM树的频繁子树的分析。这些频繁子树是通过最右扩展从单个节点生成的,其中最右扩展包括将新节点仅附加到频繁子树最右的分支来增长频繁子树。由于可选节点和从中可抽取结构化数据的节点的存在,记录之间通常并不完全匹配。实际上,可从网页的主记录列表中生成一个或多个最大频繁子树和多个闭合频繁子树。本专利技术证明了,在这些最大频繁子树和闭合频繁子树中,必然存在一个模板子树(TEN),该模板子树仅包括记录模板的所有必要节点。为了找到这样的模板子树,本专利技术提出了称为加权F1的度量来评估每个频繁子树有多大可能是该模板子树。当存在一些从中可抽取结构化数据的节点时,通常从数据记录列表来生成多个最大频繁子树。通过对齐这些最大频繁子树,可以标识出结构化数据信息。一般地,记录模板是由必要节点、可选节点和从中可抽取结构化数据的节点构成的。通过标识必要节点、可选节点和从中可抽取结构化数据的节点,可导出网页的记录模板。本专利技术利用的RWDE算法基于对闭合频繁子树和最大频繁子树挖掘。在给定网页的DOM树的频繁子树后,RWDE算法通过以下步骤导出记录模板:(1)将频繁子树进行分组;(2)标识可选节点并消除噪音:(3)标识从中可抽取结构化数据的节点。现在参考图1,图1描述了根据本专利技术的用于挖掘子树结构的方法100。RWDE算法使用CMTreeMiner来挖掘网页的DOM树的最大频繁子树和闭合频繁子树。CMTreeMiner一般仅用于发现闭合频繁子树和最大频繁子树,而非所有频繁子树。在步骤102,CMTreeMiner首先计算频繁1-子树,该频繁1-子树是仅具有一个节点的子树。接着,在步骤104,基于计算出的频繁1-子树,通过最右扩展来枚举按频繁排序的导出的子树,其中最右扩展包括通过迭代地将新的子树附加到频繁子树的最右分支上的节点来增长该频繁子树。通过该枚举,树数据库中的所有按频繁排序的导出的子树能被列出。CMTreeMiner原本设计地是从由多个树组成的数据库中挖掘最大频繁子树和闭合频繁子树。然而,为了提高CMTreeMiner的效率并将其应用到本专利技术的需要从单个树挖掘最大频繁子树和闭合频繁子树的RWDE算法中,本专利技术对CMTreeMiner做了以下修改:1)使用标签路径来创建频繁1-子树。树中一节点的标签路径是从该树的根部到该节点的一系列节点。当创建频繁1-子树时,本专利技术使用节点的标签路径而非节点的原始标记作为该节点的标记。做出该修改的原因是,在DOM树中,一列数据记录中的数据记录通常在相同的父节点下。因此,每个数据记录的对应根部都具有相同的标签路径。本专利技术对CMTreeMiner做出的该项修改提高了CMTreeMiner的效率。2)使用基于出现的支持(support)而非基于事务的支持来确定一频繁子树是闭合频繁子树还是最大频繁子树。做出该修改的原因是,对于是RWDE算法的输入的单个DOM树而言,子树的基于事务的支持要么是0要么是1。在步骤106中,将所有按频繁排序的导出的子树区分为最大频繁子树和闭合频繁子树。当只存在当前子树的一个频本文档来自技高网...
基于频繁子树来导出记录模板的方法

【技术保护点】
一种用于从网页中导出数据记录模板(data?record?template)的方法,所述方法包括:从网页中挖掘最大频繁子树(maximal?frequent?subtree)和闭合频繁子树(closed?frequent?subtree),包括:计算频繁1?子树(frequent?1subtree),所述频繁1?子树是网页的文档对象模型DOM(document?object?model)树中仅具有一个节点的频繁子树;基于所述频繁1?子树,通过最右扩展来枚举按频繁排序的导出的子树,所述最右扩展包括通过迭代地将新的子树附加到频繁子树的最右分支上的节点来增长频繁子树;将所有导出的子树区分为最大频繁子树和闭合频繁子树,其中导出的子树按频繁排序;对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组;在分组内标识模板子树(TEN),所述模板子树是仅包括所有必要节点的模板,基于模板子树来标识可选节点并消除噪音;以及基于模板子树从各个节点中抽取结构化数据,以导出数据记录模板。

【技术特征摘要】
1.一种用于从网页中导出数据记录模板(datarecordtemplate)的方法,所述方法包括:从网页中挖掘最大频繁子树(maximalfrequentsubtree)和闭合频繁子树(closedfrequentsubtree),包括:计算频繁1-子树(frequent-1subtree),所述频繁1-子树是网页的文档对象模型DOM(documentobjectmodel)树中仅具有一个节点的频繁子树;基于所述频繁1-子树,通过最右扩展来枚举按频繁排序的导出的子树,所述最右扩展包括通过迭代地将新的子树附加到频繁子树的最右分支上的节点来增长频繁子树;将所有导出的子树区分为最大频繁子树和闭合频繁子树,其中导出的子树按频繁排序;对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组;在分组内标识模板子树(TEN),所述模板子树是仅包括所有必要节点的模板,基于模板子树来标识可选节点并消除噪音;以及基于模板子树从各个节点中抽取结构化数据,以导出数据记录模板。2.如权利要求1所述的方法,其特征在于,所导出的数据记录模板是针对所述网页的主数据记录列表的数据记录模板。3.如权利要求1所述的方法,其特征在于,消除噪音进一步包括消除数据记录列表周围的噪音。4.如权利要求1所述的方法,其特征在于,对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组进一步包括基于最大频繁子树和闭合频繁子树之间的所属关系进行分组,使得各个分组包括一最大频繁子树和多个闭合频繁子树。5.如权利要求4所述的方法,其特征在于,在分组内标识模板子树进一步包括对分组内的各个最大频繁子树和闭合频繁子树计算一加权度量,其中具有最高加权度量的最大频繁子树或闭合频繁子树被标识为所述模板子树。6.如权利要求1所述的方法,其特征在于,所述可选节点包括最大频繁子树中的下述节点:所述模板子树内不具有与该节点相匹配的节点。7.如权利要求5所述的方法,其特征在于,基于模板子树从各个节点中抽取结构化数据...

【专利技术属性】
技术研发人员:徐鹏陈正
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1