基于频繁子树来导出记录模板的方法技术

技术编号：8387152 阅读：190 留言：0更新日期：2013-03-07 07:49

本发明专利技术公开了一种基于频繁子树来导出记录模板的方法。该方法包括从网页中挖掘最大频繁子树和闭合频繁子树，对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组。在分组内标识模板子树，该模板子树是仅包括所有必要节点的模板。基于标识出的模板子树来标识可选节点并消除噪音。并基于模板子树从各个节点中抽取结构化信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于频繁子树来导出记录模板的方法
本专利技术涉及记录模板的导出，更具体地说，涉及一种用于基于频繁子树来导出记录模板的方法。
技术介绍
计算机网络技术正成为日常生活中的重要组成部分。万维网(WorldWideWeb)正变成人们日常生活的组成部分，其被用于工作、娱乐、研究等。可以说，万维网是目前最大的信息源。通常，网上大量的信息具有由模板(template)生成的结构化的数据实体形式，诸如出现在购物网页上产品列表中的产品描述。一般，可以将结构化的数据实体定义为数据记录(datarecord)。为了将一数据记录列表中的所有数据记录呈现为具有相似的外观和布局，通常使用预先开发好的记录模板来生成数据记录。具体而言，通过将底层数据库的数值填到预先开发好的同一记录模板的各个片断内来动态地生成数据记录列表内的各个数据记录。然而，在此以标签树(tagtree)或标签森林(tagforest)形式呈现的记录模板在服务器代码中是被明确定义的，但在客户端处的HTML源代码中是被隐藏的。由于记录模板能够便于从网页容易地提取结构化的数据并合并来自不同网站的数据，因此，对于客户端而言，从网页中导出这些记录模板是非常有用的。并且，导出这些记录模板对于诸如产品搜索、元搜索和数据融合等应用而言也是有利的。由此，需要一种能够从网页中导出记录模板的方法。
技术实现思路
根据一实施例，本专利技术描述了一种用于从网页中导出数据记录模板。首先，从网页中挖掘出了最大频繁子树和闭合频繁子树。为了从网页中挖掘出了最大频繁子树和闭合频繁子树，首先计算网页的文档对象模型DOM树的频繁1-子树，频繁1-子树是网页的文...
基于频繁子树来导出记录模板的方法

【技术保护点】
一种用于从网页中导出数据记录模板(data?record?template)的方法，所述方法包括：从网页中挖掘最大频繁子树(maximal?frequent?subtree)和闭合频繁子树(closed?frequent?subtree)，包括：计算频繁1?子树(frequent?1subtree)，所述频繁1?子树是网页的文档对象模型DOM(document?object?model)树中仅具有一个节点的频繁子树；基于所述频繁1?子树，通过最右扩展来枚举按频繁排序的导出的子树，所述最右扩展包括通过迭代地将新的子树附加到频繁子树的最右分支上的节点来增长频繁子树；将所有导出的子树区分为最大频繁子树和闭合频繁子树，其中导出的子树按频繁排序；对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组；在分组内标识模板子树(TEN)，所述模板子树是仅包括所有必要节点的模板，基于模板子树来标识可选节点并消除噪音；以及基于模板子树从各个节点中抽取结构化数据，以导出数据记录模板。

【技术特征摘要】
1.一种用于从网页中导出数据记录模板(datarecordtemplate)的方法，所述方法包括:从网页中挖掘最大频繁子树(maximalfrequentsubtree)和闭合频繁子树(closedfrequentsubtree)，包括：计算频繁1-子树(frequent-1subtree)，所述频繁1-子树是网页的文档对象模型DOM(documentobjectmodel)树中仅具有一个节点的频繁子树；基于所述频繁1-子树，通过最右扩展来枚举按频繁排序的导出的子树，所述最右扩展包括通过迭代地将新的子树附加到频繁子树的最右分支上的节点来增长频繁子树；将所有导出的子树区分为最大频繁子树和闭合频繁子树，其中导出的子树按频繁排序；对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组；在分组内标识模板子树(TEN)，所述模板子树是仅包括所有必要节点的模板，基于模板子树来标识可选节点并消除噪音；以及基于模板子树从各个节点中抽取结构化数据，以导出数据记录模板。2.如权利要求1所述的方法，其特征在于，所导出的数据记录模板是针对所述网页的主数据记录列表的数据记录模板。3.如权利要求1所述的方法，其特征在于，消除噪音进一步包括消除数据记录列表周围的噪音。4.如权利要求1所述的方法，其特征在于，对从网页挖掘出的最大频繁子树和闭合频繁子树进行分组进一步包括基于最大频繁子树和闭合频繁子树之间的所属关系进行分组，使得各个分组包括一最大频繁子树和多个闭合频繁子树。5.如权利要求4所述的方法，其特征在于，在分组内标识模板子树进一步包括对分组内的各个最大频繁子树和闭合频繁子树计算一加权度量，其中具有最高加权度量的最大频繁子树或闭合频繁子树被标识为所述模板子树。6.如权利要求1所述的方法，其特征在于，所述可选节点包括最大频繁子树中的下述节点：所述模板子树内不具有与该节点相匹配的节点。7.如权利要求5所述的方法，其特征在于，基于模板子树从各个节点中抽取结构化数据...

【专利技术属性】
技术研发人员：徐鹏，陈正，
申请(专利权)人：微软公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人