当前位置: 首页 > 专利查询>微软公司专利>正文

包装器生成和模板检测的联合优化制造技术

技术编号:5423976 阅读:376 留言:0更新日期:2012-04-11 18:40
提供了用于通过联合优化模板检测和包装器生成来为分层地组织的文档生成包装器的方法和系统。包装器生成系统通过标识文档树聚类和为该聚类生成包装器树,来为具有相似模板的文档生成包装器。包装器树定义与该聚类的模板相匹配的文档的包装器。该包装器生成系统通过基于初始文档树来生成该聚类的包装器树以聚合文档树。该包装器生成系统随后重复地确定任何其它文档树是否与该聚类的包装器树相匹配或几乎匹配,以及如果是,则将该文档树添加到该聚类并适当地调整包装器树以便包括新添加的文档树在内的所有文档树都与该包装器树相匹配。

【技术实现步骤摘要】
【国外来华专利技术】包装器生成和模板检测的联合优化北旦 冃尽万维网("web")提供可经由网页访问的大量信息。网页可以包含静 态内容或动态内容。静态内容一般指的是可以跨多次网页访问而保持相同 的信息。动态内容一般指的是存储在web数据库中并响应于搜索请求而被 添加到网页的信息。动态内容表示被称为深web (deep web)或隐藏web 的内容。许多搜索引擎服务允许用户搜索web的静态内容。在用户提交包含搜 索项的搜索请求或查询之后,搜索引擎服务标识可能与这些搜索项相关的 网页。这些网页是搜索结果。为快速标识相关的网页,搜索引擎服务可维 护关键词到网页的映射。该映射可以通过"爬行(crawl) " web来标识每 一网页的关键词来生成。为爬行web,搜索引擎服务可使用根网页列表来 标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各 种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提 供的文字、突出显示的文字等等。然而,这些搜索引擎服务一般不提供对动态内容的搜索,动态内容也 被认为是不可爬行内容。许多网页包含从结构化的源(例如,关系数据库) 生成的动态内容。在生成包含这种动态内容的网页时,底层结构化源的结 构化数据被以非结构化或半结构化的方式编码在网页中。搜索这种动态内 容的一个问题是很难标识来自该网页的对应的结构化源的模式。模式定义 存储在底层结构化源中的信息或属性。由于这一困难,对具有这种动态内 容的网页的査询通常不能提供令人满意的结果。已经作出尝试来标识网页的动态内容的模式,以便内容可被转换为更 加结构化的格式以便于搜索。从网页中提取信息并且以结构化的格式组织 该信息是由被称为"包装器(wrapper)"的程序来执行的。手动地生成网 站网页的包装器是很耗时的。因此,手动地为提供动态内容的数千网站的 数百万网页生成包装器是不切实际的。已经开发了一些自动包装器"归纳(induction)"或生成系统。包装 器归纳是学习网页的动态内容的模式并生成包装器以从该网页提取数据, 以及以由该模式所标识的结构化格式存储所提取的数据的过程。这些自动 包装器归纳系统在包装器的有效性(effectiveness )和可表达性 (expressiveness)之间进行折衷。有效性指的是,在从包装器归纳过程中 未使用的但共享同一 "模板"的网页中提取内容时,包装器有多么准确。 包装器归纳系统使用网页的训练集来生成模板的包装器。随后,该包装器 被用来从共享同一模板的网页中提取数据。可表达性指的是可由包装器的 模板所标识的包装器进行处理的网页的范围。为使包装器更具可表达性, 包装器归纳系统一般将通配符(例如,"*")引入包装器中,以使更多网 页处于包装器的范围内。 一般而言,随着包装器的可表达性的增长,其有 效性却下降,反之亦然。为在有效性和可表达性之间提供可接受的折衷,传统的包装器归纳系统根据表示网页上动态内容的组织的模板来将训练网页分为各个聚类。这 样,具有相似组织(即,具有同一模板)的网页被聚合到一起。这些包装器归纳系统可以自动地为聚类中的网页生成包装器。由于聚类中的网页是 相似的,所以这些包装器可以使用有限的通配符来增加可表达性而仍获得 可接受的有效性。然而,这种传统的包装器归纳系统所生成的包装器的准确性在很大程 度上却依赖于正确地对具有同一的模板的网页进行聚合的准确性。某些包 装器归纳系统仅仅基于网页的URL之间的相似性来聚合网页。在网站将使 用同一模板的网页存储在该网站的同一子目录中时,这一简单的聚合方式 是适当的。在这种情况下,它们的URL具有指示该子目录的位置的相同的 前缀。然而,许多网站在定义网页的URL时使用更复杂的方式。结果,具 有相似的URL的网页可能具有大不相同的模板,而具有大不相同的URL 的网页可能具有十分相似的模板。因此,基于其组织的相似性来准确地聚 合网页是很困难的,从而产生具有有效性和可表达性之间的不可接受的折 衷的包装器。6概述提供了用于通过联合优化模板检测和包装器生成来为分层地组织的文 档生成包装器的方法和系统。包装器生成系统在其检测文档的模板的同时 动态地生成该文档的包装器。该包装器生成系统将文档表示为具有加标记 的叶节点的文档树。该包装器生成系统通过标识文档树聚类和为该聚类生 成包装器树,来为具有相似模板的文档生成包装器。包装器树定义与该聚 类的模板相匹配的文档的包装器。该包装器生成系统通过基于初始文档树 来生成聚类的包装器树以聚合文档树。该包装器生成系统随后重复地确定 任何其它文档树是否与该聚类的包装器树相匹配或几乎匹配,以及如果是, 则将该文档树添加到该聚类并适当地调整包装器树以便包括新添加的文档 树在内的所有文档树都与包装器树相匹配。在没有文档树与包装器树相匹 配或几乎匹配时,则完成了对该聚类的包装器树的生成。该包装器生成系 统随后重复该过程以形成文档树的新聚类,并生成其包装器树。该包装器 生成系统随后使用该包装器树来定义包装器。为提取新文档的数据,创建 新文档的文档树,标识最接近的匹配的包装器树,并使用所标识的包装器 树的包装器来提取数据。提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的 一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征, 也不旨在用于帮助确定所要求保护的主题的范围。附图简述附图说明图1是提供一个实施例中的包装器生成系统的操作的高级概览的框图。图2示出从文档树到包装器树的转换。图3是示出一个实施例中的包装器树的合并的图。图4是示出包装器树和文档树的对齐的图。 图5是示出一个实施例中的包装器生成系统的各组件的框图。 图6是示出一个实施例中的包装器生成系统的生成包装器组件的处理 的流程图。7图7是示出一个实施例中的包装器生成系统的将文档转换为包装器组件的处理的流程图。图8是示出一个实施例中的包装器生成系统的将匹配的文档移动到聚类组件的处理的流程图。图9是示出一个实施例中的包装器生成系统的将几乎匹配的文档移动到聚类组件的处理的流程图。图10是示出一个实施例中的包装器生成系统的检査几乎匹配的文档组件的处理的流程图。图11是示出一个实施例中的包装器生成系统的计算距离组件的处理的流程图。图12是示出一个实施例中的包装器生成系统的调整包装器组件的处理的流程图。图13是示出一个实施例中的包装器生成系统的对齐包装器组件的处理的流程图。详细描述提供了用于通过联合优化模板检测和包装器生成来为分层地组织的文档生成包装器的方法和系统。在一实施例中,包装器生成系统在其检测文档的模板时动态地为该文档生成包装器。向该包装器生成系统提供诸如网页等分层地组织的文档的集合,每一文档都由被称为文档树的其分层结构的树结构来表示。例如,如果网页符合文档对象模型("DOM"),则文档树包含对应于DOM文档标签的节点。还向该包装器生成系统提供文档树的叶节点的标记。这些标记对应于底层结构化数据的标识符、域、或属性。例如,包含关于汽车的信息的网页可以将其叶节点标记为"厂商"、"型号"、"年份"、"颜色"、"售价"等。该包装器生成系统通过选择该集合的文档树和生成对应于该文档树的包装器树来为具有相似模板的文档生成包装器。包装器树定义与检测到的模板相匹配的文档的包装器本文档来自技高网...

【技术保护点】
一种在计算设备中用于为分层地组织的文档生成包装器的方法,每一文档都具有一文档树,所述方法包括: 为文档树创建包装器树(535); 选择其到所述包装器树的距离处于一阈值之内的文档树(537);以及 基于所述文档树来调整所述包 装器树(539) 其中所述包装器是基于所调整的包装器树的。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:JR温M万R宋WY马S曾
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1