一种用于复杂页面的包装器自动生成方法技术

技术编号：3792382 阅读：460 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种用于复杂页面的包装器自动生成方法，包括下列步骤：（１）获取基于同一模板的两个ＨＴＭＬ页面文档，生成ＨＴＭＬ标记树；（２）获得包含数据记录集合的最小区域ＤＳ；（３）从最小区域中获取初始数据记录；（４）根据初始的数据记录ＤＲ的布局组合关系，依据特征项的相似度，确定抽取项的聚集关系，并结合领域本体的知识，对同一聚集块中实体进行语义标注，根据实体间语义关系重新组合成新的数据记录；（５）根据步骤（４）中生成的数据记录在ＨＴＭＬ标记树中的位置关系，生成每个聚集块的抽取规则，然后构建包装器。本发明专利技术能够通过对ＨＴＭＬ　Ｔａｇ树的结构关系的分析，从复杂页面中抽取出真正的数据记录规则，从而可以自动构建抽取准确率高的包装器。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种Web页面的信息识别的方法，具体涉及一种应用于复杂页面的用于抽取深层网页数据信息的包装器的自动生成方法。
技术介绍
Internet上Web网页大都以HTML的形式加以呈现，而HTML的特点使得任何组织和个人都可以按照自己的想法，在Web上发布内容多样，形式丰富的信息。Web数据的这种半结构化乃至无结构化的状态，使得Web页面只合适人类的浏览，而不利于应用程序直接解析并利用Web上的海量有价值的信息。另一方面，随着Internet以及电子商务的快速发展，"信息爆炸"已经成为人们有效获取信息的一个阻碍。因此，利用计算机对Web信息进行自动化的抽取，变得更加具有现实性和急迫性。当前，Web上的很多网页是动态生成的，网站根据用户请求从后台数据库中选取数据并嵌入到通用的模板中，这类称之为深层网络页面(Deep Web)的网站是Internet上的重要组成部分。研究表明，Deep Web信息是表层网页 (Surface Web)信息的500倍，有近450， 000个Deep Web站点。由于此类网站的Web数据是根据请求动态生成的，因此，传统的搜索引擎不能很好地对此类数据加以索引。通过观察，我们可以发现，此类网站往往通过分类列表页和详细页面向用户展示其保存在数据库中的信息。而对此类Web页面的数据抽取则是进行深层网页数据集成的前提。近年来，对于普通数据导向(data-intensive)类型的站点，有研究学者提出了一些包装器的生成方法，有效地解决了一般网站的数据抽取问题。包装器的任务就是采用一系列规则，将用户所关心的...

【技术保护点】
一种用于复杂页面的包装器自动生成方法，其特征在于：包括下列步骤：　（１）获取基于同一模板生成的两个ＨＴＭＬ页面文档，利用ＸＭＬ解析器分别解析成具有树形结构的文档对象模型，即ＨＴＭＬ标记树；　（２）比较步骤（１）获得的两个ＨＴＭＬ标记树，去除噪声区，获得包含数据记录集合的最小区域ＤＳ；　（３）从所述最小区域中获取初始数据记录，其方法是，从ＨＴＭＬ标记树中得到ＤＳ区的最长公共子串，通过发现ＤＳ区中的重复区域来识别出初始的数据记录ＤＲ，所述数据记录用一个二元组（Ｄ，Ｇ）表示，Ｄ代表记录属性的集合，Ｇ代表属性在Ｈｔｍｌ页面的布局组合关系；　（４）根据初始的数据记录ＤＲ的布局组合关系，依据特征项的相似度，确定抽取项的聚集关系，并结合领域本体的知识，对同一聚集块中实体进行语义标注，根据实体间语义关系重新组合成新的数据记录ＤＲ２；　（５）根据步骤（４）中生成的数据记录ＤＲ２在ＨＴＭＬ标记树中的位置关系，生成每个聚集块的抽取规则，然后构建包装器。

【技术特征摘要】

【专利技术属性】
技术研发人员：崔志明，方巍，赵朋朋，
申请(专利权)人：苏州普达新信息技术有限公司，
类型：发明
国别省市：32[中国|江苏]

全部详细技术资料下载我是这个专利的主人