基于多页面比较的网页元数据自动抽取方法和系统技术方案

技术编号：3818519 阅读：601 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种基于多页面比较的网页元数据自动抽取方法和系统，属于互联网信息处理领域。互联网的页面都是用松散的ＨＴＭＬ来组织的，而ＨＴＭＬ语法验证不严格，语义和表现格式混合在一起，给网页数据抽取带来了很大的困难。本发明专利技术则能很好的解决这个问题。本发明专利技术基于一个假设“动态页面是由同一个模板填入不同的数据生成的”，因而可以通过比较多个相似的页面，进行规约推导，从而得到生成这组页面的模板。本发明专利技术包括以下部分：（１）网页采集器：从预设的网站抓取网页；（２）网页分类器：将相似的页面归为一组；（３）网页元数据分析模块：推导模板、抽取元数据；（４）网页元数据存储：存储和索引元数据；（５）元数据搜索引擎：检索和显示元数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网信息处理
，尤其涉及网页元数据的自动抽取方法及系统。
技术介绍
随着互联网技术的飞速发展，互联网上的信息也以指数级增长，目前以网页为单位基于关键字匹配的信息检索方式已经很难满足人们日益增长的对信息的渴求。例如有人想在网上查找价格在10到20万之间的汽车的相关信息，传统的搜索引擎就很难完成这种搜索。要满足这种信息检索的需求就必须将网页中的元数据提起出来，并进行存储和索弓丨。然而从网页中提取元数据并非易事，因为互联网的页面都是用松散的HTML来组织的，而HTML语法验证不严格，结构松散，语义和表现格式混合在一起，这给网页数据抽取带来了很大的困难。目前已有一些方法致力于解决网页数据抽取的问题，但它们都有各自的不足之处。人工模板的方法是通过由专业人员分析网页，利用XPATH或正则表达式来表示网页中元数据各个字段的位置，这种方法对每个网站都要写不同的模板，而且一旦目标网站的页面布局发生变化就必须修改模板，所以对模板维护的成本极高。而本专利技术使用时只需预先做一些配置，然后可以由程序自动发现模板，即使目标网站的页面布局发生变化，也无需修改程序或配置，即可推导新的模板。基于视觉的网页数据抽取方法比人工模板的方法具有更高的自动性，理论上准确性应该很高，但是实际应用中因为需要解析Javascript和 CSS来得到网页中各个元素的位置和尺寸的信息，所以它对运行环境的资源要求较高，较高的运行要求导致这种方法用于大规模分布式快速抓取的价值不高。而本专利技术不需要处理 Javascript和CSS，所以在资源开销和性能上更...

【技术保护点】
基于多页面比较的网页元数据自动抽取方法及系统，包括以下部分：（１）网页采集器：从若干个预先设定好的网站抓取网页并存储下来，为后面的分析模块提供输入；（２）网页分类器：逐个输入网页收集器抓取的网页，将从同一个列表页面链接出去的页面作为一类页面，批量输入给网页元数据分析模块；（３）网页元数据分析模块：输入一组页面，选取其中若干个页面进行规约推导，得到这组页面的模板，再利用该模板对这组页面进行数据抽取，得到元数据，并存储下来；（４）网页元数据存储：存储并索引网页元数据分析模块得到的结果；（５）元数据搜索引擎：用于检索和显示分析后的元数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：甘雨，李沛剡，
申请(专利权)人：上海谐宇网络科技有限公司，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人