一种网页信息抽取方法及抽取系统技术方案

技术编号：8241543 阅读：163 留言：0更新日期：2013-01-24 22:27

本申请提供了一种网页信息抽取方法及抽取系统，以解决现有的信息抽取方法自动化程度不高并且技术门槛较高的问题。所述方法包括：通过界面交互方式配置网页信息抽取任务，并存入数据库；监控数据库，当发现数据库中存入新的网页信息抽取任务后，将所述新的网页信息抽取任务发送给调度器；调度器解析网页信息抽取任务，并依据解析结果自动执行所述网页信息抽取任务。所述界面交互的方式实现了简单的人机交互，对于非专业人员而言，也可以按照界面的提示进行任务配置，极大地降低了信息抽取的门槛。而且，调度器依据网页信息抽取任务执行的一套自动抽取方式，可以实现大批量网页高度自动化的信息抽取。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及网页处理技术，特别是涉及一种网页信息抽取方法及抽取系统。
技术介绍
网页信息抽取就是获取网页的数据，然后通过程序分析，将有用的数据提取分离出来。比如编制程序抽取某网站新闻频道里的某个新闻标题就是一种网页信息抽取。目前的信息抽取主要分为两种，一种是基于规则的抽取，规则可以人工定制，也可以通过学习得至IJ，另一种就是利用机器学习方法进行抽取。搜索引擎工作的一部分就是网页信息抽取。随着互联网的发展，互联网上的信息规模也随之不断扩大。由于互联网上的数据来自于大量不同的站点，而不同站点的页面结构差异很大，因此搜索引擎无法开发出通用的抽取器来分析源自不同站点的网页。由于这个原因，最初的搜索引擎，尤其是垂直搜索引擎(针对某类知识领域的专业搜索引擎)通过许多个定向的抽取器来解决这一问题，即每个抽取器定向抽取某个站点或具有某类页面结构的网页信息。但是，由于这种信息抽取方法需要维护很多个定向抽取器，因此存在不易维护的问题，而且新添加一个或一类站点就需要开发新的定向抽取器，开发成本也很高。之后，人们开始寻找能够自动生成抽取器的方案。火车头采集器是一种主要基于正则表达式的信...

【技术保护点】
一种网页信息抽取方法，其特征在于，包括：通过界面交互方式配置网页信息抽取任务，并存入数据库；监控数据库，当发现数据库中存入新的网页信息抽取任务后，将所述新的网页信息抽取任务发送给调度器；调度器解析网页信息抽取任务，并依据解析结果自动执行所述网页信息抽取任务。

【技术特征摘要】

【专利技术属性】
技术研发人员：孙一鸣，强琦，蔡波洋，金晓军，吴宗远，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人