一种网页信息抽取方法及抽取系统技术方案

技术编号:8241543 阅读:160 留言:0更新日期:2013-01-24 22:27
本申请提供了一种网页信息抽取方法及抽取系统,以解决现有的信息抽取方法自动化程度不高并且技术门槛较高的问题。所述方法包括:通过界面交互方式配置网页信息抽取任务,并存入数据库;监控数据库,当发现数据库中存入新的网页信息抽取任务后,将所述新的网页信息抽取任务发送给调度器;调度器解析网页信息抽取任务,并依据解析结果自动执行所述网页信息抽取任务。所述界面交互的方式实现了简单的人机交互,对于非专业人员而言,也可以按照界面的提示进行任务配置,极大地降低了信息抽取的门槛。而且,调度器依据网页信息抽取任务执行的一套自动抽取方式,可以实现大批量网页高度自动化的信息抽取。

【技术实现步骤摘要】

本申请涉及网页处理技术,特别是涉及一种网页信息抽取方法及抽取系统
技术介绍
网页信息抽取就是获取网页的数据,然后通过程序分析,将有用的数据提取分离出来。比如编制程序抽取某网站新闻频道里的某个新闻标题就是一种网页信息抽取。目前的信息抽取主要分为两种,一种是基于规则的抽取,规则可以人工定制,也可以通过学习得至IJ,另一种就是利用机器学习方法进行抽取。搜索引擎工作的一部分就是网页信息抽取。随着互联网的发展,互联网上的信息规模也随之不断扩大。由于互联网上的数据来自于大量不同的站点,而不同站点的页面结构差异很大,因此搜索引擎无法开发出通用的抽取器来分析源自不同站点的网页。 由于这个原因,最初的搜索引擎,尤其是垂直搜索引擎(针对某类知识领域的专业搜索引擎)通过许多个定向的抽取器来解决这一问题,即每个抽取器定向抽取某个站点或具有某类页面结构的网页信息。但是,由于这种信息抽取方法需要维护很多个定向抽取器,因此存在不易维护的问题,而且新添加一个或一类站点就需要开发新的定向抽取器,开发成本也很高。之后,人们开始寻找能够自动生成抽取器的方案。火车头采集器是一种主要基于正则表达式的信息抽取方法,包含信息的抓取、抽取、发布等功能,通过用户配置的正则表达式,实现定制化的抓取与抽取。但是,这种单纯基于正则表达式的信息抽取方法,还需要手工配置正则表达式,自动化程度不高,对大批量的网页抽取支持不够。而且,使用者需要掌握正则表达式的知识,同时也必须对网页结构有相当程度的了解,对非专业人员来说,技术门槛较高。因此,目前还没有一种真正简单、实用的自动化抽取方法,供搜索引擎或其他互联网应用进行网页信息的自动抽取。
技术实现思路
本申请提供了一种网页信息抽取方法及抽取系统,以解决现有的信息抽取方法自动化程度不高并且技术门槛较高的问题。为了解决上述问题,本申请公开了一种网页信息抽取方法,包括通过界面交互方式配置网页信息抽取任务,并存入数据库;监控数据库,当发现数据库中存入新的网页信息抽取任务后,将所述新的网页信息抽取任务发送给调度器;调度器解析网页信息抽取任务,并依据解析结果自动执行所述网页信息抽取任务。优选的,所述通过界面交互方式配置网页信息抽取任务,包括通过界面交互方式执行以下操作提交标注页面;在所述标注页面上标注页面信息的点击行为和/或抽取行为;对所述点击行为或抽取行为进行细化配置。优选的,对所述点击行为或抽取行为进行细化配置之前,还包括配置所述点击行为或抽取行为的操作对象是单一信息还是列表信息,如果是单一信息,则针对该单一信息进行点击行为或抽取行为的细化配置;如果是列表信息,则配置列表属性,并从列表中选取样例进行点击行为或抽取行为的细化配置。优选的,每个点击行为在触发页面跳转时都会产生一个新的标注页面;最初的标注页面为起始页面,基于起始页面产生的所有标注页面的集合构成一棵以该起始页面为根的标注树,所有的起始页面代表的标注树构成一个标注森林;所述网页信息抽取任务为一个标注森林或一棵标注树或一个标注页面。优选的,所述调度器解析网页信息抽取任务,并依据解析结果自动执行所述网页信息抽取任务,包括所述调度器解析网页信息抽取任务,并依据解析结果调度进行网页抓取,和/或页面渲染,和/或页面信息抽取。 优选的,所述调度器解析网页信息抽取任务,并依据解析结果自动执行所述网页信息抽取任务,包括调度器解析网页信息抽取任务,并获得每个标注页面的配置;依据标注页面的URL调度抓取页面数据;调度渲染标注页面,并获得标注页面的DOM树结构;遍历标注页面的DOM树结构中对应节点的配置,并依据所述节点的配置进行如下操作如果是抽取行为,则依据抽取行为的配置调度抽取文本信息;如果是点击行为,并且如果是下载行为,则依据点击行为的配置调度抓取下载内容;如果是涉及渲染的点击行为,则依据点击行为的配置进行调度渲染。本申请还提供了一种网页信息抽取系统,包括抽取配置模块,用于通过界面交互方式配置网页信息抽取任务,并存入数据库;数据库,用于存储网页信息抽取任务;监控模块,用于监控数据库,当发现数据库中存入新的网页信息抽取任务后,将所述新的网页信息抽取任务发送给调度器;调度器,用于解析网页信息抽取任务,并依据解析结果自动执行所述网页信息抽取任务。优选的,所述抽取配置模块包括配置入口子模块,用于提交标注页面;行为标注子模块,用于在所述标注页面上标注页面信息的点击行为和/或抽取行为;细化配置子模块,用于对所述点击行为或抽取行为进行细化配置。优选的,所述抽取配置模块还包括元素类型选择子模块,用于配置所述点击行为或抽取行为的操作对象是单一信息还是列表 目息;如果是单一信息,则触发所述细化配置子模块针对该单一信息进行点击行为或抽取行为的细化配置;如果是列表信息,则配置列表属性,并触发所述细化配置子模块从列表中选取样例进行点击行为或抽取行为的细化配置。优选的,每个点击行为在触发页面跳转时都会产生一个新的标注页面;最初的标注页面为起始页面,基于起始页面产生的所有标注页面的集合构成一棵以该起始页面为根的标注树,所有的起始页面代表的标注树构成一个标注森林;所述网页信息抽取任务为一个标注森林或一棵标注树或一个标注页面。优选的,所述系统还包括抓取器,用于根据调度器的调度,依据标注页面的URL抓取页面数据,并返回给所述调度器;渲染引擎,用 于根据调度器的调度,渲染抓取回来的标注页面,并获得标注页面的DOM树结构,返回给所述调度器;抽取器,用于根据调度器的调度,依据网页信息抽取任务的配置抽取相应的网页信息;所述调度器通过解析网页信息抽取任务获得每个标注页面的配置;所述调度器依据标注页面的URL调度抓取器抓取页面数据;所述调度器调度渲染引擎渲染标注页面,并获得标注页面的DOM树结构;所述调度器遍历标注页面的DOM树结构中对应节点的配置,并依据所述节点的配置进行如下操作如果是抽取行为,则依据抽取行为的配置调度抽取器抽取文本信息;如果是点击行为,并且如果是下载行为,则依据点击行为的配置调度抓取器抓取下载内容;如果是涉及渲染的点击行为,则依据点击行为的配置调度渲染引擎进行渲染。与现有技术相比,本申请包括以下优点首先,本申请提供的网页信息抽取方法及系统可通过界面交互方式配置网页信息抽取任务,系统中的调度器通过解析网页信息抽取任务来自动进行信息抽取。所述界面交互的方式实现了简单的人机交互,对于非专业人员而言,也可以按照界面的提示进行任务配置,极大地降低了信息抽取的门槛。而且,调度器依据网页信息抽取任务执行的一套自动抽取方式,可以实现大批量网页高度自动化的信息抽取。其次,本申请的任务配置过程中不仅可以标注出网页中要抽取的文本信息,还可以模拟用户的点击行为进行配置,例如标注出网页中要抽取的链接进而下载该链接的内容,从而完成批量网页的抽取。而且,本申请还可以将网页DOM树中类似的兄弟节点配置为列表元素,实现对列表元素的自动化抽取。再次,本申请还支持网页DOM树中多个节点内容的信息抽取,因此可以精准地抽取信息。当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。附图说明图I是本申请实施例所述一种网页信息抽取方法的流程图;图2是本申请实施例中页面节点的示意图;图3. I至3. 4是本申请实施例中通过界面交互方式配本文档来自技高网
...

【技术保护点】
一种网页信息抽取方法,其特征在于,包括:通过界面交互方式配置网页信息抽取任务,并存入数据库;监控数据库,当发现数据库中存入新的网页信息抽取任务后,将所述新的网页信息抽取任务发送给调度器;调度器解析网页信息抽取任务,并依据解析结果自动执行所述网页信息抽取任务。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙一鸣强琦蔡波洋金晓军吴宗远
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1