Web信息抽取系统技术方案

技术编号:3760552 阅读:353 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种Web信息抽取系统,其特征在于包括:检索解析模块、规则生成模块和数据抽取存储模块:检索解析模块包括网络爬虫单元和HTML解析器;规则生成模块包括单槽抽取规则生成单元和多槽抽取规则生成单元;数据抽取存储模块,规则生成模块生成的抽取规则,从检索解析模块下载的网页上提取数据并以结构化的形式存储。该系统具有:生成单槽抽取规则时界面操作简单、容易理解;对于生成多槽抽取规则,系统提供图形界面帮助用户标注,节省用户的时间和体力;对于预先生成的抽取规则和任务序列,系统提供两种方式实现批量任务的抽取和存储;系统可以根据用户配置的参数,在预先设定的周期和时间完成抽取存储任务。

【技术实现步骤摘要】

本专利技术涉及一种Web信息抽取系统,尤其涉及一种网页的解析、抽取规则 的定义与生成、数据的存储与分析的半自动化的Web信息抽取系统。
技术介绍
当前,搜索引擎已经成为人们从万维网获取信息的主要工具之一。但是使 用搜索引擎进行信息检索的结果往往包含着大量不相关的Web页面,用户需要 浏览每张结果页面才能真正获取到自己所需要的信息。解决这一问题的主要方 法是开发出相应的信息抽取工具。Web信息抽取(Web Information Extraction: WIE)是指从结构化或半结构化的Web页面中自动或者半自动地抽取出用户感兴 趣的信息,并以结构化的形式存储到数据库中。信息抽取的有着广泛地应用领 域网卜.比较购物系统,系统通过抽取不同网站中不同品牌的同类商品的信息 (如性能、价格等),为用户提供清晰的商品比较分析;股票分析系统将分散在 不同Web页面的动态变化的股市信息抽取出来,用于股市行情公告;天气分析系统通过抽取并存储每天的天气情况,为天气预报和分析提供依据。根据Laender的观点,目前主要的web信息抽取工具可以分为六类基于 特定语法的,如Minerva和Web-0QL;基本文档来自技高网...

【技术保护点】
一种Web信息抽取系统,其特征在于包括:检索解析模块、规则生成模块和数据抽取存储模块: 所述检索解析模块包括网络爬虫单元和HTML解析器, 所述网络爬虫单元用于以设定的时间间隔动态地检索下载同检索规则匹配的Web页面, 所 述HTML解析器用于对网络爬虫单元下载的HTML网页中的字符逐个扫描,解析HTML文档的结构层次关系,并为相同的HTML标签从零开始依次添加编号,最终形成HTML文件对应的DOM树和脚本网页; 所述规则生成模块包括单槽抽取规则生成单元 和多槽抽取规则生成单元, 所述单槽抽取规则生成单元,用于生成一个孤立的信息点的抽取规则,即生成一...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈荣郭银蕊刘亚清陈涛陈娟孙向伟史玉翡
申请(专利权)人:大连海事大学
类型:发明
国别省市:91[中国|大连]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1