一种可视化信息的抽取方法技术

技术编号：8735006 阅读：161 留言：0更新日期：2013-05-26 11:42

本发明专利技术提供一种可视化信息的抽取方法，信息提取的是通过内嵌浏览器手动选择提取区域，在后台自动形成抽取的方式，信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成，具体抽取步骤如下：用户对一新闻页面的各个新闻要素，包括：信息标题、信息发布时间和信息内容，制定抽取规则，首先，用户用鼠标拖拽选择的内容或将该内容复制到内容框中，通过识别标签抽取规则自动生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种可视化的信息抽取方法，具体涉及自然语言处理领域，其中的信息提取规则可视化且该方法具有较强的实用性。
技术介绍
随着互联网上信息量的爆炸式增长，使用户从Web上获得有用的信息变得日益困难。如何从Web中快速、有效的获取信息仍然是困扰Web用户的一个问题，在这种背景之下，出现了 Web信息抽取技术。信息抽取，从20世纪80年代末以来，在Tipster文本项目、MUC ( Message Understanding Conference,消息理解会议)和 ACE ( Automatic ContentExtraction,自动内容提取)等因素的推动下，信息采集技术迅速的发展。基于隐马尔科夫模型的信息抽取方法需要相关领域的专家事先构建出该领域的最优数学模型，且模型参数的制定需要大量的样本数据，抽取效率较低。基于本体实现的表格信息抽取方法不依赖于所抽取的WEB页面的设计格式，也没有对其内容提出任何表示限制，但该方法只适用于一定的应用领域，当应用领域改变时相应的本体需要重新构造。基于自然语言处理方式的信息抽取方法适用于含有大量自由文本且句子成分完整的Web页面，但该方法没有充分利用Web文档的层次结构，且处理速度慢，导致该方法的适用范围较小。相较于现有技术，本专利技术具有以下特点:1、抽取规则的直观、简单化制定。现有可视化的抽取规则制定是以网页DOM树的形式。对于结构复杂的网页树，由于网页节点较多，需要唯一确定抽取规则的XPATH路径，且该方法需要具有相关的信息抽取知识，因此抽取规则制定复杂。
技术实现思路
本专利技术的目的是提供。本专利技术的目的是按...

【技术保护点】
一种可视化信息的抽取方法,?其特征在于信息提取的是通过内嵌浏览器手动选择提取区域，在后台自动形成抽取的方式，信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成，具体抽取步骤如下：用户对一新闻页面的各个新闻要素，包括：信息标题、信息发布时间和信息内容，制定抽取规则，首先，用户用鼠标拖拽选择的内容或将该内容复制到内容框中，通过识别标签抽取规则自动生成。

【技术特征摘要】

【专利技术属性】
技术研发人员：高滨，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人