一种可视化信息的抽取方法技术

技术编号:8735006 阅读:161 留言:0更新日期:2013-05-26 11:42
本发明专利技术提供一种可视化信息的抽取方法,信息提取的是通过内嵌浏览器手动选择提取区域,在后台自动形成抽取的方式,信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成,具体抽取步骤如下:用户对一新闻页面的各个新闻要素,包括:信息标题、信息发布时间和信息内容,制定抽取规则,首先,用户用鼠标拖拽选择的内容或将该内容复制到内容框中,通过识别标签抽取规则自动生成。

【技术实现步骤摘要】

本专利技术涉及一种可视化的信息抽取方法,具体涉及自然语言处理领域,其中的信息提取规则可视化且该方法具有较强的实用性。
技术介绍
随着互联网上信息量的爆炸式增长,使用户从Web上获得有用的信息变得日益困难。如何从Web中快速、有效的获取信息仍然是困扰Web用户的一个问题,在这种背景之下,出现了 Web信息抽取技术。信息抽取,从20世纪80年代末以来,在Tipster文本项目、MUC ( Message Understanding Conference,消息理解会议)和 ACE ( Automatic ContentExtraction,自动内容提取)等因素的推动下,信息采集技术迅速的发展。基于隐马尔科夫模型的信息抽取方法需要相关领域的专家事先构建出该领域的最优数学模型,且模型参数的制定需要大量的样本数据,抽取效率较低。基于本体实现的表格信息抽取方法不依赖于所抽取的WEB页面的设计格式,也没有对其内容提出任何表示限制,但该方法只适用于一定的应用领域,当应用领域改变时相应的本体需要重新构造。基于自然语言处理方式的信息抽取方法适用于含有大量自由文本且句子成分完整的Web页面,但该方法没有充分利用Web文档的层次结构,且处理速度慢,导致该方法的适用范围较小。相较于现有技术,本专利技术具有以下特点:1、抽取规则的直观、简单化制定。现有可视化的抽取规则制定是以网页DOM树的形式。对于结构复杂的网页树,由于网页节点较多,需要唯一确定抽取规则的XPATH路径,且该方法需要具有相关的信息抽取知识,因此抽取规则制定复杂。
技术实现思路
本专利技术的目的是提供。本专利技术的目的是按以下方式实现的,信息提取的是通过内嵌浏览器手动选择提取区域,在后台自动形成抽取的方式,信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成。本专利技术的有益效果是:本专利技术解决的技术问题是提供一种可视化的信息抽取方法,信息提取的规则通过内嵌浏览器手动选择提取区域,后台自动形成抽取规则,使得抽取规则的制定简单直观且该规则具有较广的适用性。本专利技术提供的信息抽取规则制定区别于传统的信息抽取规则的制定,它是以基于某一类型的信息抽取模板页面,在规则制定页面中内嵌Iframe新闻页面,由用户通过鼠标圈定感兴趣的提取信息区域或文字,系统自动记录用户的鼠标动作,用户只需要确定抽取区域的类型:如信息抽取标题或内容等,抽取规则保存入数据库。该规则适用于来自同一数据源的页面,规则由唯一的前后标识确定,具有较强的适用性。本专利技术提成的可视化信息提取,方便用户直观快速构建信息提取规则,且抽取规则具有较强的适用性。具体实施例方式下面对本专利技术的内容以一个具体实例来描述这一方法的过程。用户对一新闻页面的各个新闻要素(信息标题、信息发布时间和信息内容)制定抽取规则。首先,用户用鼠标拖拽选择的内容或将该内容复制到内容框中,通过识别标签抽取规则自动生成。除说明书所述的技术特征外,均为本专业技术人员的已知技术。权利要求1.,其特征在于信息提取的是通过内嵌浏览器手动选择提取区域,在后台自动形成抽取的方式,信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成,具体抽取步骤如下: 用户对一新闻页面的各个新闻要素,包括:信息标题、信息发布时间和信息内容,制定抽取规则,首先,用户用鼠标拖拽选择的内容或将该内容复制到内容框中,通过识别标签抽取规则自动生成。全文摘要本专利技术提供,信息提取的是通过内嵌浏览器手动选择提取区域,在后台自动形成抽取的方式,信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成,具体抽取步骤如下用户对一新闻页面的各个新闻要素,包括信息标题、信息发布时间和信息内容,制定抽取规则,首先,用户用鼠标拖拽选择的内容或将该内容复制到内容框中,通过识别标签抽取规则自动生成。文档编号G06F3/0483GK103116448SQ20131003497公开日2013年5月22日 申请日期2013年1月30日 优先权日2013年1月30日专利技术者高滨 申请人:浪潮电子信息产业股份有限公司本文档来自技高网...

【技术保护点】
一种可视化信息的抽取方法,?其特征在于信息提取的是通过内嵌浏览器手动选择提取区域,在后台自动形成抽取的方式,信息抽取规则的制定依赖于可视化的内嵌Iframe自动生成,具体抽取步骤如下:用户对一新闻页面的各个新闻要素,包括:信息标题、信息发布时间和信息内容,制定抽取规则,首先,用户用鼠标拖拽选择的内容或将该内容复制到内容框中,通过识别标签抽取规则自动生成。

【技术特征摘要】

【专利技术属性】
技术研发人员:高滨
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1