基于规划‑目标图的新闻事件信息抽取方法技术

技术编号:15690938 阅读:57 留言:0更新日期:2017-06-24 03:44
本发明专利技术涉及一种基于规划‑目标图的新闻事件信息抽取方法。其中,该方法可以包括:抽取新闻文本的新闻实体信息和关键词信息;基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划‑目标图;设置新闻事件信息抽取规划‑目标图的状态;根据新闻事件信息抽取规划‑目标图的状态,建立新闻事件信息抽取规划‑目标图的判定规则;执行新闻事件信息抽取规划‑目标图的判定规则,抽取新闻事件信息。由此,本发明专利技术实施例解决了如何自动、快速、充分地挖掘新闻事件信息的技术问题,能够随时追踪抽取任务的进程和状态,能够实现对新闻信息的高效自动整理。

Planning target image information extraction method based on news events

The invention relates to a method for planning target image information extraction based on news events. Among them, the method can include: extraction of news text news entity information and keyword information; news information and entity information based on keywords, a news event information extraction planning target map; news event information extraction planning target image; according to the news event information extraction planning goal graph, decision rules of news event information extraction planning goal graph; decision rules of news event information extraction planning target image, extraction of news information. Thus, the embodiment of the invention solves the technical problem of how to automatically and quickly, to fully tap the news event information, to process and track state extraction task, can be achieved on the news and information, automatic sorting.

【技术实现步骤摘要】
基于规划-目标图的新闻事件信息抽取方法
本专利技术涉及计算机应用中的舆情分析和文本处理
,具体来说涉及一种基于规划-目标图的新闻事件信息抽取方法。
技术介绍
随着web技术的迅猛发展,互联网普及率逐渐上升,信息公开化程度逐步提高,网络已经成为新闻事件报道和传播的重要平台。互联网上新闻网页的数量急剧增长,新闻量和冗余信息的增加,给阅读和信息分析带来了新的挑战。快速、精准地从新闻报道中自动抽取新闻事件信息,尤其是新闻事件的关键信息,一方面,能够辅助分析和管理新闻事件,降低人工成本,提高分析效率;另一方面,能够为网络舆情的监控和预警、热点事件的检索和追踪、智能问答系统及大数据决策支持等上层应用提供支持,具有广泛的应用前景。新闻事件是指发生在某时某地的一件特别的事情,它可以由许多信息组成,其中较为关键的信息包括:事件发生的时间、事件发生的地点、事件的参与者、事件的关键词和事件的某些关键数字等。这些信息不仅有助于新闻阅读者快速把握新闻事件的主体内容信息,而且可以为海量新闻数据的自动分析和处理提供必要的基础内容。由于新闻文本在形式上具有词汇、句式规范、篇章结构统一、语言风格稳定等特点,使得自动抽取新闻事件的关键信息成为可能。然而,目前最常见的新闻抽取系统所解决的问题主要是从新闻网页中抽取正文中的个别句子作为新闻摘要或者对新闻正文进行简单的分类处理,关于理解新闻事件内容,特别是自动地、可解释地进行事件信息抽取等方面的工作仍然空缺。有鉴于此,特提出本专利技术。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何自动、快速、充分地挖掘新闻事件信息的技术问题而提供一种基于规划-目标图的新闻事件信息抽取方法。为了实现上述目的,提供了以下技术方案:一种基于规划-目标图的新闻事件信息抽取方法,该方法包括:抽取新闻文本的新闻实体信息和关键词信息;基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划-目标图;设置新闻事件信息抽取规划-目标图的状态;根据新闻事件信息抽取规划-目标图的状态,建立新闻事件信息抽取规划-目标图的判定规则;执行新闻事件信息抽取规划-目标图的判定规则,抽取新闻事件信息。进一步地,抽取新闻文本的新闻实体信息和关键词信息具体包括:将新闻文本分为:标题、摘要和正文;针对标题、摘要和正文,分别进行分词、词性标注和命名实体识别处理,抽取出时间实体、地点实体、人物实体、机构实体,并提取出正文的关键词。进一步地,当时间实体和地点实体为多个时,将多个时间实体中的一个作为时间实体抽取值,将多个地点实体中的一个多为地点实体抽取值。进一步地,基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划-目标图,具体包括:基于新闻实体信息和关键词信息,建立层级节点关系图;其中,层级节点关系图由规划节点和目标节点交替组成;设置同一目标节点的多个规划节点之间的优先级。进一步地,设置新闻事件信息抽取规划-目标图的状态具体包括:设置规划节点和目标节点的逻辑属性;确定同一目标节点的多个规划节点之间的优先级。进一步地,执行新闻事件信息抽取规划-目标图的判定规则,抽取新闻事件信息,具体包括:当顶层节点的逻辑属性为真时,根据目标节点的规划节点的优先级,抽取新闻事件信息。进一步地,新闻事件信息包括新闻文本的时间、地点、参与者和事件关键词信息。本专利技术实施例提供一种基于规划-目标图的新闻事件信息抽取方法。其中,该方法可以包括:抽取新闻文本的新闻实体信息和关键词信息;基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划-目标图;设置新闻事件信息抽取规划-目标图的状态;根据新闻事件信息抽取规划-目标图的状态,建立新闻事件信息抽取规划-目标图的判定规则;执行新闻事件信息抽取规划-目标图的判定规则,抽取新闻事件信息。本专利技术实施例通过对抽取任务进行子目标与子规划的划分,建立新闻事件信息抽取规划-目标图及其判定规则,并据此来抽取新闻事件信息。由此,本专利技术实施例解决了如何自动、快速、充分地挖掘新闻事件信息的技术问题,能够实现对新闻信息的高效自动整理;具有非常强的过程解释性,能够根据规划-目标图的节点属性和判定规则随时追踪抽取任务的进程和状态;同时本专利技术实施例还具有非常强的操作扩展性,能够在不改变方法进程的同时,对规划节点和目标节点进行灵活地增、删、改等操作。本专利技术实施例公开的方法能为新闻事件检索、新闻报道跟踪和舆情分析等上层应用提供支持。附图说明图1是根据本专利技术实施例的基于规划-目标图的新闻事件信息抽取方法的流程示意图;图2是根据本专利技术实施例的新闻事件信息抽取规划-目标示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。在实际应用中,为了解决如何自动、快速、充分地挖掘新闻事件信息的技术问题。本专利技术实施例提供一种基于规划-目标图的新闻事件信息抽取方法。如图1所示,该方法可以包括:S100:抽取新闻文本的新闻实体信息和关键词信息。具体地,本步骤可以包括:S101:将新闻文本分为:标题、摘要和正文。在一个优选的实施例中,将新闻文本的首段文本确定为摘要;将新闻文本中除去标题和摘要后的内容确定为正文。举例来说,标题可以为“歼—10女飞行员余旭在训练中不幸牺牲”。摘要可以为“11月12日,空军歼—10女飞行员余旭,在天津武清上空进行飞行训练时不幸牺牲。”。正文可以为“空军新闻发言人申进科表示,飞行是勇敢者的事业,确保飞行安全是世界各国空军的共同追求和良好愿望。空军女飞行员余旭同志在飞行训练中不幸牺牲,我们失去了一名好战友。空军官兵对余旭同志的不幸牺牲深表痛惜,深表哀悼。空军要继续坚持从难从严训练,忠实履行使命责任,不负祖国和人民对空军的期望。牺牲的女飞行员余旭,1986年出生于四川崇州,2005年9月入伍,空军上尉,二级飞行员,为空军八一飞行表演队中队长。2005年,余旭考入中国人民解放军空军航空大学,成为第八批女飞行学员,2009年4月成为北空某部飞行员。2009年10月1日,参加中华人民共和国国庆60周年阅兵,担任教—8梯队三中队右二僚机。2012年7月29日,驾驭中国自主研发的三代战机首次单飞。余旭不仅是中国首批歼击机女飞行员,也是中国第一位歼—10战斗机女飞行员。她还曾参加国庆60周年阅兵,担任教—8梯队三中队右二僚机。在参加2015年纪念抗日战争胜利70周年阅兵时,她作为地面备份人员,为左边位置3号机备份。在八一飞行表演队中,余旭的代号是“金孔雀”,是全国仅有的几名具备表演机飞行资格的女飞行员之一。”。S102:针对标题、摘要和正文,分别进行分词、词性标注和命名实体识别处理,抽取出时间实体、地点实体、人物实体、机构实体,并提取出正文的关键词。在一个可选的实施例中,对于步骤S102,当时间实体和地点实体有多个时,可以只保留第一个抽取值,即将多个时间实体中的一个作为时间实体抽取值,将多个地点实体中的一个作为地点实体抽取值。表1示例性地示出了对新闻文本进行新闻实体信息和关键词信息抽取后得到的信息。表1:S110:基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划-目标图。具体地,本步骤可以通过步骤S111至步骤S112来实现。S111:基于新闻实体信息本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201611213321.html" title="基于规划‑目标图的新闻事件信息抽取方法原文来自X技术">基于规划‑目标图的新闻事件信息抽取方法</a>

【技术保护点】
一种基于规划‑目标图的新闻事件信息抽取方法,其特征在于,所述方法包括:抽取新闻文本的新闻实体信息和关键词信息;基于所述新闻实体信息和所述关键词信息,建立新闻事件信息抽取规划‑目标图;设置所述新闻事件信息抽取规划‑目标图的状态;根据所述新闻事件信息抽取规划‑目标图的所述状态,建立所述新闻事件信息抽取规划‑目标图的判定规则;执行所述新闻事件信息抽取规划‑目标图的判定规则,抽取所述新闻事件信息。

【技术特征摘要】
1.一种基于规划-目标图的新闻事件信息抽取方法,其特征在于,所述方法包括:抽取新闻文本的新闻实体信息和关键词信息;基于所述新闻实体信息和所述关键词信息,建立新闻事件信息抽取规划-目标图;设置所述新闻事件信息抽取规划-目标图的状态;根据所述新闻事件信息抽取规划-目标图的所述状态,建立所述新闻事件信息抽取规划-目标图的判定规则;执行所述新闻事件信息抽取规划-目标图的判定规则,抽取所述新闻事件信息。2.根据权利要求1所述的方法,其特征在于,所述抽取新闻文本的新闻实体信息和关键词信息具体包括:将所述新闻文本分为:标题、摘要和正文;针对所述标题、所述摘要和所述正文,分别进行分词、词性标注和命名实体识别处理,抽取出时间实体、地点实体、人物实体、机构实体,并提取出所述正文的关键词。3.根据权利要求2所述的方法,其特征在于,当所述时间实体和所述地点实体为多个时,将所述多个时间实体中的一个作为时间实体抽取值,将所述多个地点实体中的一个作为...

【专利技术属性】
技术研发人员:赵美静倪晚成刘禹
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1