The invention relates to a method for planning target image information extraction based on news events. Among them, the method can include: extraction of news text news entity information and keyword information; news information and entity information based on keywords, a news event information extraction planning target map; news event information extraction planning target image; according to the news event information extraction planning goal graph, decision rules of news event information extraction planning goal graph; decision rules of news event information extraction planning target image, extraction of news information. Thus, the embodiment of the invention solves the technical problem of how to automatically and quickly, to fully tap the news event information, to process and track state extraction task, can be achieved on the news and information, automatic sorting.
【技术实现步骤摘要】
基于规划-目标图的新闻事件信息抽取方法
本专利技术涉及计算机应用中的舆情分析和文本处理
,具体来说涉及一种基于规划-目标图的新闻事件信息抽取方法。
技术介绍
随着web技术的迅猛发展,互联网普及率逐渐上升,信息公开化程度逐步提高,网络已经成为新闻事件报道和传播的重要平台。互联网上新闻网页的数量急剧增长,新闻量和冗余信息的增加,给阅读和信息分析带来了新的挑战。快速、精准地从新闻报道中自动抽取新闻事件信息,尤其是新闻事件的关键信息,一方面,能够辅助分析和管理新闻事件,降低人工成本,提高分析效率;另一方面,能够为网络舆情的监控和预警、热点事件的检索和追踪、智能问答系统及大数据决策支持等上层应用提供支持,具有广泛的应用前景。新闻事件是指发生在某时某地的一件特别的事情,它可以由许多信息组成,其中较为关键的信息包括:事件发生的时间、事件发生的地点、事件的参与者、事件的关键词和事件的某些关键数字等。这些信息不仅有助于新闻阅读者快速把握新闻事件的主体内容信息,而且可以为海量新闻数据的自动分析和处理提供必要的基础内容。由于新闻文本在形式上具有词汇、句式规范、篇章结构统一、语言风格稳定等特点,使得自动抽取新闻事件的关键信息成为可能。然而,目前最常见的新闻抽取系统所解决的问题主要是从新闻网页中抽取正文中的个别句子作为新闻摘要或者对新闻正文进行简单的分类处理,关于理解新闻事件内容,特别是自动地、可解释地进行事件信息抽取等方面的工作仍然空缺。有鉴于此,特提出本专利技术。
技术实现思路
为了解决现有技术中的上述问题,即为了解决如何自动、快速、充分地挖掘新闻事件信息的技术问题而提供一 ...
【技术保护点】
一种基于规划‑目标图的新闻事件信息抽取方法,其特征在于,所述方法包括:抽取新闻文本的新闻实体信息和关键词信息;基于所述新闻实体信息和所述关键词信息,建立新闻事件信息抽取规划‑目标图;设置所述新闻事件信息抽取规划‑目标图的状态;根据所述新闻事件信息抽取规划‑目标图的所述状态,建立所述新闻事件信息抽取规划‑目标图的判定规则;执行所述新闻事件信息抽取规划‑目标图的判定规则,抽取所述新闻事件信息。
【技术特征摘要】
1.一种基于规划-目标图的新闻事件信息抽取方法,其特征在于,所述方法包括:抽取新闻文本的新闻实体信息和关键词信息;基于所述新闻实体信息和所述关键词信息,建立新闻事件信息抽取规划-目标图;设置所述新闻事件信息抽取规划-目标图的状态;根据所述新闻事件信息抽取规划-目标图的所述状态,建立所述新闻事件信息抽取规划-目标图的判定规则;执行所述新闻事件信息抽取规划-目标图的判定规则,抽取所述新闻事件信息。2.根据权利要求1所述的方法,其特征在于,所述抽取新闻文本的新闻实体信息和关键词信息具体包括:将所述新闻文本分为:标题、摘要和正文;针对所述标题、所述摘要和所述正文,分别进行分词、词性标注和命名实体识别处理,抽取出时间实体、地点实体、人物实体、机构实体,并提取出所述正文的关键词。3.根据权利要求2所述的方法,其特征在于,当所述时间实体和所述地点实体为多个时,将所述多个时间实体中的一个作为时间实体抽取值,将所述多个地点实体中的一个作为...
【专利技术属性】
技术研发人员:赵美静,倪晚成,刘禹,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。