一种新闻事件要素抽取方法与装置制造方法及图纸

技术编号:11122952 阅读:244 留言:0更新日期:2015-03-11 12:04
本发明专利技术提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明专利技术在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。

【技术实现步骤摘要】
一种新闻事件要素抽取方法与装置
本专利技术涉及自然语言处理
,特别涉及新闻文本中的信息抽取技术,以及 更具体地,涉及一种新闻事件要素抽取方法与装置。
技术介绍
新闻事件是指发生在某时某地的一件特别的事情,它可以由许多要素组成,其中 较为关键的要素包括:事件发生的时间、事件发生的地点、事件的主角、主角所持的观点和 事件的某些特殊属性。这些要素不仅有助于新闻阅读者快速把握新闻事件的主体内容,而 且可以为海量新闻数据的自动分析和处理提供必要的基础内容信息。 随着互联网普及率的上升和信息公开化程度的提高,网络已经成为新闻事件报道 和传播的重要平台。互联网上新闻网页的数量急剧增长,新闻量和冗余信息的增加,给阅读 和信息分析带来了新的挑战。迅速、准确地从新闻报道中自动抽取新闻事件的要素,尤其是 关键要素,不仅能够改善代价昂贵的人工分析和管理新闻事件的过程,而且具有广泛的新 闻自动分析方面的应用前景,例如为网络舆情的监控和预警、新闻事件检索和决策支持等 上层应用提供支持。由于新闻文本在形式上具有词汇、句式规范,篇章结构统一,语言风格 稳定等特点,使得自动抽取新闻事件的关键要素成为可能。 然而,目前最常见的新闻抽取系统所解决的问题主要是从新闻网页中抽取新闻正 文或对新闻正文进行简单的分类,关于理解新闻内容并抽取关键要素方面的工作仍然空 缺。
技术实现思路
针对上述问题,根据本专利技术的一个实施例,提供一种新闻事件要素抽取方法,包 括: 步骤1)、识别新闻文本中包含的人名并抽取人名特征; 步骤2)、根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及 步骤3)、基于该概率识别出新闻事件的主角。 上述方法中,所述人名特征包括人名在所述新闻文本中的上/下文特征、频率特 征和位置特征。其中,根据下式计算人名成为新闻事件的主角的概率:本文档来自技高网...
一种新闻事件要素抽取方法与装置

【技术保护点】
一种新闻事件要素抽取方法,包括:步骤1)、识别新闻文本中包含的人名并抽取人名特征;步骤2)、根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及步骤3)、基于该概率识别出新闻事件的主角。

【技术特征摘要】
1. 一种新闻事件要素抽取方法,包括: 步骤1)、识别新闻文本中包含的人名并抽取人名特征; 步骤2)、根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及 步骤3)、基于该概率识别出新闻事件的主角。2. 根据权利要求1所述的方法,其中,所述人名特征包括人名在所述新闻文本中的上/ 下文特征、频率特征和位置特征。3. 根据权利要求2所述的方法,其中,根据下式计算人名成为新闻事件的主角的概率:其中,namei表示人名,COiamei)表示该人名在上/下文特征上的取值,freOiamei)表 示该人名出现的次数,len(text)表示所述新闻文本的总字符长度,posOiamei)表示该人名 在所述新闻文本中首次出现的字符位置。4. 根据权利要求1-3中任何一个所述的方法,其中,识别新闻文本中包含的人名包括: 使用人名识别器识别新闻文本中包含的人名;其中,所述人名识别器是通过使用公开 语料库,训练条件随机场模型得到的。5. 根据权利要求1-3中任何一个所述的方法,还包括: 从所述新闻文本中抽取关于新闻事件的主角的观点和发言的语句。6. 根据权利要求5所述的方法,其中,抽取关于新闻事件的主角的观点和发言的语句 包括: 对所述新闻文本进行断句,抽取同时包括主角人名和触发词的语句,加入候选观点语 句集合; 抽取同时包含第三人称代词和触发词的语句,根据与该语句相邻的前两句中出现的人 名判断该第三人称代词是否指代新闻事件的主角,如果是,则将该语句加入候选观点语句 集合;以及 从候选观点语句集合中移除包含停用触发词的语句;其中,触发词和停用触发词是由 词或标点符号组成的表达式。7. 根据权利要求6所述的方法,其中,根据如下步骤获得触发词和停用触发词: 随机选取多篇新闻文本,抽取关于新闻事件的主角的观点和发言的语句,得到训练语 句集合; 对训练语句集合进行分词和词性标注处理,根据词性、词频以及该词与主角的位置关 系选取出触发词;其中,如果触发词的相邻字符为标点符号,则将该触发词与相邻标点符号 的组合作为另一个触发词; 用已获得的触发词在所述多篇新闻文本中抽取关于新闻事件的主角的观点和发言的 语句,将抽取结果和训练语句集合进行对比,将产生错误语句的触发词结合其相邻的词作 为停用触发词。8. 根据权利要求1-3中任...

【专利技术属性】
技术研发人员:程学旗刘倩伍大勇刘悦刘冰洋钟艳琴
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1