一种新闻事件中人物观点抽取方法技术

技术编号:19745157 阅读:243 留言:0更新日期:2018-12-12 04:43
本发明专利技术公开了一种新闻事件中人物观点抽取方法,包括观点抽取、人物观点数据库、观点检索3个部分;观点抽取部分负责对原始的新闻文本进行清理,并提取其中的观点要素包括观点持有者、观点评价对象、观点情感强度等;人物观点数据库负责存储人物、观点以及情感,以便检索和查询;观点检索部分负责响应用户的检索请求,对检索结果进行去重和合并,并返回排序的检索结果;本发明专利技术方法能够有效识别新闻中的人物观点并构建可供检索的人物观点数据库,提供了一种准确高效的人物观点抽取方法。

【技术实现步骤摘要】
一种新闻事件中人物观点抽取方法
本专利技术涉及一种新闻事件中人物观点抽取方法,适用于从新闻文本中抽取人物观点并提供观点检索,属于计算机科学与

技术介绍
随着互联网媒体的迅速发展,新闻事件的记载和传播越来越倾向于网络媒体的形式;新闻作为记录社会、传播信息、反映时代的一种文体,具有真实性、简明性、及时性的特点;新闻如实记录了新闻人物针对某些话题的观点表达,如发言、评论、表态等;而新闻中出现的人物,例如世界主要政治、经济、体育等领域人物,往往在现实社会中具有较大的影响力;从新闻文本中识别人物观点,为研究这些人物的观点态度,为舆情分析、政策分析等提供了重要的作用;新闻事件中人物观点抽取是指从原始的新闻文本中,识别表达了人物观点的句子,并从中抽取出观点要素,如观点持有者、观点评价对象、观点发表时间、观点持有者对评价对象的情感态度等,并将这些识别出的观点消歧存入数据库中,进行去重和合并,向用户提供便捷的检索功能;用户可以检索指定人物针对于某个或某些话题的所有观点表达;系统需要返回有序的搜索结果序列,用户更期望的搜索目标排在靠前的位置;尽管许多的研究学者在人物观点挖掘方面做出了大量工作,提出了各种观点挖掘的方法,但这些方法都存在着一定的局限性;比如通常仅限于从评论性文本,如商品评论、微博等,中挖掘人物观点;不能进行情感强度分析等;
技术实现思路
本专利技术要解决的技术问题:克服现有技术的不足,提供一种新闻事件中人物观点抽取方法;该方法从新闻文本中抽取人物观点,并能够以较高的系统性能提供高可用度的观点检索服务;本专利技术的技术解决方案:一种新闻事件中人物观点抽取方法,包括观点抽取、人物观点数据库、观点检索3个部分;(一)观点抽取部分负责对原始的新闻文本进行清理,并提取其中的观点要素;其中,所述的观点要素包括:(1)观点持有者:发表观点的人物,通过人名消歧将其对应到人物数据库中的唯一人物;(2)观点评价对象:在观点表达中,观点持有者所提及的带有情感色彩的事物;(3)观点发布时间:观点持有者发表观点的时间;(4)人物观点情感极性和强度:观点持有者对观点评价对象的情感态度(支持、中立、反对)和情感强度;其中,提取观点要素包含以下步骤:(1)文本清理:对原始新闻文本进行预处理,将文本标准化;(2)基础语法分析:对新闻文本进行基础语法分析,包括分词、词性标注、依存关系分析;(3)观点识别:识别新闻本文中哪些句子中包含了人物观点表达;(4)观点要素抽取:从人物观点表达中提取观点要素;(5)观点持有者消歧:对人物重名、人名描述不规范的观点持有者进行人名消歧;(6)人物观点情感强度分析:计算观点持有者对于观点评价对象的情感极性和情感强度;(二)人物观点数据库负责存储人物、观点以及情感,以便检索和查询;具体包括如下步骤:构建人物数据库;构建观点数据库;构建人物观点情感数据库;(1)构建人物数据库:基于维基百科识别其中的人物词条,提取人物的姓名、其他属性和主要特征;(2)构建观点数据库:存储观点抽取子系统抽取得到的观点,标记不同的类型,按照不同的观点持有者分别存储;(3)构建人物观点情感数据库:对于每个人物,分析其所有的观点集合,识别该人物的主要观点;对于每个观点评价对象,分析所有发表过观点的观点持有者,识别关注该对象的人物群体;(三)观点检索部分负责综合分析候选结果与用户查询文本之间的关联程度和观点本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列;其中,按优先级排序采用了以下主要特征:关键词相似度;观点情感强度;发表时间;(1)观点词相似度:用户检索观点词,包括观点持有者以及观点评价对象,与数据库中观点的持有者以及评价对象描述词之间的相似度;(2)观点情感强度:观点持有者对于观点评价对象的情感强度,较强的情感强度会获得更高的检索权重;(3)发表时间:观点持有者发表该观点的时间,距离用户检索时间越近的观点会获得更高的权重;其中,观点检索采用了以下优化方式:重复观点消除,相似观点合并;(1)重复观点消除:原始新闻语料中相同的新闻文本可能多次出现,导致观点被重复识别,对于此类在文字结构上相似的重复观点进行消除;(2)相似观点合并:对于观点持有者在现实世界中的一次观点表达,可能被不同的新闻文本以不同的文字结构记录,对于此类相似的观点进行合并计算权重和展示;本专利技术与现有技术相比的优点在于:可以从新闻文本中抽取人物观点,可以进行细粒度的人物观点情感强度分析,观点检索性能较高。附图说明下面结合附图和实施例对本专利技术进一步说明:图1是新闻事件中人物观点抽取系统体系结构。图2是观点要素和例子。图3是人物数据库构造方法。具体实施方式下面结合附图,对本专利技术的技术方案做进一步的说明;如图1所示,一种新闻事件中人物观点抽取方法,包括观点抽取、人物观点数据库、观点检索三个部分:(一)观点抽取子系统;从原始的新闻文本中识别人物观点表达,抽取观点要素;主要包含以下步骤:(1)文本清理,即对原始新闻文本进行预处理,将文本标准化,包括清理非法字符、标点符号整理、段落重排,采用基于正则表达式的方法实现;(2)基础语法分析,即对新闻文本进行基础语法分析,包括分词、词性标注、依存关系分析,采用基于CRF条件随机场的方法实现;(3)观点识别,识别新闻本文中哪些句子中包含了人物观点表达,这些表达需要是新闻作者对于某个人物的某次观点表达的客观记录,采用基于深度学习的方法实现;(4)观点要素抽取:从人物观点表达中提取观点要素,如图2所示,包括观点持有者、观点评价对象、观点表达时间、人物观点的情感极性和强度;采用基于深度学习的方法实现;(5)观点持有者消歧:对人物重名、人名描述不规范的观点持有者进行人名消歧;(6)人物观点情感强度分析:基于依存关系分析得到的依存语法树和情感词词典,计算观点持有者对于观点评价对象的情感极性和情感强度;其中,观点要素抽取主要包含以下步骤:(1)构造新闻文本数据集,进行基础语法分析后,人工对数据进行标注,标注其中的观点持有者、观点评价对象、观点表达时间、人物观点的情感极性和强度、观点触发词;(2)构造深度学习模型,使用标注的数据进行训练;(3)使用训练完成的模型进行新闻事件中的人物观点抽取;其中,观点持有者消歧主要包含以下步骤:(1)使用人名在人物数据库中检索所有可能的匹配结果,得到候选结果集合;(2)使用人名在新闻中的修饰词,如职务信息、人物关系信息等在候选结果中进行匹配,得到候选结果集合;(3)若候选结果集合唯一,则得到结果;否则,使用人物观点表达内容关键词和人物数据库中候选人物的关键词进行匹配,按照匹配相似度进行排序,选择相似度最高的人物所有消歧结果;(二)人物观点数据库子系统;负责存储人物以及观点抽取子系统抽取的人物观点、观点情感;主要包含以下模块:(1)人物数据库,存储新闻事件人物,以及其主要的人物属性包括姓名、国籍、职务、主要社会关系等;原始数据库从维基百科中识别,流程如图3所示;(2)观点数据库,存储观点抽取子系统抽取的观点,以及观点要素,包括观点持有者、观点评价对象、观点表达时间、人物观点的情感极性和强度、观点触发词;(3)人物观点情感数据库,存储人物对于关键词的观点汇总,包括人物在某时期范围内对于某关键词的所有观点索引,以及整本文档来自技高网...

【技术保护点】
1.一种新闻事件中人物观点抽取方法,其特征在于步骤如下:(1)观点抽取:负责对新闻本文进行处理,识别其中的人物观点表达,提取观点要素,进行人物观点情感强度分析;(2)人物观点数据库:人物观点数据库负责存储人物、观点以及情感,以便检索和查询,包含以下步骤:构建人物数据库;构建观点数据库;构建人物观点情感数据库;(3)观点检索:负责综合分析候选结果与用户查询文本之间的关联程度和观点本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列。

【技术特征摘要】
1.一种新闻事件中人物观点抽取方法,其特征在于步骤如下:(1)观点抽取:负责对新闻本文进行处理,识别其中的人物观点表达,提取观点要素,进行人物观点情感强度分析;(2)人物观点数据库:人物观点数据库负责存储人物、观点以及情感,以便检索和查询,包含以下步骤:构建人物数据库;构建观点数据库;构建人物观点情感数据库;(3)观点检索:负责综合分析候选结果与用户查询文本之间的关联程度和观点本身的特征,生成按优先级排序的最终呈现给用户搜索结果序列。2.根据权利要求1所述的一种新闻事件中人物观点抽取方法,其特征在于:所述步骤(1)中的观点要素包含四个方面:观点持有者,观点评价对象,观点发布时间,人物观点情感极性和强度;①观点持有者:发表观点的人物,通过人名消歧将其对应到人物数据库中的唯一人物;②观点评价对象:在观点表达中,观点持有者所提及的带有情感色彩的事物;③观点发布时间:观点持有者发表观点的时间;④人物观点情感极性和强度:观点持有者对观点评价对象的情感态度和情感强度。3.根据权利要求1所述的一种新闻事件中人物观点抽取方法,其特征在于:所述步骤(1)中的提取观点要素包含以下步骤:文本清理;基础语法分析;观点识别;观点要素抽取;观点持有者消歧;人物观点情感强度分析;①文本清理:对原始新闻文本进行预处理,将文本标准化;②基础语法分析:对新闻文本进行基础语法分析,包括分词、词性标注、依存关系分析;③观点识别:识别新闻本文中哪些句子中包含了人物观点表达;④观点要素抽取:从人物观点表达中提取观点要素;⑤观点持有者消歧:对人物重名、人名描述不规范的观点持有者进行人名消歧;⑥人物观点情感强度分析:计算观点持...

【专利技术属性】
技术研发人员:赵忠华孙小宁李欣万欣欣袁钟怡张小明
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1