一种基于新闻报道的突发事件线索提取方法技术

技术编号:23212829 阅读:25 留言:0更新日期:2020-01-31 21:53
本发明专利技术提供了一种基于新闻报道的突发事件线索提取方法,对新闻文本进行预处理;对预处理结果进行事件抽取;得到事件分布式表示,计算得到事件相似度以构建事件语义知识;构建事件主题模型,得到事件主题分布及文档主题分布;取主题概率最高的事件作为主题事件集合;以每个主题事件为结点,事件发生的先后关系为弧,构建事件的时序关系图;利用改进的拓扑排序算法输出最终的事件线索。本发明专利技术通过以上设计能够准确完整地获取突发事件线索,解决了现有技术中事件线索语义表达不强以及线索获取准确率低的问题。本发明专利技术方法灵活,具有很强的应用推广价值。

A method of emergency clue extraction based on news report

【技术实现步骤摘要】
一种基于新闻报道的突发事件线索提取方法
本专利技术属于自然语言处理
,尤其涉及一种基于新闻报道的突发事件线索提取方法。
技术介绍
突发事件,是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。为预防和减少突发事件的发生,控制、减轻和消除突发事件引起的严重社会危害,人民政府及其相关部门应规范突发事件应对活动,对可能发生的突发事件进行综合性评估,最大限度地减轻重大突发事件影响。突发事件具有明显的时序特征,其逻辑顺序可以用事件的话题演化,即突发事件线索来表示。例如,“2014年第9号威马逊台风”事件一发生,同时会出现“人员伤亡”、“农作物受灾”、“通讯中断”等事件;随着时间的推进,“威马逊登陆我国”、“气象台发布预警”、“相关部门发出通告”、“转移相关人员”、“防范病菌”等一系列相关事件。这些相关事件都是与“威马逊台风”这一主题下演化或衍生出的子事件。这些事件的发生有着时序关系或因果关系。准确完整地获取突发事件线索,对了解突发事件的前因后果对事态发展趋势的掌握有着重要的作用,本文档来自技高网...

【技术保护点】
1.一种基于新闻报道的突发事件线索提取方法,其特征在于,包括如下步骤:/nS1、获取新闻数据集,并利用自然语言处理方法对所述新闻数据集中每篇新闻进行预处理;/nS2、以语句为单位,根据所述预处理结果对事件进行抽取;/nS3、根据事件抽取结果得到事件分布式表示,并构建事件语义知识;/nS4、以事件对为词条,利用所述事件语义知识和波利亚罐子模型构建事件主题模型;/nS5、根据所述事件主题模型,取主题概率最高的topK个事件作为主题事件集合;/nS6、根据所述主题事件集合和事件的先后顺序构建事件时序关系图;/nS7、根据所述事件时序关系图利用改进的拓扑排序算法计算得到突发事件线索,从而完成对突发事件...

【技术特征摘要】
1.一种基于新闻报道的突发事件线索提取方法,其特征在于,包括如下步骤:
S1、获取新闻数据集,并利用自然语言处理方法对所述新闻数据集中每篇新闻进行预处理;
S2、以语句为单位,根据所述预处理结果对事件进行抽取;
S3、根据事件抽取结果得到事件分布式表示,并构建事件语义知识;
S4、以事件对为词条,利用所述事件语义知识和波利亚罐子模型构建事件主题模型;
S5、根据所述事件主题模型,取主题概率最高的topK个事件作为主题事件集合;
S6、根据所述主题事件集合和事件的先后顺序构建事件时序关系图;
S7、根据所述事件时序关系图利用改进的拓扑排序算法计算得到突发事件线索,从而完成对突发事件线索的提取。


2.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S1中的预处理包括词性标、依存分析和指代消解。


3.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S2包括如下步骤:
S201、以语句为单位,并根据所述预处理结果提取事件中所有的谓语关系对;
S202、判断所述谓语关系对是否存在相同的谓语,若是,则将相同的谓语合并为一个三元组事件,并进入步骤S3,否则,将所述谓语关系对保留为二元组事件,并进入步骤S3,从而完成对事件的抽取。


4.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S3包括如下步骤:
S301、根据事件抽取结果利用Word2Vec算法在新闻语料上得到词向量表示;
S302、根据所述词向量表示利用组合语义算法计算得到事件分布式表示;
S303、根据所述事件分布式表示利用欧式距离算法计算得到事件间的相似度;
S304、根据所述事件间的相似度构建事件语义知识。


5.根据权利要求4所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S302中事件分布式表示包括以下任意一种情况:
第一种情况:
若事件为三元组事件,则根据事件的谓语向量以及事件的主语向量和宾语向量的克罗内外积计算得到事件分布式表示,其所述事件分布式表示的表达式如下:



第二种情况:
若事件为二元组事件,则根据事件的谓语向量以及事件的主语或宾语的向量计算得到事件分布式表示,其所述事件分布式表示为或表达式如下:






其中,表示克罗内克外积运算,·表示点乘运算,表示事件谓语向量,表示事件主语向量,表示事件宾语向量。


6.根据权利要求1所述的基于新闻报道的突发事件线索提取方法,其特征在于,所述步骤S4包括如下步骤:
S401、以事件对为词条,设置生成事件主题的多项式分布参数其中,表示各事件在主题k下的分布,Dir(β)表示分布服从超参数为β的狄利克雷分布;
S402、设置生成文档主题的多项式公布参数θm~Dir(α),其中,θm表示文档m的主题分布,Dir(α)表示分布服从超参数为α的狄利克雷分布;
S403、对每篇新...

【专利技术属性】
技术研发人员:孙锐金澎敬思远谢红
申请(专利权)人:乐山师范学院
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1