事件知识图谱预测群体性事件的方法技术

技术编号:27270486 阅读:15 留言:0更新日期:2021-02-06 11:35
本发明专利技术公开的一种事件知识图谱预测群体性事件的方法,涉及事件知识图谱挖掘与应用技术。本发明专利技术通过下述技术方案予以实现:分预测模型训练和实时预测两个阶段;预测模型训练阶段以历史结构化事件数据为输入数据构建历史事件图谱,采用图嵌入网络学习事件图谱的向量化表示,进而基于深度神经网络建立的分类网络模型来预测事件是否发生;实时预测阶段以实时的结构化事件数据为输入数据构建实时事件图谱,作为已训练完成的事件预测模型的输入数据,将实时事件数据构建的事件图谱输入事件预测模型,获取事件图谱的向量化表示,进而挖掘事件数据的深度语义信息,转化成一个事件发生和不发生的二分类问题,将概率最大的结果作为事件是否发生的预测结果。事件是否发生的预测结果。事件是否发生的预测结果。

【技术实现步骤摘要】
事件知识图谱预测群体性事件的方法


[0001]本专利技术涉及数据挖掘领域的知识图谱挖掘,具体涉及事件知识图谱挖掘与应用技术,尤其是基于事件知识图谱挖掘的群体性事件预测方法。

技术介绍

[0003]在群体、突发和事件这三个词语中,围绕“事件”一词,群体和突发都是用于描述“事件”的某种状态或某种性质的定语。群体性突发事件是指具有相同利益诉求的行为人,在一定的时间、空间和心理条件下,采取自发或有组织的聚众方式,与公共秩序和公共安全发生矛盾或对抗的行为和活动。由于很多事件是突然发生的,或一些事件的主体表现为群体性质所以有人将“突发”和“事件”放在一起表述为突发事件;有人将“群体”和“事件”放在一起表述为“群体性事件”。不同的表述方法,反映出的侧重点也各不相同。广义的群体性事件是指利益相同或相近的社会群体,由于正当性的利益之间出现严重分歧且不能通过司法的途径予以解决而产生的违反国家法律法规等扰乱社会秩序、危害公共安全的群体性冲突行为。狭义的群体性事件是指,某些利益相近或相同的群体,当其正当利益的诉求缺乏协商机制和维护机制时,而聚众实施扰乱社会秩序、危害公共安全的群体性行为。群体性事件的特点包括行为主体的群众性、行为形式的公开性、群体事件处置工作较复杂、事件危害常常比较严重。群体事件非常明显且典型的特点就是群体时间的突发性,由于事件不可控因素较多,现阶段没有有效地监控和识别方法,没办法对事件发生进行把控,这使得群体事件发生的地点、规模、形式等都难以预测。网络舆情具有特定的形成模式,网络域的热点主题中节点大小由关键词频次控制。在可视化图谱中,节点中心度直观地描述了与该点直接联系的个体数目。中心度愈大,说明该节点处于中心位置,对整个网络的影响力较大关键词的中心度及频次。其他节点围绕在中心度高的关键词周围,共同构成图谱的聚类内容。
[0005]网络舆情具有很强的两面性,一方面,能够帮助到弱势方,使得弱势群体诉求得到满足,如网络反腐等;另一方面,也有可能被别有用心的人利用,从而推波助澜,扩大事件影响,造成更加严重的后果。现阶段,群体事件的所涉及的范围已经遍布各个行业和领域。针对群体性抗议事件检测与预测这一问题,现有技术提出了两个大规模频繁子图并行挖掘算法:面向图集的PTrGraM算法和面向单个大图的SSiGraM算法。而目前频繁子图挖掘算法均是单机串行执行,无法有效满足大规模输入图及低阈值模式挖掘的需求,因此提出并行化挖掘频繁子图。由于群体性事件中的数据往往存在着紧密的关联性,图作为一种广泛应用的数据结构,非常适合用来描述这些具有紧密关联性的数据,这些数据用图组织成为知识图谱(KnowledgeGraph,KG)。知识图谱描述客观世界的概念、实体、事件及其之间的关系,是以科学知识为计量研究对象,显示科学知识的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征,属于科学计量学范畴。在以数学模型表达科学知识单元及其关系基础上进而以可视化形式绘制成二维或三维图形即知识图谱。其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人、动物、组织机构等。实体是客观世界中的具体事物;事件是客观事件的活动;关系描述概念、实体、事件之间客观存在的关联关系。
知识图谱以结构化的形式描述客观世界中概念、实体间的复杂关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱技术是指在建立知识图谱中使用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等的交叉研究。知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。知识图谱可发现、描述、解释、预测和评价科学知识。对图书情报学科具有更重要意义,也有助于信息检索、信息分类与信息服务等。知识图谱是处理关系分析问题的有效方法。事件知识图谱包含了所有历史事件的发生、发展的整个过程,同时也描述了不同事件之间的顺承、因果、时序等关系。如果对事件知识图谱进行仔细的分析,挖掘出其中所包含事件规律和模式的有价值信息,那么就可以通过这些信息来对未来事件进行预测。以科学知识为知识图谱是由Google公司在2012年提出来的一个新的概念,知识图谱是一种大规模语义网络,包括实体(entity)、概念(concept)及其之间的各种语义关系。语义网络是一种以图形化的(Graphic)形式通过点和边表示知识的方式,其基本组成元素是点和边。语义网络的点可以是实体、概念和值。知识图谱中的边可以分为属性(Property)和关系(Relation)两类。关系可以认为是一类特殊的属性,当实体的某个属性值也是一个实体时,这个属性实质上就是关系。语义网络中的边按照其两端节点的类型可以分为概念之间的子类(subclassof)关系、实体与概念之间的实例(instanceof)关系,以及实体之间的各种属性关系。构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
[0006]知识图谱在数据分析、智能推荐、智能搜索、人机交互、决策支持等方向得到广泛应用。如何将知识图谱的图结构数据,如节点、边等,表示成数学模型尤其是神经网络模型所需的向量模式进行知识挖掘进而完成实体分类、事件预测等后续任务是知识图谱走向更广泛应用的关键,也是知识图谱相关技术研究的重点和热点。
[0007]图表示学习是一种把模型跟机器学习方法相结合的一类技术,当前比较热门的主要有两大类:图嵌入(GraphEmbedding)和图神经网络(GraphNeutralNetwork)。图模型的应用非常广泛,如社交网络,通信网络。在安全领域图模型也有关越来越广泛的应用,比如黑灰产团伙挖掘、安全知识图谱、欺诈检测等等。真实的图或网络往往是高维的难处理的,为了对这种高维数据进行降维,图嵌入技术应运而生,图嵌入的本质是在尽量保证图模型的结构特性的情况下把高维图数据映射到低维向量空间。发展到现在图嵌入技术已经不仅仅是一种降维方法,与深度学习相结合后图嵌入技术可以具有更复杂的图计算与图挖掘能力。图嵌入是图表示学习的一种,简单的来说就是把图模型映射到低维向量空间,表示成的向量形式还应该尽量的保留图模型的结构信息和潜在的特性。自从word2vec这个神奇的算法出世以后,导致了一波嵌入(Embedding)热,基于句子、文档表达的word2vec、doc2vec算法,基于物品序列的item2vec算法,基于图模型的图嵌入技术,无论是在引荐、广告还是反欺诈范畴,各互联网公司基于本身业务与嵌入结合的论文相继问世。
[0008]目前图嵌入技术大体可以分为三类:基于因子分解的方法、基于随机游本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件知识图谱预测群体性事件的方法,其特征在于:包括预测模型训练和实时预测两个阶段;预测模型训练阶段以历史结构化事件数据为输入数据,构建历史事件图谱,并将历史事件图谱作为事件预测网络模型的输入数据,采用图嵌入网络学习事件图谱的向量化表示训练该预测网络模型,基于深度神经网络建立的分类网络模型来预测事件是否发生;实时预测阶段以实时的结构化事件数据为输入数据构建实时事件图谱,作为已训练完成的事件预测模型的输入数据,将实时事件数据构建的事件图谱输入事件预测模型,事件预测模型以图嵌入网络和深度分类网络构成,图嵌入网络采用图卷积神经网络模型对事件图谱进行表示学习,获取事件图谱的向量化表示,挖掘事件隐藏特征信息;深度分类网络采用卷积神经网络和双向长短时记忆网络挖掘事件数据的深度语义信息;最终转化成一个事件发生和不发生的二分类问题,将概率最大的结果作为事件是否发生的预测结果。2.如权利要求1所述的事件知识图谱预测群体性事件的方法,其特征在于:例事件图谱采用全球知识图谱GKG的GDELT事件库作为数据来源,以日期节点为根节点,与事件相关的节点为子节点的图谱构建方式构建图谱。3.如权利要求2所述的事件知识图谱预测群体性事件的方法,其特征在于:在图谱的构建过程中,每个事件相关的节点加入事件类型节点、事件提及次数、参与者名称1、参与者名称2、事件地点的节点信息,每个参与者名称包含参与者国家、参与者类型等,其中,参与者类型节点是指在一定程度上反映事件重要性事件的两个参与者的身份类型;事件提及次数是指事件被其它媒体的提及次数。4.如权利要求3所述的事件知识图谱预测群体性事件的方法,其特征在于:图谱中有至少7种边,分别为事件类型-事件边、参与者名称-事件边、事件提及次数-事件边、地点-事件边、参与者类型-参与者边、参与者国家-参与者边、事件-日期边,每种边表示一种消息传递方式。5.如权利要求1所述的事件知识图谱预测群体性事件的方法,其特征在于:事件预测模型包括图嵌入网络和分类网络两部分,图嵌入网络采用图卷积神经网络,以事件图谱为网络输入,图卷积神...

【专利技术属性】
技术研发人员:潘磊代翔崔莹廖泓舟刘鑫丁洪丽
申请(专利权)人:西南电子技术研究所中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1