一种基于知识图谱的特定目标可视化分析方法及系统技术方案

技术编号:37450036 阅读:23 留言:0更新日期:2023-05-06 09:21
本发明专利技术提出一种基于知识图谱的特定目标可视化分析方法和系统,包括:获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。本发明专利技术提供了多领域数据综合分析的能力,提供时序线索推理、隐含线索推理功能,可以挖掘出数据库中并不存在的线索数据。中并不存在的线索数据。中并不存在的线索数据。

【技术实现步骤摘要】
一种基于知识图谱的特定目标可视化分析方法及系统


[0001]该专利技术属于数据分析
,尤其涉及一种基于知识图谱的特定目标可视化分析系统。

技术介绍

[0002]互联网时代的崛起加快了数据的产生与传输速度,社会对分析数据的需求越来越旺盛,如何从海量数据中提取高价值信息,成为立足时代的重要手段。
[0003]数据分析作为大数据应用重要分支,通过对各领域数据进行采集、清洗、降噪、消歧、对齐等方式形成结构化数据,运用模型算法将多源异构数据进行融合和关联,构建多领域知识图谱。知识图谱作为关系分析的重要手段,以节点和边的形式展示实体之间的关联关系。从数据中检索某一个特定目标,提取多维实体画像或事件时序,以图表、关系图等可视化形式呈现,最终能够提供高效的分析能力及深度关系挖掘能力,辅助用户进行战略决策。
[0004]目前现有数据分析技术多数运用于舆情、科技、金融等领域,不同领域数据和分析维度存在很大不同,导致现有技术只能解决单一领域等数据分析,在做跨领域综合分析时能力欠缺,自适应能力差,这体现在两个方面:1、无法有效融合来自多领域的知识,导致分析特定目标维度单一;2、分析算子自适应能力差,仅面向特定领域具体业务需求,无法灵活适用于多变的分析业务需求,在遇到新的分析业务需求时需要重新设计算子。导致了数据分析技术的应用能力有限,无法满足不同领域用户对数据高效分析的需求。现有数据分析系统通常会将分析结果直接呈现出来,留给用户极大降低了可视化分析的流程,不支持人机交互式的线索挖掘,不符合用户的思维模式。
[0005]现有技术主要针对特定领域进行数据分析,在做多领域综合分析时能力欠缺,导致在做特定目标分析时,数据不全面,分析维度单一,社会关系分析有局限性。在分析方式上大多数产品以舆情数据为主,不着重分析事件中实体之间的关联关系。实体分为多种类型,比如人物、学校、企业、政府机构等,现有技术多数并未将不同实体类型数据进行融合,导致分析结果信息量有限,分析维度单一。在可视化方面,分析结果多数以图表或者关系图的方式展示,在做关系深度挖掘和细度分析时,流程不合理,不能充分展示探索过程,且不能针对特定的目标做时序事件线索分析。在展示不同节点类型时,现有技术并不支持自定义节点和边,导致分析结果展示效果不够明确,用户体验差。

技术实现思路

[0006]本专利技术的目的是解决上述现有技术在做特定目标分析时不支持多领域综合分析,且可视化分析流程不符合用户进行线索挖掘时思维逻辑的问题,提出了一种基于知识图谱的特定目标可视化分析系统。
[0007]具体来说,本专利技术提出了一种基于知识图谱的特定目标可视化分析方法,包括:
[0008]步骤S1、获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用
流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;
[0009]步骤S2、以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。
[0010]所述的基于知识图谱的特定目标可视化分析方法,步骤2中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;
[0011]该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。
[0012]所述的基于知识图谱的特定目标可视化分析方法,该时序事件推理模型训练过程包括:
[0013]初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=s,r,t以及正确实体o,初始化查询表示向量为
[0014]从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p0,p1,...,p
N
},其中N与l为自定义参数;
[0015]通过路径编码器编码线索集中的路径,对于路径p=[s,r0,t0,o0,r1,t1,o1,...,r
l
‑1,t
l
‑1,o
l
‑1](其中s0=s),编码公式为(0≤k≤l

1):
[0016]t
k
=σ(W
r
Δt
k
+U
r
h
k
‑1[0017][0018][0019]上述公式中的Δt
k
=t
k

t
k
‑1(当k=0时,Δt
k
=0);t
k
代表时序门限控制表示,代表本单元编码的语义信息,W
r
,W
h
与U
r
,U
h
代表4个映射矩阵,为路径中第k步对应关系与实体向量;LSTM第k步的输出为h
k

[0020]路径p对应第l

1步的输出h
l
‑1成为该路径的编码向量p,据此,得到路径线索集的编码向量{p0,p1,...,p
N
};
[0021]使用Softmax计算每个编码向量对于查询的attention分值{α0,α1,...,α
N
};
[0022]通过路径线索集的编码向量,得到全局线索表示
[0023]通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG0,SG1,...,SG
t
‑1};
[0024]使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG0,SG1,...,SG
t
‑1};
[0025]使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SG
t

[0026]结合全局线索表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的特定目标可视化分析方法,其特征在于,包括:步骤S1、获取来自多个数据源包括实体数据和动态事件数据的基础数据库,采用流式文本单遍聚类方法对该基础数据库中各数据源的话题进行分类,并对各数据源的关键信息、实体及实体间关系信息进行提取,融合各数据源的提取结果构建知识图谱;步骤S2、以待分析的特定目标检索该知识图谱,得到该特定目标的目标实体和关联事件;对该目标实体进行人员分析和组织分析,形成该目标实体的实体画像;以节点和边形式展示该目标实体与其关联实体之间或该目标实体与该关联事件的关联关系。2.如权利要求1所述的基于知识图谱的特定目标可视化分析方法,其特征在于,步骤2中该关联事件包括时序事件线索推理事件;基于该特定目标和该知识图谱,通过基于事件图神经注意力网络的时序事件推理模型,预测该特定目标参与事件的趋势,得到该时序事件线索推理事件;该时序事件推理模型包括:线索收集模块和线索推理;线索收集模块用于在由已知动态事件构造的事件知识图谱F中召回有助于推理查询q的事件线索;线索收集模块由随机游走采集器和路径编码器构成,前者的功能是依据给定的查询信息,在事件知识图谱中检索若干条从s出发的N条长度为l的路径线索,并组装为线索集;路径编码器由一个单向LSTM编码器实现,用于将随机游走采集器收集的路径编码为向量信息,并计算线索集每条路径的权重系数,以便线索推理模块进行下一步推理;线索推理模块的目标是依据线索收集模块召回有助于推理查询q的事件线索信息中,推理出隐含事件集合;线索推理模块由子图编码模块与时序推理模块构成;子图编码模块由图神经网络构成,用于理解每一时刻中线索的拓扑特征,时序推理模块由单向循环神经网络构成,用于学习线索随时间单向演化的规律,并预测时序事件的未来发展,得到该时序事件线索推理事件。3.如权利要求2所述的基于知识图谱的特定目标可视化分析方法,其特征在于,该时序事件推理模型训练过程包括:初始化实体向量、关系向量与时间向量,设置为可训练模式;对于查询q=(s,r,t)以及正确实体o,初始化查询表示向量为从特定目标实体s出发,通过该随机游走采集器采样N条长度为l的路径线索,组装为线索集P={p0,p1,...,p
N
},其中N与l为自定义参数;通过路径编码器编码线索集中的路径,对于路径p=[s,r0,t0,o0,r1,t1,o1,...,r
l
‑1,t
l
‑1,o
l
‑1](其中s0=s),编码公式为(0≤k≤l

1):t
k
=σ(W
r
Δt
k
+U
r
h
k
‑1))上述公式中的Δt
k
=t
k

t
k
‑1(当k=0时,Δt
k
=0);t
k
代表时序门限控制表示,代表本单元编码的语义信息,W
r
,W
h
与U
r
,U
h
代表4个映射矩阵,为路径中第k步对应关系与实体向量;LSTM第k步的输出为h
k
;路径p对应第l

1步的输出h
l
‑1成为该路径的编码向量p,据此,得到路径线索集的编码向量{p0,p1,...,p
N
};
使用Softmax计算每个编码向量对于查询的attention分值{α0,α1,...,α
N
};通过路径线索集的编码向量,得到全局线索表示通过线索集P,依据路径中事件时间信息的构建查询子图序列{SG0,SG1,...,SG
t
‑1};使用子图编码模块的图神经网络编码子图序列中每一个子图,得到子图中的节点表示{SG0,SG1,...,SG
t
‑1};使用该时序推理模块的单向循环神经网络编码上述子图序列的节点表示,输出t时刻的子图节点表示SG
t
;结合全局线索表示计算SG
t
中每个节点的匹配分数;选取匹配分数最高的实体o

与正确实体o,通过二分类损失函数计算本次训练的损失,通过反向传播算法训练更新该时序事件推理模型。4.如权利要求1所述的基于知识图谱的特定目标可视化分析方法,其特征在于,该步骤S1包括:构建多源异构数据融合模型,用于根据不同数据源的提取结果,补全不同数据源实体之间的映射关系,实现各数据源的提取结果的融合,构建该知识图谱;其中该多源异构数据融合模型包括实体表示模块与实体映射关系推理模块;实体表示模块用于根据实体的文本描述信息、时态信息以及其邻居的结构信息来编码实体的特征,作为映射关系挖掘的依据,该实体表示模块由实体文本描述信息编码模块、时间信息编码模块和结构信息编码模块组成;实体的文本描述信息编码由预训练语言模型BERT结合神经网络全连接层实现;时间信息的编码则是使用Time2vec算法表示;而对于结构信息,则是通过将实体描述信息以及时间信息的表示进行拼接作为输入,并通过带注意力机制的图神经网络进行编码,最终将编码后得到的向量作为实体的最终表示;该实体映射关系推理模块用于根据实体的该最终表示来推理实体之间所存在的映射关系;实体映射关系推理模块由实体表示翻译模块和实体映射匹配模块两部分组成;实体表示翻译模块由多层感知机(MLP)构成,用于将源自于不同数据源的实体的表示映射到统一的语义空间;实体映射匹配模块则是首先通过余弦相似度的方式计算不同源的实体表示匹配程度,并以匹配程度的数值为依据,进行实体映射匹配,最终得到实体之间的映射关系,实现多源异构数据融合,得到该知识图谱。5.一种基于知识图谱的特定目标可视化分析系统,其特征在于,包括:知识图谱构建模块,用于获取来自多个数据源包括实体数据和动态事件...

【专利技术属性】
技术研发人员:王元卓沈英汉程松庆江旭晖胡玉龙陈中正李子健
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1