一种基于时序知识图谱的事件检测方法和装置制造方法及图纸

技术编号:36245710 阅读:45 留言:0更新日期:2023-01-07 09:36
本发明专利技术公开了一种基于时序知识图谱的事件检测方法和装置,其中,该方法包括:获取待检测事件,待检测事件包括多个文本数据以及每个文本数据对应的时间戳;以及,根据补全后的时序知识图谱训练预测模型,得到训练好的预测模型;将待检测事件输入训练好的预测模型,以得到待检测事件的检测结果。本发明专利技术能够对时序知识图谱直接进行补全,减小了搜索空间,提升了事件检测的性能。事件检测的性能。事件检测的性能。

【技术实现步骤摘要】
一种基于时序知识图谱的事件检测方法和装置


[0001]本专利技术涉及信息技术及数据业务领域,尤其涉及一种基于时序知识图谱的事件检测方 法和装置。

技术介绍

[0002]时序知识图谱是带有时间属性的事实的集合,如图1所示。时序知识图谱可表示为四 元组的集合G={(s,r,o,t)},其中s代表头实体,o代表尾实体,r代表关系,t代表时间, 如(梅西,获奖,世界足球先生,2009年)。通常,时序知识图谱具有不完整性的特点, 即每个时间戳下可能缺失了部分事实。此外,它还具有不断更新的特点,即新的事实会不 断出现。因此,时序知识图谱主要有2个任务:补全和预测。补全任务即补全每个时间戳 下缺失的事实,而预测任务即预测未来会发生什么事实。
[0003]目前主流的时序知识图谱补全方法包括Hyte,DE

SimplE,TComplEx。这一类方法是 基于模型参数和数值向量,通过得分函数学会判断真四元组和假四元组。但这一类模型都 是判别式模型,不是生成式模型,由于搜索空间巨大(所有可能的四元组的搜索空间大小 为O(实体数
×
关系数
×
实体数
×
时间戳数)),因此无法直接补全缺失的事实。
[0004]目前主流的时序知识图谱预测方法包括RE

NET,CyGNet。这一类方法是基于已发生 的历史事实,预测未来的事实。但它们都没有考虑到图谱不完整性对预测的影响。理论上, 由于图谱的不完整性,用于预测的线索可能缺失,因此可能导致预测的性能下降。因此, 产生了先对图谱补全,再做预测的需求。但由于现有补全模型都是判别式模型,因此无法 直接进行补全。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本专利技术的目的在于改进现有判别式的知识图谱补全模型,解决无法直接补全缺 失事实的问题,从而补充了用于事件真实性评估的线索,解决了事件真实性评估性能存在 缺陷的问题,提出了一种基于时序知识图谱的事件检测方法。
[0007]本专利技术的另一个目的在于提出一种基于时序知识图谱的事件检测装置。
[0008]为达上述目的,本专利技术一方面提出了基于时序知识图谱的事件检测方法,包括以下步 骤:
[0009]获取待检测事件,所述待检测事件包括多个文本数据以及每个文本数据对应的时间戳; 以及,
[0010]根据补全后的时序知识图谱训练预测模型,得到训练好的预测模型;
[0011]将所述待检测事件输入所述训练好的预测模型,以得到所述待检测事件的检测结果。
[0012]本专利技术实施例的基于时序知识图谱的事件检测方法,通过获取待检测事件,待检测事 件包括多个文本数据以及每个文本数据对应的时间戳;以及,根据补全后的时序知识
图谱 训练预测模型,得到训练好的预测模型;将待检测事件输入训练好的预测模型,以得到待 检测事件的检测结果。本专利技术能够对时序知识图谱直接进行补全,减小了搜索空间,提升 了事件检测的性能。
[0013]另外,根据本专利技术上述实施例的基于时序知识图谱的事件检测方法还可以具有以下附 加的技术特征:
[0014]进一步地,所述根据补全后的时序知识图谱训练预测模型之前,还包括:
[0015]根据时序知识图谱补全模型训练得到所述补全后的时序知识图谱。
[0016]进一步地,所述根据时序知识图谱补全模型训练得到所述补全后的时序知识图谱,包 括:
[0017]利用所述时序知识图谱进行补全模型训练,学习训练集的所有事实,得到第一得分函 数模型,以计算已发生时间戳每个四元组成立的概率;
[0018]通过对所述时序知识图谱的逐时间戳补全,从所述训练集的所有事实得到候选三元组, 将所述候选三元组与每个所述已发生时间戳组合得到候选四元组;
[0019]通过所述补全模型对所述候选四元组进行评分,选出评分最高的预设个数的候选四元 组补全当前时间戳,以得到所述补全后的时序知识图谱。
[0020]进一步地,所述根据补全后的时序知识图谱训练预测模型,以得到训练好的预测模型, 包括:
[0021]将所述补全后的时序知识图谱输入预测模型进行模型训练;
[0022]基于所述模型训练,得到第二得分函数模型;
[0023]根据所述第二得分函数模型,计算未来时间戳每个四元组成立的概率,以得到训练好 的预测模型。
[0024]进一步地,所述将所述待检测事件输入所述训练好的预测模型,以得到所述待检测事 件的检测结果,包括:
[0025]在完成所述预测模型的训练后,对所述未来时间戳每个四元组进行评分,得到评分结 果;
[0026]基于所述评分结果,通过与负样本进行比较和排名评估事件检测性能,以得到所述待 检测事件的检测结果。
[0027]进一步地,所述根据时序知识图谱补全模型训练得到所述补全后的时序知识图谱,还 包括:
[0028]通过忽略时间戳,将所有事实用于补全的候选三元组:
[0029]G
static
={(s,r,o)|(s,r,o,t)∈G
t
}
[0030]对每个时间戳t,与所述补全的候选三元组组合,得到所述候选四元组:
[0031][0032]使用在所述时序知识图谱上训练得到的DE

SimplE对所述候选四元组进行评分,选出 得分最高的前k个四元组,作为所述每个时间戳t的补全事件:
[0033][0034]则所述每个时间戳t的图谱更新为:
[0035][0036]进一步地,所述根据补全后的时序知识图谱训练预测模型,以得到训练好的预测模型, 包括:
[0037]通过循环事件网络RE

NET定义时序知识图谱G的所有事实的概率分布为:
[0038][0039]其中,G
i:j
代表从时间戳i到j的事实集合,时间戳t的每个头实体s的概率从时间戳t

1 的图特征片t

1得到:
[0040][0041]每个关系r的概率由头实体s的局部特征e
s
和历史特征h
t
‑1(s)得到:
[0042][0043]每个尾实体o的概率依赖于头实体s、关系r的局部特征e
s
,e
r
以及历史特征h
t
‑1(s,r)得 到:
[0044][0045]通过拷贝生成网络CyGNet,对于时间t
k
,每一个要查询的四元组(s,p,?,t
k
)的历史词 汇为:
[0046][0047]其中,是N维的multi

hot向量,拷贝模块生成索引向量:
[0048]v
q
=tanh(W
c
[s,p,t
k
]+b...

【技术保护点】

【技术特征摘要】
1.一种基于时序知识图谱的事件检测方法,其特征在于,包括以下步骤:获取待检测事件,所述待检测事件包括多个文本数据以及每个文本数据对应的时间戳;以及,根据补全后的时序知识图谱训练预测模型,得到训练好的预测模型;将所述待检测事件输入所述训练好的预测模型,以得到所述待检测事件的检测结果。2.根据权利要求1所述的基于时序知识图谱的事件检测方法,其特征在于,所述根据补全后的时序知识图谱训练预测模型之前,还包括:根据时序知识图谱补全模型训练得到所述补全后的时序知识图谱。3.根据权利要求2所述的基于时序知识图谱的事件检测方法,其特征在于,所述根据时序知识图谱补全模型训练得到所述补全后的时序知识图谱,包括:利用所述时序知识图谱进行补全模型训练,学习训练集的所有事实,得到第一得分函数模型,以计算已发生时间戳每个四元组成立的概率;通过对所述时序知识图谱的逐时间戳补全,从所述训练集的所有事实得到候选三元组,将所述候选三元组与每个所述已发生时间戳组合得到候选四元组;通过所述补全模型对所述候选四元组进行评分,选出评分最高的预设个数的候选四元组补全当前时间戳,以得到所述补全后的时序知识图谱。4.根据权利要求3所述的基于时序知识图谱的事件检测方法,其特征在于,所述根据补全后的时序知识图谱训练预测模型,以得到训练好的预测模型,包括:将所述补全后的时序知识图谱输入预测模型进行模型训练;基于所述模型训练,得到第二得分函数模型;根据所述第二得分函数模型,计算未来时间戳每个四元组成立的概率,以得到训练好的预测模型。5.根据权利要求4所述的基于时序知识图谱的事件检测方法,其特征在于,所述将所述待检测事件输入所述训练好的预测模型,以得到所述待检测事件的检测结果,包括:在完成所述预测模型的训练后,对所述未来时间戳每个四元组进行评分,得到评分结果;基于所述评分结果,通过与负样本进行比较和排名评估事件检测性能,以得到所述待检测事件的检测结果。6.根据权利要求3所述的基于时序知识图谱的事件检测方法,其特征在于,所述根据时序知识图谱补全模型训练得到所述补全后的时序知识图谱,还包括:通过忽略时间戳,将所有事实用于补全的候选三元组:G
static
={(s,r,o)|(s,r,o,t)∈G
t
}对每个时间戳t,与所述补全的候选三元组组合,得到所述候选四元组:使用在所述时序知识图谱上训练得到的DE

SimplE对所述候选四元组进行评分,选出得分最高的前k个四元组,作为所述每个时间戳t的补全事件:则所述每个时间戳t的图谱更新为:
7.根据权利要求4所述的基于时序知识图谱的事件检测方法,其特征在于,所述根据补全后的时序知识图谱训练预测模型,以得到训练好的预测模型,包括:通过循环事件网络RE

NET定义时序知识图谱G的所有事实的概率分布为:其中,G
...

【专利技术属性】
技术研发人员:鄂海红宋美娜许友日
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1