一种基于生成扩散的知识图谱补全方法及系统技术方案

技术编号：40413445 阅读：8 留言：0更新日期：2024-02-20 22:31

本发明专利技术公开了一种基于生成扩散的知识图谱补全方法及系统，属于知识图谱技术领域，具体包括：采用知识图谱嵌入模型TransE，学习知识图谱实体和关系的嵌入向量，构建基于生成扩散的反事实样本生成模型，包括构建语义编码器与条件去噪扩散隐式模型，语义编码器将原有的嵌入向量转化为潜在语义向量并作为条件输入到条件去噪扩散隐式模型中，条件去噪扩散隐式模型通过正向和逆向扩散过程获得原有的嵌入向量的反事实样本，构建基于卷积神经网络的知识图谱补全模型，将原有的嵌入向量和反事实样本输入到训练好的知识图谱补全模型，降序排序所有样本的预测得分，选择得分排序靠前的样本进行知识图谱的补全，提高知识图谱补全的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于知识图谱，具体的说是一种基于生成扩散的知识图谱补全方法及系统。

技术介绍

1、知识图谱是将实体与各种类型的关系连接起来的信息的结构化表示，在信息组织、数据集成、语义理解和知识发现等方面发挥着关键作用。然而，随着新兴语料的不断出现，知识图谱经常会面临稀疏数据的情况，这会严重影响其可用性和安全性。因此，知识图谱补全是人工智能和知识表示领域的一项关键任务，它涉及预测知识图谱中缺失的关系或边缘。完成知识图谱补全有助于发现以前未知的事实或关系，识别潜在的安全威胁或隐私泄露，提高知识图谱的全面性和准确性，使其更适用于各种应用，例如信息检索、问答和推荐系统。

2、随着深度学习的发展，各种具有强大学习能力的神经网络将知识图谱补全(即链接预测)推到了更高的水平。为了使神经网络取得更好的效果，最关键的是要提高输入样本的质量。从知识图谱中提取的输入样本通常被归类为正样本，但高质量负样本的构造却是一个具有挑战性的问题。我们不能将知识图谱中未发生的链接视为真正的负样本，因为它们可能会在未来出现或由于数据丢失而出现。优秀的负样本是图中两个实体之间不允许存在或不正确事实的关系。因此负样本的好坏将极大地影响学习模型的质量。目前，最有效的生成负样本的方法例如igan、kbgan和noigan等模型，主要采用生成对抗网络产生适应高维空间的负样本，并选择合适的抽样策略，包括随机采样、破坏正实例、类型化采样、关系采样和最近邻采样等。但是由于生成对抗网络的训练不稳定，鉴别器产生的回报在训练中总是变化，导致负样本质量缺乏多样性和真实性，知识图谱补

3、如授权公告号为cn113360664b的中国专利公开了一种知识图谱补全方法，先下载知识图谱并获取每个关系的文本描述，然后基于文本嵌入方式获取每个关系的向量初始化，再将每个关系的向量初始化输入到下载知识图谱中，得到新的知识图谱；用户提供待补全的三元组，将其头实体和尾实体输入至msnn网络，在msnn网络内，通过两个并行的子网络分别提取实体的上下文信息和关系路径特征；最后根据上下文信息和关系路径特征推断出缺失的关系，并补全到原知识图谱中。

4、如授权公告号为cn110347847b的中国专利公开了一种基于神经网络的知识图谱补全方法，涉及自然语言处理
，其包括：s1、在嵌入层将知识图谱k中的三元组(s，r，o)转换为句子[sro]，利用向量表示技术把句子[sro]转换为k维稠密向量表示形式xi＝[vs，vr，vo]；s2、在循环层利用bilstm网络从输入特征向量xi中学习句子的长期依赖性，得到循环层特征向量hrnn；s3、在卷积层利用卷积神经网络从特征向量hrnn中学习局部结构信息，得到卷积层特征向量hcnn；s4、在全连接层将卷积层特征向量hcnn转化为每一个三元组(s，r，o)的得分。该知识图谱补全方法在不依靠任何外部数据的情况下，利用循环和卷积神经网络捕获知识图谱中事实的长期依赖性和局部结构信息，同时保留实体和关系的传递特征，学习能力更高。

技术实现思路

1、针对现有技术的不足，本专利技术提出了一种基于生成扩散的知识图谱补全方法及系统，采用更先进的生成模型弥补未知负样本模拟不足的缺陷，同时构造出具有真实性和多样性的反事实样本，从而提高知识图谱补全的准确性和鲁棒性。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于生成扩散的知识图谱补全方法，包括以下具体步骤：

4、步骤s1：基于知识图谱嵌入模型transe，学习知识图谱实体和关系的嵌入向量，transe模型的输入为知识图谱实体与关系的三元组样本，输出为知识图谱实体和关系的嵌入向量；

5、步骤s2：构建基于生成扩散的反事实样本生成模型，包括语义编码器与条件去噪扩散隐式模型conditional-ddim，语义编码器将嵌入向量编码到潜在空间中，得到潜在语义向量；条件去噪扩散隐式模型的输入为潜在语义向量和嵌入向量，输出为重构的嵌入向量，即反事实样本；

6、步骤s3：建立基于生成扩散的反事实样本生成模型的损失函数，并同时训练和更新语义编码器和条件去噪扩散隐式模型的参数；

7、步骤s4：将测试样本输入训练好的语义编码器得到潜在语义向量，然后将潜在语义向量和测试样本输入到训练好的条件去噪扩散隐式模型conditional-ddim，conditional-ddim模型通过正向和逆向扩散过程获得原有的嵌入向量的反事实样本；

8、步骤s5：构建并训练基于卷积神经网络的知识图谱补全模型，模型的输入为知识图谱实体和关系的嵌入向量，输出嵌入向量的预测得分，将原有的嵌入向量和其反事实样本输入到训练好的知识图谱补全模型，降序排序所有样本的预测得分，选择得分排序靠前的样本进行知识图谱的补全。

9、具体的，所述步骤s1的具体方法为：

10、步骤s101：设定知识图谱中的三元组样本为(h,r,t)，其中，h表示知识图谱中的头实体，r表示知识图谱中的关系，t表示知识图谱中的尾实体，h,t∈e为实体的集合，训练一个知识图谱嵌入模型transe，每次训练抽取的样本数量为num/400，其中num表示整个训练集中的样本数量；

11、步骤s102：transe模型训练的损失函数的计算公式为：

12、

13、其中，h′和t′为随机从训练集中抽取的头实体和尾实体，l表示随机从训练集中抽取的知识图谱的关系，γ为一个大于0的参数，函数d为l2范数。s和s'为三元组的集合，

14、[x]+表示x的正数部分；

15、步骤s103：采用随机梯度下降优化方法更新transe模型中实体和关系的向量值。

16、具体的，所述步骤s2中的具体方法为：

17、步骤s201：反事实样本生成模型中的语义编码器为变分自编码器中的编码器部分，其输入为transe模型学习到的嵌入向量x0，输出为潜在语义向量zlatent；

18、步骤s202：条件去噪扩散隐式模型conditional-ddim的前向扩散过程对嵌入向量x0逐步添加满足高斯分布的噪声，经过t个时间步后，直到整个样本成为满足正态分布的噪声，计算公式为：

19、

20、其中，q(xt-1|xt)表示满足正态分布的噪声，xt表示t时刻的嵌入向量，xt-1表示t-1时刻的嵌入向量，αt表示噪声水平参数，n(·)表示正态分布函数；

21、步骤s203：在conditional-ddim的逆向过程中，从满足正态分布的噪声出发，以zlatent作为条件，推导上一个时间步的分布pθ(xt-1|xt,zlatent)，计算公式为：

22、...

【技术保护点】

1.一种基于生成扩散的知识图谱补全方法，其特征在于，包括以下具体步骤：

2.如权利要求1所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤S1的具体方法为：

3.如权利要求2所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤S2中的具体方法为：

4.如权利要求3所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤S3的具体方法为：

5.如权利要求4所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤S4的具体方法为：

6.如权利要求5所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤S5的具体方法为：

7.一种基于生成扩散的知识图谱补全系统，其基于权利要求1-6中任一项所述的一种基于生成扩散的知识图谱补全方法实现，其特征在于，包括：知识图谱预处理模块，离线核心模型训练模块，实时知识图谱补全模块；

8.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的一种基于

9.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，当计算机指令运行时执行权利要求1-6中任一项所述的一种基于生成扩散的知识图谱补全方法的步骤。

...

【技术特征摘要】

1.一种基于生成扩散的知识图谱补全方法，其特征在于，包括以下具体步骤：

2.如权利要求1所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤s1的具体方法为：

3.如权利要求2所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤s2中的具体方法为：

4.如权利要求3所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤s3的具体方法为：

5.如权利要求4所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所述步骤s4的具体方法为：

6.如权利要求5所述的一种基于生成扩散的知识图谱补全方法，其特征在于，所...

【专利技术属性】
技术研发人员：张楠，杨文清，张万才，张文强，苏婧仪，
申请(专利权)人：南瑞集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人