基于负采样的知识图谱训练方法及可读存储介质技术

技术编号：40357021 阅读：8 留言：0更新日期：2024-02-09 14:42

本发明专利技术涉及一种基于负采样的知识图谱训练方法，包括提供至少一正样本；基于层次类型实体信息和实体关系共现信息，通过获取至少一正负样本对来对知识图谱嵌入模型的表征能力进行至少一次训练；其中进行一次训练包括：提供针对一目标正样本的至少一候选负样本；获取表征候选负样本的层次类型实体信息和实体关系共现信息的相似度特征数据；基于相似度特征数据，从至少一候选负样本中获取一目标负样本；通过由目标正样本和目标负样本构成的正负样本对，对知识图谱嵌入模型的表征能力进行一次训练。本发明专利技术通过正负样本对对知识图谱嵌入模型进行训练，并通过动态地选取适用于不同训练阶段的知识图谱嵌入模型的负样本，有效地提高模型的表达能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种基于负采样的知识图谱训练方法及可读存储介质。

技术介绍

1、知识图谱为各类人工智能系统提供了大量的常识与背景知识，是各类自然语言处理任务，如文本生成、问答系统、个性化推荐等应用场景不可或缺的组成部分。知识图谱嵌入模型将知识图谱转换为计算机可以理解的表征，这类表征需要通过正负样本的对比进行学习。然而，现有的知识图谱嵌入模型的负采样技术构成的负样本质量较差，限制了知识图谱嵌入模型的表征能力和实际应用中人工智能系统的性能。为了解决这个问题，许多新的负采样技术被提出，例如静态负采样技术和动态负采样技术。由于动态负采样技术良好的性能和即插即用的特性，其在实际中应用最为广泛，也是本专利技术主要聚焦的方法。动态负采样的目的在于随着嵌入模型学习的深入，构建更难以分辨、质量更高的负样本，进而持续稳定地提高嵌入模型的表征能力。

2、传统的动态负采样方法，仅利用了嵌入模型的特征空间中的实体相似性进行负样本的构建，然而静态负采样技术启发我们，层次类型实体信息等外部约束信息可以提供更准确、可靠的实体相似性来构建高质量的负样本。同时，现有的动态负采样方法需要额外的计算开销以实现特征空间实体相似性的计算，这使得这类方法难以应用于计算资源有限的场景，而且限制了所训练的知识图谱嵌入模型的模型尺寸。

技术实现思路

1、本专利技术主要解决的是现有动态负采样方法难以应用于计算资源有限的场景，而且限制了所训练的知识图谱嵌入模型的模型尺寸的技术问题。

2、根据第一方

3、提供至少一正样本；

4、基于层次类型实体信息和实体关系共现信息，通过获取至少一正负样本对来对知识图谱嵌入模型的表征能力进行至少一次训练；

5、其中，进行一次训练，包括：

6、提供针对一目标正样本的至少一候选负样本；

7、获取表征候选负样本的层次类型实体信息和实体关系共现信息的相似度特征数据；

8、基于相似度特征数据，从至少一候选负样本中获取一目标负样本；

9、通过由目标正样本和目标负样本构成的正负样本对，对知识图谱嵌入模型的表征能力进行一次训练。

10、优选地，所述获取表征候选负样本的层次类型实体信息和实体关系共现信息的相似度特征数据，包括：

11、在至少一候选负样本中，分别获取每一个候选负样本的层次类型实体相似度分数和实体关系共现相似度分数；

12、基于每一个候选负样本的层次类型实体相似度分数和实体关系共现相似度分数，得到每一个候选负样本的相似度特征数据；

13、其中，层次类型实体相似度分数用于表征候选负样本的层次类型实体信息，实体关系共现相似度分数用于表征候选负样本的实体关系共现信息；对于样本(e1,r,e2)，则有：层次类型实体相似度分数为实体关系共现相似度分数为相似度特征数据为s(e1|(r,e2))，e1和e2属于实体集合ε，r属于关系集合

14、优选地，所述基于相似度特征数据，从至少一候选负样本中获取一目标负样本，包括：

15、基于相似度特征数据，分别获取每一个候选负样本的采样概率；

16、将至少一候选负样本中采样概率最高的候选负样本作为目标负样本。

17、优选地，所述通过由目标正样本和目标负样本构成的正负样本对，对知识图谱嵌入模型的表征能力进行一次训练，包括：

18、对知识图谱嵌入模型的采样器进行至少一次更新；和/或

19、基于正负样本对，对知识图谱嵌入模型进行一次更新；

20、其中，所述采样器用于从至少一候选负样本中获取一目标负样本。

21、优选地，所述对知识图谱嵌入模型的采样器进行至少一次更新，包括：

22、分别获取目标采样概率和候选负样本的采样概率；

23、通过计算损失函数来对采样器进行至少一次更新。

24、优选地，所述基于正负样本对，对知识图谱嵌入模型进行一次更新，包括：

25、根据正负样本对，分别计算知识图谱嵌入模型基于距离的损失函数和基于概率的损失函数；

26、根据基于距离的损失函数和基于概率的损失函数对知识图谱嵌入模型进行一次更新。

27、根据第二方面，一种实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现任一上述的基于负采样的知识图谱训练方法。

28、据上述实施例的基于负采样的知识图谱训练方法，通过层次类型实体信息和实体关系共现信息来表征相似度特征数据，获取目标负样本，通过由目标正样本和目标负样本构成的正负样本对，对知识图谱嵌入模型的表征能力进行训练，从而利用层次类型实体信息进行低计算开销、可靠的相似性计算构建高质量的负样本提高知识图谱嵌入模型的表示能力，通过动态地选取适用于不同训练阶段的知识图谱嵌入模型的负样本，有效地提高模型的表达能力。

本文档来自技高网...

【技术保护点】

1.一种基于负采样的知识图谱训练方法，其特征在于，包括：

2.如权利要求1所述的基于负采样的知识图谱训练方法，其特征在于，所述获取表征候选负样本的层次类型实体信息和实体关系共现信息的相似度特征数据，包括：

3.如权利要求2所述的基于负采样的知识图谱训练方法，其特征在于，对于样本(e1,r,e2)，层次类型实体相似度分数为实体关系共现相似度分数为相似度特征数据为s(e1|(r,e2))，e1和e2属于实体集合ε，r属于关系集合

4.如权利要求3所述的基于负采样的知识图谱训练方法，其特征在于，计算候选负样本的相似度特征数据，包括：

5.如权利要求1所述的基于负采样的知识图谱训练方法，其特征在于，所述基于相似度特征数据，从至少一候选负样本中获取一目标负样本，包括：

6.如权利要求5所述的基于负采样的知识图谱训练方法，其特征在于，所述分别获取每一个候选负样本的采样概率，包括：

7.如权利要求1所述的基于负采样的知识图谱训练方法，其特征在于，所述通过由目标正样本和目标负样本构成的正负样本对，对知识图谱嵌入模型的表征能力进行一次训练，包括：

8.如权利要求7所述的基于负采样的知识图谱训练方法，其特征在于，所述对知识图谱嵌入模型的采样器进行至少一次更新，包括：

9.如权利要求7所述的基于负采样的知识图谱训练方法，其特征在于，所述基于正负样本对，对知识图谱嵌入模型进行一次更新，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如权利要求1至9中任一项所述的基于负采样的知识图谱训练方法。

...

【技术特征摘要】

1.一种基于负采样的知识图谱训练方法，其特征在于，包括：

4.如权利要求3所述的基于负采样的知识图谱训练方法，其特征在于，计算候选负样本的相似度特征数据，包括：

5.如权利要求1所述的基于负采样的知识图谱训练方法，其特征在于，所述基于相似度特征数据，从至少一候选负样本中获取一目标负样本，包括：

6.如权利要求5所述的基于负...

【专利技术属性】
技术研发人员：沈颖，林振洲，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人