一种常识知识图谱的存储方法、系统技术方案

技术编号:39167636 阅读:17 留言:0更新日期:2023-10-23 15:05
本发明专利技术提供一种常识知识图谱的存储方法、系统,涉及知识图谱领域,包括:获取原始常识知识图谱;从原始常识知识图谱中抽取实体和关系;根据实体和关系确定实体之间的语义相似度和词形相似度;利用实体聚合算法对语义相似度和词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱。本发明专利技术通过知识图谱存储方法获得三元组的头实体、关系、尾实体,从而产生中间状态的常识知识图谱,有助于知识图谱嵌入的学习过程。且该过程低耦合,可以快速适配和接入新业务数据,而且无需人工标注数据。同时,该预设实体聚合算法可以应用于处理通用领域的知识图谱,不仅局限于常识知识图谱,也可以插入到通用知识图谱的数据理解的流程之中。插入到通用知识图谱的数据理解的流程之中。插入到通用知识图谱的数据理解的流程之中。

【技术实现步骤摘要】
一种常识知识图谱的存储方法、系统


[0001]本专利技术涉及知识图谱领域,特别涉及一种常识知识图谱的存储方法、系统、存储介质和电子设备。

技术介绍

[0002]当前,现有的常识知识库存在包含大量噪音,以及实体关系稀疏的问题,例如ConceptNet知识库中的实体是自然语言短语,以“shoot”和“shooting”为例,二者只是时态的变化,但是会当成两个不同实体。此外还有近似的表达“up there”和“up to there”也会当成两个不同的实体。自然语言短语的表达十分多样化,这些情况导致了知识库中大量本该合并的实体没有合并,从而关系和实体都很稀疏,不利于对图结构的编码。从模型工作机制角度,由于实体关系的稀疏性会出现学习效果不好的情况。
[0003]同时,现有的知识图谱嵌入工具包无法直接应用于常识知识库压缩,在实际应用中,几乎学习不到有效的知识图谱嵌入表示。

技术实现思路

[0004]本专利技术的目的是提供一种常识知识图谱的存储方法、系统、存储介质和电子设备,能够增强常识知识图谱嵌入的学习过程。
[0005]为解决上述技术问题,本专利技术提供一种常识知识图谱的存储方法,具体技术方案如下:获取原始常识知识图谱;从所述原始常识知识图谱中抽取实体和关系;根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度;利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱;将压缩后的所述常识知识图谱存储至数据中心。
[0006]其中,从所述原始常识知识图谱中抽取实体和关系包括:利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示。
[0007]其中,利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示包括:将所述原始常识知识图谱中常识节点输入基于深度自注意力模型的自注意力模型,得到所述常识节点对应的表征向量。
[0008]其中,从所述原始常识知识图谱中抽取实体和关系后,还包括:对所述实体和关系按照预设向量格式进行格式化。
[0009]其中,根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度包括:计算各所述表征向量之间的语义相似度;
计算各所述实体对应字符串之间的词形相似度。
[0010]其中,计算各所述表征向量之间的语义相似度包括:利用余弦向量计算公式计算各所述表征向量之间的余弦相似度。
[0011]其中,计算各所述向量表示的词形相似度包括:利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度:;其中,表示杰卡德相似系数,表示莱文斯坦距离,σ表示控制曲率的可调超参数,用于控制所述莱文斯坦距离的重要性。
[0012]其中,计算各所述实体对应字符串之间的词形相似度之后,还包括:利用知识图谱嵌入模型优化所述向量表示。
[0013]其中,利用知识图谱嵌入模型优化所述向量表示时,还包括:在嵌入空间实现;其中,均表示聚合之后的实体集合。
[0014]其中,还包括:对于聚合的所述实体集合,利用实体集合代替所有实体;对于无需聚合的实体,采用原始实体,以确保所述实体集合中每个实体都采用与实体集合相同的实体向量。
[0015]其中,所述知识图谱嵌入模型的优化目标函数为:
[0016]其中代表只考虑取值为正的部分,为一个大于0的间隔超参数,则采用范数或范数;表示训练模型使用的正样本,表示训练模型使用的负样本;表示头部的统一资源标识符,表示尾部的统一资源标识符。
[0017]其中,还包括:通过替换三元组的头实体或尾实体得到所述训练模型使用的负样本。
[0018]其中,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:计算所述莱文斯坦距离的第一时间复杂度。
[0019]其中,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:计算所述杰卡德相似系数的第二时间复杂度。
[0020]其中,利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度后,还包括:计算预训练语言模型中矩阵计算的第三时间复杂度。
[0021]其中,计算预训练语言模型中矩阵计算的第三时间复杂度之后,还包括:采用两个哈希表计算近似复杂度,并根据所述第一时间复杂度、所述第二时间复
杂度和所述第三时间复杂度确定算法总体复杂度。
[0022]其中,利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱之后,还包括:将知识库转换成资源描述标记语言三元组,并采用数据库部署所述资源描述标记语言三元组。
[0023]其中,得到压缩后的常识知识图谱之后,包括:利用图数据库导入算法存储压缩后的所述常识知识图谱。
[0024]其中,利用图数据库导入算法存储压缩后的所述常识知识图谱包括:利用应用程序编程接口或搭建集群导入压缩后的所述常识知识图谱并存储。
[0025]本专利技术还提供一种常识知识图谱的存储系统,包括:图谱获取模块,用于获取原始常识知识图谱;数据抽取模块,用于从所述原始常识知识图谱中抽取实体和关系;相似度计算模块,用于利用预设实体聚合算法聚合所述实体得到中间态知识图谱;压缩模块,用于利用预设常识知识压缩算法对所述中间态知识图谱,得到常识知识图谱嵌入表示;存储模块,用于将压缩后的所述常识知识图谱存储至数据中心。
[0026]基于上述实施例,作为可行的实施例,数据抽取模块包括:向量表示获取单元,用于利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示。
[0027]基于上述实施例,作为可行的实施例,在所述数据抽取模块执行完之后,还包括:格式化模块,用于对所述实体和关系按照预设格式进行格式化。
[0028]基于上述实施例,作为可行的实施例,格式化模块包括:词形相似度计算单元,用于计算各所述实体对应字符串之间的词形相似度。
[0029]基于上述实施例,作为可行的实施例,向量表示获取单元包括:向量表示获取子单元,用于基于深度自注意力模型的自注意力模型获得所述原始常识知识图谱中常识节点的向量表示。
[0030]基于上述实施例,作为可行的实施例,词形相似度计算单元包括:余弦相似度计算子单元,用于利用余弦向量计算公式计算各所述表征向量之间的余弦相似度。
[0031]基于上述实施例,作为可行的实施例,词形相似度计算单元包括:词形相似度确定子单元,用于利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度。
[0032]基于上述实施例,作为可行的实施例,词形相似度确定子单元为利用利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度的单元;其中,;其中,表示杰卡德相似系数,表示莱文斯坦距离,σ表示控制曲率的可调超参数,用于控制所述莱文斯坦距离的重要性。
[0033]基于上述实施例,作为可行的实施例,在所述词形相似度计算单元执行完之后,还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种常识知识图谱的存储方法,其特征在于,包括:获取原始常识知识图谱;从所述原始常识知识图谱中抽取实体和关系;根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度;利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合,得到压缩后的常识知识图谱;将压缩后的所述常识知识图谱存储至数据中心。2.根据权利要求1所述的存储方法,其特征在于,从所述原始常识知识图谱中抽取实体和关系包括:利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示;所述向量表示为包含所述实体和所述关系的向量表达式。3.根据权利要求2所述的存储方法,其特征在于,利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示包括:将所述原始常识知识图谱中常识节点输入基于深度自注意力模型的自注意力模型,得到所述常识节点对应的表征向量。4.根据权利要求3所述的存储方法,其特征在于,从所述原始常识知识图谱中抽取实体和关系后,还包括:对所述实体和关系按照预设向量格式进行格式化。5.根据权利要求4所述的存储方法,其特征在于,根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度包括:计算各所述表征向量之间的语义相似度;计算各所述实体对应字符串之间的词形相似度。6.根据权利要求5所述的存储方法,其特征在于,计算各所述表征向量之间的语义相似度包括:利用余弦向量计算公式计算各所述表征向量之间的余弦相似度。7.根据权利要求4所述的存储方法,其特征在于,计算各所述实体对应字符串之间的词形相似度包括:利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度:;其中,表示杰卡德相似系数,表示莱文斯坦距离,表示控制曲率的可调超参数,用于控制所述莱文斯坦距离的重要性。8.根据权利要求5所述的存储方法,其特征在于,计算各所述实体对应字符串之间的词形相似度之后,还包括:利用知识图谱嵌入模型优化所述向量表示。9.根据权利要求8所述的存储方法,其特征在于,利用知识图谱嵌入模型优化所述向量表示时,还包括:在嵌入空间实现;
其中,r表示关系,,均表示聚合之后的实体集合。10.根据权利要求9所述的存储方法,其特征在于,还包括:对于聚合的所述实体集合,利用实体集合代替所有实体;对于无需聚合的实体,采用原始实体,以确保所述实体集合中每个实体都采用与实体集合相同的实体向量。11.根据权利要求8所述的存储方法,其特征在于,所述知识图谱嵌入模型的优化目标函数为:;其中代表只考虑取值为正的部分,为一个大于0的间隔超参数,则采用范数或范数;表示训练模型使用的正样本,表示训练模型使用的负样本;表示头部的统一资源标识符,表示尾部的统...

【专利技术属性】
技术研发人员:朱洪银张闯王敏
申请(专利权)人:广东浪潮智慧计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1