一种常识知识图谱的存储方法、系统技术方案

技术编号：39167636 阅读：17 留言：0更新日期：2023-10-23 15:05

本发明专利技术提供一种常识知识图谱的存储方法、系统，涉及知识图谱领域，包括：获取原始常识知识图谱；从原始常识知识图谱中抽取实体和关系；根据实体和关系确定实体之间的语义相似度和词形相似度；利用实体聚合算法对语义相似度和词形相似度均满足的实体进行聚合，得到压缩后的常识知识图谱。本发明专利技术通过知识图谱存储方法获得三元组的头实体、关系、尾实体，从而产生中间状态的常识知识图谱，有助于知识图谱嵌入的学习过程。且该过程低耦合，可以快速适配和接入新业务数据，而且无需人工标注数据。同时，该预设实体聚合算法可以应用于处理通用领域的知识图谱，不仅局限于常识知识图谱，也可以插入到通用知识图谱的数据理解的流程之中。插入到通用知识图谱的数据理解的流程之中。插入到通用知识图谱的数据理解的流程之中。

全部详细技术资料下载

【技术实现步骤摘要】
一种常识知识图谱的存储方法、系统

[0001]本专利技术涉及知识图谱领域，特别涉及一种常识知识图谱的存储方法、系统、存储介质和电子设备。

技术介绍

[0002]当前，现有的常识知识库存在包含大量噪音，以及实体关系稀疏的问题，例如ConceptNet知识库中的实体是自然语言短语，以“shoot”和“shooting”为例，二者只是时态的变化，但是会当成两个不同实体。此外还有近似的表达“up there”和“up to there”也会当成两个不同的实体。自然语言短语的表达十分多样化，这些情况导致了知识库中大量本该合并的实体没有合并，从而关系和实体都很稀疏，不利于对图结构的编码。从模型工作机制角度，由于实体关系的稀疏性会出现学习效果不好的情况。
[0003]同时，现有的知识图谱嵌入工具包无法直接应用于常识知识库压缩，在实际应用中，几乎学习不到有效的知识图谱嵌入表示。

技术实现思路

[0004]本专利技术的目的是提供一种常识知识图谱的存储方法、系统、存储介质和电子设备，能够增强常识知识图谱嵌入的学习过程。
[0005]为解决上述技术问题，本专利技术提供一种常识知识图谱的存储方法，具体技术方案如下：获取原始常识知识图谱；从所述原始常识知识图谱中抽取实体和关系；根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度；利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合，得到压缩后的常识知识图谱；将压缩后的所述常识知识图谱存储至数据中心。
[0006]其中，从所述原...

【技术保护点】

【技术特征摘要】
1.一种常识知识图谱的存储方法，其特征在于，包括：获取原始常识知识图谱；从所述原始常识知识图谱中抽取实体和关系；根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度；利用实体聚合算法对所述语义相似度和所述词形相似度均满足的实体进行聚合，得到压缩后的常识知识图谱；将压缩后的所述常识知识图谱存储至数据中心。2.根据权利要求1所述的存储方法，其特征在于，从所述原始常识知识图谱中抽取实体和关系包括：利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示；所述向量表示为包含所述实体和所述关系的向量表达式。3.根据权利要求2所述的存储方法，其特征在于，利用预训练语言模型获得所述原始常识知识图谱中常识节点的向量表示包括：将所述原始常识知识图谱中常识节点输入基于深度自注意力模型的自注意力模型，得到所述常识节点对应的表征向量。4.根据权利要求3所述的存储方法，其特征在于，从所述原始常识知识图谱中抽取实体和关系后，还包括：对所述实体和关系按照预设向量格式进行格式化。5.根据权利要求4所述的存储方法，其特征在于，根据所述实体和所述关系确定所述实体之间的语义相似度和词形相似度包括：计算各所述表征向量之间的语义相似度；计算各所述实体对应字符串之间的词形相似度。6.根据权利要求5所述的存储方法，其特征在于，计算各所述表征向量之间的语义相似度包括：利用余弦向量计算公式计算各所述表征向量之间的余弦相似度。7.根据权利要求4所述的存储方法，其特征在于，计算各所述实体对应字符串之间的词形相似度包括：利用莱文斯坦距离和杰卡德相似系数确定各所述实体对应字符串之间的词形相似度：；其中，表示杰卡德相似系数，表示莱文斯坦距离，表示控制曲率的可调超参数，用于控制所述莱文斯坦距离的重要性。8.根据权利要求5所述的存储方法，其特征在于，计算各所述实体对应字符串之间的词形相似度之后，还包括：利用知识图谱嵌入模型优化所述向量表示。9.根据权利要求8所述的存储方法，其特征在于，利用知识图谱嵌入模型优化所述向量表示时，还包括：在嵌入空间实现；
其中，r表示关系，，均表示聚合之后的实体集合。10.根据权利要求9所述的存储方法，其特征在于，还包括：对于聚合的所述实体集合，利用实体集合代替所有实体；对于无需聚合的实体，采用原始实体，以确保所述实体集合中每个实体都采用与实体集合相同的实体向量。11.根据权利要求8所述的存储方法，其特征在于，所述知识图谱嵌入模型的优化目标函数为：；其中代表只考虑取值为正的部分，为一个大于0的间隔超参数，则采用范数或范数；表示训练模型使用的正样本，表示训练模型使用的负样本；表示头部的统一资源标识符，表示尾部的统...

【专利技术属性】
技术研发人员：朱洪银，张闯，王敏，
申请(专利权)人：广东浪潮智慧计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人