一种基于云模型的知识图谱表示方法技术

技术编号：23343482 阅读：56 留言：0更新日期：2020-02-15 03:55

本发明专利技术提出了一种基于云模型的知识图谱表示方法，包括以下步骤：获取数据集，按比例随机分为训练集和测试集；将训练集中每一个关系划分为多个语义，得到该关系的高斯混合模型；计算每一个关系中最能表达该关系的主语义；基于云模型计算每个主语义的语言值的坐标及其确定程度。本发明专利技术提出一种基于云模型的知识图谱表示方法，目标是在关系向量存在多语义性的前提下，获取最能表达该关系向量语义的的向量值，同时引入不确定性的思想，在新的评分函数中结合确定程度，使知识图谱的表示更加准确。

A representation method of knowledge map based on cloud model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于云模型的知识图谱表示方法
本专利技术涉及自然语言处理领域，具体涉及一种基于云模型的知识图谱表示方法。
技术介绍
随着互联网的发展，网络数据内容呈现爆炸式增长的态势。互联网内容大规模、异构多元、组织结构松散等特点给人们有效获取信息和知识提出了巨大的挑战。知识图谱(KnowledgeGraph)以其强大的语义处理能力和开放组织能力，为互联网时代的知识化组织和智能应用奠定了基础。因此，大规模知识图谱的研究和应用在学术界和工业界引起了足够的注意。知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。知识图谱于2012年由Google正式提出，其初衷是为了提高搜索引擎的能力，改善用户的搜索质量以及搜索体验。随着人工智能技术的发展和应用，知识图谱逐渐成为关键技术之一，越来越多的研究人员致力于知识图谱(KG)的研究。知识图谱为知识的有效表示提供了一个新的机制，现已被广泛应用于专家系统、web搜索和问答等领域。基于翻译模型的知识表示认为，知识图谱中的每一条知识通常由三元组(head,relation,tail)表示，其中，head表示三元组中的头实体，tail表示三元组中的尾实体，relation表示头实体和尾实体之间的语义关系；虽然传统的基于翻译的模型在很多情况下被证明是有效的，但这种模型认为一个关系只对应一个翻译向量，因此不能解决存在多个语义关系的问题。例如has_part关系，(sichuan,HasPart,chengdu)表示的是地域关系，而(house,HasPart,door)则表示一种成分关系。此外...

【技术保护点】
1.一种基于云模型的知识图谱表示方法，其特征在于，包括以下步骤：/n获取数据集，按比例随机分为训练集和测试集；/n将训练集中每一个关系划分为多个语义，得到该关系的高斯混合模型；/n计算每一个关系中最能表达该关系的主语义；/n基于云模型计算每个主语义的语言值的坐标及其确定程度。/n

【技术特征摘要】
1.一种基于云模型的知识图谱表示方法，其特征在于，包括以下步骤：
获取数据集，按比例随机分为训练集和测试集；
将训练集中每一个关系划分为多个语义，得到该关系的高斯混合模型；
计算每一个关系中最能表达该关系的主语义；
基于云模型计算每个主语义的语言值的坐标及其确定程度。

2.根据权利要求1所述的基于云模型的知识图谱表示方法，其特征在于，所述将训练集中每一个关系划分为多个语义，得到该关系的高斯混合模型具体包括以下步骤：
将训练集中的三元组进行聚类表示得到多条语义，采用高斯混合模型的思想，将每条语义表示成其高斯分布，再将最终的关系表示为多个高斯分布的混合形式，具体公式为：

其中，t表示三元组中的尾实体向量，h表示三元组中的头实体向量，r表示三元组中的关系向量，σ为方差，N(ur，m，σ2)表示数学期望为ur，m、方差为σ2的正态分布，M表示单个关系r包含的语义数量，ur，m表示第m个语义的翻译向量，λr，m表示第m个语义的权重，λr，m由贝叶斯统计筛选得到。

3.根据权利要求1所述的基于云模型的知识图谱表示方法，其特征在于，所述计算每一个关系中最能表达该关系的主语义具体为：
利用贝叶斯非参数统计对训练数据集进行统计，得到每一个关系中每条语义的权重，获得最能够表达该关系的主语义m*，具体公式为：

其中，表示主语义，用主语义的向量表示代替三元组的关系向量r，
(h，r，t)表示三元组的向量表示，其中表示头实体向量h和尾实体向量t之间的欧式距离。

4.根据权利要求1所述的基于云...

【专利技术属性】
技术研发人员：刘学军，周航，蒋军成，李斌，王志荣，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人