一种基于云模型的知识图谱表示方法技术

技术编号:23343482 阅读:56 留言:0更新日期:2020-02-15 03:55
本发明专利技术提出了一种基于云模型的知识图谱表示方法,包括以下步骤:获取数据集,按比例随机分为训练集和测试集;将训练集中每一个关系划分为多个语义,得到该关系的高斯混合模型;计算每一个关系中最能表达该关系的主语义;基于云模型计算每个主语义的语言值的坐标及其确定程度。本发明专利技术提出一种基于云模型的知识图谱表示方法,目标是在关系向量存在多语义性的前提下,获取最能表达该关系向量语义的的向量值,同时引入不确定性的思想,在新的评分函数中结合确定程度,使知识图谱的表示更加准确。

A representation method of knowledge map based on cloud model

【技术实现步骤摘要】
一种基于云模型的知识图谱表示方法
本专利技术涉及自然语言处理领域,具体涉及一种基于云模型的知识图谱表示方法。
技术介绍
随着互联网的发展,网络数据内容呈现爆炸式增长的态势。互联网内容大规模、异构多元、组织结构松散等特点给人们有效获取信息和知识提出了巨大的挑战。知识图谱(KnowledgeGraph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。因此,大规模知识图谱的研究和应用在学术界和工业界引起了足够的注意。知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。知识图谱于2012年由Google正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能技术的发展和应用,知识图谱逐渐成为关键技术之一,越来越多的研究人员致力于知识图谱(KG)的研究。知识图谱为知识的有效表示提供了一个新的机制,现已被广泛应用于专家系统、web搜索和问答等领域。基于翻译模型的知识表示认为,知识图谱中的每一条知识通常由三元组(head,relation,tail)表示,其中,head表示三元组中的头实体,tail表示三元组中的尾实体,relation表示头实体和尾实体之间的语义关系;虽然传统的基于翻译的模型在很多情况下被证明是有效的,但这种模型认为一个关系只对应一个翻译向量,因此不能解决存在多个语义关系的问题。例如has_part关系,(sichuan,HasPart,chengdu)表示的是地域关系,而(house,HasPart,door)则表示一种成分关系。此外,不同的关系具有不同的确定程度。
技术实现思路
为解决上述问题,本专利技术提出了一种基于云模型的知识图谱表示方法,包括以下步骤:获取数据集,按比例随机分为训练集和测试集;将训练集中每一个关系划分为多个语义,得到该关系的高斯混合模型;计算每一个关系中最能表达该关系的主语义;基于云模型计算每个主语义的语言值的坐标及其确定程度。进一步地,所述将训练集中每一个关系划分为多个语义,得到该关系的高斯混合模型具体包括以下步骤:将训练集中的三元组进行聚类表示得到多条语义,采用高斯混合模型的思想,将每条语义表示成其高斯分布,再将最终的关系表示为多个高斯分布的混合形式,具体公式为:其中,t表示三元组中的尾实体向量,h表示三元组中的头实体向量,r表示三元组中的关系向量,σ为方差,N(ur,m,σ2)表示数学期望为ur,m、方差为σ2的正态分布,M表示单个关系r包含的语义数量,ur,m表示第m个语义的翻译向量,λr,m表示第m个语义的权重,λr,m由贝叶斯统计筛选得到。进一步地,所述计算每一个关系中最能表达该关系的主语义具体为:利用贝叶斯非参数统计对训练数据集进行统计,得到每一个关系中每条语义的权重,获得最能够表达该关系的主语义m*,具体公式为:其中,表示主语义,用主语义的向量表示代替三元组的关系向量r,(h,r,t)表示三元组的向量表示,其中表示头实体向量h和尾实体向量t之间的欧式距离。进一步地,所述基于云模型计算每个主语义的语言值的坐标及其确定程度具体包括以下步骤:对于给定的三元组的向量表示通过二维正态云发生器生成云滴具体为:产生一个期望值为均方差为的二维正态随机熵产生一个期望值为均方差为的二维正态随机数则:其中为主语义m*的语言值的坐标,为属于主语义m*的语言值的确定程度;因此,得到最能够表达主语义m*的坐标值:进一步地,所述的基于云模型的知识图谱表示方法,其特征在于,还包括:构建评分函数,并对测试集进行预处理获取测试三元组的评分排名,用平均排名得分(MeanRank)和排名不大于10的比例(Hits@10)作为评价指标,对所述方法进行评价。进一步地,所述构建评分函数,并对测试集进行预处理获取测试三元组的评分排名,用平均排名得分(MeanRank)和排名不大于10的比例(Hits@10)作为评价指标,对所述方法进行评价,具体包括以下步骤:从测试集中随机抽取一个三元组(h,r,t),用测试集中的实体随机替换该三元组的头实体(或尾实体)构造一个测试三元组(h′,r,t′);进行“Filter”设置,具体为:在对每一个测试三元组的排名之前,将已经存在于训练集和测试集中的正确三元组剔除(不包括测试目标(h,r,t));通过评分函数对每个测试三元组进行打分,评分函数P{(h,r,t)}的公式具体为:其中,(h,r,t)为测试数据集中的三元组的向量表示。本专利技术与现有技术相比,有益效果在于:本专利技术在关系向量存在多语义性的前提下,获取最能表达该关系向量语义的的向量值,同时引入不确定性的思想,使得知识图谱的表示更加准确。附图说明图1是本专利技术的流程示意图。具体实施方式下面结合附图对本专利技术作进一步详细描述。在本公开中参照附图来描述本专利技术的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本专利技术的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本专利技术所公开的构思和实施例并不限于任何实施方式。另外,本专利技术公开的一些方面可以单独使用,或者与本专利技术公开的其他方面的任何适当组合来使用。下面以数据集Yoochoose为本专利技术的一实施例并结合图1对本专利技术进行进一步描述,具体描述如下。本专利技术公开了一种基于云模型的知识图谱表示方法,包括以下步骤:一种基于云模型的知识图谱表示方法,其目标在于获取最能够表达某个关系语义的坐标值以及确定程度,构建高质量的故障诊断知识图谱;所述方法包括以下步骤:S1:首先获取故障诊断知识的数据集,按比例随机分为训练集和测试集,具体为;从WordNet和Freebase的四个公共基准数据集(WN18、FB15k、WN11、FB13)获取实验数据集,将数据集按照4:1的比例随机分为训练集和测试集;其中,WordNet是由普林斯顿大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典;Freebase是个类似维基百科的创作共享类网站(所有内容都由用户添加,采用创意共用许可证,可以自由引用)。S2:将训练集中每一个关系划分为多个语义,得到该关系的高斯混合模型,具体为:S11:将训练集中的三元组进行聚类表示得到多条语义,采用高斯混合模型的思想,将每条语义表示成其高斯分布,再将最终的关系表示为多个高斯分布的混合形式,具体公式为:其中,t表示三元组中的尾实体向量,h表示三元组中的头实体向量,r表示三元组中的关系向量,σ为方差,N(ur,m,σ2)表示数学期望为ur,m、方差为σ2的正态分布,M表示单个关系r包含的语义数量,ur,m表示第m个语义的翻译向量,λr,m表示本文档来自技高网
...

【技术保护点】
1.一种基于云模型的知识图谱表示方法,其特征在于,包括以下步骤:/n获取数据集,按比例随机分为训练集和测试集;/n将训练集中每一个关系划分为多个语义,得到该关系的高斯混合模型;/n计算每一个关系中最能表达该关系的主语义;/n基于云模型计算每个主语义的语言值的坐标及其确定程度。/n

【技术特征摘要】
1.一种基于云模型的知识图谱表示方法,其特征在于,包括以下步骤:
获取数据集,按比例随机分为训练集和测试集;
将训练集中每一个关系划分为多个语义,得到该关系的高斯混合模型;
计算每一个关系中最能表达该关系的主语义;
基于云模型计算每个主语义的语言值的坐标及其确定程度。


2.根据权利要求1所述的基于云模型的知识图谱表示方法,其特征在于,所述将训练集中每一个关系划分为多个语义,得到该关系的高斯混合模型具体包括以下步骤:
将训练集中的三元组进行聚类表示得到多条语义,采用高斯混合模型的思想,将每条语义表示成其高斯分布,再将最终的关系表示为多个高斯分布的混合形式,具体公式为:



其中,t表示三元组中的尾实体向量,h表示三元组中的头实体向量,r表示三元组中的关系向量,σ为方差,N(ur,m,σ2)表示数学期望为ur,m、方差为σ2的正态分布,M表示单个关系r包含的语义数量,ur,m表示第m个语义的翻译向量,λr,m表示第m个语义的权重,λr,m由贝叶斯统计筛选得到。


3.根据权利要求1所述的基于云模型的知识图谱表示方法,其特征在于,所述计算每一个关系中最能表达该关系的主语义具体为:
利用贝叶斯非参数统计对训练数据集进行统计,得到每一个关系中每条语义的权重,获得最能够表达该关系的主语义m*,具体公式为:






其中,表示主语义,用主语义的向量表示代替三元组的关系向量r,
(h,r,t)表示三元组的向量表示,其中表示头实体向量h和尾实体向量t之间的欧式距离。


4.根据权利要求1所述的基于云...

【专利技术属性】
技术研发人员:刘学军周航蒋军成李斌王志荣
申请(专利权)人:南京工业大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1