多角度引入属性语义的知识表示学习方法和系统技术方案

技术编号:26598896 阅读:27 留言:0更新日期:2020-12-04 21:21
本发明专利技术涉及一种多角度引入属性语义的知识表示学习方法和系统。所述方法包括:对结点的属性语义进行表征,得到属性文本的嵌入式表示;将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。其中,采用以下两种方式中的至少一种对结点的属性语义进行表征:利用词袋模型对属性的语义进行表征;将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。本发明专利技术提供了两种引入属性语义的角度,对数字形式的外部数据进行了更充分的利用,并最终提高了表示学习效果。

【技术实现步骤摘要】
多角度引入属性语义的知识表示学习方法和系统
本专利技术涉及知识表示学习领域,特别涉及融合数字外部信息的知识表示的建模,具体涉及一种多角度引入属性语义的知识表示学习方法和系统。
技术介绍
近些年,知识图谱(KnowledgeGraph,KG)推动了许多知识驱动的应用,如问答和数据集成。DBpedia、Freebase、YAGO3是知识图谱中应用最广泛,也最为人们熟知的数据集。它们将知识存储在包含两个实体及其关系的三元组中。面向知识图谱的表示学习是知识工程领域中十分重要的一项工作,这项工作促进了一些下游任务的开展,如链路预测和实体分类等。知识表示学习(KGrepresentationLearning)也称为知识嵌入学习(KGEmbedding),目的是将知识图谱的元素编码为低维的嵌入式表示。这些量化的嵌入式表示可以捕获全局模式(也称为基于结构的信息),并使计算给定三元组的存在性成为可能。目前,基于实体和关系之间连接关系(结构信息)的知识表示学习方法可以分为基于翻译的模型、基于语义匹配的模型和基于神经网络的模型三类。TransE及其引申模型等基于翻译的模型把关系看作两个实体之间的翻译操作,并以此作为训练的目标。语义匹配模型,如RESCAL、DistMult、ComplEx,利用三维矩阵来表示图谱,此矩阵中的值代表是否存在该三元组,他们通过矩阵分解来得到实体和关系的表示。ConvE和ConvKB等神经网络模型则是引入神经网络作为其核心结构。近年来,越来越多的工作试图在传统的包含结构信息的数据库中添加额外的信息,以更详细地描述实体或关系。这些外部信息往往通过具体的属性与实体或关系进行连接。根据这些外部信息的数据类型,模型可分为四类:基于文本外部信息的模型(DKRL,KDCoE),基于图像外部信息的模型(IKRL),基于数字外部信息的模型(LiteralE,MT-KGNN,KBLRN)以及基于多模态外部信息的模型(EAKGAE,MKBE)。它们对这些外部信息进行编码,并将它们与实体或关系的嵌入式表示相结合,得到了更佳的实体表示。如在融合图像信息的工作中,IKRL为现有知识图谱中的实体添加相应的图片,利用CNN或注意力模型对图片信息进行表征,并将其与实体表征结合,利用TransE的思想学习实体和关系的向量表示,该工作将图片中的包含关系或是视觉上的相似关系加入到知识图谱表示当中;在融合文本的工作中,DKRL利用自然语言处理方法对文本数据进行表征并与结点表征进行融合,同样在TransE的框架下对三元组的表征进行学习;在融合数字外部信息的工作中,LiteralE对结点的数字描述依据其属性构造表征向量,并同样与结点表征进行融合输入到表示学习框架中(该方法将会在方法原理部分作细致说明)。但是已有的引入数字外部信息的方法仅将属性作为构造表示向量时维度划分的依据,而忽略了属性本身的语义。因此,属性语义信息的编码以及语义信息同数字外部信息的融合是十分必要的工作。这将会使得外部数据信息得到充分利用,并提升表示学习效果,从而为下游任务提供帮助。
技术实现思路
本专利技术的主要目的在于提供两种引入属性语义信息的角度,即通过不同的方法对语义信息进行编码,并利用两种方式将其与结点的嵌入式表示以及数字外部信息的嵌入式表示进行结合。这两个角度都对先前的数字形式的外部数据进行了更充分的利用,并最终提高了表示学习效果。本专利技术的另一目的在于利用更优的嵌入式表示结果进行基于知识图谱的链接预测。本专利技术采用的技术方案如下:一种多角度引入属性语义的知识表示学习方法,包括以下步骤:对结点的属性语义进行表征,得到属性文本的嵌入式表示;将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。进一步地,所述对结点的属性语义进行表征,采用以下两种方式中的至少一种:利用词袋模型对属性的语义进行表征;将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。进一步地,所述利用词袋模型对属性的语义进行表征,包括:提取属性的描述性词汇,构造属性语义的嵌入式向量,该向量的各个维度为各个描述性词汇;当某个属性包含某个描述性词汇时,则该描述性词汇对应的维度处数值表示为1,不存在的描述性词汇所对应维度处表示为0,即构成属性的词袋特征。进一步地,将属性的词袋特征与数字外部信息的嵌入式表示结合,形成新的数字外部信息的嵌入式表示;将新的数字外部信息的嵌入式表示与结点的嵌入式表示融合,代入到融合数字外部信息的知识表示学习模型中,得到实体和关系的嵌入式表示。进一步地,所述将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征,包括:将属性预处理为文本形式,并针对结点进行汇总,每个结点都得到一个描述性文段;通过自然语言处理工具对描述性文段进行处理,得到文段的嵌入式表示。进一步地,将文段的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示进行融合,代入到融合文本外部信息的知识表示学习模型中,得到实体和关系的嵌入式表示。进一步地,所述将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中,包括:将三部分嵌入式表示通过方程g进行融合,并得到同结点表征维度相同的表征向量;其中方程g为线性映射或非线性映射;在线性映射中,三部分嵌入式表征向量首先通过收尾连接得到一个新的衔接表征向量,该衔接表征向量通过乘以映射乘积矩阵变换到指定空间,而非线性映射则对三部分单独的表征向量和其首尾连接得到的衔接表征向量都予以考虑,各个部分均乘以其各自的映射矩阵,并将最终结果通过sigmoid函数和双曲非线性函数进行变换,从而得到指定空间下的向量;最终三元组各个元素的表征同时输入目标函数进行计算,计算结果为代表该三元组存在性的概率值。进一步地,在训练神经网络的过程中,输入为经过空间映射后的表征向量,输出为表示三元组存在可能性的概率值,训练过程中所计算得到的概率值与真实的标签之间的差距将作为反向迭代的依据,通过训练使得计算得到的概率值逐渐逼近真实的标签;通过反向传播,结点和关系的表征向量和参与运算的矩阵将进行迭代,每轮迭代过程包括根据与真实标签差距的反馈进行反向迭代更新,再利用更新后的向量重新正向计算概率值,在每步的迭代过程都使得结点和关系的表征向量得到调整,从而使其正向计算结果与真实标签接近,训练得到的三元组表征即为最终结点和关系的表征向量。一种多角度引入属性语义的知识表示学习系统,其包括:属性语义表征模块,用于对结点的属性语义进行表征,得到属性文本的嵌入式表示;融合模块,用于将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;知识表示学习模块,用于通过融合数字本文档来自技高网
...

【技术保护点】
1.一种多角度引入属性语义的知识表示学习方法,其特征在于,包括以下步骤:/n对结点的属性语义进行表征,得到属性文本的嵌入式表示;/n将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;/n通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。/n

【技术特征摘要】
1.一种多角度引入属性语义的知识表示学习方法,其特征在于,包括以下步骤:
对结点的属性语义进行表征,得到属性文本的嵌入式表示;
将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;
通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。


2.根据权利要求1所述的方法,其特征在于,所述对结点的属性语义进行表征,采用以下两种方式中的至少一种:
利用词袋模型对属性的语义进行表征;
将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。


3.根据权利要求2所述的方法,其特征在于,所述利用词袋模型对属性的语义进行表征,包括:
提取属性的描述性词汇,构造属性语义的嵌入式向量,该向量的各个维度为各个描述性词汇;
当某个属性包含某个描述性词汇时,则该描述性词汇对应的维度处数值表示为1,不存在的描述性词汇所对应维度处表示为0,即构成属性的词袋特征。


4.根据权利要求3所述的方法,其特征在于,将属性的词袋特征与数字外部信息的嵌入式表示结合,形成新的数字外部信息的嵌入式表示;将新的数字外部信息的嵌入式表示与结点的嵌入式表示融合,代入到融合数字外部信息的知识表示学习模型中,得到实体和关系的嵌入式表示。


5.根据权利要求2所述的方法,其特征在于,所述将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征,包括:
将属性预处理为文本形式,并针对结点进行汇总,每个结点都得到一个描述性文段;
通过自然语言处理工具对描述性文段进行处理,得到文段的嵌入式表示。


6.根据权利要求5所述的方法,其特征在于,将文段的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示进行融合,代入到融合文本外部信息的知识表示学习模型中,得到实体和关系的嵌入式表示。


7.根据权利要求1所述的方法,其特征在于,所述将属性文本的嵌入式表示与结点的...

【专利技术属性】
技术研发人员:高能李名扬屠晨阳李敏彭佳单亦伟
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1