多角度引入属性语义的知识表示学习方法和系统技术方案

技术编号：26598896 阅读：27 留言：0更新日期：2020-12-04 21:21

本发明专利技术涉及一种多角度引入属性语义的知识表示学习方法和系统。所述方法包括：对结点的属性语义进行表征，得到属性文本的嵌入式表示；将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合，代入到融合数字外部信息的知识表示学习模型中；通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。其中，采用以下两种方式中的至少一种对结点的属性语义进行表征：利用词袋模型对属性的语义进行表征；将属性看作结点的描述性文本，利用自然语言处理工具对描述性文本的语义进行表征。本发明专利技术提供了两种引入属性语义的角度，对数字形式的外部数据进行了更充分的利用，并最终提高了表示学习效果。

全部详细技术资料下载

【技术实现步骤摘要】
多角度引入属性语义的知识表示学习方法和系统
本专利技术涉及知识表示学习领域，特别涉及融合数字外部信息的知识表示的建模，具体涉及一种多角度引入属性语义的知识表示学习方法和系统。
技术介绍
近些年，知识图谱(KnowledgeGraph，KG)推动了许多知识驱动的应用，如问答和数据集成。DBpedia、Freebase、YAGO3是知识图谱中应用最广泛，也最为人们熟知的数据集。它们将知识存储在包含两个实体及其关系的三元组中。面向知识图谱的表示学习是知识工程领域中十分重要的一项工作，这项工作促进了一些下游任务的开展，如链路预测和实体分类等。知识表示学习(KGrepresentationLearning)也称为知识嵌入学习(KGEmbedding)，目的是将知识图谱的元素编码为低维的嵌入式表示。这些量化的嵌入式表示可以捕获全局模式(也称为基于结构的信息)，并使计算给定三元组的存在性成为可能。目前，基于实体和关系之间连接关系(结构信息)的知识表示学习方法可以分为基于翻译的模型、基于语义匹配的模型和基于神经网络的模型三类。TransE及其引申模型等基于翻译的模型把关系看作两个实体之间的翻译操作，并以此作为训练的目标。语义匹配模型，如RESCAL、DistMult、ComplEx，利用三维矩阵来表示图谱，此矩阵中的值代表是否存在该三元组，他们通过矩阵分解来得到实体和关系的表示。ConvE和ConvKB等神经网络模型则是引入神经网络作为其核心结构。近年来，越来越多的工作试图在传统的包含结构信息的数据库中添加额...

【技术保护点】
1.一种多角度引入属性语义的知识表示学习方法，其特征在于，包括以下步骤：/n对结点的属性语义进行表征，得到属性文本的嵌入式表示；/n将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合，代入到融合数字外部信息的知识表示学习模型中；/n通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。/n

【技术特征摘要】
1.一种多角度引入属性语义的知识表示学习方法，其特征在于，包括以下步骤：
对结点的属性语义进行表征，得到属性文本的嵌入式表示；
将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合，代入到融合数字外部信息的知识表示学习模型中；
通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。

2.根据权利要求1所述的方法，其特征在于，所述对结点的属性语义进行表征，采用以下两种方式中的至少一种：
利用词袋模型对属性的语义进行表征；
将属性看作结点的描述性文本，利用自然语言处理工具对描述性文本的语义进行表征。

3.根据权利要求2所述的方法，其特征在于，所述利用词袋模型对属性的语义进行表征，包括：
提取属性的描述性词汇，构造属性语义的嵌入式向量，该向量的各个维度为各个描述性词汇；
当某个属性包含某个描述性词汇时，则该描述性词汇对应的维度处数值表示为1，不存在的描述性词汇所对应维度处表示为0，即构成属性的词袋特征。

4.根据权利要求3所述的方法，其特征在于，将属性的词袋特征与数字外部信息的嵌入式表示结合，形成新的数字外部信息的嵌入式表示；将新的数字外部信息的嵌入式表示与结点的嵌入式表示融合，代入到融合数字外部信息的知识表示学习模型中，得到实体和关系的嵌入式表示。

5.根据权利要求2所述的方法，其特征在于，所述将属性看作结点的描述性文本，利用自然语言处理工具对描述性文本的语义进行表征，包括：
将属性预处理为文本形式，并针对结点进行汇总，每个结点都得到一个描述性文段；
通过自然语言处理工具对描述性文段进行处理，得到文段的嵌入式表示。

6.根据权利要求5所述的方法，其特征在于，将文段的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示进行融合，代入到融合文本外部信息的知识表示学习模型中，得到实体和关系的嵌入式表示。

7.根据权利要求1所述的方法，其特征在于，所述将属性文本的嵌入式表示与结点的...

【专利技术属性】
技术研发人员：高能，李名扬，屠晨阳，李敏，彭佳，单亦伟，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人