结合实体描述的知识图谱表示学习方法和系统技术方案

技术编号：15704856 阅读：97 留言：0更新日期：2017-06-26 10:04

本发明专利技术提供了一种结合实体描述的知识图谱表示学习方法和系统，本发明专利技术中，提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息，也利用了实体描述中蕴含的文本信息，使用模型学习得到的两种实体向量表示方式，能够在知识图谱补全以及实体分类等任务中得到更高的准确率；同时基于描述的向量表示通过文本信息构建实体向量，能够很好地对新实体或训练集中不存在的实体进行表示，具有良好的实用性。

全部详细技术资料下载

【技术实现步骤摘要】
结合实体描述的知识图谱表示学习方法和系统
本专利技术涉及自然语言处理以及知识图谱领域，尤其涉及一种结合实体描述的知识图谱表示学习方法和系统。
技术介绍
随着社会飞速发展，我们已经进入信息爆炸时代，每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台，用户对有效信息筛选与归纳的需求日益迫切，如何从海量数据中获取有价值的信息成为一个难题。知识图谱于此应运而生。知识图谱将世上所有人物、地名、书名、球队名等专有名词与事物表示为实体，将实体之间的内在联系表示为关系，旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如，北京是中国的首都这一知识，在知识图谱中则利用三元组关系(北京，是……首都，中国)进行表示。知识图谱能够对一个关键词的不同语义建立不同的实体，消除语言多义性的干扰，同时能够展现目标实体与其它相关实体之间更深更广的内在联系，被广泛运用于数据挖掘、信息检索、问答系统等多个领域。由于现有实体规模巨大，且实体与关系每日都在变化与增加，难以人工维护与挖掘新的信息，对知识图谱的表示与自动补全是当今重要的研究热点。知识图谱实体数量巨大，网络结构稀疏性严重。而近年来在知识图谱的研究上取得了显著的进展，表示学习运用于知识图谱中，将所有实体与关系映射到一个低维连续向量空间中，解决了之前知识图谱学习时产生的稀疏性与效率问题。但是，目前已有的知识图谱表示学习方法在训练时需要学习实体之间的关系，对于新出现的实体无法进行表示；同时，绝大多数已有的方法仅使用了知识图谱中实体之间的结构关系，而忽略了知识图谱中的实体文本描述等额外信息，知识图谱补全以...
结合实体描述的知识图谱表示学习方法和系统

【技术保护点】
一种结合实体描述的知识图谱表示学习方法，其特征在于，该方法包括：步骤S1、以实体的文本描述为基础，建立模型一和/或模型二，基于建立的模型获取基于描述的向量表示；所述模型一为建立基于连续词袋的模型，所述模型二为建立基于卷积神经网络的模型；步骤S2、根据实体向量与关系向量之间基于转化的模型，对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示，并对基于结构的向量表示进行学习得到实体的第二向量表示；步骤S3、使用步骤S2学习得到的实体的向量表示，在不同任务中获取向量空间中的表示结果。

【技术特征摘要】
1.一种结合实体描述的知识图谱表示学习方法，其特征在于，该方法包括：步骤S1、以实体的文本描述为基础，建立模型一和/或模型二，基于建立的模型获取基于描述的向量表示；所述模型一为建立基于连续词袋的模型，所述模型二为建立基于卷积神经网络的模型；步骤S2、根据实体向量与关系向量之间基于转化的模型，对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示，并对基于结构的向量表示进行学习得到实体的第二向量表示；步骤S3、使用步骤S2学习得到的实体的向量表示，在不同任务中获取向量空间中的表示结果。2.如权利要求1所述的方法，其特征在于，当建立的模型为模型一时，所述步骤S1具体包括：步骤S11a，构建数据集和进行预处理；所述数据集包括知识图谱的实体关系三元组以及实体描述；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r；步骤S12a，根据用户输入设置基于连续词袋的模型参数，并对实体描述中的词向量进行初始化；步骤S13a，基于词袋模型的假设，利用文本特征从实体描述中抽取关键词；步骤S14a，从关键词词向量构建实体基于描述的向量表示。3.如权利要求1所述的方法，其特征在于，当建立的模型为模型二时，步骤S1具体包括：步骤S11b，构建数据集和进行预处理；所述数据集包括知识图谱的实体关系三元组以及实体描述；所述三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r；步骤S12b，根据用户输入设计卷积神经网络的整体结构，完成词向量的初始化；步骤S13b，根据用户输入设置卷积层的结构与参数；步骤S14b，根据用户输入设置池化层的结构与参数；步骤S15b，利用前向传播过程建立实体基于描述的向量表示。4.如权利要求3所述的方法，其特征在于，当步骤S13b中用户输入的池化层的层数为2时，步骤S13b中得到的第一层池化层的输出公式为第二层池化层的输出公式为其中n表示最大值池化中不重叠的窗口大小，m表示平均值池化的元素个数，表示第l层卷积层输出矩阵的第i个向量。5.如权利要求2或3所述的方法，其特征在于，所述步骤S2具体包括：步骤S21，根据实体向量与关系向量之间基于转化的模型，构造能量方程；所述能量方程为E(h,r,t)＝||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||，其中hs为首实体基于结构的向量表示，ts为尾实体基于结构的向量表示，hd为首实体基于描述的向量表示，td为尾实体基于描述的向量表示；步骤S22、通过后向传播算法，最小化基于边际的评价函数，对所有参数进行学习与更新；其中，基于边际的评价函数其中γ>0是超参数，d(h+r,t)是评价t和h+r相似度的函数；h′为首实体的负例的向量表示；t′为尾实体的负例的向量表示；r′尾...

【专利技术属性】
技术研发人员：孙茂松，谢若冰，刘知远，栾焕博，刘奕群，马少平，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人