当前位置: 首页 > 专利查询>清华大学专利>正文

结合实体描述的知识图谱表示学习方法和系统技术方案

技术编号:15704856 阅读:86 留言:0更新日期:2017-06-26 10:04
本发明专利技术提供了一种结合实体描述的知识图谱表示学习方法和系统,本发明专利技术中,提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息,也利用了实体描述中蕴含的文本信息,使用模型学习得到的两种实体向量表示方式,能够在知识图谱补全以及实体分类等任务中得到更高的准确率;同时基于描述的向量表示通过文本信息构建实体向量,能够很好地对新实体或训练集中不存在的实体进行表示,具有良好的实用性。

【技术实现步骤摘要】
结合实体描述的知识图谱表示学习方法和系统
本专利技术涉及自然语言处理以及知识图谱领域,尤其涉及一种结合实体描述的知识图谱表示学习方法和系统。
技术介绍
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据中获取有价值的信息成为一个难题。知识图谱于此应运而生。知识图谱将世上所有人物、地名、书名、球队名等专有名词与事物表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如,北京是中国的首都这一知识,在知识图谱中则利用三元组关系(北京,是……首都,中国)进行表示。知识图谱能够对一个关键词的不同语义建立不同的实体,消除语言多义性的干扰,同时能够展现目标实体与其它相关实体之间更深更广的内在联系,被广泛运用于数据挖掘、信息检索、问答系统等多个领域。由于现有实体规模巨大,且实体与关系每日都在变化与增加,难以人工维护与挖掘新的信息,对知识图谱的表示与自动补全是当今重要的研究热点。知识图谱实体数量巨大,网络结构稀疏性严重。而近年来在知识图谱的研究上取得了显著的进展,表示学习运用于知识图谱中,将所有实体与关系映射到一个低维连续向量空间中,解决了之前知识图谱学习时产生的稀疏性与效率问题。但是,目前已有的知识图谱表示学习方法在训练时需要学习实体之间的关系,对于新出现的实体无法进行表示;同时,绝大多数已有的方法仅使用了知识图谱中实体之间的结构关系,而忽略了知识图谱中的实体文本描述等额外信息,知识图谱补全以及实体分类等任务中准确率比较低。
技术实现思路
本专利技术的一个目的在于解决如下技术问题:如何提供一种新的结合实体描述的知识图谱表示学习方法,高效准确地完成知识图谱的表示学习,以克服现有技术无法表示新的实体,以及未能充分利用实体描述信息的问题。第一方面,本专利技术提供了一种结合实体描述的知识图谱表示学习方法,该方法包括:步骤S1、以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;步骤S2、根据实体向量与关系向量之间基于转化的模型,对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;步骤S3、使用步骤S2学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果。进一步的,当建立的模型为模型一时,所述步骤S1具体包括:步骤S11a,构建数据集和进行预处理;所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;步骤S12a,根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;步骤S13a,基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;步骤S14a,从关键词词向量构建实体基于描述的向量表示。进一步的,当建立的模型为模型二时,步骤S1具体包括:步骤S11b,构建数据集和进行预处理;所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;步骤S12b,根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;步骤S13b,根据用户输入设置卷积层的结构与参数;步骤S14b,根据用户输入设置池化层的结构与参数;步骤S15b,利用前向传播过程建立实体基于描述的向量表示。进一步的,当步骤S13b中用户输入的池化层的层数为2时,步骤S13b中得到的第一层池化层的输出公式为第二层池化层的输出公式为其中n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数,表示第l层卷积层输出矩阵的第i个向量。进一步的,所述步骤S2具体包括:步骤S21,根据实体向量与关系向量之间基于转化的模型,构造能量方程;所述能量方程为E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||,其中hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于描述的向量表示,td为尾实体基于描述的向量表示;步骤S22、通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习与更新;其中,基于边际的评价函数其中γ>0是超参数,d(h+r,t)是评价t和h+r相似度的函数;h′为首实体的负例的向量表示;t′为尾实体的负例的向量表示;r′尾实体的负例的向量表示;T是三元关系组的正例集,T′是三元关系组的负例集第二方面,本专利技术提供了一种结合实体描述的知识图谱表示学习系统,该系统包括:第一获取模块,用于以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;第二获取模块,用于根据实体向量与关系向量之间基于转化的模型,对第一获取模块得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;表示模块,用于使用第二获取模块学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果。进一步的,当建立的模型为模型一时,所述第一获取模块,具体用于构建数据集和进行预处理;根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;从关键词词向量构建实体基于描述的向量表示;其中,所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r。进一步的,当建立的模型为模型二时,所述第一获取模块具体用于构建数据集和进行预处理;根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;根据用户输入设置卷积层的结构与参数;根据用户输入设置池化层的结构与参数;利用前向传播过程建立实体基于描述的向量表示;其中,所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r。进一步的,当用户输入的池化层的层数为2时,所述第一获取模块设置的第一层池化层的输出公式为第二层池化层的输出公式为其中n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数,表示第l层卷积层输出矩阵的第i个向量。进一步的,所述第二获取模块,具体用于根据实体向量与关系向量之间基于转化的模型,构造能量方程;所述能量方程为E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||;通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习与更新;其中,hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于描述的向量表示,td为尾实体基于描述的向量表示;r为关系的向量表示;基于边际的评价函数为其中γ>0是超参数,d(h+r,t)是评价t和h+r相似度的函数;h′为首实体的负例的向量表示;t′为尾实体的负例的向量表示;r′尾实体的负例的向量表示;T是三本文档来自技高网
...
结合实体描述的知识图谱表示学习方法和系统

【技术保护点】
一种结合实体描述的知识图谱表示学习方法,其特征在于,该方法包括:步骤S1、以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;步骤S2、根据实体向量与关系向量之间基于转化的模型,对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;步骤S3、使用步骤S2学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果。

【技术特征摘要】
1.一种结合实体描述的知识图谱表示学习方法,其特征在于,该方法包括:步骤S1、以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;步骤S2、根据实体向量与关系向量之间基于转化的模型,对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;步骤S3、使用步骤S2学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果。2.如权利要求1所述的方法,其特征在于,当建立的模型为模型一时,所述步骤S1具体包括:步骤S11a,构建数据集和进行预处理;所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;步骤S12a,根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;步骤S13a,基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;步骤S14a,从关键词词向量构建实体基于描述的向量表示。3.如权利要求1所述的方法,其特征在于,当建立的模型为模型二时,步骤S1具体包括:步骤S11b,构建数据集和进行预处理;所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;步骤S12b,根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;步骤S13b,根据用户输入设置卷积层的结构与参数;步骤S14b,根据用户输入设置池化层的结构与参数;步骤S15b,利用前向传播过程建立实体基于描述的向量表示。4.如权利要求3所述的方法,其特征在于,当步骤S13b中用户输入的池化层的层数为2时,步骤S13b中得到的第一层池化层的输出公式为第二层池化层的输出公式为其中n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数,表示第l层卷积层输出矩阵的第i个向量。5.如权利要求2或3所述的方法,其特征在于,所述步骤S2具体包括:步骤S21,根据实体向量与关系向量之间基于转化的模型,构造能量方程;所述能量方程为E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||,其中hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于描述的向量表示,td为尾实体基于描述的向量表示;步骤S22、通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习与更新;其中,基于边际的评价函数其中γ>0是超参数,d(h+r,t)是评价t和h+r相似度的函数;h′为首实体的负例的向量表示;t′为尾实体的负例的向量表示;r′尾...

【专利技术属性】
技术研发人员:孙茂松谢若冰刘知远栾焕博刘奕群马少平
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1