一种基于迭代模型的中文百科知识图谱分类体系构建方法技术

技术编号：13390502 阅读：69 留言：0更新日期：2016-07-22 14:01

本发明专利技术公开了一种基于迭代模型的中文百科知识图谱分类体系构建方法。知识图谱分类体系中包含两类节点:实体节点和类目节点,以及两类关系:Subclass‑of关系和Instance‑of关系。Subclass‑of关系用来描述类目节点之间的上下位层次关系，而Instance‑of关系则用来描述实体节点和类目节点之间的从属关系。结构化中文百科知识图谱中的实体和类目特征；接着，判断类目和类目之间的上下位关系Subclass‑of，以及实体和类目之间的从属关系Instance‑of；最后利用每个类目关联的Instance‑of关系重新计算类目的结构化特征，再利用新的类目特征重新判断Subclass‑of关系和Instance‑of关系。迭代进行以上两个步骤，直到Instance‑of关系不再变化。本迭代方法对Subclass‑of关系和Instance‑of关系的判断结果提升显著，是一种构建中文百科知识图谱分类体系的创新方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于迭代模型的中文百科知识图谱分类体系构建方法
本专利技术涉及知识图谱分类体系构建，尤其涉及一种基于迭代模型的中文百科知识图谱分类体系构建方法。
技术介绍
知识图谱作为一个结构化的信息网络，打破了原有的关系型数据库的限制，具有非常强大的表达能力，它在信息检索和信息整合等领域扮演着越来越重要的角色。在知识图谱中，分类体系是整个系统的骨干结构，因为它区分了类目和实体，并且指明了类目之间的父子关系，同时还指出了实体所属的类目，使得整个图谱具有拓扑结构。分类体系中主要包含了两类节点：实体节点和类目节点；两类关系：类目之间的上下位关系Subclass-of，实体和类目之间的从属关系Instance-of。Subclass-of关系用来描述类目节点之间的父子关系，Instance-of关系则用来描述实体节点和类目节点的从属关系。通过多年的研究，构建分类体系的主要方法有两个：一是利用启发式规则进行判断，包括词法规则、语法规则、基于连通性的规则等；另一个方法则是利用机器学习来解决问题，机器学习所使用的特征包括从非结构化文本中挖掘到的词向量以及中文百科页面中的结构化信息等。
技术实现思路
本专利技术的目的是为了解决构建知识图谱分类体系这一问题，提供一种基于迭代模型的中文百科知识图谱分类体系构建方法，包括如下步骤：1)对中文百科知识图谱中的实体进行结构化表达；2)利用中文百科信息中已有的类目与实体之间的关联，通过对实体特征求并集的方法，对知识图谱中的类目进行结构化表达；3)利用类目的结构化特征，训练支持向量机模型判断两个类目之间是否存在上下位关系Subclass-of；4)利...

【技术保护点】
一种基于迭代模型的中文百科知识图谱分类体系构建方法，其特征在于包括如下步骤：1)对中文百科知识图谱中的实体进行结构化表达；2)利用中文百科信息中已有的类目与实体之间的关联，通过对实体特征求并集的方法，对知识图谱中的类目进行结构化表达；3)利用类目的结构化特征，训练支持向量机模型判断两个类目之间是否存在上下位关系Subclass‑of；4)利用实体和类目的结构化特征，以及类目之间的Subclass‑of关系约束，在满足Instance‑of关系传递性的前提下，用非线性整数规划方法判断实体和类目之间的Instance‑of关系；5)判断步骤4)中获得的Instance‑of关系是否有变化，若没有则结束迭代，若有变化则执行步骤6)；6)利用步骤4)中得到的Instance‑of关系，重新计算类目的结构化特征，然后跳至步骤3)。

【技术特征摘要】
1.一种基于迭代模型的中文百科知识图谱分类体系构建方法，其特征在于包括如下步骤：1)对中文百科知识图谱中的实体进行结构化表达；2)利用中文百科信息中已有的类目与实体之间的关联，通过对实体特征求并集的方法，对知识图谱中的类目进行结构化表达；3)利用类目的结构化特征，训练支持向量机模型判断两个类目之间是否存在上下位关系Subclass-of；所述的步骤3)包括：3.1)寻找类目h可能存在的父类，共有三种搜寻策略：a)基于类目共现频次查找，首先寻找与类目h共现次数最高的类目k，假设类目h与k的共现次数为N，则把与类目h共现次数超过0.8*N的类目放入到类目h的备选父类集合当中；b)基于类目标题词干匹配查找，如果某个类目k的标题是类目h的标题词干，并且两者之间符合有向性条件，则把类目k放入到类目h的备选父类集合当中；c)基于中文百科类目树查找；3.2)支持向量机模型接受的特征包括语言特征和结构化特征两类，语言特征有词干匹配和修饰词匹配，结构化特征包含内链相似度、属性相似度、目录相似度以及相关词相似度，结构化特征计算公式如下：其中hi和he代表两个节点，L代表所有维度结构化特征的并集，L(hi)和L(he)代表相应维度的结构化特征；4)利用实体和类目的结构化特征，以及类目之间的Subclass-of关系约束，在满足Instance-of关系传递性的前提下，用非线性整数规划方法判断实体和类目之间的Instance-of关系；所述的步骤4)包括：4.1)寻找实体h可能从属的类目，共有三种搜寻策略：a)基于实体的标签查找，类目是通过实体的标签属性进行抽取的，所以实体的标签集合成为了备选从属类目的主要部分；b)基于实体标题词干匹配查找，根据实体的标题词干选取类目；c)基于实体中文百科页面摘要查找，中文百科页面中的摘要字段，是对词条的简要描述，而摘要中的第一句话是对词条的性质陈述，从实体对应的中文百科页面中抽取出摘要字段，并把摘要字段的第一句话用自然语言处理工具进行分析，选取其中出现的首个类目名词加入到备选类目当中；4.2)综合3.2)中的多种特征，采用coh(a，...

【专利技术属性】
技术研发人员：鲁伟明，楼仁杰，邵健，庄越挺，吴飞，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人