基于多源实体融合的知识图谱构建方法技术

技术编号：14239435 阅读：174 留言：0更新日期：2016-12-21 14:55

本发明专利技术公开了一种基于多源实体融合的知识图谱构建方法。本发明专利技术首先爬取中文三大百科：百度百科、互动百科，维基百科，并对数据做预处理，包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后，针对在同一个候选集里的页面，计算两两页面之间的特征，并训练分类器计算页面之间的相似度，并根据相似度构建权重图。最后，通过混合线性规划模型，约束权重图中顶点与顶点之间的关系，通过计算目标函数的最大值，得到顶点与顶点之间的连通性，将每一个连通分量当作一个实体，从而获得描述同一个实体的所有页面。本发明专利技术通过引入候选集，大大减小了问题的规模；同时又通过混合线性规划模型，提高了实体融合的准确率。

Construction of knowledge map based on multi source entity fusion

The invention discloses a method for constructing a knowledge map based on multi-source entity fusion. The present invention first crawling Chinese three Encyclopedia: Baidu encyclopedia, Interactive Encyclopedia, Wikipedia, and to pre process the data, including the title of synonym extraction and disambiguation page extraction, candidate extraction and text segmentation etc.. Then, according to the page in the same candidate set, the features of the 22 pages are calculated, and the similarity between the two pages is calculated. Finally, through the mixed linear programming model, the relationship between vertex and vertex weights constraint graph, the maximum value of the objective function calculation, get the connectivity between vertex and vertex, each connected component as a single entity, to obtain all the page description of the same entity. Through the introduction of candidate sets, the size of the problem is greatly reduced, and the accuracy of the entity fusion is improved by the mixed linear programming model.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本相似度计算方法，尤其涉及一种基于多源实体融合的知识图谱构建方法。
技术介绍
随着互联网的迅速发展，人们获取信息和知识的途径越来越多样化，但是海量的数据分布于互联网的每一个角落，这给用户获取知识带来了很大的障碍。因此，构建一个统一完备的知识库迫在眉睫。目前已经存在许多知识库，比如DBpedia是一个特殊的语义网应用范例，它从维基百科的词条里撷取出结构化的资料，以强化维基百科的搜寻功能，并将其他资料集连结至维基百科；Freebase是一个大型的合作知识库，它整合了网络上的许多资源。Freebase中的条目也与DBpedia类似，都采用结构化数据的形式。通过访问其数据可以发现其中所有的内容都是格式化的，按照三元组的格式存储并展示。这个模式是固定的，同一类型的条目都包含相同的属性。鉴于以上原因，同类数据之间就可以很容易地联系在一起，为信息查询提供了便利。Freebase包含数以千万计的主题，成千上万的类型和属性。但是这些知识库的语言都是英语，目前中文领域还没有一个大型的完备的知识库。传统的关于知识库的实体匹配算法中，主要是基于成对实体的匹配，并把这个问题形式化成一个分类问题。然而，大多数这类算法都严重地依赖于数据模板的质量。对于Web数据来说，数据不是以一个统一的三元组形式呈现的，而且不同源的数据在表达形式上也有较大的差异，因此这种方法在我们的这个问题上适用性较低。在另外一些匹配算法中，将页面的结构信息也考虑到特征中，比如在中英文维基的实体匹配中，因为已经有相当一部分页面存在跨语言链接，所以这部分信息可以作为先验知识。然而，我们的多源数据之间是...
基于多源实体融合的知识图谱构建方法

【技术保护点】
一种基于多源实体融合的知识图谱构建方法，其特征在于，包括以下步骤：1)预处理百科页面：提取百科标题的同义词，提取消岐页面，利用同义词的传递关系构建同义词组，所有同义词组形成同义词组集合，根据同义词组集合中每一个同义词组对应的页面构建候选集，用分词工具对百科页面的文本进行分词。2)通过步骤1)的分词结果，计算同一个候选集里的两两页面之间的特征，通过训练分类器为每一维特征赋上不同的权重，并利用这个分类器计算页面之间的相似度。3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图，利用混合线性规划模型，定义该模型目标函数，并计算目标函数的最大值，得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体，从而获得描述同一个实体的所有页面。

【技术特征摘要】
1.一种基于多源实体融合的知识图谱构建方法，其特征在于，包括以下步骤：1)预处理百科页面：提取百科标题的同义词，提取消岐页面，利用同义词的传递关系构建同义词组，所有同义词组形成同义词组集合，根据同义词组集合中每一个同义词组对应的页面构建候选集，用分词工具对百科页面的文本进行分词。2)通过步骤1)的分词结果，计算同一个候选集里的两两页面之间的特征，通过训练分类器为每一维特征赋上不同的权重，并利用这个分类器计算页面之间的相似度。3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图，利用混合线性规划模型，定义该模型目标函数，并计算目标函数的最大值，得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体，从而获得描述同一...

【专利技术属性】
技术研发人员：鲁伟明，戴豪，庄越挺，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人