当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多源实体融合的知识图谱构建方法技术

技术编号:14239435 阅读:174 留言:0更新日期:2016-12-21 14:55
本发明专利技术公开了一种基于多源实体融合的知识图谱构建方法。本发明专利技术首先爬取中文三大百科:百度百科、互动百科,维基百科,并对数据做预处理,包括标题同义词提取、消岐页面提取、候选集提取和文本分词等。然后,针对在同一个候选集里的页面,计算两两页面之间的特征,并训练分类器计算页面之间的相似度,并根据相似度构建权重图。最后,通过混合线性规划模型,约束权重图中顶点与顶点之间的关系,通过计算目标函数的最大值,得到顶点与顶点之间的连通性,将每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。本发明专利技术通过引入候选集,大大减小了问题的规模;同时又通过混合线性规划模型,提高了实体融合的准确率。

Construction of knowledge map based on multi source entity fusion

The invention discloses a method for constructing a knowledge map based on multi-source entity fusion. The present invention first crawling Chinese three Encyclopedia: Baidu encyclopedia, Interactive Encyclopedia, Wikipedia, and to pre process the data, including the title of synonym extraction and disambiguation page extraction, candidate extraction and text segmentation etc.. Then, according to the page in the same candidate set, the features of the 22 pages are calculated, and the similarity between the two pages is calculated. Finally, through the mixed linear programming model, the relationship between vertex and vertex weights constraint graph, the maximum value of the objective function calculation, get the connectivity between vertex and vertex, each connected component as a single entity, to obtain all the page description of the same entity. Through the introduction of candidate sets, the size of the problem is greatly reduced, and the accuracy of the entity fusion is improved by the mixed linear programming model.

【技术实现步骤摘要】

本专利技术涉及文本相似度计算方法,尤其涉及一种基于多源实体融合的知识图谱构建方法
技术介绍
随着互联网的迅速发展,人们获取信息和知识的途径越来越多样化,但是海量的数据分布于互联网的每一个角落,这给用户获取知识带来了很大的障碍。因此,构建一个统一完备的知识库迫在眉睫。目前已经存在许多知识库,比如DBpedia是一个特殊的语义网应用范例,它从维基百科的词条里撷取出结构化的资料,以强化维基百科的搜寻功能,并将其他资料集连结至维基百科;Freebase是一个大型的合作知识库,它整合了网络上的许多资源。Freebase中的条目也与DBpedia类似,都采用结构化数据的形式。通过访问其数据可以发现其中所有的内容都是格式化的,按照三元组的格式存储并展示。这个模式是固定的,同一类型的条目都包含相同的属性。鉴于以上原因,同类数据之间就可以很容易地联系在一起,为信息查询提供了便利。Freebase包含数以千万计的主题,成千上万的类型和属性。但是这些知识库的语言都是英语,目前中文领域还没有一个大型的完备的知识库。传统的关于知识库的实体匹配算法中,主要是基于成对实体的匹配,并把这个问题形式化成一个分类问题。然而,大多数这类算法都严重地依赖于数据模板的质量。对于Web数据来说,数据不是以一个统一的三元组形式呈现的,而且不同源的数据在表达形式上也有较大的差异,因此这种方法在我们的这个问题上适用性较低。在另外一些匹配算法中,将页面的结构信息也考虑到特征中,比如在中英文维基的实体匹配中,因为已经有相当一部分页面存在跨语言链接,所以这部分信息可以作为先验知识。然而,我们的多源数据之间是没有任何链接的,所以页面的结构特征无法纳入特征之中。在两个集合的特征计算中,可以使用Jaccard系数。Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数,只比较Xn和Yn中相同的个数。在特征相似度计算中,有许多算法可以应用。简单的可以直接计算欧式距离或者余弦距离。也可以根据特征训练分类器,使用分类器来计算相似度。随机森林是一种性能良好的分类器,可以用在特征相似度计算中。它指的是利用多棵决策树对样本进行训练并预测的一种分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林具有许多优点,比如特征丢失时,仍可以保持较高的准确度,且不会产生过拟合问题。
技术实现思路
本专利技术为整合多源百科知识,构建统一的知识库,提供了一种基于多源实体融合的知识图谱构建方法。不同源的百科通常会包含描述同一个实体的多个页面,多源实体融合技术可以在海量的数据中找到这些页面,并将其映射到同一个实体上。本专利技术解决其技术问题采用的技术方案如下:一种基于多源实体融合的知识图谱构建方法,包括以下步骤:1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。进一步地,所述的步骤1)包括:1.1)提取百科标题的同义词,提取方式包括以下两种:a)模板匹配:利用特定的模板去匹配每个页面的开头和摘要的第一句话,如果匹配成功,则得到同义词对。模板人为定义,涵盖大部分同义词对出现模式。b)链接重定向:通过页面中超链接跳转到另一个页面,如果另一个页面的标题和该超链接的文本不同,则认为这两个词是同义词。1.2)提取消岐页面:第k个百科表示为k最大值为3,其中ai表示页面,n表示页面总数量。由消岐页面中出现的所有页面,可提取消岐页面集合M,集合M里面的任意两两页面都不能表示同一个实体。M={ai∈εk|ai∈M≠aj∈M本文档来自技高网
...
基于多源实体融合的知识图谱构建方法

【技术保护点】
一种基于多源实体融合的知识图谱构建方法,其特征在于,包括以下步骤:1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一个实体的所有页面。

【技术特征摘要】
1.一种基于多源实体融合的知识图谱构建方法,其特征在于,包括以下步骤:1)预处理百科页面:提取百科标题的同义词,提取消岐页面,利用同义词的传递关系构建同义词组,所有同义词组形成同义词组集合,根据同义词组集合中每一个同义词组对应的页面构建候选集,用分词工具对百科页面的文本进行分词。2)通过步骤1)的分词结果,计算同一个候选集里的两两页面之间的特征,通过训练分类器为每一维特征赋上不同的权重,并利用这个分类器计算页面之间的相似度。3)根据步骤2)中计算的页面之间的相似度构建该候选集的权重图,利用混合线性规划模型,定义该模型目标函数,并计算目标函数的最大值,得到顶点与顶点之间的连通性。将权重图上的每一个连通分量当作一个实体,从而获得描述同一...

【专利技术属性】
技术研发人员:鲁伟明戴豪庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1