一种基于知识图谱的关系链接方法技术

技术编号:16819063 阅读:41 留言:0更新日期:2017-12-16 12:28
本发明专利技术请求保护一种基于知识图谱的关系链接方法,首先,从知识图谱中利用SparQL查询语句找到包含某关系的三元组<主语、关系、宾语>列表集,并从非结构化的文本中匹配关系文本;使用LSWMD算法得到关系文本的相似性矩阵,再利用密度峰值聚类算法对关系文本进行聚类,得到关系文本类簇;基于关系文本类簇,抽取类簇中所有词语的位置,并利用贝塔分布进行拟合,得到关系文本类簇的词语分布模式;对于开放领域非结构化文本中未确定关系的候选关系文本,利用词语分布模式构建向量,并利用GBDT分类器进行识别,进而与知识图谱中的关系进行链接。本发明专利技术有效解决了将自然语言与知识图谱链接不充分的问题,能够帮助计算机更好的理解自然语言。

A relational link method based on knowledge atlas

The invention provides a link relationship based on knowledge mapping method, first of all, from the knowledge of the use of the SparQL query to find the relationship between the three tuple contains a subject and object relations, < > list sets, and matching text from unstructured text; the similarity matrix between text obtained by LSWMD the algorithm, using density clustering algorithm is used to cluster the relationship between text, relationship of text clusters; the relationship between text clusters based on the location of all words selected clusters, and by fitting the Berta distribution, get the word distribution pattern of relations of text clusters; for the open field not to determine a candidate relationship between text structured text, vector using the word distribution model, and identified using the GBDT classifier, and then link with the relationship of knowledge. The invention effectively solves the problem of insufficient links between the natural language and the knowledge map, and can help the computer to better understand the natural language.

【技术实现步骤摘要】
一种基于知识图谱的关系链接方法
本专利技术属于涉及自然语言处理领域,尤其涉及一种基于知识图谱的关系链接方法。
技术介绍
探索和理解互联网上的知识是人工智能领域的长期目标之一。由于一些分布式系统的出现,存储和利用互联网上的数据已经不再是难题,但是让计算机能够理解和运用人类自然语言仍然是一个很大的挑战。知识图谱的诞生帮助了计算机理解自然语言。知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符。每个属性-值对用来刻画实体的内在特性,而关系用来链接两个实体,刻画它们之间的关联。知识图谱也可以被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。现在比较流行的知识图谱有DBpedia,Wikidata,OpenCyc,YAGO等等。知识图谱在许多领域都起着至关重要的作用,例如语义搜索,问答系统等。其中一个重要的难点是将自然文本映射到知识图谱中。实体链接通过将自然文本的一些实体映射到知识图谱中来解决这个难点。目前,实体链接已经是一个比较成熟的研究,然而关系链接却很少受到关注。关系链接和关系抽取是不同的,关系本文档来自技高网...
一种基于知识图谱的关系链接方法

【技术保护点】
一种基于知识图谱的关系链接方法,其特征在于,包括以下步骤:S1、对知识图谱以及非结构化文本数据集进行采集及数据预处理,利用知识图谱进行标注,获取非结构化文本中的关系文本,作为训练集:S2、采用LSWMD位置敏感的词语移动距离算法,得到基于关系文本两两间的相似度矩阵,基于相似度矩阵进行聚类,得到关系文本类簇:S3、利用贝塔分布对关系文本类簇中词语的位置进行拟合,得到词语分布模式:S4、利用词语分布模式,将训练集转化为向量,其中利用知识图谱标注过的关系文本是训练集,利用GBDT梯度提升树进行训练得到分类器:S5、对于没有通过知识图谱标注,或者无法通过知识图谱标注的非结构化文本,利用关系文本类簇进行...

【技术特征摘要】
1.一种基于知识图谱的关系链接方法,其特征在于,包括以下步骤:S1、对知识图谱以及非结构化文本数据集进行采集及数据预处理,利用知识图谱进行标注,获取非结构化文本中的关系文本,作为训练集:S2、采用LSWMD位置敏感的词语移动距离算法,得到基于关系文本两两间的相似度矩阵,基于相似度矩阵进行聚类,得到关系文本类簇:S3、利用贝塔分布对关系文本类簇中词语的位置进行拟合,得到词语分布模式:S4、利用词语分布模式,将训练集转化为向量,其中利用知识图谱标注过的关系文本是训练集,利用GBDT梯度提升树进行训练得到分类器:S5、对于没有通过知识图谱标注,或者无法通过知识图谱标注的非结构化文本,利用关系文本类簇进行匹配,并利用分类器进行判别,如果判别为真,则链接到知识图谱对应的关系。2.根据权利要求1所述的基于知识图谱的关系链接方法,其特征在于,所述获取关系文本后还包括对关系文本进行规则降噪的步骤。3.根据权利要求2所述的基于知识图谱的关系链接方法,其特征在于,所述关系文本进行规则降噪的步骤包括:筛选长度大于3小于11的关系文本。4.根据权利要求1-3之一所述的基于知识图谱的关系链接方法,其特征在于,所述步骤S1对知识图谱数据集进行采集及数据预处理,获取关系文本,具体包括步骤:使用SparQL从知识图谱得到实体对,并建立实体对列表;根据主语得到相应的维基百科文章;利用nltk工具进行分句;若句子中包含主语、主语的别名、主语的主体部分,标记为subj;若句子中包含宾语、宾语的别名、宾语的主体部分,标记为obj;对句子截取subj与obj之间的文字部分,作为关系文本。5.根...

【专利技术属性】
技术研发人员:李智星杨茜任诗雅沈柯李苑王国胤胡峰王进雷大江
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1