The embodiment of the invention discloses a knowledge map construction method, a device and a storage medium, which are applied to the field of information processing technology. In the method of this embodiment, the label of the published text and the entity information in the base map are used as the information of the graph nodes in the knowledge map to be constructed, and the number of occurrences of the information of the two graph nodes in the same published text is used as the node relationship information to complete the knowledge map. The construction of the spectrum. Since the published text is constantly updated, it is possible to update and improve the information of each node in the knowledge map and the relationship between nodes in the map according to the published text, so that the knowledge map can be used more widely.
【技术实现步骤摘要】
一种知识图谱构建方法、装置及存储介质
本专利技术涉及信息处理
,特别涉及一种知识图谱构建方法、装置及存储介质。
技术介绍
知识图谱可以应用于许多应用场景,比如在信息推荐系统中基于知识图谱进行信息推荐,或是在文本分类过程中基于知识图谱进行分类等。而在知识图谱的构建领域,有很多研究方法都是通过构建各个实体之间的关系数据来构建知识图谱,主要包括基于三元组的封闭域学习方法,及将关系识别问题定义为分类问题的方法。其中:基于三元组的封闭域学习方法中,将图谱关系定义为:<E1,Relation,E2>,其中E1,E2为实体描述词即实体词,Relation用于表示实体之间的关系,且设定优化目标为E1+Relaiton=E2,通过不同的优化算法,可以得到实体与关系向量标示。将关系识别定义为分类问题的方法中,将图谱关系定义为:<E1+E2,Relation>,Relation用于表示分类标记(Label),E1和E2用于表示分类对象,通过分类器,即可得到E1与E2的关系预测。上述现有的知识图谱的构建方法都是设定学习目标,并在给定的一些关系(Relation)封闭域内,只能学习已给定的集中关系;其次,已有方法,都是一种静态图谱的构建方法,只有当有关系(Relation)可关联的情况下的实体才会存在于图谱中,对于潜在未知实体(Entity)是无法包括在图谱结构中的,那么大量潜在关系无法利用。
技术实现思路
本专利技术实施例提供一种知识图谱构建方法、装置及存储介质,实现了根据任意两个图谱节点对应的出现次数确定待构建知识图谱所 ...
【技术保护点】
1.一种知识图谱构建方法,其特征在于,包括:获取待构建知识图谱中多个图谱节点的信息,所述多个图谱节点的信息包括已发布文本对应的多个标签,及基础图谱中的实体信息;确定每个图谱节点的信息分别与其它任一图谱节点的信息在同一个所述已发布文本中的出现次数;根据所述确定的出现次数确定所述待构建知识图谱所包括的节点关系信息,以完成知识图谱的构建;所述节点关系信息包括多对图谱节点对应的出现次数,所述构建的知识图谱中包括所述多个图谱节点的信息,及所述节点关系信息。
【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括:获取待构建知识图谱中多个图谱节点的信息,所述多个图谱节点的信息包括已发布文本对应的多个标签,及基础图谱中的实体信息;确定每个图谱节点的信息分别与其它任一图谱节点的信息在同一个所述已发布文本中的出现次数;根据所述确定的出现次数确定所述待构建知识图谱所包括的节点关系信息,以完成知识图谱的构建;所述节点关系信息包括多对图谱节点对应的出现次数,所述构建的知识图谱中包括所述多个图谱节点的信息,及所述节点关系信息。2.如权利要求1所述的方法,其特征在于,所述已发布文本有多个,获取所述已发布文本对应的多个标签具体包括:分别提取所述多个已发布文本对应的标签;将所述提取的标签中频次较高的多个标签作为所述待构建知识图谱中图谱节点的信息。3.如权利要求1所述的方法,其特征在于,针对所述多个图谱节点中的某两个图谱节点,所述方法还包括:确定所述某两个图谱节点分别对应的初始节点向量;根据所述某两个图谱节点分别对应的初始节点向量确定所述某两个图谱节点之间关联的假设概率;及根据所述节点关系信息确定所述某两个图谱节点之间关联的真实概率;计算所述假设概率与真实概率之间的相似度;根据所述相似度更新所述某两个图谱节点的初始节点向量,以得到所述某两个图谱节点分别对应的节点向量。4.如权利要求3所述的方法,其特征在于,所述某两个图谱节点为直接关联的两个第一图谱节点,则所述确定所述两个第一图谱节点之间关联的假设概率为:1与所述两个第一图谱节点分别对应的初始节点向量的函数计算值的比值;确定所述两个第一图谱节点之间关联的真实概率为:所述两个第一图谱节点之间的节点关系信息,与所述两个第一图谱节点分别和所有相应的第一关联图谱节点之间的节点关系信息之和的比值;所述第一关联图谱节点为与所述第一图谱节点直接关联的图谱节点。5.如权利要求3所述的方法,其特征在于,所述某两个图谱节点为间接关联的第二图谱节点,则:确定所述两个第二图谱节点之间关联的假设概率为:所述两个第二图谱节点分别对应的初始节点向量的函数计算值,与和所述两个第二图谱节点都直接关联的第二关联图谱节点的初始节点向量的函数计算值的比值;确定所述两个第二图谱节点之间关联的真实概率为:所述两个第二图谱节点之间的最短路径,与和某一第二图谱节点相应的所有第二关联图谱节点的个数的比值;所述第二关联图谱节点为与所述两个第二图谱节点直接关联的图谱节点。6.如权利要求3所述的方法,其特征在于,所述某两个图谱节点中的一个图谱节点为孤岛节点,另一图谱节点为所述待构建知识图谱中的任一其它图谱节点,则:确定所述孤岛节...
【专利技术属性】
技术研发人员:张博,胡澜涛,刘毅,陈磊,刘书凯,林乐宇,夏锋,冯喆,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。