知识图谱构建方法及装置、电子设备和存储介质制造方法及图纸

技术编号:29330672 阅读:19 留言:0更新日期:2021-07-20 17:48
本公开涉及一种知识图谱构建方法及装置、电子设备和存储介质。所述方法包括:获取设定应用领域的多源异构数据对应的结构本体,所述结构本体包括所述应用领域中的实体类型、属性,以及各实体之间的关系和/或实体与属性之间的关系;对多源异构数据执行三元组抽取,所述多源异构数据包括结构化数据、半结构化数据以及非结构化数据;将所述三元组数据添加到所述结构本体中,得到知识图谱。本公开实施例可有效提高知识图谱的覆盖范围和丰富度。

【技术实现步骤摘要】
知识图谱构建方法及装置、电子设备和存储介质
本公开涉及数据挖掘、文本处理
,尤其涉及一种知识图谱构建方法及装置、电子设备和存储介质。
技术介绍
随着信息化与大数据时代的迅猛发展,人们在生活中所面临的信息也越加的纷繁复杂,但真正能有所帮助的信息十分有限,究其原因是因为这些信息没有针对性和规律性。有效解决方法是将信息有所针对性的结构化处理。知识图谱(KnowledgeGraph)因为在数据关联度和结构化方面的优势,受到越来越多的关注。目前知识图谱已经在多个领域得到应用,包括开放领域和医疗、教育、电影等垂直领域。组成知识图谱的基本单元是实体关系三元组,它将现实世界中的两个实体以某种关系关联起来,能够表示一个简单具体的信息,通常有<实体,关系,实体>和<实体,属性,属性值>两种形式。相关技术中,知识图谱的构建方法包括以下两个方面:1)基于结构化或半结构化数据源的构建方法结构化数据源主要为数据库表的形式,行列结构,知识规整清晰。从这种数据中抽取三元组构建知识图谱较为简单,只需通过简单的行列映射,将每一行看作一个实体,每一列为实体对应的属性即可。半结构化数据表现为百科类数据或者XML数据形式,数据包含在对应的标签中,需要采用一定的规则对标签进行解析,获取需要的数据。而百科类数据因为较高的质量和巨大的规模,往往是半结构化数据的首选,尤其是对于开放领域的知识图谱构建,更是主要基于百科类知识,需要构建爬虫包装器,以爬虫的方式对百科数据进行爬取、解析,形成三元组,构建知识图谱。>2)采用标注方式从文本中抽取知识文本是种很常见的信息表示形式,同样包含大量的信息。但文本又是非结构化的,共有8种句法成分,14种词类,每个句子的组成方式因人而异,稍有所差别意思可能就会大不相同,因此相较于结构化数据和半结构化数据,非结构化数据的三元组的获取难度会大很多,因此常常需要结合深度学习方法。较早的三元组抽取采用流水线的方式,即先抽取三元组的主语和宾语,在此基础上对实体对关系进行分类,实体识别和关系分类属于两个独立的子模块。接着出现了联合抽取法,采用共享参数联合标注的方式将实体识别和关系分类模块联系起来。较为主流的方法为基于标注的方法,即将三元组的抽取看作三元组的标注任务,通过条件随机场(ConditionalRandomField,CRF)等模型对句子中每个字符的字符类型进行标注。通常采用BIO或BIOES标签法,B(Begain)代表实体的开始字符,I(Internal)表示实体的中间字符,E(End)为实体的结束字符,S(Single)代表实体是单个字符,O(Other)为其他不相关字符。除了标签O,在每个标签后增加关系或实体类型,通过标注策略将主语和宾语抽取出,通过实体标签所标注的关系,或者直接采用分类方法对实体对之间的关系进行分类,得到三元组关系,从而将三元组抽取出。基于上述,目前构建知识图谱的方法存在以下缺点:1)构建知识图谱的数据源种类不够充分,未能充分利用多源异构的数据,挖掘的数据可能会有片面性、不充分性。2)对于从非结构化文本中抽取实体关系三元组的方法,传统方法采用流水线式的三元组抽取方法,即先进行实体对的识别,再进行实体关系的抽取。这种方法存在错误传播问题,即实体识别的错误会影响到关系的抽取,从而导致三元组抽取效率较低。或者将三元组的抽取看作实体关系的联合标注任务,虽然避免了流水线方法的错误传播,但是对于有重叠实体的三元组难以抽取,即两个三元组中主语和宾语有一个重叠,或两个全部重叠,是文本三元组抽取的主要挑战,有待继续研究。3)对于垂直领域知识图谱的构建,很少考虑将图片加入知识图谱。
技术实现思路
本公开提出了一种知识图谱构建方法及装置、电子设备和存储介质。利用多源异构数据有效提高知识图谱的覆盖范围和丰富度。根据本公开的一方面,提供了一种知识图谱构建方法,包括:一种知识图谱构建方法,其特征在于,包括:获取设定应用领域的多源异构数据对应的结构本体,所述结构本体包括所述应用领域中的实体类型、属性,以及各实体之间的关系和/或实体与属性之间的关系;对多源异构数据执行三元组抽取,所述多源异构数据包括结构化数据、半结构化数据以及非结构化数据;将所述三元组数据添加到所述结构本体中,得到知识图谱。在一些可能的实施方式中,所述对多源异构数据执行三元组抽取,包括:利用所述结构化数据和所述半结构化数据得到实体名称、属性名称及属性值组合的三元组;利用所述非结构化数据得到主语、宾语及所述主语和宾语之间的关系的三元组。在一些可能的实施方式中,对所述半结构化数据执行三元组抽取,包括:利用所述结构化数据抽取的三元组中的实体构成词条集合;从百科数据获取与所述词条集合中至少一个词条相关联的网页源码;对所述网页源码进行解析提取出所述词条对应的属性以及属性值;利用所述词条、对应的属性及属性值,得到所述词条对应的三元组。在一些可能的实施方式中,对所述非结构化数据执行三元组抽取,包括:获得所述非结构化数据的令牌向量、分段向量以及相对位置向量;对所述令牌向量和分段向量以及相对位置向量构成的合并向量进行编码处理,得到共享编码层向量;对所述共享编码层向量进行解码处理,确定所述共享编码层中的主语向量;基于所述主语向量和所述共享编码层向量的融合向量,确定宾语以及所述主语和所述宾语之间的关系;基于所述主语、所述宾语及所述主语和宾语之间的关系,确定三元组。在一些可能的实施方式中,所述方法还包括:利用各所述三元组之间的相似性,优化所述知识图谱。根据本公开的第二方面,提供了一种知识图谱构建装置,其包括:获取模块,用于获取设定应用领域的多源异构数据对应的结构本体,所述结构本体包括所述应用领域中的实体类型、属性,以及各实体之间的关系和/或实体与属性之间的关系;抽取模块,用于对多源异构数据执行三元组抽取,所述多源异构数据包括结构化数据、半结构化数据以及非结构化数据;构建模块,用于将所述三元组数据添加到所述结构本体中,得到知识图谱。在一些可能的实施方式中,所述抽取模块还用于:利用所述结构化数据和所述半结构化数据得到实体名称、属性名称及属性值组合的三元组;利用所述非结构化数据得到主语、宾语及所述主语和宾语之间的关系的三元组。在一些可能的实施方式中,所述抽取模块还用于:基于所述结构化数据确定的三元组中的实体获得词条集合;获得百科数据中与所述词条集合中至少一个词条相关联的网页源码;对所述网页源码进行解析提取出所述词条对应的属性以及属性值;利用所述词条、对应的属性及属性值,得到所述词条对应的三元组。根据本公开的第三方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,本文档来自技高网...

【技术保护点】
1.一种知识图谱构建方法,其特征在于,包括:/n获取设定应用领域的多源异构数据对应的结构本体,所述结构本体包括所述应用领域中的实体类型、属性,以及各实体之间的关系和/或实体与属性之间的关系;/n对多源异构数据执行三元组抽取,所述多源异构数据包括结构化数据、半结构化数据以及非结构化数据;/n将所述三元组数据添加到所述结构本体中,得到知识图谱。/n

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括:
获取设定应用领域的多源异构数据对应的结构本体,所述结构本体包括所述应用领域中的实体类型、属性,以及各实体之间的关系和/或实体与属性之间的关系;
对多源异构数据执行三元组抽取,所述多源异构数据包括结构化数据、半结构化数据以及非结构化数据;
将所述三元组数据添加到所述结构本体中,得到知识图谱。


2.根据权利要求1所述的方法,其特征在于,所述对多源异构数据执行三元组抽取,包括:
利用所述结构化数据和所述半结构化数据得到实体名称、属性名称及属性值组合的三元组;
利用所述非结构化数据得到主语、宾语及所述主语和宾语之间的关系的三元组。


3.根据权利要求1或2所述的方法,其特征在于,对所述半结构化数据执行三元组抽取,包括:
利用所述结构化数据抽取的三元组中的实体构成词条集合;
从百科数据获取与所述词条集合中至少一个词条相关联的网页源码;
对所述网页源码进行解析提取出所述词条对应的属性以及属性值;
利用所述词条、对应的属性及属性值,得到所述词条对应的三元组。


4.根据权利要求1或2所述的方法,其特征在于,对所述非结构化数据执行三元组抽取,包括:
获得所述非结构化数据的令牌向量、分段向量以及相对位置向量;
对所述令牌向量和分段向量以及相对位置向量构成的合并向量进行编码处理,得到共享编码层向量;
对所述共享编码层向量进行解码处理,确定所述共享编码层中的主语向量;
基于所述主语向量和所述共享编码层向量的融合向量,确定宾语以及所述主语和所述宾语之间的关系;
基于所述主语、所述宾语及所述主语和宾语之间的关系,确定三元组。

【专利技术属性】
技术研发人员:房建东蔡新辉赵于东
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古;15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1