一种知识图谱的创建方法、装置、存储介质和服务器制造方法及图纸

技术编号:26924061 阅读:16 留言:0更新日期:2021-01-01 22:48
本申请适用于计算机技术领域,提出一种知识图谱的创建方法、装置、存储介质和服务器。该知识图谱的创建方法包括:获取待创建知识图谱所属知识领域的材料文本;根据预先构建的图谱知识层schema对所述材料文本进行解析,提取实例要素数据;将提取出的实例要素数据和所述图谱知识层schema进行数据融合,得到垂直领域的第一知识图谱;从预设的知识图谱库中查找与所述第一知识图谱具有至少一个相关联图谱节点的其它知识图谱;以相关联的图谱节点为连接点,将所述第一知识图谱和所述其它知识图谱进行横向的融合,得到创建后的知识图谱。采用本申请提出的知识图谱的创建方法,能够提高知识图谱的创建效率。

【技术实现步骤摘要】
一种知识图谱的创建方法、装置、存储介质和服务器
本申请属于计算机
,尤其涉及一种知识图谱的创建方法、装置、存储介质和服务器。
技术介绍
目前,知识图谱的创建过程主要包括:业务人员在Excel中梳理垂直领域的知识框架、节点、关系、三元组,输出Excel格式的知识层schema;将Excel格式的知识层schema交由建模人员,由建模人员编写代码,存储至图数据库;按照知识层schema线下加工并清洗数据,将非结构化、半结构化的数据加工成与知识层schema对应的结构化数据;建模人员编写代码将知识层schema与结构化的数据进行融合,生成完整的知识图谱。上述过程涉及大量的人工操作,知识图谱的创建效率较低。
技术实现思路
有鉴于此,本申请提出一种知识图谱的创建方法,能够提高知识图谱的创建效率。第一方面,本申请实施例提供了一种知识图谱的创建方法,包括:获取待创建知识图谱所属知识领域的材料文本;根据预先构建的图谱知识层schema对所述材料文本进行解析,提取实例要素数据;将提取出的实例要素数据和所述图谱知识层schema进行数据融合,得到垂直领域的第一知识图谱;从预设的知识图谱库中查找与所述第一知识图谱具有至少一个相关联的图谱节点的其它知识图谱;以相关联的图谱节点为连接点,将所述第一知识图谱和所述其它知识图谱进行横向的融合,得到创建后的知识图谱。在本申请实施例中,用户只需要预先准备好待创建知识图谱的图谱知识层schema和相应的材料文本,系统会自动提取该材料文本中的实例要素数据,与图谱知识层进行融合,得到一个垂直领域的知识图谱;然后,会从知识图谱库中查找与该垂直领域的知识图谱具有至少一个相关联图谱节点的其它知识图谱,最后再将各个知识图谱进行横向的融合,得到最终创建好的知识图谱。通过这样设置,能够加快垂直领域知识图谱的构建进度,实现知识图谱构建过程中的知识编辑可视化、要素解析自动化、模型训练标准化、知识融合统一化,降低业务人员与模型开发人员的沟通成本,有效提高了知识图谱的创建效率。进一步的,所述根据预先构建的图谱知识层schema对所述材料文本进行解析,提取实例要素数据可以包括:对所述材料文本进行结构化数据的检测,找出所述材料文本包含的结构化数据以及非结构化数据;采用预设的规则模型对所述结构化数据进行解析,得到其中包含的第一实例要素数据;采用预先构建的NLP识别模型对所述非结构化数据进行解析,得到其中包含的第二实例要素数据;将所述第一实例要素数据和所述第二实例要素数据进行融合,得到提取出的实例要素数据。比如,对于姓名、性别、年龄等结构化程度较高的结构化数据,可以直接使用规则模型提取其中包含的实例要素数据。而对于非结构化数据,比如法律领域裁判文书中,要在某一案由下所有的裁判文书中抽取某一类别的争议焦点,则需要人工标注数据,训练NLP模型,再优化迭代,达到一定指标后,再进行解析,从而提取出非结构化数据中包含的实例要素数据。进一步的,在从预设的知识图谱库中查找与所述第一知识图谱具有至少一个相关联的图谱节点的其它知识图谱之后,还可以包括:确定所述第一知识图谱所属的知识领域,以及分别确定查找到的各个其它知识图谱所属的知识领域;从预先构建的知识领域对照表中,分别查找各个所述其它知识图谱所属的知识领域和所述第一知识图谱所属的知识领域之间的关联度;所述将所述第一知识图谱和所述其它知识图谱进行横向的融合具体可以为:将所述第一知识图谱和所述查找到的各个其它知识图谱中所述关联度大于预设阈值的目标知识图谱进行横向的融合。通过这样设置,可以避免融合过多关联度较低的其它知识图谱,从而进一步提高知识图谱融合的准确性与实用性。进一步的,所述将所述第一知识图谱和所述查找到的各个其它知识图谱中所述关联度大于预设阈值的目标知识图谱进行横向的融合可以包括:对于每个所述目标知识图谱,均根据各自的所述关联度分别确定各自与所述第一知识图谱进行横向融合的横向连接线的长度,然后以各自具有的所述相关联图谱节点为连接点,绘制对应长度的横向连接线,完成与所述第一知识图谱的横向融合;其中,所述关联度越大则对应的横向连接线的长度越短。在知识图谱进行横向的融合时,关联度越大的知识图谱在连接时的横向连接线越短,即知识图谱之间的距离越近,能够进一步提高融合得到的知识图谱的实用性。进一步的,所述将所述第一知识图谱和所述查找到的各个其它知识图谱中所述关联度大于预设阈值的目标知识图谱进行横向的融合可以包括:统计所述目标知识图谱的数量;若所述目标知识图谱的数量小于或等于设定的数量上限,则将所有的所述目标知识图谱与所述第一知识图谱进行横向的融合;若所述目标知识图谱的数量大于所述数量上限,则按照所述关联度由大至小的方式对各个所述目标知识图谱进行排序,将各个所述目标知识图谱中排序靠前的所述数量上限的知识图谱与所述第一知识图谱进行横向的融合。为了控制进行融合的垂直领域的知识图谱的数量,可以按照所述关联度由大至小的方式对各个所述目标知识图谱进行排序,然后将各个所述目标知识图谱中排序靠前的设定数量上限的知识图谱与该第一知识图谱进行横向的融合。进一步的,所述将所述第一知识图谱和所述其它知识图谱进行横向的融合可以包括:分别统计每个所述其它知识图谱具有的所述相关联图谱节点的数量;对于每个所述其它知识图谱,均根据各自具有的所述相关联图谱节点的数量分别确定各自与所述第一知识图谱进行横向融合的横向连接线的长度,然后以各自具有的所述相关联图谱节点为连接点,绘制对应长度的横向连接线,完成与所述第一知识图谱的横向融合;其中,所述相关联图谱节点的数量越多则对应的横向连接线的长度越短。在垂直领域的知识图谱进行横向的融合时,具有的相关联图谱节点的数量越多的知识图谱在连接时的横向连接线越短,即和该第一知识图谱之间的距离越近,能够进一步提高知识图谱融合的合理性以及融合得到的知识图谱的实用性。进一步的,所述获取待创建知识图谱所属知识领域的材料文本可以包括:获取用户于指定平台发出的图谱创建任务;根据所述图谱创建任务确定待创建知识图谱所属的知识领域;从所述待创建知识图谱所属的知识领域所对应的存储路径中查找所述材料文本。该指定平台可以是一个知识图谱管理平台,用户可以对已创建的知识图谱进行专业知识固化,支持知识图谱的节点增删改、三元组增删改、关系的增删改等操作,操作的结果直接同步至底层的图数据库中,实现在线可视化编辑的效果。另外,若需要创建新的知识图谱,用户还可以通过该平台发出图谱创建任务,在该图谱创建任务中可以选取待创建知识图谱所属的知识领域,然后从对应的存储路径中查找相应的材料文本。第二方面,本申请实施例提供了一种知识图谱的创建装置,包括:材料文本获取模块,用于获取待创建知识图谱所属知识领域的材料文本;实例要素提取模块,用于根据预先构建的图本文档来自技高网...

【技术保护点】
1.一种知识图谱的创建方法,其特征在于,包括:/n获取待创建知识图谱所属知识领域的材料文本;/n根据预先构建的图谱知识层schema对所述材料文本进行解析,提取实例要素数据;/n将提取出的实例要素数据和所述图谱知识层schema进行数据融合,得到垂直领域的第一知识图谱;/n从预设的知识图谱库中查找与所述第一知识图谱具有至少一个相关联的图谱节点的其它知识图谱;/n以相关联的图谱节点为连接点,将所述第一知识图谱和所述其它知识图谱进行横向的融合,得到创建后的知识图谱。/n

【技术特征摘要】
1.一种知识图谱的创建方法,其特征在于,包括:
获取待创建知识图谱所属知识领域的材料文本;
根据预先构建的图谱知识层schema对所述材料文本进行解析,提取实例要素数据;
将提取出的实例要素数据和所述图谱知识层schema进行数据融合,得到垂直领域的第一知识图谱;
从预设的知识图谱库中查找与所述第一知识图谱具有至少一个相关联的图谱节点的其它知识图谱;
以相关联的图谱节点为连接点,将所述第一知识图谱和所述其它知识图谱进行横向的融合,得到创建后的知识图谱。


2.如权利要求1所述的知识图谱的创建方法,其特征在于,所述根据预先构建的图谱知识层schema对所述材料文本进行解析,提取实例要素数据包括:
对所述材料文本进行结构化数据的检测,找出所述材料文本包含的结构化数据以及非结构化数据;
采用预设的规则模型对所述结构化数据进行解析,得到其中包含的第一实例要素数据;
采用预先构建的NLP识别模型对所述非结构化数据进行解析,得到其中包含的第二实例要素数据;
将所述第一实例要素数据和所述第二实例要素数据进行融合,得到提取出的实例要素数据。


3.如权利要求1所述的知识图谱的创建方法,其特征在于,在从预设的知识图谱库中查找与所述第一知识图谱具有至少一个相关联的图谱节点的其它知识图谱之后,还包括:
确定所述第一知识图谱所属的知识领域,以及分别确定查找到的各个其它知识图谱所属的知识领域;
从预先构建的知识领域对照表中,分别查找各个所述其它知识图谱所属的知识领域和所述第一知识图谱所属的知识领域之间的关联度;
所述将所述第一知识图谱和所述其它知识图谱进行横向的融合具体为:
将所述第一知识图谱和所述查找到的各个其它知识图谱中所述关联度大于预设阈值的目标知识图谱进行横向的融合。


4.如权利要求3所述的知识图谱的创建方法,其特征在于,所述将所述第一知识图谱和所述查找到的各个其它知识图谱中所述关联度大于预设阈值的目标知识图谱进行横向的融合包括:
对于每个所述目标知识图谱,均根据各自的所述关联度分别确定各自与所述第一知识图谱进行横向融合的横向连接线的长度,然后以各自具有的所述相关联图谱节点为连接点,绘制对应长度的横向连接线,完成与所述第一知识图谱的横向融合;
其中,所述关联度越大则对应的横向连接线的长度越短。


5.如权利要求3所述的知识图谱的创建方法,其特征在于,所述将所述第一知识图谱和所述查找到的各个其它知识图谱中所述关联度大于预设阈值的目标知识图谱进行横向的...

【专利技术属性】
技术研发人员:杨健
申请(专利权)人:平安直通咨询有限公司上海分公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1