知识图谱构建方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:33361092 阅读:7 留言:0更新日期:2022-05-11 22:16
本申请提供了一种知识图谱构建方法、装置、电子设备及计算机存储介质。该知识图谱构建方法,包括:获取目标多源异构金融垂直数据;采用实体识别模型分别对目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到目标实体和目标实体关系;将目标实体和目标实体关系导入初始知识图谱中,得到目标知识图谱。根据本申请实施例,能够构建更加有针对性的知识图谱。图谱。图谱。

【技术实现步骤摘要】
知识图谱构建方法、装置、电子设备及计算机存储介质


[0001]本申请属于数据业务、业务支撑
,尤其涉及一种知识图谱构建方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
[0003]深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。
[0004]自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
[0005]Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
[0006]在计算机科学与信息科学领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。此外,有时人们也会将“本体”称为“本体论”。
[0007]现有知识图谱构建的数据源覆盖的领域相对比较单一,这导致知识图谱的运用会产生一定的局限性。而且,现有的知识图谱构建多数缺少合理的层次结构,只有(实体,实体关系,实体)的三元组存储。
[0008]因此,如何构建更加有针对性的知识图谱是本领域技术人员亟需解决的技术问题。

技术实现思路

[0009]本申请实施例提供一种知识图谱构建方法、装置、电子设备及计算机存储介质,能够构建更加有针对性的知识图谱。
[0010]第一方面,本申请实施例提供一种知识图谱构建方法,包括:
[0011]获取目标多源异构金融垂直数据;
[0012]采用实体识别模型分别对目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到目标实体和目标实体关系;
[0013]将目标实体和目标实体关系导入初始知识图谱中,得到目标知识图谱。
[0014]可选的,获取目标多源异构金融垂直数据,包括:
[0015]爬取非结构化数据;
[0016]对非结构化数据进行数据清洗,得到目标多源异构金融垂直数据。
[0017]可选的,对非结构化数据进行数据清洗,得到目标多源异构金融垂直数据,包括:
[0018]对非结构化数据进行分句处理、分词处理、词性标注、停用词过滤和标点符号过滤,得到目标多源异构金融垂直数据。
[0019]可选的,采用实体识别模型分别对目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到目标实体和目标实体关系,包括:
[0020]采用实体识别模型分别对目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到初始实体和初始实体关系;
[0021]使用布隆过滤器对初始实体和初始实体关系进行去重,得到目标实体和目标实体关系。
[0022]可选的,将目标实体导入初始知识图谱中,包括:
[0023]将目标实体转化为实体词向量;
[0024]计算实体词向量和预设的各个领域下的本体词向量之间的最大相似度;
[0025]若最大相似度超过预设阈值,则确定目标实体对应的本体标签;
[0026]基于本体标签,生成第一图数据库插入脚本;
[0027]执行第一图数据库插入脚本,将目标实体导入初始知识图谱中。
[0028]可选的,在计算实体词向量和预设的各个领域下的本体词向量之间的最大相似度之前,方法还包括:
[0029]爬取各个领域下的本体词向量。
[0030]可选的,将目标实体关系导入初始知识图谱中,包括:
[0031]根据目标实体关系,生成第二图数据库插入脚本;
[0032]执行第二图数据库插入脚本,将目标实体关系导入初始知识图谱中。
[0033]第二方面,本申请实施例提供了一种知识图谱构建装置,包括:
[0034]获取模块,用于获取目标多源异构金融垂直数据;
[0035]识别抽取模块,用于采用实体识别模型分别对目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到目标实体和目标实体关系;
[0036]导入模块,用于将目标实体和目标实体关系导入初始知识图谱中,得到目标知识图谱。
[0037]可选的,获取模块,包括:
[0038]爬取单元,用于爬取非结构化数据;
[0039]数据清洗单元,用于对非结构化数据进行数据清洗,得到目标多源异构金融垂直数据。
[0040]可选的,数据清洗单元,包括:
[0041]数据清洗子单元,用于对非结构化数据进行分句处理、分词处理、词性标注、停用
词过滤和标点符号过滤,得到目标多源异构金融垂直数据。
[0042]可选的,识别抽取模块,包括:
[0043]识别抽取单元,用于采用实体识别模型分别对目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到初始实体和初始实体关系;
[0044]去重单元,用于使用布隆过滤器对初始实体和初始实体关系进行去重,得到目标实体和目标实体关系。
[0045]可选的,导入模块,包括:
[0046]转化单元,用于将目标实体转化为实体词向量;
[0047]计算单元,用于计算实体词向量和预设的各个领域下的本体词向量之间的最大相似度;
[0048]确定单元,用于若最大相似度超过预设阈值,则确定目标实体对应的本体标签;
[0049]第一生成单元,用于基于本体标签,生成第一图数据库插入脚本;
[0050]第一执行单元,用于执行第一图数据库插入脚本,将目标实体导入初始知识图谱中。
[0051]可选的,装置还包括:
[0052]爬取模块,用于爬取各个领域下的本体词向量。
[0053]可选的,导入模块,包括:
[0054]第二生成单元,用于根据目标实体关系,生成第二图数据库插入脚本;
[0055]第二执行单元,用于执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括:获取目标多源异构金融垂直数据;采用实体识别模型分别对所述目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到目标实体和目标实体关系;将所述目标实体和所述目标实体关系导入初始知识图谱中,得到目标知识图谱。2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述获取目标多源异构金融垂直数据,包括:爬取非结构化数据;对所述非结构化数据进行数据清洗,得到所述目标多源异构金融垂直数据。3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述对所述非结构化数据进行数据清洗,得到所述目标多源异构金融垂直数据,包括:对所述非结构化数据进行分句处理、分词处理、词性标注、停用词过滤和标点符号过滤,得到所述目标多源异构金融垂直数据。4.根据权利要求1所述的知识图谱构建方法,其特征在于,所述采用实体识别模型分别对所述目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到目标实体和目标实体关系,包括:采用所述实体识别模型分别对所述目标多源异构金融垂直数据进行实体识别和实体关系抽取,得到初始实体和初始实体关系;使用布隆过滤器对所述初始实体和所述初始实体关系进行去重,得到所述目标实体和所述目标实体关系。5.根据权利要求1所述的知识图谱构建方法,其特征在于,所述将所述目标实体导入初始知识图谱中,包括:将所述目标实体转化为实体词向量;计算所述实体词向量和预设的各个领域下的本体词向量之间的最大相似度;若所...

【专利技术属性】
技术研发人员:王博周铭吉李博韩屹
申请(专利权)人:中移智行网络科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1