知识图谱构建方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号：33361092 阅读：7 留言：0更新日期：2022-05-11 22:16

本申请提供了一种知识图谱构建方法、装置、电子设备及计算机存储介质。该知识图谱构建方法，包括：获取目标多源异构金融垂直数据；采用实体识别模型分别对目标多源异构金融垂直数据进行实体识别和实体关系抽取，得到目标实体和目标实体关系；将目标实体和目标实体关系导入初始知识图谱中，得到目标知识图谱。根据本申请实施例，能够构建更加有针对性的知识图谱。图谱。图谱。

全部详细技术资料下载

【技术实现步骤摘要】
知识图谱构建方法、装置、电子设备及计算机存储介质

[0001]本申请属于数据业务、业务支撑
，尤其涉及一种知识图谱构建方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
[0003]深度学习(DL，Deep Learning)是机器学习(ML，Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI，Artificial Intelligence)。
[0004]自然语言处理(NLP)是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域。
[0005]Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。
[0006]在计算机科学与信息科学领域，理论上，本体是指一种“形式化的，对于共享概念体系的明确而又详细的说明”。本体提供的是一种共享词表，也就是特定领域之中那些存在着的对象类型或概念及其属...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法，其特征在于，包括：获取目标多源异构金融垂直数据；采用实体识别模型分别对所述目标多源异构金融垂直数据进行实体识别和实体关系抽取，得到目标实体和目标实体关系；将所述目标实体和所述目标实体关系导入初始知识图谱中，得到目标知识图谱。2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述获取目标多源异构金融垂直数据，包括：爬取非结构化数据；对所述非结构化数据进行数据清洗，得到所述目标多源异构金融垂直数据。3.根据权利要求2所述的知识图谱构建方法，其特征在于，所述对所述非结构化数据进行数据清洗，得到所述目标多源异构金融垂直数据，包括：对所述非结构化数据进行分句处理、分词处理、词性标注、停用词过滤和标点符号过滤，得到所述目标多源异构金融垂直数据。4.根据权利要求1所述的知识图谱构建方法，其特征在于，所述采用实体识别模型分别对所述目标多源异构金融垂直数据进行实体识别和实体关系抽取，得到目标实体和目标实体关系，包括：采用所述实体识别模型分别对所述目标多源异构金融垂直数据进行实体识别和实体关系抽取，得到初始实体和初始实体关系；使用布隆过滤器对所述初始实体和所述初始实体关系进行去重，得到所述目标实体和所述目标实体关系。5.根据权利要求1所述的知识图谱构建方法，其特征在于，所述将所述目标实体导入初始知识图谱中，包括：将所述目标实体转化为实体词向量；计算所述实体词向量和预设的各个领域下的本体词向量之间的最大相似度；若所...

【专利技术属性】
技术研发人员：王博，周铭吉，李博，韩屹，
申请(专利权)人：中移智行网络科技有限公司中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人