知识图谱的构建方法、装置、介质及设备制造方法及图纸

技术编号:34603637 阅读:35 留言:0更新日期:2022-08-20 09:07
本申请的实施例揭示了一种知识图谱的构建方法、装置、介质及设备。该方法包括:获取原始文本数据,原始文本数据包括已标注文本以及未标注文本;基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系,得到实体关系集合;计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度,并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系;基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱。进而节约了人工标记成本,提高了知识图谱的构建效率,构建出高精度和高质量的知识图谱。高精度和高质量的知识图谱。高精度和高质量的知识图谱。

【技术实现步骤摘要】
知识图谱的构建方法、装置、介质及设备


[0001]本申请涉及计算机
,具体而言,涉及一种知识图谱的构建方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]知识图谱(knowledge graph)是指以实体、概念作为节点,以节点之间关系作为边的树状拓扑网络。知识图谱使得知识获取更直接,从而实现数据搜索的便捷化、智能化和人性化。
[0003]在进行信息搜索时,可以根据预先构建的知识图谱,搜索与用户输入的搜索关键词有关联关系的信息。目前在构建知识图谱时是采用人工构建方式,人工获取大量的关键词,将获取到的关键词作为知识图谱的节点;以及人工设置的两个节点之间的关系,将具有关联关系的两个节点进行连线作为知识图谱的边;在生成节点和边之后完成知识图谱的构建。但是,采用人工构建的方式得到的知识图谱包含的信息数量和类型都有很大的局限性,构建得到的知识图谱过于单一。

技术实现思路

[0004]为解决上述技术问题,本申请的实施例提供了一种知识图谱的构建方法、装置、计算机可读存储介质及电子设备,以在节约人工标注成本的前提下,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种知识图谱的构建方法,其特征在于,所述方法包括:获取原始文本数据,所述原始文本数据包括已标注文本以及未标注文本;基于所述已标注文本的标注信息提取所述已标注文本含有的至少两个实体以及所述至少两个实体之间的关联关系,得到实体关系集合;计算所述未标注文本与所述实体关系集合中含有的各个实体的文本相似度以及语义相似度,并基于所述文本相似度以及所述语义相似度得到所述未标注文本含有的至少两个实体及所述至少两个实体之间的关联关系;基于所述未标注文本含有的至少两个实体及所述至少两个实体之间的关联关系构建知识图谱。2.根据权利要求1所述的方法,其特征在于,所述计算所述未标注文本与所述实体关系集合中含有的各个实体的文本相似度以及语义相似度,包括:基于所述实体关系集合以及所述已标注文本得到正样本以及负样本;基于所述正样本以及所述负样本对预设网络模型进行训练,得到语义相似度模型;基于所述语义相似度模型计算所述未标注文本与所述实体关系集合中含有的各个实体的语义相似度。3.根据权利要求2所述的方法,其特征在于,所述基于所述实体关系集合以及所述已标注文本得到正样本以及负样本,包括:将任一已标注文本作为当前已标注文本;基于所述实体关系集合中属于所述当前已标注文本的至少两个实体及所述至少两个实体之间的关联关系,得到所述正样本。4.根据权利要求2所述的方法,其特征在于,所述基于所述实体关系集合以及所述已标注文本得到正样本以及负样本,包括:将任一已标注文本作为当前已标注文本,将其它已标注文本作为对比已标注文本;获取所述实体关系集合中属于所述对比已标注文本的至少两个实体及所述至少两个实体之间的关联关系;计算所述当前已标注文本与所述对比已标注文本的至少两个实体及所述至少两个实体之间的关联关系的匹配度;基于所述匹配度小于匹配度阈值的至少两个实体及所述至少两个实体之间的关联关系,得到所述负样本。5.根据权利要求2所述的方法,其特征在于,所述语义相似度模型包括第一特征提取网络以及所述第二特征提取网络,所述第一特征提取网络以及第二特征提取网络的网络模型参数相同;所述基于所述语义相似度模型计算所述未标注文本与所述实体关系集合中各个实体的语义相似度,包括:基于所述第一特征提取网络对所述未标注文本进行特征提取,得到文本语义特征;基于所述第二特征提取网络对所述...

【专利技术属性】
技术研发人员:马冲王兵薛艳茹武巍钱兵程明康任思聪谢汉垒
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1