知识图谱的构建方法、装置、介质及设备制造方法及图纸

技术编号:34603637 阅读:24 留言:0更新日期:2022-08-20 09:07
本申请的实施例揭示了一种知识图谱的构建方法、装置、介质及设备。该方法包括:获取原始文本数据,原始文本数据包括已标注文本以及未标注文本;基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系,得到实体关系集合;计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度,并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系;基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱。进而节约了人工标记成本,提高了知识图谱的构建效率,构建出高精度和高质量的知识图谱。高精度和高质量的知识图谱。高精度和高质量的知识图谱。

【技术实现步骤摘要】
知识图谱的构建方法、装置、介质及设备


[0001]本申请涉及计算机
,具体而言,涉及一种知识图谱的构建方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]知识图谱(knowledge graph)是指以实体、概念作为节点,以节点之间关系作为边的树状拓扑网络。知识图谱使得知识获取更直接,从而实现数据搜索的便捷化、智能化和人性化。
[0003]在进行信息搜索时,可以根据预先构建的知识图谱,搜索与用户输入的搜索关键词有关联关系的信息。目前在构建知识图谱时是采用人工构建方式,人工获取大量的关键词,将获取到的关键词作为知识图谱的节点;以及人工设置的两个节点之间的关系,将具有关联关系的两个节点进行连线作为知识图谱的边;在生成节点和边之后完成知识图谱的构建。但是,采用人工构建的方式得到的知识图谱包含的信息数量和类型都有很大的局限性,构建得到的知识图谱过于单一。

技术实现思路

[0004]为解决上述技术问题,本申请的实施例提供了一种知识图谱的构建方法、装置、计算机可读存储介质及电子设备,以在节约人工标注成本的前提下,构建精准度更高的知识图谱。
[0005]根据本申请实施例的一个方面,提供了一种知识图谱的构建方法,方法包括:获取原始文本数据,原始文本数据包括已标注文本以及未标注文本;基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系,得到实体关系集合;计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度,并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系;基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱。
[0006]在一些实施例中,计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度,包括:基于实体关系集合以及已标注文本得到正样本以及负样本;基于正样本以及负样本对预设网络模型进行训练,得到语义相似度模型;基于语义相似度模型计算未标注文本与实体关系集合中含有的各个实体的语义相似度。
[0007]在一些实施例中,基于实体关系集合以及已标注文本得到正样本以及负样本,包括:将任一已标注文本作为当前已标注文本;基于实体关系集合中属于当前已标注文本的至少两个实体及至少两个实体之间的关联关系,得到正样本。
[0008]在一些实施例中,基于实体关系集合以及已标注文本得到正样本以及负样本,包括:将任一已标注文本作为当前已标注文本,将其它已标注文本作为对比已标注文本;获取实体关系集合中属于对比已标注文本的至少两个实体及至少两个实体之间的关联关系;计
算当前已标注文本与对比已标注文本的至少两个实体及至少两个实体之间的关联关系的匹配度;基于匹配度小于匹配度阈值的至少两个实体及至少两个实体之间的关联关系,得到负样本。
[0009]在一些实施例中,语义相似度模型包括第一特征提取网络以及第二特征提取网络,第一特征提取网络以及第二特征提取网络的网络模型参数相同;基于语义相似度模型计算未标注文本与实体关系集合中各个实体的语义相似度,包括:基于第一特征提取网络对未标注文本进行特征提取,得到文本语义特征;基于第二特征提取网络对实体关系集合中各个实体进行特征提取,得到实体语义特征;基于文本语义特征以及实体语义特征得到未标注文本与实体关系集合中各个实体的语义相似度。
[0010]在一些实施例中,计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度,包括:对未标注文本进行字符拆分处理,得到第一字符串;以及对实体关系集合中各个实体进行字符拆分处理,得到第二字符串;计算第一字符串与第二字符串之间的编辑距离以及最长公共子序列长度;基于编辑距离以及最长公共子序列长度得到未标注文本与实体关系集合中各个实体的文本相似度。
[0011]在一些实施例中,基于文本相似度以及语义相似度得到未标注文本对应的实体及实体之间的关联关系,包括:基于预设文本相似度阈值以及文本相似度,对实体关系集合中各个实体进行筛选得到候选实体关系集合;基于语义相似度对候选实体关系集合中的各个实体进行排序,得到排序结果;基于排序结果得到未标注文本对应的实体及实体之间的关联关系。
[0012]根据本申请实施例的一个方面,提供了一种知识图谱的构建装置,装置包括:原始文本获取模块,配置为获取原始文本数据,原始文本数据包括已标注文本以及未标注文本;实体关系获取模块,配置为基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系,得到实体关系集合;计算模块,配置为计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度,并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系;图谱构建模块,配置为基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱。
[0013]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上的知识图谱的构建方法。
[0014]根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被电子设备执行时,使得电子设备实现如上的知识图谱的构建方法。
[0015]在本申请的实施例提供的技术方案中,通过获取原始文本数据,原始文本数据包括已标注文本以及未标注文本;基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系,得到实体关系集合,以通过已标注文本得到更加准确的实体关系集合,使后续对未标注文本进行实体及关系抽取时,得到的未标注文本的实体及实体之间的关联关系更加准确。然后,计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度,并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系,以结合文本相似度以及语义相似
度,保证了得到的未标注文本的实体及实体之间的关联关系的正确性。最后基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱,节约了人工标记成本,提高了知识图谱的构建效率,构建出高精度和高质量的知识图谱。
[0016]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0018]图1是可以应用本申请实施例的技术方案的示例性应用环境的示意图;
[0019]图2是本申请的一示例性实施例示出的知识图谱的构建方法的流程图;
[0020]图3是本申请的一示例性实施例示出的计算语义相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱的构建方法,其特征在于,所述方法包括:获取原始文本数据,所述原始文本数据包括已标注文本以及未标注文本;基于所述已标注文本的标注信息提取所述已标注文本含有的至少两个实体以及所述至少两个实体之间的关联关系,得到实体关系集合;计算所述未标注文本与所述实体关系集合中含有的各个实体的文本相似度以及语义相似度,并基于所述文本相似度以及所述语义相似度得到所述未标注文本含有的至少两个实体及所述至少两个实体之间的关联关系;基于所述未标注文本含有的至少两个实体及所述至少两个实体之间的关联关系构建知识图谱。2.根据权利要求1所述的方法,其特征在于,所述计算所述未标注文本与所述实体关系集合中含有的各个实体的文本相似度以及语义相似度,包括:基于所述实体关系集合以及所述已标注文本得到正样本以及负样本;基于所述正样本以及所述负样本对预设网络模型进行训练,得到语义相似度模型;基于所述语义相似度模型计算所述未标注文本与所述实体关系集合中含有的各个实体的语义相似度。3.根据权利要求2所述的方法,其特征在于,所述基于所述实体关系集合以及所述已标注文本得到正样本以及负样本,包括:将任一已标注文本作为当前已标注文本;基于所述实体关系集合中属于所述当前已标注文本的至少两个实体及所述至少两个实体之间的关联关系,得到所述正样本。4.根据权利要求2所述的方法,其特征在于,所述基于所述实体关系集合以及所述已标注文本得到正样本以及负样本,包括:将任一已标注文本作为当前已标注文本,将其它已标注文本作为对比已标注文本;获取所述实体关系集合中属于所述对比已标注文本的至少两个实体及所述至少两个实体之间的关联关系;计算所述当前已标注文本与所述对比已标注文本的至少两个实体及所述至少两个实体之间的关联关系的匹配度;基于所述匹配度小于匹配度阈值的至少两个实体及所述至少两个实体之间的关联关系,得到所述负样本。5.根据权利要求2所述的方法,其特征在于,所述语义相似度模型包括第一特征提取网络以及所述第二特征提取网络,所述第一特征提取网络以及第二特征提取网络的网络模型参数相同;所述基于所述语义相似度模型计算所述未标注文本与所述实体关系集合中各个实体的语义相似度,包括:基于所述第一特征提取网络对所述未标注文本进行特征提取,得到文本语义特征;基于所述第二特征提取网络对所述...

【专利技术属性】
技术研发人员:马冲王兵薛艳茹武巍钱兵程明康任思聪谢汉垒
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1