一种知识图谱构建方法、装置及介质制造方法及图纸

技术编号:38515352 阅读:10 留言:0更新日期:2023-08-19 16:57
本发明专利技术公开了一种知识图谱构建方法、装置及介质,涉及计算机知识图谱领域,解决知识图谱构建中实体重叠与结果三元组重叠等问题,通过全词掩蔽双向编码器模型对标准化文本数据进行预训练,得到文本词向量;将文本词向量输入到双向环神经网络中得到上下文依赖关系;根据文本词向量与上下文依赖关系得到结果语义向量;通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组,构建所述服务器研发领域的目标知识图谱。使用全词掩蔽双向编码器模型,将全词掩蔽应用在了中文中,适合中文的理解,双向环神经网络模型抽取三元组及使用多头机制的全局指针标记策略,解决了实体重叠与三元组重叠,目标知识图谱为构建搜索引擎对话系统提供基础。话系统提供基础。话系统提供基础。

【技术实现步骤摘要】
一种知识图谱构建方法、装置及介质


[0001]本专利技术涉及计算机知识图谱领域,特别是涉及一种知识图谱构建方法、装置及介质。

技术介绍

[0002]随着互联网数据的爆炸式增长,大量的知识数据给信息检索带来了挑战。传统的搜索引擎是以字符串和关键词匹配的方式过滤信息,这使得获取信息有一定的局限性。现在以知识图谱为技术核心的搜索引擎和自动问答系统成为了人机交互的新趋势。知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
[0003]从原始文本中提取实体和关系是知识图谱构建的重要步骤,大多数用于实体和关系提取的神经网络模型假设一个句子只包含一个关系,无法获得深层语义,无法很好地解决实体重叠与结果三元组重叠等问题。在服务器研发过程中,各领域都积累了大量的研发数据、测试数据、试产数据、项目经验等很有价值的数据和文档,面对有多个结果三元组有重叠、关系类别多的情况时,现有模型的效果就有一定的局限性。
[0004]由此可见,如何解决知识图谱构建中实体重叠与结果三元组重叠等问题,是本领域人员亟待解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种知识图谱构建方法、装置及介质,解决知识图谱构建中实体重叠与结果三元组重叠等问题。
[0006]为解决上述技术问题,本专利技术提供一种知识图谱构建方法,包括:
[0007]获取服务器研发领域的开放数据,并对所述开放数据进行预处理得到标准化文本数据;
[0008]根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注;
[0009]通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练,得到文本词向量;
[0010]将所述文本词向量输入到双向环神经网络中得到上下文依赖关系;
[0011]根据所述文本词向量与所述上下文依赖关系得到结果语义向量;
[0012]通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组;
[0013]融合并保存所述结果三元组至图数据库,构建所述服务器研发领域的目标知识图谱。
[0014]另一方面,上述知识图谱构建方法中,所述获取服务器研发领域的开放数据,并对所述开放数据进行预处理得到标准化文本数据,包括:
[0015]使用网络爬虫获取网络上的服务器研发领域的开放数据;
[0016]若所述开放数据为非结构化数据,通过多模态数据处理方法将所述开放数据处理为纯文字的形式,得到标准化文本数据。
[0017]另一方面,上述知识图谱构建方法中,所述根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注,包括:
[0018]获取预设实体与实体关系;
[0019]根据所述预设实体与实体关系,通过五位序列标注方式对所述标准化文本数据中的文本进行实体和关系的标注。
[0020]另一方面,上述知识图谱构建方法中,所述通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练,得到文本词向量,包括:
[0021]将所述标准化文本数据输送到词嵌入层,处理文本序列;
[0022]提取文本的语义特征和位置特征,将文本转化成文本词向量;
[0023]其中,所述词嵌入层的模型为全词掩蔽双向编码器模型。
[0024]另一方面,上述知识图谱构建方法中,通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组,包括:
[0025]通过多层的全局指针网络标注所述结果语义向量的起始结束位置,得到子序列;
[0026]对每一个所述子序列通过打分函数进行打分,得到每个所述子序列的分数;
[0027]输出所述分数大于预设阈值的所述子序列,作为结果三元组。
[0028]另一方面,上述知识图谱构建方法中,所述融合并保存所述结果三元组至图数据库,构建所述服务器研发领域的目标知识图谱,之前还包括:
[0029]将所述结果三元组数据整理成逗号分隔值文件格式。
[0030]另一方面,上述知识图谱构建方法中,所述使用网络爬虫获取网络上的服务器研发领域的开放数据,之后还包括:
[0031]对所述网络爬虫获取到的所述开放数据进行数据清洗。
[0032]为解决上述技术问题,本专利技术还提供一种知识图谱构建装置,包括:
[0033]获取模块,用于获取服务器研发领域的开放数据,并对所述开放数据进行预处理得到标准化文本数据;
[0034]标注模块,用于根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注;
[0035]获取词向量模块,用于通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练,得到文本词向量;
[0036]获取依赖关系模块,用于将所述文本词向量输入到双向环神经网络中得到上下文依赖关系;
[0037]拼接模块,用于根据所述文本词向量与所述上下文依赖关系得到结果语义向量;
[0038]提取结果三元组模块,用于通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组;
[0039]输出知识图谱模块,用于融合并保存所述结果三元组至图数据库,构建所述服务器研发领域的目标知识图谱。
[0040]爬取单元,用于使用网络爬虫获取网络上的服务器研发领域的开放数据;
[0041]非结构化处理单元,用于若所述开放数据为非结构化数据,通过多模态数据处理
方法将所述开放数据处理为纯文字的形式,得到标准化文本数据。
[0042]获取关系单元,用于获取预设实体与实体关系;
[0043]标注单元,用于根据所述预设实体与实体关系,通过五位序列标注方式对所述标准化文本数据中的文本进行实体和关系的标注。
[0044]词嵌入层处理单元,用于将所述标准化文本数据输送到词嵌入层,处理文本序列;
[0045]提取单元,用于提取文本的语义特征和位置特征,将文本转化成文本词向量;
[0046]其中,所述词嵌入层的模型为全词掩蔽双向编码器模型。
[0047]获取子序列单元,用于通过多层的全局指针网络标注所述结果语义向量的起始结束位置,得到子序列;
[0048]打分单元,用于对每一个所述子序列通过打分函数进行打分,得到每个所述子序列的分数;
[0049]输出结果单元,用于输出所述分数大于预设阈值的所述子序列,作为结果三元组。
[0050]存储单元,用于将所述结果三元组数据整理成逗号分隔值文件格式。
[0051]清洗单元,用于对所述网络爬虫获取到的所述开放数据进行数据清洗。
[0052]为解决上述技术问题,本专利技术还提供一种知识图谱构建装置,包括:
[0053]存储器,用于存储计算机程序;
[0054]处理器,用于执行所述计算机程序时实现上述的知识图谱构建方法的步骤。
[0055]为解决上述技术问题,本专利技术还提供一种计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括:获取服务器研发领域的开放数据,并对所述开放数据进行预处理得到标准化文本数据;根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注;通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练,得到文本词向量;将所述文本词向量输入到双向环神经网络中得到上下文依赖关系;根据所述文本词向量与所述上下文依赖关系得到结果语义向量;通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组;融合并保存所述结果三元组至图数据库,构建所述服务器研发领域的目标知识图谱。2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述获取服务器研发领域的开放数据,并对所述开放数据进行预处理得到标准化文本数据,包括:使用网络爬虫获取网络上的服务器研发领域的开放数据;若所述开放数据为非结构化数据,通过多模态数据处理方法将所述开放数据处理为纯文字的形式,得到标准化文本数据。3.根据权利要求1所述的知识图谱构建方法,其特征在于,所述根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注,包括:获取预设实体与实体关系;根据所述预设实体与实体关系,通过五位序列标注方式对所述标准化文本数据中的文本进行实体和关系的标注。4.根据权利要求3所述的知识图谱构建方法,其特征在于,所述通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练,得到文本词向量,包括:将所述标准化文本数据输送到词嵌入层,处理文本序列;提取文本的语义特征和位置特征,将文本转化成文本词向量;其中,所述词嵌入层的模型为全词掩蔽双向编码器模型。5.根据权利要求4所述的知识图谱构建方法,其特征在于,所述通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组,包括:通过多层的全局指针网络标注所...

【专利技术属性】
技术研发人员:张悦
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1