一种知识图谱构建方法、装置及介质制造方法及图纸

技术编号：38515352 阅读：10 留言：0更新日期：2023-08-19 16:57

本发明专利技术公开了一种知识图谱构建方法、装置及介质，涉及计算机知识图谱领域，解决知识图谱构建中实体重叠与结果三元组重叠等问题，通过全词掩蔽双向编码器模型对标准化文本数据进行预训练，得到文本词向量；将文本词向量输入到双向环神经网络中得到上下文依赖关系；根据文本词向量与上下文依赖关系得到结果语义向量；通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组，构建所述服务器研发领域的目标知识图谱。使用全词掩蔽双向编码器模型，将全词掩蔽应用在了中文中，适合中文的理解，双向环神经网络模型抽取三元组及使用多头机制的全局指针标记策略，解决了实体重叠与三元组重叠，目标知识图谱为构建搜索引擎对话系统提供基础。话系统提供基础。话系统提供基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种知识图谱构建方法、装置及介质

[0001]本专利技术涉及计算机知识图谱领域，特别是涉及一种知识图谱构建方法、装置及介质。

技术介绍

[0002]随着互联网数据的爆炸式增长，大量的知识数据给信息检索带来了挑战。传统的搜索引擎是以字符串和关键词匹配的方式过滤信息，这使得获取信息有一定的局限性。现在以知识图谱为技术核心的搜索引擎和自动问答系统成为了人机交互的新趋势。知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。
[0003]从原始文本中提取实体和关系是知识图谱构建的重要步骤，大多数用于实体和关系提取的神经网络模型假设一个句子只包含一个关系，无法获得深层语义，无法很好地解决实体重叠与结果三元组重叠等问题。在服务器研发过程中，各领域都积累了大量的研发数据、测试数据、试产数据、项目经验等很有价值的数据和文档，面对有多个结果三元组有重叠、关系类别多的情况时，现有模型的效果就有一定的局限性。
[0004]由此可见，如何解决知识图谱构建中实体重叠与结果三元组重叠等问题，是本领域人员亟待解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种知识图谱构建方法、装置及介质，解决知识图谱构建中实体重叠与结果三元组重叠等问题。
[0006]为解决上述技术问题，本专利技术提供一种知识图谱构建方法，包括：
[0007]获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法，其特征在于，包括：获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据；根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注；通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量；将所述文本词向量输入到双向环神经网络中得到上下文依赖关系；根据所述文本词向量与所述上下文依赖关系得到结果语义向量；通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组；融合并保存所述结果三元组至图数据库，构建所述服务器研发领域的目标知识图谱。2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述获取服务器研发领域的开放数据，并对所述开放数据进行预处理得到标准化文本数据，包括：使用网络爬虫获取网络上的服务器研发领域的开放数据；若所述开放数据为非结构化数据，通过多模态数据处理方法将所述开放数据处理为纯文字的形式，得到标准化文本数据。3.根据权利要求1所述的知识图谱构建方法，其特征在于，所述根据预设实体与实体关系对所述标准化文本数据中的文本进行实体和关系的标注，包括：获取预设实体与实体关系；根据所述预设实体与实体关系，通过五位序列标注方式对所述标准化文本数据中的文本进行实体和关系的标注。4.根据权利要求3所述的知识图谱构建方法，其特征在于，所述通过全词掩蔽双向编码器模型对所述标准化文本数据进行预训练，得到文本词向量，包括：将所述标准化文本数据输送到词嵌入层，处理文本序列；提取文本的语义特征和位置特征，将文本转化成文本词向量；其中，所述词嵌入层的模型为全词掩蔽双向编码器模型。5.根据权利要求4所述的知识图谱构建方法，其特征在于，所述通过多层的全局指针网络对所述结果语义向量进行标注并提取结果三元组，包括：通过多层的全局指针网络标注所...

【专利技术属性】
技术研发人员：张悦，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人