System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识图谱的数据处理方法技术_技高网

一种基于知识图谱的数据处理方法技术

技术编号:41217748 阅读:3 留言:0更新日期:2024-05-09 23:38
本申请公开了一种基于知识图谱的数据处理方法,属于知识图谱领域,包括:构建包含非结构化文本数据的领域知识数据库;构建命名实体识别模型对领域知识数据库进行命名实体识别,获取命名实体作为领域知识实体;采用K均值聚类算法对获取的领域知识实体进行聚类,得到结构化的实体关系数据;根据获取的结构化的实体关系数据,训练TransE知识图谱模型,得到领域知识图谱模型;利用得到的领域知识图谱模型,对结构化的实体关系数据进行知识推理,得到实体关系三元组;利用得到的实体关系数据和实体关系三元组,构建领域知识图谱。针对现有技术中对非结构化文本数据的利用率低的问题,本申请提高了利用率。

【技术实现步骤摘要】

本申请涉及知识图谱,更具体地说,涉及一种基于知识图谱的数据处理方法


技术介绍

1、随着信息时代的到来,海量的非结构化文本数据在互联网上不断涌现,尤其是传统医学和针灸领域。这些数据包含了丰富的信息,但由于其非结构化的特性,传统的处理方法往往难以有效地挖掘和利用其中的知识。作为知识图谱广泛应用的领域,针灸医学数据具有文献量大、知识碎片化,资料来源广泛等特点。因此,对于如何高效地处理和利用这些非结构化文本数据,成为当前信息
和针灸医学垂直领域亟待解决的挑战之一。

2、在现有技术中,对于非结构化文本数据的利用率较低是一个普遍存在的问题。传统的文本处理方法往往依赖于关键词匹配和统计分析,无法充分挖掘文本中隐藏的语义信息和实体关系。这也导致了当前对于针灸医学的知识图谱研究,多以用穴经验等显性知识的总结分析为主,无法进行更全面的诊疗思路和思维模式的探索和更深层次的学术经验挖掘。

3、中国专利申请,申请号cn202310626389.x,公开日2023年8月15日,公开了一种知识图谱构建方法、装置及介质,涉及计算机知识图谱领域,解决知识图谱构建中实体重叠与结果三元组重叠等问题,通过全词掩蔽双向编码器模型对标准化文本数据进行预训练,得到文本词向量;将文本词向量输入到双向环神经网络中得到上下文依赖关系;根据文本词向量与上下文依赖关系得到结果语义向量;通过多层的全局指针网络对结果语义向量进行标注并提取结果三元组,构建所述服务器研发领域的目标知识图谱。使用全词掩蔽双向编码器模型,将全词掩蔽应用在了中文中,适合中文的理解,双向环神经网络模型抽取三元组及使用多头机制的全局指针标记策略,解决了实体重叠与三元组重叠,目标知识图谱为构建搜索引擎对话系统提供基础。但是该方案主要利用标准化文本数据进行预训练和处理,未充分考虑到对非结构化文本数据进行全面处理和利用。


技术实现思路

1、1.要解决的技术问题

2、针对现有技术中存在的医学领域中对非结构化针灸医学文本数据的利用率低的问题,本申请提供了一种基于知识图谱的数据处理方法,通过构建命名实体识别模型获取知识实体,采用聚类算法得到结构化实体关系,并利用知识图谱进行关系推理和知识增强等,有效地对非结构化文本数据进行结构化表示和知识挖掘利用。

3、2.技术方案

4、本申请的目的通过以下技术方案实现。

5、本说明书实施例提供一种基于知识图谱的数据处理方法,包括:构建包含非结构化文本数据的领域知识数据库;构建命名实体识别模型,利用构建的命名实体识别模型对构建的领域知识数据库进行命名实体识别,获取命名实体作为领域知识实体;采用k均值聚类算法对获取的领域知识实体进行聚类,并进行标注,得到结构化的实体关系数据;根据获取的结构化的实体关系数据,训练transe知识图谱模型,得到领域知识图谱模型;利用得到的领域知识图谱模型,对结构化的实体关系数据进行知识推理,得到实体关系三元组;利用得到的实体关系数据和实体关系三元组,构建领域知识图谱;利用构建的领域知识图谱进行数据处理。

6、其中,k均值聚类是一种常见的无监督聚类算法。它通过迭代的方式将数据点分配到k个聚类中,每个聚类由其质心(centroid)表示,即聚类中所有点的均值。算法通过最小化每个点到其所属聚类质心的平方距离之和来优化聚类效果。在本方案中,k均值聚类算法被用于对命名实体识别获得的知识实体进行聚类。将语义相似、关系紧密的实体聚合在一起,形成不同类别,为后续构建实体关系奠定基础。通过调整聚类数k和设计合适的相似度计算方式,可以获得合适粒度和语义区分度的实体类别划分。

7、其中,transe(translating embedding)是一种知识图谱表示学习模型,由bordes等人于2013年提出。它将知识图谱中的实体和关系嵌入到同一个低维连续向量空间中,使得对于一个三元组(h,r,t),实体h经过关系r的翻译(translation)后应该接近实体t,即h+r≈t。在本方案中,transe模型被用于学习知识图谱的低维向量表示。基于k均值聚类获得的结构化实体关系数据,transe通过最小化正三元组和负采样三元组的距离差异,学习每个实体和关系的嵌入向量。获得的transe嵌入可用于后续的图谱补全、关系预测等推理任务。

8、其中,领域知识图谱是面向特定领域构建的结构化知识库。它以图(graph)的形式来表示领域内的核心概念、实体以及它们之间的语义关联。知识图谱通常由实体(entity)、关系(relation)、属性(attribute)三个基本元素组成。在本方案中,领域知识图谱是整个数据处理的核心目标。它是通过前述的一系列步骤,将非结构化文本数据中的知识提炼、组织、关联,最终形成的结构化、语义化的知识库。构建出的领域知识图谱可用于支撑各类基于知识的智能化应用,如智能问答、专家系统、推荐系统等。

9、其中,实体关系三元组是知识图谱的基本表示单元,由(头实体,关系,尾实体)构成,表达两个实体之间的一种语义关联。例如(马云,创立,阿里巴巴)、(阿里巴巴,总部,杭州)等。三元组以spo(subject-predicate-object)的形式呈现知识事实。在本方案中,实体关系三元组的构建是将非结构化知识转化为结构化知识的关键步骤。通过知识推理环节,利用训练好的transe模型,挖掘蕴含在实体关系数据中的隐含知识,形成新的实体关系三元组。

10、进一步的,基于bilstm-crf构建命名实体识别模型。其中,bilstm-crf是一种广泛用于序列标注任务(如命名实体识别)的深度学习模型,由双向长短时记忆网络(bidirectional long short-term memory,bilstm)和条件随机场(conditional randomfield,crf)两个部分组成。在命名实体识别任务中,bilstm被用于对输入的文本序列进行特征提取和编码。通过双向lstm层,可以获取每个词汇的上下文语义信息,从而为后续的实体边界和类别判断提供更丰富的特征表示。bilstm的输出通常会被作为crf层的输入。在bilstm-crf模型中,crf层接在bilstm层之后,用于对bilstm提取的特征序列进行解码和标注。crf层包含转移矩阵和发射矩阵两部分,分别对应标签间的转移概率和每个token对应各个标签的发射概率。通过学习转移矩阵和发射矩阵的参数,crf可以找到一个全局最优的标注路径,从而得到最终的实体标注结果。

11、进一步的,采用双向lstm算法构建神经网络序列模型,通过双向lstm层获取文本序列的上下文特征,获取输入文本序列的特征表达;采用条件随机场算法crf构建序列标注模型,序列标注模型包含状态层和转移层,状态层表示不同文本序列元素的实体类型,转移层表示相邻状态层标注之间的转移关系,转移层对文本序列元素进行标注;将神经网络序列模型和序列标注模型进行结合,作为序列标注框架,状态层表示文本序列元素的实体类型,转移层进行标注结果的本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的数据处理方法,包括:

2.根据权利要求1所述的基于知识图谱的数据处理方法,其特征在于:

3.根据权利要求2所述的基于知识图谱的数据处理方法,其特征在于:

4.根据权利要求3所述的基于知识图谱的数据处理方法,其特征在于:

5.根据权利要求1至4任一所述的基于知识图谱的数据处理方法,其特征在于:

6.根据权利要求5所述的基于知识图谱的数据处理方法,其特征在于:

7.根据权利要求6所述的基于知识图谱的数据处理方法,其特征在于:

8.根据权利要求7所述的基于知识图谱的数据处理方法,其特征在于:

【技术特征摘要】

1.一种基于知识图谱的数据处理方法,包括:

2.根据权利要求1所述的基于知识图谱的数据处理方法,其特征在于:

3.根据权利要求2所述的基于知识图谱的数据处理方法,其特征在于:

4.根据权利要求3所述的基于知识图谱的数据处理方法,其特征在于:

5.根据...

【专利技术属性】
技术研发人员:夏有兵高照徐天成温静吴响
申请(专利权)人:南京中医药大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1