融合知识图谱与大语言模型的文献复杂知识对象抽取方法技术

技术编号：40706191 阅读：5 留言：0更新日期：2024-03-22 11:06

本发明专利技术公开了一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法，属于数据挖掘领域，包括步骤：S1，领域知识图谱构建；S2，大语言模型微调；S3，复杂知识对象抽取：利用知识图谱来构建提示prompt，通过步骤S1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优提示prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘。本发明专利技术可以从海量的多源异构文献数据中高效、可信地进行知识对象的自动化抽取、结构化组织、语义化关联与知识化存储。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域，更为具体的，涉及一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法。

技术介绍

1、知识图谱是一种大规模的语义网络，描述了真实世界中存在的各种实体和实体间的关系。知识图谱包括模式层和实例层两部分，前者定义实体、关系和属性的层次结构与语义关系，后者以三元组(h,r,t)的形式存储具体的领域知识，其中，h和t代表头尾两个实体，r代表关系。大语言模型指使用大量文本数据训练的深度学习模型，集成了监督微调、反馈自助、人类反馈强化学习等技术，可用于文本分类、知识问答、信息抽取等多种自然语言处理任务。复杂知识对象抽取采用人工智能、自然语言处理、文本挖掘、语义分析等技术手段，对文本中显性与隐性的知识进行分析、推理，从中抽取出实验方法、实验原理、研究问题和解决方案等不同类型的知识元素，通过语义组织形成复杂知识对象。

2、科技文献蕴含大量“专业、可信”的知识，是实施创新驱动发展战略、建设创新型国家不可或缺的支撑条件。传统以领域专家为核心的复杂知识对象抽取模式存在效率低下和主观性强等缺陷，难以适用于大规模科技文献的知识抽取与建模。

技术实现思路

1、本专利技术的目的在于克服现有技术的不足，针对科技文献具有数量巨大、类型繁多、关系复杂和来源分散等特点，提供一种融合知识图谱与大语言模型的科技文献知识对象抽取方法，可以从海量的多源异构文献数据中高效、可信地进行知识对象的自动化抽取、结构化组织、语义化关联与知识化存储。

2、本专利技术的目的是通过以下方案实现的：

3、一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法，包括以下步骤：

4、s1，领域知识图谱构建：设计学科领域本体完成知识图谱模式层构建，通过标注工具进行命名实体识别和关系抽取，将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建；

5、s2，大语言模型微调：本地化部署大语言模型，利用知识图谱实例层构建微调数据集；

6、s3，复杂知识对象抽取：利用知识图谱来构建提示prompt，通过步骤s1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优提示prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘。

7、进一步地，在步骤s1中，所述设计学科领域本体完成知识图谱模式层构建，具体包括子步骤：利用protégé工具实现知识图谱模式层的构建，在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。

8、进一步地，所述在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环，具体包括子步骤：

9、基于stkos科技文献本体建模经验，本体构建的明确性、一致性、可扩展性、最小编码偏差和最小本体承诺原则以及专家先验知识，结合对领域通用本体的复用与融合，自顶向下构建静态schema，同时利用文本挖掘自底向上对静态schema进行迭代完善，构建选定领域动态schema，用于实现从纵向维度对领域知识组织体系的深度挖掘，同时从横向维度对信息资源进行关联汇聚，从而更加系统全面地揭示科学实验知识图谱模式层中各类实体、概念及语义关联关系。

10、进一步地，在步骤s1中，所述通过标注工具进行命名实体识别和关系抽取，包括子步骤：基于本体模型构建标签体系结构，利用标注工具brat实现科技文献中知识实体和语义关系的标注。

11、进一步地，所述基于本体模型构建标签体系结构，利用标注工具brat实现科技文献中知识实体和语义关系的标注，包括子步骤：

12、步骤(a)：一标：采集选定领域的研究人员对待标数据集进行的初次人工标注后数据，并将数据提取至标注模板保存，便于后期校对和自动标注工作开展；

13、步骤(b)：二标：对一标的结果进行交叉检验，检查数据有无错标和漏标情况，并纠正错误标注结果；

14、步骤(c)：三标：对二标的结果进行最终审定，确保标注的数据没有错误，并对标注的部分数据进行归类。

15、进一步地，在步骤s1中，所述将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建，包括子步骤：将标注结果以三元组的形式导入图数据库neo4j完成知识图谱实例层的构建，并利用neo4j内置的cypher和图挖掘算法实现知识的关联查询与深度挖掘；对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理。

16、进一步地，所述对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理，具体包括子步骤：

17、元素预处理：对缺失数据根据实际情况进行补充以及剔除重复的元素，仅存储非重复项；

18、名称规范化：对涉及歧义的实验元素再次进行校对，其中针对类别进行核对，纠正错误分类，但要保留某种元素及其类型存在的一对多情况；针对同一元素对应多种名称的情况，进行规范化，将元素最常见的名称作为首选，其次将其他名称另外对应存储，作为选定领域的标准元素库。

19、进一步地，在步骤s2中，所述本地化部署大语言模型，利用知识图谱实例层构建微调数据集，包括子步骤：

20、利用实例层三元组数据和科技文献构建微调训练数据集，即给定三元组(h,r,t)和科技文献，若文献中的一个句子同时包括“h”和“t”，则将这个句子作为训练样本，并标注为关系“r”，反之将句子标注为不可用；基于p-tuning v2技术微调模型，即首先冻结语言模型的全部参数，然后通过前缀调优方法在输入数据中插入表征特定任务的虚拟标记，接着利用transformer模型将prompt嵌入低维向量空间得到连续prompt，最后通过调节prompt长度和训练的学习率以取得最优的模型微调效果。

21、进一步地，在步骤s3中，所述利用知识图谱来构建prompt，通过步骤s1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘，具体包括子步骤：

22、首先，利用实例层三元组数据生成mot，即给定三元组(h,r,t)，基于头实体h和问题模版构建问题question，基于关系r所在本体中同层的所有关系类型构建回答选项，基于t和答案模版构建答案answer；

23、然后，对科技文献进行文本分割，针对每个句子进行大语言模型的多轮问答；在第一轮问答中，选择模式层本体schema结构中根节点下的多个子类型来构建question，计算mot中question的相似度，选择top-k个question-answer来构建prompt，输入到大语言模型得到回答；根据模型回答结果开启下一轮问答，若到达schema的叶子节点则结束多轮问答；在相似度的计算中，利用doc2vec模型将question文本向量化，计算向量相似度，如下：...

【技术保护点】

1.一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S1中，所述设计学科领域本体完成知识图谱模式层构建，具体包括子步骤：利用protégé工具实现知识图谱模式层的构建，在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。

3.根据权利要求2所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，所述在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环，具体包括子步骤：

4.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S1中，所述通过标注工具进行命名实体识别和关系抽取，包括子步骤：基于本体模型构建标签体系结构，利用标注工具BRAT实现科技文献中知识实体和语义关系的标注。

5.根据权利要求4所述的融合知识图谱与大语言模型的文献复杂知识对象抽取

6.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S1中，所述将标注结果以三元组的形式导入图数据库实现知识的存储与图谱实例层构建，包括子步骤：将标注结果以三元组的形式导入图数据库Neo4j完成知识图谱实例层的构建，并利用Neo4j内置的Cypher和图挖掘算法实现知识的关联查询与深度挖掘；对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理。

7.根据权利要求6所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，所述对标注结果参考已有数据库、词表和专家知识进行实体、实例和关系的数据规范化处理，具体包括子步骤：

8.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S2中，所述本地化部署大语言模型，利用知识图谱实例层构建微调数据集，包括子步骤：

9.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤S3中，所述利用知识图谱来构建prompt，通过步骤S1中模式层将挖掘任务转换为多轮问答问题，在每一轮问答中获取实例层中的三元组来构建最优prompt，通过不同长度的问题链来实现细粒度的领域知识对象挖掘，具体包括子步骤：

10.根据权利要求9所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，所述计算向量相似度具体包括：通过欧式距离计算向量相似度。

...

【技术特征摘要】

1.一种融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤s1中，所述设计学科领域本体完成知识图谱模式层构建，具体包括子步骤：利用protégé工具实现知识图谱模式层的构建，在准备阶段确定特定学科领域的范围与界限；在本体构建阶段包括基本框架搭建、知识结构完善和知识结构对齐三轮循环。

4.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，在步骤s1中，所述通过标注工具进行命名实体识别和关系抽取，包括子步骤：基于本体模型构建标签体系结构，利用标注工具brat实现科技文献中知识实体和语义关系的标注。

5.根据权利要求4所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其特征在于，所述基于本体模型构建标签体系结构，利用标注工具brat实现科技文献中知识实体和语义关系的标注，包括子步骤：

6.根据权利要求1所述的融合知识图谱与大语言模型的文献复杂知识对象抽取方法，其...

【专利技术属性】
技术研发人员：陈文杰，胡正银，卢颖，石栖，
申请(专利权)人：中国科学院成都文献情报中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人