一种基于大语言模型的关键信息抽取方法技术

技术编号：40665256 阅读：4 留言：0更新日期：2024-03-18 18:59

本发明专利技术属于自然语言处理领域，具体涉及一种基于大语言模型的关键信息抽取方法；该方法包括：获取文本数据并对其进行预处理，得到标准文本数据；构建多种关键信息抽取模板；对多种关键信息抽取模板进行文本丰富以构建目标prompt模板；将标准文本数据和目标prompt模板输入到预训练的大语言模型中进行处理，得到指令数据；根据指令数据对大语言模型进行训练，得到训练好的大语言模型；采用训练好的大语言模型对待信息抽取的文本进行处理，得到文本的关键信息抽取结果；本发明专利技术能够实现高效、灵活、低成本、可扩展的信息抽取。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，具体涉及一种基于大语言模型的关键信息抽取方法。

技术介绍

1、关键信息抽取技术在多个领域和任务中都起着重要作用。它可以帮助我们从大量文本中快速获取关键信息、理解文本内容、构建知识图谱，并支持各种应用，如信息检索、情感分析、舆情监测和机器学习等。

2、目前的关键信息抽取方法可以分为基于规则的方法、基于统计方法和基于深度学习的方法。基于规则的方法需要人工建立一个信息抽取词典、由专家参与设计若干匹配规则，然后通过触发词匹配等方式完成关键信息抽取流程，这类方法往往具有较高的精度。虽然其抽取结果精确度高，但由于词典库和匹配规则相对固定，其解析数据的鲁棒性、泛化能力和迁移能力较差。

3、基于统计的方法需要收集一定量的训练数据，通过数据挖掘的方式寻找相关数据的规律，并根据挖掘的规律解析相关数据。基于统计的方法减少了构造词典和模板的人工成本，但其抽取的准确率相对较低，性能高度依赖训练数据的量级和丰富程度。

4、大部分基于深度学习的关键信息抽取方法遵循一个两阶段抽取的框架：第一阶段将数据划分为粗粒度的若干区块，第二阶段对于区块内的行数据进行细粒度的键值对抽取。第一阶段使用一个基于深度神经网络的分类器实现，如rnn、gru、bilstm等深度模型，第二阶段使用crf等序列标记模型抽取出细粒度的键值对信息。基于深度学习的方法比基于统计的方法更能深度挖掘训练样本的规律和潜在模式。然而，现有的基于深度学习的关键信息抽取方法具有以下缺点：

5、1、大部分基于深度学习的关键信息抽

6、2、基于深度学习关键信息抽取方法的鲁棒性和泛化能力高度依赖训练数据的信息量、复杂程度和多样性。大部分基于深度学习的关键信息抽取方法对数据的结构化要求较高，导致了关键信息抽取系统的鲁棒性和泛化能力较差。

技术实现思路

1、针对现有技术存在的不足，本专利技术提出了一种基于大语言模型的关键信息抽取方法，该方法包括：

2、s1：获取文本数据并对其进行预处理，得到标准文本数据；

3、s2：构建多种关键信息抽取模板；

4、s3：对多种关键信息抽取模板进行文本丰富以构建目标prompt模板；

5、s4：将标准文本数据和目标prompt模板输入到预训练的大语言模型中进行处理，得到指令数据；

6、s5：根据指令数据对大语言模型进行训练，得到训练好的大语言模型；

7、s6：采用训练好的大语言模型对待信息抽取的文本进行处理，得到文本的关键信息抽取结果。

8、优选的，对文本数据进行预处理的过程包括：对文本数据进行数据清洗，去除图片和非法字符；将清洗后的文本数据中的表格转化为html格式数据；对转化后的文本数据进行分割处理，得到标准文本数据。

9、优选的，构建关键信息抽取模板的过程包括：

10、构建关键字词库；

11、从关键词库中随机选择n个关键字，随机选取一段文本；根据关键字对关键信息进行人工抽取，得到抽取结果；

12、整合文本和对应的抽取结果，得到关键信息抽取模板。

13、优选的，对关键信息抽取模板进行文本丰富的过程包括：从5方面对关键信息抽取模板进行文本丰富，5方面分别为：表明意图、描述需要抽取的关键信息、将关键信息抽取模版作为例子、加入需要进行关键信息抽取的文本、提示模型接下来所需生成关键信息抽取结果。

14、优选的，所述目标prompt模板的结构为引导语句加文本资料。

15、优选的，根据指令数据对大语言模型进行训练的过程包括：

16、基于指令数据中的输入和输出，采用标准文本数据对大语言模型进行训练，得到指令大语言模型；

17、采用rlhf方法对指令大语言模型进行优化，得到训练好的大语言模型。

18、优选的，采用训练好的大语言模型对待信息抽取的文本进行处理的过程包括：

19、获取待信息抽取的文本，并将其输入到训练好的大语言模型中，指定需要抽取的关键信息类别；

20、大语言模型执行模型推理，输出文本的关键信息抽取结果。

21、本专利技术的有益效果为：

22、本专利技术不需要依赖大量的人工标注，成本低；设计了标准的信息抽取模版和更有效的prompt模板，使大模型能够准确理解任务内容，提高了大模型抽取关键信息的准确度；本专利技术通过设计不同的模板和任务方案，可以适应不同领域和应用的信息抽取需求。同时，本专利技术可以轻松地添加新的元素类型和任务，以适应不断变化的数据和需求，具有很高的灵活性和可扩展性。本专利技术设计了通过预训练模型生成数据的方法，使模型不需要指令精调就可以生成准确的信息抽取数据，简化了工作流程，提高了效率。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的关键信息抽取方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大语言模型的关键信息抽取方法，其特征在于，对文本数据进行预处理的过程包括：对文本数据进行数据清洗，去除图片和非法字符；将清洗后的文本数据中的表格转化为html格式数据；对转化后的文本数据进行分割处理，得到标准文本数据。

3.根据权利要求1所述的一种基于大语言模型的关键信息抽取方法，其特征在于，构建关键信息抽取模板的过程包括：

4.根据权利要求1所述的一种基于大语言模型的关键信息抽取方法，其特征在于，对关键信息抽取模板进行文本丰富的过程包括：从5方面对关键信息抽取模板进行文本丰富，5方面分别为：表明意图、描述需要抽取的关键信息、将关键信息抽取模版作为例子、加入需要进行关键信息抽取的文本、提示模型接下来所需生成关键信息抽取结果。

5.根据权利要求1所述的一种基于大语言模型的关键信息抽取方法，其特征在于，所述目标prompt模板的结构为引导语句加文本资料。

6.根据权利要求1所述的一种基于大语言模型的关键信息抽取方法，其特征在于，根据

7.根据权利要求1所述的一种基于大语言模型的关键信息抽取方法，其特征在于，采用训练好的大语言模型对待信息抽取的文本进行处理的过程包括：

...

【技术特征摘要】

1.一种基于大语言模型的关键信息抽取方法，其特征在于，包括：

3.根据权利要求1所述的一种基于大语言模型的关键信息抽取方法，其特征在于，构建关键信息抽取模板的过程包括：

4.根据权利要求1所述的一种基于大语言模型的关键信息抽取方法，其特征在于，对关键信息抽取模板进行文本丰富的过程包括：从5方面对关键信息...

【专利技术属性】
技术研发人员：齐鹏，沈国阳，林冠，
申请(专利权)人：沪渝人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人