基于大规模语言模型的低资源法律信息抽取方法及系统技术方案

技术编号：40809998 阅读：2 留言：0更新日期：2024-03-28 19:32

本发明专利技术公开了一种基于大规模语言模型的低资源法律信息抽取方法和系统，方法包括：构建用于实体识别和信息抽取任务的预测模型；获取用户输入的文本任务，根据所述文本任务构造预测模型的输入向量、确定预测模型需要提取的信息和预测结果输出的格式；将输入向量输入预测模型中预测文本任务中存在的实体及实体间的关系，得到预测结果；将预测结果转换为人类语言输出给用户。该方法提高了信息抽取的准确性、适应性，提高了大模型训练的效率，使用低资源的训练技术方案，降低大规模语言模型训练的成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体涉及一种基于大规模语言模型的低资源法律信息抽取方法及系统。

技术介绍

1、信息抽取是自然语言处理领域一个经典的任务，其通常被分为两个子任务，命名实体识别和实体关系抽取。命名实体识别指从文本中抽取各种类型的实体名词，实体关系抽取指从文本中识别实体间具有的某种关系，通常使用三元组(实体1，关系，实体2)的模型表达。在在线教育领域中，从用户作答的纯文本文字中识别并抽取命名实体以及实体间相关关系，是智能阅卷任务中核心的一环。例如“20**年*月*日早上*时许，吸毒人员徐某某来到林某某的养猪场购买毒品海洛因，当两人完成交易时，被公安民警当场抓获。”在这句话中涉及到人名实体“徐某某、林某某”，毒品实体“海洛因”。涉及到的部分实体关系包括“(林某某，贩卖给人，徐某某)，(林某某，贩卖毒品，海洛因)”等。如果用户在作答过程中，理解错误两个人物间的关系，会导致智能阅卷出现误判的情况发生。如何更加准确的识别用户书写文本中的各项信息，对提升智能阅卷的准确性有极大的意义。

2、当前主要的解决方法可归结为以下两类：基于规则的方法、基于神经网络的方法。

3、1.基于规则的方法：

4、基于规则的方法主要依赖预定义的规则以及词汇库，通过识别文本中出现在词库中的词汇来判断实体的出现，通过一系列规则模板批改来识别实体间的关系。

5、优点：这种方法在处理实体数量以及关系数量较少的情况下效果较好，并且实现简单，匹配速度很快。

6、缺点：应用场景单一，词库维护成本高，当出现新词或

7、2.基于神经网络的方法：

8、随着深度学习以及神经网络的发展，通常将实体识别任务看作序列标注任务，使用神经网络模型为句子中的每个字符打标签。将关系抽取任务被看作分类任务，使用神经网络为每一对实体对进行关系的分类。

9、优点：相比基于规则的方法更加灵活，不依赖人工模板和词库，且深度学习模型的泛化性能更高，应对未训练过的数据，依然可以做出一定的正确预测。

10、缺点：依赖大量的人工标注训练数据，且实体识别和关系抽取是两个任务，关系抽取通常是实体识别的下游任务，存在误差传递。每次更换应用场景后，都需要重新收集大量的数据训练，模型的可扩展性差。

技术实现思路

1、针对现有技术中的缺陷，本专利技术实施例提供的一种基于大规模语言模型的低资源法律信息抽取方法和系统，提高了信息抽取的准确性、适应性，提高了大模型训练的效率，使用低资源的训练技术方案，降低大规模语言模型训练的成本。

2、第一方面，本专利技术实施例提供的一种基于大规模语言模型的低资源法律信息抽取方法，包括：

3、构建用于实体识别和信息抽取任务的预测模型；

4、获取用户输入的文本任务，根据所述文本任务构造预测模型的输入向量、确定预测模型需要提取的信息和预测结果输出的格式；

5、将输入向量输入预测模型中预测文本任务中存在的实体及实体间的关系，得到预测结果；

6、将预测结果转换为人类语言输出给用户。

7、第二方面，本专利技术实施例提供的一种基于大规模语言模型的低资源法律信息抽取系统，包括：预测模型构建模块、文本任务解析模块、预测模块和输出模块；

8、所述预测模型构建模块用于构建用于实体识别和信息抽取任务的预测模型；

9、所述文本任务解析模块用于获取用户输入的文本任务，根据所述文本任务构造预测模型的输入向量、确定预测模型需要提取的信息和预测结果输出的格式；

10、所述预测模块用于将输入向量输入预测模型中预测文本任务中存在的实体及实体间的关系，得到预测结果；

11、所述输出模块用于将预测结果转换为人类语言输出给用户。

12、本专利技术的有益效果：

13、本专利技术实施例提供的一种基于大规模语言模型的低资源法律信息抽取方法及系统，对于未在训练数据中出现的样本，依然可以正确的进行预测和识别，提高信息抽取的准确性；能够将实体识别和关系抽取统一为一个任务，避免误差传递，避免为每一个任务训练一个模型，提高信息抽取的适应性；使用低资源的训练技术方案，降低大规模语言模型训练的成本，提高大模型训练的效率。

本文档来自技高网...

【技术保护点】

1.一种基于大规模语言模型的低资源法律信息抽取方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述构建用于实体识别和信息抽取任务的预测模型的具体方法包括：构建多头注意力模块、构建旋转位置编码模块、构建前馈网络模块和构建层归一化模块。

3.如权利要求2所述的方法，其特征在于，所述构建多头注意力模块的具体方法包括：

4.如权利要求3所述的方法，其特征在于，所述构建旋转位置编码模块的具体方法包括：

5.如权利要求4所述的方法，其特征在于，所述构建前馈网络模块的具体方法包括：

6.如权利要求2所述的方法，其特征在于，所述方法还包括对构建的预测模型进行训练，具体包括：

7.一种基于大规模语言模型的低资源法律信息抽取系统，其特征在于，包括：预测模型构建模块、文本任务解析模块、预测模块和输出模块；

8.如权利要求7所述的系统，其特征在于，所述预测模型构建模块包括多头注意力模块构建单元、旋转位置编码模块构建单元、前馈网络模块构建单元和层归一化模块构建单元。

9.如权利要求8所述系统，

...

【技术特征摘要】

1.一种基于大规模语言模型的低资源法律信息抽取方法，其特征在于，包括：

3.如权利要求2所述的方法，其特征在于，所述构建多头注意力模块的具体方法包括：

4.如权利要求3所述的方法，其特征在于，所述构建旋转位置编码模块的具体方法包括：

5.如权利要求4所述的方法，其特征在于，所述构建前馈网络模块的具体方法包括：

6.如权利要求2所述的方法，其特征在于，所述方法还包括对构建的预测模型进行训练，具体包括：

<...

【专利技术属性】
技术研发人员：刘琛，陈旭阳，杨旭川，
申请(专利权)人：重庆觉晓科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人