基于大语言模型的标注数据生成方法及系统技术方案

技术编号:44516245 阅读:17 留言:0更新日期:2025-03-07 13:11
本发明专利技术提供了一种基于大语言模型的标注数据生成方法及系统,包括:步骤S1:获取相同类别代表性合同的结构化文本,并基于获取的代表性合同的结构化文本生成对应的信息抽取模板;步骤S2:基于信息抽取模板和相同类别内所有的合同文本,批量生成标注数据;步骤S3:汇总不同类别的标注数据及相应的合同文本,并生成标注数据集,利用标注数据集对大语言模型进行微调,得到微调后的大语言模型;步骤S4:基于微调后的大语言模型对合同文本进行标注。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体地,涉及基于大语言模型的标注数据生成方法及系统


技术介绍

1、传统的数据标注方法通常依赖于人工进行逐条审核与标注,而这在处理大量数据时,不仅费时费力,而且容易受到人为因素的影响,从而导致标注数据的质量和一致性的下降。此外,复杂合同条款的多样性和专业性增加了人工标注的难度,常常造成标注结果的偏差和错误。

2、专利文献cn110705225a(申请号:201910752445.8)公开了一种合同标注方法及装置,本专利技术涉及人工智能
,方法包括:从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集;基于每个业务类型的合同样本构建并训练初始标注模型;获取预存的各个业务类型的多份合同,并分为样本扩充集和测试集;利用初始标注模型标注样本扩充集中的合同中的合同要素;将标注后的样本扩充集与初始样本集合并为训练样本集,并利用训练样本集优化训练初始标注模型,得到标注模型;将测试集输入标注模型,并获取标注模型输出的测试集中的合同的标注结果;根据测试集的标注结果判断是否需要继续优化标注模型。


技术实现思路

1、针对现有技术中的缺陷,本专利技术的目的是提供一种基于大语言模型的标注数据生成方法及系统。

2、根据本专利技术提供的一种基于大语言模型的标注数据生成方法,包括:

3、步骤s1:获取相同类别代表性合同的结构化文本,并基于获取的代表性合同的结构化文本生成对应的信息抽取模板;

4、步骤s2:基于信息抽取模板和相同类别内所有的合同文本,批量生成标注数据;

5、步骤s3:汇总不同类别的标注数据及相应的合同文本,并生成标注数据集,利用标注数据集对大语言模型进行微调,得到微调后的大语言模型;

6、步骤s4:基于微调后的大语言模型对合同文本进行标注。

7、优选地,所述信息抽取模板包括:

8、pi=(zi,qi)

9、其中,zi为结构化文本,qi为第i个类别用于指导gpt3.5的提示词。

10、优选地,所述步骤s2包括:利用gpt3.5将簇内所有的合同文本根据簇内相应的信息抽取模板进行内容抽取,并对抽取的内容根据信息抽取模板进行标注,得到标注数据;

11、所述标注数据包括:

12、yi=g(pi,xi);

13、其中,pi为构造的第i个类别的信息抽取模板,xi为合同文本,yi为第i个类别的标注数据,g为gpt3.5所实现的字符集到字符集的映射。

14、优选地,所述方法还包括:使用gpt4生成数据进行数据增强,构造新的合同文本及其对应标注;其表达式为其中,ygen为生成新合同文本数据集。

15、优选地,所述步骤s3包括:利用标注数据集对大语言模型进行微调,包括:lora微调,全参数调整、qlora参数微调中的至少一种。

16、根据本专利技术提供的一种基于大语言模型的标注数据生成系统,包括:

17、模块m1:获取相同类别代表性合同的结构化文本,并基于获取的代表性合同的结构化文本生成对应的信息抽取模板;

18、模块m2:基于信息抽取模板和相同类别内所有的合同文本,批量生成标注数据;

19、模块m3:汇总不同类别的标注数据及相应的合同文本,并生成标注数据集,利用标注数据集对大语言模型进行微调,得到微调后的大语言模型;

20、模块m4:基于微调后的大语言模型对合同文本进行标注。

21、优选地,所述信息抽取模板包括:

22、pi=(zi,qi)

23、其中,zi为结构化文本,qi为第i个类别用于指导gpt3.5的提示词。

24、优选地,所述模块m2包括:利用gpt3.5将簇内所有的合同文本根据簇内相应的信息抽取模板进行内容抽取,并对抽取的内容根据信息抽取模板进行标注,得到标注数据;

25、所述标注数据包括:

26、yi=g(pi,xi);

27、其中,pi为构造的第i个类别的信息抽取模板,xi为合同文本,yi为第i个类别的标注数据,g为gpt3.5所实现的字符集到字符集的映射。

28、优选地,所述系统还包括:使用gpt4生成数据进行数据增强,构造新的合同文本及其对应标注;其表达式为其中,ygen为生成新合同文本数据集。

29、优选地,所述模块m3包括:利用标注数据集对大语言模型进行微调,包括:lora微调,全参数调整、qlora参数微调中的至少一种。

30、与现有技术相比,本专利技术具有如下的有益效果:

31、1、本专利技术对合同文本进行聚类分析,将其进行分类,然后采用分层抽样方法抽取代表性样本,保证了各类合同信息在数据集中的均衡分布,减少了数据偏差,有效提高了标注的准确度和稳定性;

32、2、在数据标注过程中,通过使用大语言模型进行自动标注,确保了标注数据的准确性;本专利技术不仅有效减少了人工标注的工作量,还提升了系统对复杂合同信息的理解能力,特别是在应对多样化合同条款时具有较高的处理效果;

33、3、本专利技术通过基于模板的信息抽取方法,实现了未标注合同文本的自动化批量信息提取;系统生成的信息抽取模板,结合大语言模型,对未标注的合同文本进行批量处理,此方法有效提升了合同信息处理的自动化程度,减少了人工参与的工作量,显著提高了处理效率,能够快速、精准地从复杂合同文本中抽取关键信息,为企业的合同管理带来了极大便利。

34、4、本专利技术的输出结果以结构化文本的形式呈现,包括履约要求、交付地点、结算信息、物料信息及附加条款等关键信息,通过结构化输出方式,合同条款的存储、检索、分析变得更加高效和便捷,极大地提高了合同信息的利用率和可读性;该方法为企业在合同管理、信息共享和风险控制等方面提供了强有力的技术支持,保证了合同信息的准确性和一致性。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的标注数据生成方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的标注数据生成方法,其特征在于,所述信息抽取模板包括:

3.根据权利要求1所述的基于大语言模型的标注数据生成方法,其特征在于,所述步骤S2包括:利用GPT3.5将簇内所有的合同文本根据簇内相应的信息抽取模板进行内容抽取,并对抽取的内容根据信息抽取模板进行标注,得到标注数据;

4.根据权利要求1所述的基于大语言模型的标注数据生成方法,其特征在于,所述方法还包括:使用GPT4生成数据进行数据增强,构造新的合同文本及其对应标注;其表达式为其中,Ygen为生成新合同文本数据集。

5.根据权利要求1所述的基于大语言模型的标注数据生成方法,其特征在于,所述步骤S3包括:利用标注数据集对大语言模型进行微调,包括:LoRA微调,全参数调整、QLoRA参数微调中的至少一种。

6.一种基于大语言模型的标注数据生成系统,其特征在于,包括:

7.根据权利要求6所述的基于大语言模型的标注数据生成方法,其特征在于,所述信息抽取模板包括:</p>

8.根据权利要求6所述的基于大语言模型的标注数据生成系统,其特征在于,所述模块M2包括:利用GPT3.5将簇内所有的合同文本根据簇内相应的信息抽取模板进行内容抽取,并对抽取的内容根据信息抽取模板进行标注,得到标注数据;

9.根据权利要求6所述的基于大语言模型的标注数据生成系统,其特征在于,所述系统还包括:使用GPT4生成数据进行数据增强,构造新的合同文本及其对应标注;其表达式为其中,Ygen为生成新合同文本数据集。

10.根据权利要求6所述的基于大语言模型的标注数据生成系统,其特征在于,所述模块M3包括:利用标注数据集对大语言模型进行微调,包括:LoRA微调,全参数调整、QLoRA参数微调中的至少一种。

...

【技术特征摘要】

1.一种基于大语言模型的标注数据生成方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的标注数据生成方法,其特征在于,所述信息抽取模板包括:

3.根据权利要求1所述的基于大语言模型的标注数据生成方法,其特征在于,所述步骤s2包括:利用gpt3.5将簇内所有的合同文本根据簇内相应的信息抽取模板进行内容抽取,并对抽取的内容根据信息抽取模板进行标注,得到标注数据;

4.根据权利要求1所述的基于大语言模型的标注数据生成方法,其特征在于,所述方法还包括:使用gpt4生成数据进行数据增强,构造新的合同文本及其对应标注;其表达式为其中,ygen为生成新合同文本数据集。

5.根据权利要求1所述的基于大语言模型的标注数据生成方法,其特征在于,所述步骤s3包括:利用标注数据集对大语言模型进行微调,包括:lora微调,全参数调整、qlora参数微调中的至少一种。

...

【专利技术属性】
技术研发人员:朱俊金博王晓玲曹昀炀戴思龙李燕君夏竟翔姚泽坤
申请(专利权)人:欧冶工业品股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1