System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型辅助的案件特征识别方法技术_技高网

一种基于大模型辅助的案件特征识别方法技术

技术编号:40551700 阅读:7 留言:0更新日期:2024-03-05 19:11
本发明专利技术公开了一种基于大模型辅助的案件特征识别方法。本方法为:1)获取多个案件并进行标注,得到一训练案件特征训练文本集;2)获取用于辅助选择最优特征提示模板的伪标注数据,作为辅助测试集;3)利用所选大模型为设定案由下的每个案件特征生成P个特征提示模板,利用多个其他大模型对每个案件特征的特征提示模板打分,选出排名前p个模板;将所选模板组合成q组实验数据,并划分为训练集和测试集;采用每组实验数据的训练集训练同一目标模型,得到q个训练后的模型;4)利用训练数据集训练q个模型得到最终的模型;5)将一目标文书中用于识别案件特征的数据输入模型中,得到该目标文书的案件特征。本发明专利技术提高了特征识别准确性和可靠性。

【技术实现步骤摘要】

本专利技术涉及深度学习信息抽取领域,更具体地,涉及一种基于大模型辅助的案件特征识别方法


技术介绍

1、近年来,随着人工智能的飞速发展,司法智能化正在逐步推进。案件特征在整个司法过程中起着关键作用,无论是在例案查询、文书法条推荐还是裁判推理等方面,案件特征的准确识别和提取都占据着核心地位。

2、过去,对案件特征的识别和提取主要依赖基于规则的方法。这种方法一方面需要专业的领域知识,另一方面需要一定的技术能力。而且,随着法律条文的变动,规则需要不断修改,导致维护成本高昂。

3、在近年来人工智能的飞速发展中,利用现有开源的大型模型进行辅助筛选、标注等操作,可以训练出中小型模型,只需少量标注样本即可获得鲁棒性较强的结果,极大地提高了案件特征的识别效率和准确度,极大地推进了司法智能化的进程。


技术实现思路

1、本专利技术为克服上述问题,提供一种基于大模型辅助的案件特征识别方法。本专利技术是一种针对数据筛选难度大、标注数据少、标注难度大、模型结果能达到甚至超过现有市面上中大规模模型效果的一种案件特征识别方法。

2、一种基于大模型辅助的案件特征识别方法,包括以下步骤:

3、s1、获取多个刑事案件,对每一刑事案件中的案件特征进行标注作为一训练样本,得到训练刑事案件特征训练文本集:包含数据筛选和人工辅助标注的数据;

4、s2、获取用于辅助选择最优特征提示模板的伪标注数据,作为辅助测试集;

5、s3、利用现有开源大模型(参数量超过130亿)基于设定案由(比如交通肇事罪,设定案由的案件特征数量大致区间为50~350个左右)下的每个案件特征生成对应10个特征提示模板,之后利用多个其他开源大模型对每个案件特征的10个特征提示模板打分并取平均值,选出排名前5的特征提示模板;所有案件特征对应的特征提示模板随机组合成5组实验数据,同一个案件特征对应的5个特征提示模板分布于5组实验数据中,每组实验数据中只会存在该案件特征的一个特征提示模板,互不重复;将每组实验数据划分为训练集和测试集;采用每组实验数据的训练集使用同一目标模型(如:百川-7b)5折交叉训练得到5个模型,通过投票在测试集和s2中的辅助测试集上分别得到每个案件特征特定特征提示模板对应的准确率acc_1和acc_2,之后乘不同权重(acc_1权重大于acc_2权重)再相加得到最终该案件特征特定特征提示模板对应的最终准确率acc,之后选择同一个案件特征下5个不同特征提示模板中acc最高者对应的特征提示模板作为该案件特征最终的特征提示模板;

6、s4、将s1中的训练数据集和train_2数据集合并作为最终的训练数据集,通过训练s3所得5个模型,得到最终的模型model_0;

7、s5、将一目标文书中用于识别案件特征的数据输入model_0中得到对应的案件特征。

8、进一步地,s1中数据筛选方法包括:使用固定模板(案件特征+该案件特征的对应相关法律解释(调用本公司法条查询接口获得))利用大模型(gpt-4.0、gpt-3.5或其他开源模型)生成该案件特征对应由1~4个递进或独立问题组成的思维链,之后将该思维链和无标签数据输入baichuan-14b-chat模型,利用此种方式给该设定案由下10万条数据进行打标签(标签即案件特征),每条数据会打上一个或多个标签;在上述已打上标签的数据中选取部分数据组成一个n(100<n<500)条数据量小数据集small_dataset_0和一个2n条数据量的中等数据集medium-sized_dataset_0,其中每个数据集中的案件特征数量应在[m/2:3m]区间内,其中m为该数据集的总数据量。

9、进一步地,s1中人工辅助标注方法包括:small_dataset_0数据集使用专家标注得到最终的人工标注数据。

10、进一步地,s2中的伪标注数据指的是medium-sized_dataset_0数据集;

11、进一步地,s4中的train_2数据集的获取包括:s3中5组实验数据训练生成的5组模型在s2中的辅助测试集中推理结果,设置5组推理结果中每一推理结果内特征标签的权重以及所述辅助测试集中每一伪标注数据中特征标签的权重;将第j个伪标注数据中第k个特征标签的权重与该第j个伪标注数据对应的5个推理结果中该第k个特征标签对应的权重相加,得到该第j个伪标注数据中第k个特征标签的权重和,如果该权重和大于固定阈值,则将该第j个伪标注数据中第k个特征标签作为该第j个伪标注数据中第k个特征真正的标签,更新结果数据集result,最后选取该数据集中重点标签(重点标签指的是在设定案由下人为认定的一部分最关键的案件特征,这部分案件特征对案件判决影响很大)占比超过30%的数据作为最终数据集train_2。

12、进一步地,s4中得到模型model_0的方法包括:使用s4中的每个案件特征对应的特征提示模板作为该案件特征对应提示模板,使用s1中的训练数据集和train_2数据集作为训练数据集,采用五折交叉的训练方式训练s3所得5个模型,得到5个优化后的模型并将其并列组成最终的模型model_0。

13、进一步地,s5中将文书中需要识别案件特征的数据输入model_0中得到对应的案件特征的方法包括:需要识别案件特征的文本数据输入model_0(分别输入5个模型),通过投票的方式得到最终的结果。

14、本专利技术还提供一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于上述方法中各步骤的指令。

15、本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。

16、与现有技术相比,本专利技术提出一种大模型辅助的案件特征识别方法,具备以下有益效果:

17、优点1:与传统的数据获取方式相比,借助大模型进行数据筛选,精准地选出更具代表性的数据,显著降低了数据筛选的复杂性。同时,专家标注数据量大幅减少,使得数据集的创建更加高效和精准。

18、优点2:使用5组数据训练所得模型和大模型对数据集medium-sized_dataset_0的推理得到超高质量数据集train_2,这一措施显著扩大了专家标注数据集的规模,从而极大提高了模型识别案件特征的准确性和可靠性。

19、优点3:通过使用大型模型构建prompt,以及采用五折交叉验证等方法精心挑选最佳prompt,显著提升了模型对案件特征的识别精确度,从而极大地改进了模型的性能和表现。

本文档来自技高网...

【技术保护点】

1.一种基于大模型辅助的案件特征识别方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,每组实验数据中只存在同一案件特征的一个特征提示模板;各组实验数据中的特征提示模板互不重复。

3.根据权利要求2所述的方法,其特征在于,利用每组实验数据采用5折交叉方法训练同一所述目标模型。

4.根据权利要求1或2或3所述的方法,其特征在于,所述目标模型为百川-7B模型。

5.根据权利要求1或2或3所述的方法,其特征在于,p=q。

6.根据权利要求1或2或3所述的方法,其特征在于,得到所述训练案件特征训练文本集的方法为:首先使用固定模板利用大模型生成该固定模板中案件特征对应由若干个递进或独立问题组成的思维链,然后将该思维链和无标签数据输入所述目标模型,得到该设定案由下每一案件的案件特征标签;然后选取n个标注的案件组成小数据集small_dataset_0,选取2n个标注的案件组成中等数据集medium-sized_dataset_0;然后将小数据集small_dataset_0进行专家标注,得到人工标注数据;将人工标注的小数据集small_dataset_0和中等数据集medium-sized_dataset_0合并作为所述训练案件特征训练文本集。

7.根据权利要求1或2或3所述的方法,其特征在于,acc_1权重大于acc_2权重;q组推理结果中每一推理结果内特征标签的权重均为0.15,所述辅助测试集中每一伪标注数据中特征标签的权重为0.25,所述固定阈值为0.5。

8.根据权利要求1所述的方法,其特征在于,利用最终的训练数据集采用五折交叉的训练方式训练步骤3)所得q个模型,得到q个优化后的模型并将其并列组成所述模型model_0。

9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。

...

【技术特征摘要】

1.一种基于大模型辅助的案件特征识别方法,其步骤包括:

2.根据权利要求1所述的方法,其特征在于,每组实验数据中只存在同一案件特征的一个特征提示模板;各组实验数据中的特征提示模板互不重复。

3.根据权利要求2所述的方法,其特征在于,利用每组实验数据采用5折交叉方法训练同一所述目标模型。

4.根据权利要求1或2或3所述的方法,其特征在于,所述目标模型为百川-7b模型。

5.根据权利要求1或2或3所述的方法,其特征在于,p=q。

6.根据权利要求1或2或3所述的方法,其特征在于,得到所述训练案件特征训练文本集的方法为:首先使用固定模板利用大模型生成该固定模板中案件特征对应由若干个递进或独立问题组成的思维链,然后将该思维链和无标签数据输入所述目标模型,得到该设定案由下每一案件的案件特征标签;然后选取n个标注的案件组成小数据集small_dataset_0,选取2n个标注的案件组成中等数据集medium-sized_dataset_0;然后将小数据集small_datase...

【专利技术属性】
技术研发人员:张凡凡崔世琦吴正午谭晓颖孙晓锐
申请(专利权)人:中国司法大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1