基于小样本学习的法律文书粗细粒度结构化方法和装置制造方法及图纸

技术编号:41305720 阅读:21 留言:0更新日期:2024-05-13 14:51
本发明专利技术公开了一种基于小样本学习的法律文书粗细粒度结构化方法和装置,该方法能够支持对法律文书进行不同粒度的结构化切分,满足用户不同的切分需求;通过建立标注触发词库来辅助人工对少量法律文书进行标注;计算标注数据的归一化均值向量并作为分类器的初始参数以及使用熵正则化避免过拟合;使用少量样本对预训练模型进行微调。利用小样本学习方法,可以实现类似文本的批量结构化方法。本发明专利技术大幅减少了人工标注成本,仅需对极少量的数据进行手工标注,就能够实现对大量类似文本的批量结构化处理。

【技术实现步骤摘要】

本专利技术涉及文本处理,尤其涉及一种基于小样本学习的法律文书粗细粒度结构化方法和装置


技术介绍

1、法律文书内容通常较长,尤其在涉及复杂案情的案件中,法官面临着从相似案例中快速提取关键信息点、梳理司法逻辑的巨大挑战。这项工作耗时且繁重,给法官的审判工作增加了压力。法律文书的格式虽然比较固定,但是不同时间不同地区的法律文书依然存在许多不同,对于法律文书中的原告诉求、原告证据、被告答辩、被告诉求、被告证据、法院认定、争议焦点等信息仍然以大段文本的方式进行组织,以自然段落的方式包含在法律文书中。如果想针对其中的重要信息进行抽取和分析,就需要熟练的人员对法律文书的进行结构化分块。熟练的相关标注人员一天能进行结构化分块的法律文书数量大概也就在500条左右,并且,目前有的一些机器学习的方法,多数时候还是需要进行大量的人工标注以及大量的正则化方法,也需要前期投入非常巨大的人力进行标注。

2、在法律领域,数据标注需要人工进行,而且标注质量对模型效果有很大影响。小样本学习可以通过利用少量样本进行模型训练,从而减少数据标注的数量和成本。在小样本学习中,通常将数据本文档来自技高网...

【技术保护点】

1.一种基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,包括:

2.根据权利要求1所述的基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,所述根据法律文书文本特征,构建法律文书标注触发词库,利用信息抽取方法,提取法律文书中的人名,确定原告和被告名称,包括:

3.根据权利要求1所述的基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,所述将法律文书集合按照段落进行分割,对字符大于设定阈值的段落进行摘要,包括:

4.根据权利要求1所述的基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,所述根据预先确定的标注粒度,利用标注触发词库对少...

【技术特征摘要】

1.一种基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,包括:

2.根据权利要求1所述的基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,所述根据法律文书文本特征,构建法律文书标注触发词库,利用信息抽取方法,提取法律文书中的人名,确定原告和被告名称,包括:

3.根据权利要求1所述的基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,所述将法律文书集合按照段落进行分割,对字符大于设定阈值的段落进行摘要,包括:

4.根据权利要求1所述的基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,所述根据预先确定的标注粒度,利用标注触发词库对少于设定数量的分割后的法律文书样本进行人工标注,包括:

5.根据权利要求1所述的基于小样本学习的法律文书粗细粒度结构化方法,其特征在于,所述将标注的少于设定数量的法律文书作为预训练神经网络模型的输入,生成经过归...

【专利技术属性】
技术研发人员:李昆杨兰孙锐司成良周兴发刘峻枫展华益
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1