一种复杂案件中的多被告多罪名关系抽取方法及装置制造方法及图纸

技术编号:38011650 阅读:9 留言:0更新日期:2023-06-30 10:32
本发明专利技术公开了一种复杂案件中的多被告多罪名关系抽取方法及装置。本方法为:1)获取多个案件的刑事判决书,并从每一刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落;2)对于每一裁判结果段落,从中抽取出当事人姓名和罪名,得到多人多罪的文书集合M;3)从集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号,找到对应的起诉书;4)根据各起诉书和集合M生成训练集训练串联模型,其包括BERT+CRF命名体识别模型和BERT分类模型;5)对训练后的BERT分类模型训练,得到一预测模型;6)对于一案件,从该案件的起诉书中提取本院认为段落并将其输入到预测模型,得到该案件中人名与罪名的对应关系。该案件中人名与罪名的对应关系。该案件中人名与罪名的对应关系。

【技术实现步骤摘要】
一种复杂案件中的多被告多罪名关系抽取方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种复杂案件中多个被告人多个罪名关系挂靠方法、装置。

技术介绍

[0002]被告人和罪名作为案件的关键要素在法官审理中具有重要的意义。而往往法官在审理案件过程中,梳理复杂案件中多个被告人和多个罪名的挂靠关系,占据了法官案件审理过程中的大量时间和精力。所以,辅助法官快速梳理复杂案件中多人多罪的挂靠关系,能大大减少法官的审理时间、提升办案效率,有利于缓解案多人少矛盾。
[0003]目前缺乏多被告多罪名关系抽取技术,用于辅助法官快速梳理复杂案件中多人多罪的挂靠关系,因此如何实现多被告多罪名关系抽取是目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术是一种解决复杂案件中的多被告多罪名关系抽取的方法及装置,其中包括基于起诉书和判决书互相校验的训练样本自动标注方法,利用了两种文书之间的各种关系,完成训练样本的自动生生成;基于pipeline结构的命名体识别模型和分类模型的关系抽取方法,基于领域内其他知识迁移学习的方法,基于伪标签的模型压缩方法等等,具体流程如图1所示。
[0005]一种复杂案件中的多被告多罪名关系抽取方法,包括以下步骤:
[0006]步骤(1)获取初始数据集:首先收集大量的刑事判决书,并对刑事判决书进行分段,抽取出本院认为段落和审理经过段落和裁判结果段落。
[0007]步骤(2)裁判结果段中每个被告人的犯罪过程都会详细描述,并且会用换行符“\n”切分开每个被告人的罪行。首先基于“\n”切分更小粒度的文本,然后利用正则表达式和hanlp等模型从上述文本中抽取出当事人姓名和罪名,进而可以将每个被告人和罪名挂靠上关系,最后选择去重后人数和罪名数都大于2的文书,作为多人多罪的文书集合M={M1,M2,

,M
i
}。该集合中元素中包含案号、本院认为段落、审理经过段落、裁判结果段落、被告人和罪名的实体以及关系信息。
[0008]步骤(3)从上述集合M获取审理经过段落集合M
sljg
={M
sljg1
,M
sljg2
,

,M
sljgi
};根据集合M
sljg
={M
sljg1
,M
sljg2
,

,M
sljgi
}去审理经过段落匹配对应的前审案号。
[0009]步骤(4)根据筛选出的前审案号找到对应的起诉书。
[0010]步骤(5)根据所述起诉书的特点,首先对起诉书进行分段,抽取出本院认为段落。
[0011]步骤(6)基于起诉书的本院认为段落利用hanlp等模型和正则表达式的方式继续抽取人名和罪名,得到起诉书的人名集合和罪名集合并去重得到Q
name
={Q
name1
,Q
name2
,

,Q
namei
}和Q
crime
={Q
crime1
,Q
crime2
,

,Q
crimei
}。
[0012]步骤(7)将上述判决书集合M={M1,M2,

,M
i
}中被告人姓名集合M
name
={M
name1
,M
name2
,

,M
namei
}和罪名集合M
crime
={M
crime1
,M
crime2
,

,M
crimei
}与Q
name
={Q
name1
,Q
name2
,

,
Q
namei
}和Q
crime
={Q
crime1
,Q
crime2
,

,Q
crimei
}进行匹配,若M
name
=Q
name
&&M
crime
=Q
crime
,则认为是标准的多人多罪样本,进而到起诉书的本院认为段落进行反标,自动生成训练集。因为起诉书中没有关系信息,需要借助判决书中案号、被告人姓名、罪名等信息去起诉书中反标。
[0013]步骤(8)将训练集带入基于领域内数据预训练的BERT+CRF命名体识别模型进行训练,完成人名和罪名的精细化抽取。
[0014]步骤(9)将训练集带入基于领域内数据预训练的BERT分类模型进行训练,进而抽取出人名和罪名之间的关系。
[0015]步骤(10)基于步骤(8)和步骤(9)完成两个模型训练并形成串联模型,进而实现一站式的抽取。并保存最优的训练模型。即利用所述训练集中的样本数据训练串联模型;所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型;所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型,得到每一样本数据中的人名和罪名之间的关系。
[0016]步骤(11)基于迁移学习的思想,将最优的模型迁移到起诉书对应的判决书中的本院认为段进行预测,发现可以直接预测出判决书中多人多罪的答案。进一步的,利用所述文书集合M中每一样本对应的被告人和罪名之间的关系,对该样本对应的判决书中本院认为段落信息进行反向标注,将标注的判决书作为训练集结合上述最优模型进行二段训练,直至在K折验证下的准确率上达到稳定,并保存新的最优模型。
[0017]步骤(12)上述过程在一定程度上实现了迁移学习,将二段训练后最优模型和一段最优模型在起诉书上进行对比验证,发现二段模型有较大提升,进而使用最优的二段模型作为最佳预测模型。
[0018]步骤(13)选择基于模型剪枝蒸馏思想压缩的ALBERT_TINY模型,即将训练后的BERT分类模型作为ALBERT_TINY模型,结合上述起诉书和判决书混合的训练集继续训练,发现准确率相较基于BERT训练的模型还有一定差距。
[0019]步骤(14)进一步的基于主动学习建立伪标签的思想,结合判决书数量多易标注的特点,将大量无标住的判决书作为预测集结合二段模型预测的方式生成伪标签数据,并通过裁判结果段落反向验证的方式得到大量准确的伪标签样本,形成伪标注数据,之后带入ALBERT_TINY模型进行训练。
[0020]对于一待提取的案件,从该案件的起诉书中提取本院认为段并将其输入到训练后的ALBERT_TINY模型,得到该案件中人名与罪名的对应关系。
[0021]进一步的发现通过伪标签标注数据训练的模型可以在起诉书中的预测准确率达到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种复杂案件中的多被告多罪名关系抽取方法,其步骤包括:1)获取多个案件的刑事判决书,并从每一所述刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落;2)对于每一所述裁判结果段落,从中抽取出当事人姓名和罪名,生成被告人与对应罪名的挂靠关系;对所抽取信息进行去重后,筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书,得到多人多罪的文书集合M;文书集合M中的每个文本包含刑事判决书的案号、本院认为段落、审理经过段落、裁判结果段落、被告人、罪名、被告人与对应罪名挂靠关系;3)从所述文书集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号;4)根据筛选出的前审关联案号找到对应的起诉书;5)从各所述起诉书中抽取出本院认为段落;6)从所述起诉书的本院认为段落中抽取人名和罪名并去重,得到起诉书的人名集合Q
name
和罪名集合Q
crime
;7)将所述文书集合M中被告人姓名集合M
name
、罪名集合M
crime
与人名集合Q
name
、罪名集合Q
crime
分别进行匹配,若M
name
=Q
name
且M
crime
=Q
crime
,则判定所述文书集合M中每一案号对应的刑事判决书为一多人多罪样本,对每一多人多罪样本对应的所述起诉书的本院认为段落进行反标,生成训练集;8)利用所述训练集中的样本数据训练串联模型;所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型;所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型,得到每一样本数据中的人名和罪名之间的关系;9)利用所述文书集合M中样本对应的被告人和罪名之间的关系,对所述训练集内各样本对应的判决书中本院认为段落信息进行标注,将标注的判决书作为训练集训练步骤8)训练后的串联模型,得到一预测模型;10)将训练后的BERT分类模型作为ALBERT_TINY模型;将大量无标注的判决书输入所述预测模型,将输出结果作为对应判决书的伪标签数据,得到伪标签样本;利用判决书的裁判结果段落对对应的伪标签样本进行验证,筛选出准确的伪标签样本,然后利用准确的伪标签样本训练ALBERT_TINY模型,得到一新的预测模型;11)对于一待提取的案件,从该案件的起诉书中提取本院认为段落并将其输入到训练后的ALBERT_TINY模型,得到该案件中人名与罪名的对应关系。2.根据权利要求1所述的方法,其特征在于,所述BERT+CRF命名体识别模型为基于领域内数据预训练的BERT+CRF命名体识别模型。3.根据权利要求1所述的方法,其特征在于,所述BERT分类模型为基于领域内数据预训练的BERT分类模型。4.根据权利要求1或2或3所述的方法,其特征在于,首先基于裁判结果段落中的换行符“\n”对裁判结果段落进行切分,然后利用正则表达式从切分所得文本中抽取出当事人姓名和罪名,生成被告人与对应罪名的挂靠关系;然后对所抽取信息进行去重后,筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书,得到多人多...

【专利技术属性】
技术研发人员:崔世琦孙晓锐徐斌刘贤艳谭晓颖毛小龙洪通亮
申请(专利权)人:中国司法大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1