一种复杂案件中的多被告多罪名关系抽取方法及装置制造方法及图纸

技术编号：38011650 阅读：9 留言：0更新日期：2023-06-30 10:32

本发明专利技术公开了一种复杂案件中的多被告多罪名关系抽取方法及装置。本方法为：1)获取多个案件的刑事判决书，并从每一刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落；2)对于每一裁判结果段落，从中抽取出当事人姓名和罪名，得到多人多罪的文书集合M；3)从集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号，找到对应的起诉书；4)根据各起诉书和集合M生成训练集训练串联模型，其包括BERT+CRF命名体识别模型和BERT分类模型；5)对训练后的BERT分类模型训练，得到一预测模型；6)对于一案件，从该案件的起诉书中提取本院认为段落并将其输入到预测模型，得到该案件中人名与罪名的对应关系。该案件中人名与罪名的对应关系。该案件中人名与罪名的对应关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种复杂案件中的多被告多罪名关系抽取方法及装置

[0001]本专利技术涉及数据处理
，尤其涉及一种复杂案件中多个被告人多个罪名关系挂靠方法、装置。

技术介绍

[0002]被告人和罪名作为案件的关键要素在法官审理中具有重要的意义。而往往法官在审理案件过程中，梳理复杂案件中多个被告人和多个罪名的挂靠关系，占据了法官案件审理过程中的大量时间和精力。所以，辅助法官快速梳理复杂案件中多人多罪的挂靠关系，能大大减少法官的审理时间、提升办案效率，有利于缓解案多人少矛盾。
[0003]目前缺乏多被告多罪名关系抽取技术，用于辅助法官快速梳理复杂案件中多人多罪的挂靠关系，因此如何实现多被告多罪名关系抽取是目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术是一种解决复杂案件中的多被告多罪名关系抽取的方法及装置，其中包括基于起诉书和判决书互相校验的训练样本自动标注方法，利用了两种文书之间的各种关系，完成训练样本的自动生生成；基于pipeline结构的命名体识别模型和分类模型的关系抽取方法，基于领域内其他知识迁移学习的方法，基于伪标签的模型压缩方法等等，具体流程如图1所示。
[0005]一种复杂案件中的多被告多罪名关系抽取方法，包括以下步骤：
[0006]步骤(1)获取初始数据集:首先收集大量的刑事判决书，并对刑事判决书进行分段，抽取出本院认为段落和审理经过段落和裁判结果段落。
[0007]步骤(2)裁判结果段中每个被告人的犯罪过程都会详细描述，并且会用换行符“\n”切分开每个...

【技术保护点】

【技术特征摘要】
1.一种复杂案件中的多被告多罪名关系抽取方法，其步骤包括：1)获取多个案件的刑事判决书，并从每一所述刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落；2)对于每一所述裁判结果段落，从中抽取出当事人姓名和罪名，生成被告人与对应罪名的挂靠关系；对所抽取信息进行去重后，筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书，得到多人多罪的文书集合M；文书集合M中的每个文本包含刑事判决书的案号、本院认为段落、审理经过段落、裁判结果段落、被告人、罪名、被告人与对应罪名挂靠关系；3)从所述文书集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号；4)根据筛选出的前审关联案号找到对应的起诉书；5)从各所述起诉书中抽取出本院认为段落；6)从所述起诉书的本院认为段落中抽取人名和罪名并去重，得到起诉书的人名集合Q
name
和罪名集合Q
crime
；7)将所述文书集合M中被告人姓名集合M
name
、罪名集合M
crime
与人名集合Q
name
、罪名集合Q
crime
分别进行匹配，若M
name
＝Q
name
且M
crime
＝Q
crime
，则判定所述文书集合M中每一案号对应的刑事判决书为一多人多罪样本，对每一多人多罪样本对应的所述起诉书的本院认为段落进行反标，生成训练集；8)利用所述训练集中的样本数据训练串联模型；所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型；所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型，得到每一样本数据中的人名和罪名之间的关系；9)利用所述文书集合M中样本对应的被告人和罪名之间的关系，对所述训练集内各样本对应的判决书中本院认为段落信息进行标注，将标注的判决书作为训练集训练步骤8)训练后的串联模型，得到一预测模型；10)将训练后的BERT分类模型作为ALBERT_TINY模型；将大量无标注的判决书输入所述预测模型，将输出结果作为对应判决书的伪标签数据，得到伪标签样本；利用判决书的裁判结果段落对对应的伪标签样本进行验证，筛选出准确的伪标签样本，然后利用准确的伪标签样本训练ALBERT_TINY模型，得到一新的预测模型；11)对于一待提取的案件，从该案件的起诉书中提取本院认为段落并将其输入到训练后的ALBERT_TINY模型，得到该案件中人名与罪名的对应关系。2.根据权利要求1所述的方法，其特征在于，所述BERT+CRF命名体识别模型为基于领域内数据预训练的BERT+CRF命名体识别模型。3.根据权利要求1所述的方法，其特征在于，所述BERT分类模型为基于领域内数据预训练的BERT分类模型。4.根据权利要求1或2或3所述的方法，其特征在于，首先基于裁判结果段落中的换行符“\n”对裁判结果段落进行切分，然后利用正则表达式从切分所得文本中抽取出当事人姓名和罪名，生成被告人与对应罪名的挂靠关系；然后对所抽取信息进行去重后，筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书，得到多人多...

【专利技术属性】
技术研发人员：崔世琦，孙晓锐，徐斌，刘贤艳，谭晓颖，毛小龙，洪通亮，
申请(专利权)人：中国司法大数据研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人