一种串案识别方法及装置制造方法及图纸

技术编号:25691882 阅读:40 留言:0更新日期:2020-09-18 21:03
本发明专利技术公开了一种串案识别方法及装置,方法包括:获取串案组数据集,并根据所述串案组数据集生成第一串案对数据集;利用所述串案组数据集训练得到第一模型;使用所述第一模型对所述案件组数据集中的案件数据进行处理,生成第二串案对数据集;利用所述第一串案对数据集和所述第二串案对数据集进行训练,得到第二模型;当接收到输入的新案件时,利用所述第一模型和所述第二模型从案件库中查找出与所述新案件互为串案的目标案件,并更新串案数据库。通过该技术方案,可以从海量法律文书中识别串案组,对串案组中涉及的法律文书使用模型处理并存档,形成串案数据库。

【技术实现步骤摘要】
一种串案识别方法及装置
本专利技术涉及语言处理
,更具体地,涉及一种串案识别方法及装置。
技术介绍
经调研发现民事案件审理过程中存在大量串案,民事案件领域,串案指的是一系列被告相同,案由相同,案情相似的案件。串案有利有弊,一方面可以合并审理,节约司法资源,提高调撤率;另一方面串案之间的裁判结果不一致可能涉及诉讼风险。因此,串案识别对于提高司法效率,促进法律公平具有重要的辅助作用。法律文书贯穿司法机关事务处理全流程,蕴含了海量重要信息,同时民事串案之间存在案情相似,适用法条相同,裁判结果大致相似的特征,根据法律文书来识别串案具有可行性。实践中在起诉阶段根据立案时间、起诉人、被起诉人、代理人、民事起诉状等内容即可以区分大部分串案。建立立案信息登记备案制,将串案识别提前至立案阶段,不仅可以规避一部分虚假诉讼,还可以提高案件调撤率,最大限度节约司法资源,尽早实现串案结案。串案识别该任务,目前查到的都是针对公安刑事案件来做的。并采用特征工程的方法对案件定义重要的特征,例如地理特征信息、天气信息、嫌疑人特征信息等,并获取每个案件这些特本文档来自技高网...

【技术保护点】
1.一种串案识别方法,其特征在于,所述方法包括:/n获取串案组数据集,并根据所述串案组数据集生成第一串案对数据集,其中,所述串案组数据集包括多组串案组数据,每组串案组数据包括多条案件数据,每条案件数据包括案件组ID、案件ID和案件文本,所述串案对数据集包括多个串案对数据,每个串案对数据包括案件组ID相同的两个案件的案件文本和两个案件之间的串案标记;/n利用所述串案组数据集训练得到第一模型;/n使用所述第一模型对所述串案组数据集中的案件数据进行处理,生成第二串案对数据集;/n利用所述第一串案对数据集和所述第二串案对数据集进行训练,得到第二模型;/n当接收到输入的新案件时,利用所述第一模型和所述第...

【技术特征摘要】
1.一种串案识别方法,其特征在于,所述方法包括:
获取串案组数据集,并根据所述串案组数据集生成第一串案对数据集,其中,所述串案组数据集包括多组串案组数据,每组串案组数据包括多条案件数据,每条案件数据包括案件组ID、案件ID和案件文本,所述串案对数据集包括多个串案对数据,每个串案对数据包括案件组ID相同的两个案件的案件文本和两个案件之间的串案标记;
利用所述串案组数据集训练得到第一模型;
使用所述第一模型对所述串案组数据集中的案件数据进行处理,生成第二串案对数据集;
利用所述第一串案对数据集和所述第二串案对数据集进行训练,得到第二模型;
当接收到输入的新案件时,利用所述第一模型和所述第二模型从案件库中查找出与所述新案件互为串案的目标案件,并更新串案数据库。


2.根据权利要求1所述的方法,其特征在于,利用所述第一模型和所述第二模型从案件库中查找出与所述新案件互为串案的目标案件,并更新串案数据库包括:
将所述案件库中的每个案件文本输入所述第一模型,以输出并存储对应的案件向量;
当接收到输入的新案件时,利用所述第一模型确定与其对应的新案件编码向量;
分别计算所述新案件编码向量与所述案件库中每个案件对应的案件向量之间的余弦距离,并进行降序排序;
将排名在前的第一预设数量的案件确定为所述新案件对应的候选串案;
将每个候选串案的案件文本与所述新案件的案件文本组成串案对,分别输入所述第二模型,以输出对应的串案识别结果;
根据所述串案识别结果,更新所述串案数据库。


3.根据权利要求1所述的方法,其特征在于,使用所述第一模型对所述案件组数据集中的案件数据进行处理,生成第二串案对数据集,包括:
使用所述第一模型对所述案件组数据集中的案件数据进行处理,得到串案组编码数据集;
针对所述串案组编码数据集中的每一个串案组编码数据,分别计算所述串案组编码数据与其他串案组编码数据之间的余弦距离,并进行降序排列;
将排名在前的第二预设数量的串案组编码数据确定为对应的候选编码数据;
确定每个候选编码数据对应的案件数据与所述串案组编码数据对应的案件数据的串案组ID是否相同;
将串案组ID不同的两个案件数据组成串案对数据,并放入所述第二串案对数据集。


4.根据权利要求1所述的方法,其特征在于,所述第一模型包括案件编码模型,所述案件编码模型包括第一BERT模型、第一线性层和第二线性层,其中,所述第一线性层的神经元数量为案件编码模型输出向量的维度,所述第二线性层的神经元数量为串案组数量,所述案件编码模型的输入为一个案件文本,输出为所述案件文本对应的案件编码数据,所述案件文本使用BERT模型设计的[CLS]分类任务标记符输入所述案件编码模型。


5.根据权利要求1所述的方法,其特征在于,所述第二模型包括串案对判别模型,所述串案对判别模型包括第二BERT模型和第三线性层,所述串案对判别模型的输入为两个不同的案件文书,输出为两个不同的案件文书是否是串案,其中,两个不同的案件文书使用BERT模型设计的[SEP]分割符分隔并拼接输入所述串案对判别模型。


6.一种串案识别装置,其特征在于,所述装置包括:
第一生成模块,用于获取串案组数据集,并根据所述串案组数据集生成第一串案对数据集,其中,所述串案组数据集包括多组串案组数据,每组串案组数据包括多条案件数据,每条案件数据包括案件组ID、案件ID和案件文本,所述串案对数据集包括多个串案对数据,每个串案对数据包括案件组ID相同的两个案件的案件文本和两个案件之间的串案标记;
第一训练模块,用于利用所述串案组数据集训练...

【专利技术属性】
技术研发人员:吴康康胡星星杜向阳
申请(专利权)人:北京擎盾信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1