一种复杂案件下多被告涉案金额提取方法及装置制造方法及图纸

技术编号:26174057 阅读:58 留言:0更新日期:2020-10-31 14:00
本发明专利技术公开了一种复杂案件下多被告涉案金额提取方法及装置,属于深度学习技术在量刑业务上的具体应用。该方法将含有涉案金额的描述文本输入训练完成的深度学习模型;通过所述深度学习模型判断涉案金额中对应某一被告人的有效金额和无效金额;将所有有效金额进行叠加求和,得到对应某一被告人的涉案总金额。本发明专利技术对BERT模型进行改进,改进后的模型包括输入层、中间层和输出层三部分,不仅能够结合上下文语义,而且能够抽取涉案金额的归属关系。本发明专利技术还提出提出枚举组合求和算法,能够迅速批量生成可供训练使用的标注数据,不依赖人工标注,生成训练数据速度快,并且生成的训练数据质量高、纯净。

【技术实现步骤摘要】
一种复杂案件下多被告涉案金额提取方法及装置
本专利技术涉及自然语言处理
,具体为一种复杂案件下多被告涉案金额提取方法及装置。
技术介绍
在过去几年中,司法领域的数据量迅速增长,随之越来越多的人工智能和数据挖掘技术也被应用于司法实践,包括法条推荐、类案推荐、智能量刑辅助等。特别值得一提的是,精准的智能量刑辅助既能够提高法律从业人员的工作效率,又能够达到同案同判,捍卫司法公正的目的。涉案金额提取作为智能量刑辅助最底层的技术,无疑是最重要的,同时也是最具有挑战性的。在已有的某些司法智能辅助系统中,针对涉案金额的提取,多采用简单的正则表达式匹配的方法。上述方法可以处理简单的情形,但如果某一涉案金额被反复描述,或者无效金额的描述太过复杂,则误判率过高。在多人同时犯罪的案件中,上述方法也很难区分不同被告人所涉及到的金钱。
技术实现思路
本专利技术的目的在于提供一种复杂案件下多被告涉案金额提取方法及装置,以解决上述
技术介绍
中提出的问题,既能处理语义复杂的情形,又能区分不同被告人涉及的不同的金钱。为实现上述目的,本专利本文档来自技高网...

【技术保护点】
1.一种复杂案件下多被告涉案金额提取方法,其特征在于,包括以下步骤:/n将含有涉案金额的描述文本输入训练完成的深度学习模型;/n通过所述深度学习模型判断涉案金额中对应某一被告人的有效金额和无效金额;/n将所有有效金额进行叠加求和,得到对应某一被告人的涉案总金额。/n

【技术特征摘要】
1.一种复杂案件下多被告涉案金额提取方法,其特征在于,包括以下步骤:
将含有涉案金额的描述文本输入训练完成的深度学习模型;
通过所述深度学习模型判断涉案金额中对应某一被告人的有效金额和无效金额;
将所有有效金额进行叠加求和,得到对应某一被告人的涉案总金额。


2.根据权利要求1所述的方法,其特征在于:所述深度学习模型为改进的BERT模型,包括输入层、中间层和输出层。


3.根据权利要求1所述的方法,其特征在于:输入层由四部分构成,分别为input_ids、input_mask、segment_ids、input_mask_money;input_ids由两部分拼接,分别为犯罪事实的文本描述和正欲提取涉案金额的被告人名字;segment_ids为二值向量,0对应input_ids中的犯罪事实的文本描述,1对应被告人名字;input_mask同为二值向量,input_ids中所有金钱描述的文本在input_mask中对应的值是1,input_ids中非金钱描述的文本在input_mask中对应的值是0;input_mask_money与input_mask对应,将input_mask中的非0值替换为具体的金额数值。


4.根据权利要求3所述的方法,其特征在于,input_ids的生成步骤包括:
用正则表达式提取犯罪事实文本描述中的所有金额描述,并将所有金额描述统一替换成字符串“[MASK]”;
将犯罪事实文本描述和被告人名字进行拼接,先将犯罪事实文本描述首尾拼接“[CLS]”和“[SEP]”,再将被告人名字末尾拼接“[SEP]”,最后再将处理过的犯罪事实文本描述和被告人名字进行拼接,如果长度不够,再在末尾拼接字符“[PAD]”;
利用事先准备好的词典,完成从文本向索引的映射,从而得到input_ids。


5.根据权利要求1所述的方法,其特征在于:中间层为transformer结构,其中...

【专利技术属性】
技术研发人员:贾高峰艾中良
申请(专利权)人:中国司法大数据研究院有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1