基于Bert-TextCNN的裁判文书争议焦点提取归纳方法与系统技术方案

技术编号:34922432 阅读:22 留言:0更新日期:2022-09-15 07:15
本发明专利技术公开了基于Bert

【技术实现步骤摘要】
基于Bert

TextCNN的裁判文书争议焦点提取归纳方法与系统


[0001]本专利技术涉及人工智能与大数据
,具体为一种基于Bert

TextCNN 的裁判文书争议焦点提取归纳方法与系统。

技术介绍

[0002]随着我国信息化社会的高速发展,司法大数据的日趋丰富,使深化司法体制改革有了更为广阔的发展空间。其中,中国裁判文书的公开是法院系统积极回应社会关切,主动接受社会监督的重要举措,标志着人民法院司法公开迈出了关键一步。裁判文书体现了法律论证的过程,内容中所包含的争议问题在庭审过程中被不断整理、调查和辩论。因此,争议性问题在审判中对于法官的决策起着关键的作用。提取争议焦点是裁判文书的核心与关键,是裁判文书最重要的部分。只有争议焦点准确无误,说理充分透彻,才能保证判决结果的准确,保证法律的正确实施。然而在社会矛盾日益增多,案件数量激增的现今,如何快速有效的提取裁判文书中的争议焦点,提高司法办案效率,逐渐成为了该行业的痛点问题。主要原因是:
[0003]1、由于裁判文书语料库庞大、内容表达式多样、门类繁多,面对复杂的案情事实,人工判断争议性问题很难快速有效的做出决策,需要大量的人力资源和时间成本。
[0004]2、裁判文书中部分内容,法官的描述缺乏格式,人类语言表达独有的复杂性,让行政法官的自由裁量权和法外因素,在面对有争议的问题进行分类时容易产生歧义,降低客观的真实性,使得最终结果产生偏差。
[0005]基于上述问题,本专利技术通过设计并提出了一种基于Bert

TextCNN模型的裁判文书争议焦点的提取和归纳的方法,实现了对法律裁判文书的争议焦点进行自动提取和归纳,帮助律师或法官更高效的梳理裁判文书的内容。

技术实现思路

[0006]本专利技术的目的在于提供基于Bert

TextCNN的裁判文书争议焦点提取与归纳方法与系统,以解决上述
技术介绍
中提出的目前在法律文书信息提取中存在的语料库庞大、内容表达式多样、门类繁多、部分内容法官的描述缺乏格式的而导致的法律文书信息利用不够充分的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:基于Bert

TextCNN的裁判文书争议焦点提取与归纳方法,包括:
[0008]基于Bert

TextCNN的裁判文书争议焦点提取归纳系统,包括
[0009]数据采集模块,收集并识别用户上传的裁判文书文档,通过预设好的文书模板校验规则,匹配并过滤掉不符合文书模板标准格式的文档,将符合规范的裁判文书文档转换并存储为结构化的数据;
[0010]模型训练模块,包括原告诉称

争议焦点提取模型,其从数据库中检索得到原告诉称文本数据集,读取数据集中的每一个原告诉称文本,将文本信息转换为计算机可以识别
的二进制数据,通过预设的深度学习模型进行争议焦点的特征提取训练,最终得到原告诉称

争议焦点提取模型;被告辩称

争议焦点提取模型,其从数据库中检索得到被告辩称文本数据集,读取数据集中的每一个被告辩称文本,将文本信息转换为计算机可以识别的二进制数据,然后输入到上述预设的深度学习模型进行训练,得到被告辩称

争议焦点提取模型;本院查明

争议焦点提取模型,其从数据库中检索得到本院查明文本数据集,读取数据集中的每一个本院查明文本,将文本信息转换为计算机可以识别的二进制数据,然后输入到上述预设的Bert

TextCNN深度学习模型进行训练,得到本院查明

争议焦点分类模型;裁判理由

争议焦点提取模型模块,从数据库中检索得到裁判理由文本数据集,读取数据集中的每一个裁判理由文本,将文本信息转换为计算机可以识别的二进制数据,然后输入到上述预设的Bert

TextCNN深度学习模型进行训练,得到裁判理由

争议焦点分类模型;
[0011]分析提取模块,根据用户输入的法律裁判文书数据,利用正则表达式对所述法律裁判文书样本数据进行文本分段,分别得到所述法律裁判文书样本数据的原告诉称、被告辩称、本院查明、裁判理由文本样本段,将文本样本段分别输入已经训练好的上述原告诉称

争议焦点提取模型、被告辩称

争议焦点提取模型、本院查明

争议焦点提取模型、裁判理由

争议焦点提取模型,每一个模型将得出一个或多个争议焦点分类;通过将原告诉称

争议焦点提取模型、被告辩称

争议焦点提取模型、本院查明

争议焦点提取模型、裁判理由

争议焦点提取模型运行的结果进行比对合并,归纳并得出最终的争议焦点列表,输出结果呈现给用户。
[0012]优选的,原告诉称

争议焦点提取模型、所述被告辩称

争议焦点提取模型、所述本院查明

争议焦点提取模型和所述裁判理由

争议焦点提取模型均通过预设的Bert

TextCNN深度学习模型进行训练。
[0013]基于Bert

TextCNN的裁判文书争议焦点提取与归纳方法,包括以下步骤:
[0014]步骤一:数据采集,使用已开发的客户端软件产品,收集并识别用户上传的裁判文书文档,通过预设好的文书模板校验规则,匹配并过滤掉不符合文书模板标准格式的文档,将符合规范的裁判文书文档转换并存储为结构化的数据;
[0015]步骤二:构建原告诉称

争议焦点提取模型、被告辩称

争议焦点提取模型、本院查明

争议焦点提取模型和裁判理由

争议焦点提取模型;并对上述模型进行深度学习训练;
[0016]步骤三:结果分析提取,通过深度学习训练后的原告诉称

争议焦点提取模型、被告辩称

争议焦点提取模型、本院查明

争议焦点提取模型、裁判理由

争议焦点提取模型运行的结果进行比对合并,归纳并得出最终的争议焦点列表,输出结果呈现给用户。
[0017]优选的,步骤二中首先利用编写好的爬虫程序,从已公开的中国裁判文书网上爬取不同案由类别的法律裁判文书文本数据,然后利用正则表达式依次对爬取的文书进行匹配,将样本数据进行文本分段;不同类型的裁判文书会有不同的正则匹配规则,最后将提取出来作为裁判理由的样本数据分别存储于不同数据库中。
[0018]优选的,步骤二中基于Bert

TextCNN深度学习模型进行深度学习训练,所述Bert

TextCNN深度学习模型包括输入层、过滤层、卷积层、池化层和输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Bert

TextCNN的裁判文书争议焦点提取归纳系统,其特征在于,包括数据采集模块,收集并识别用户上传的裁判文书文档,通过预设好的文书模板校验规则,匹配并过滤掉不符合文书模板标准格式的文档,将符合规范的裁判文书文档转换并存储为结构化的数据;模型训练模块,包括原告诉称

争议焦点提取模型,其从数据库中检索得到原告诉称文本数据集,读取数据集中的每一个原告诉称文本,将文本信息转换为计算机可以识别的二进制数据,通过预设的深度学习模型进行争议焦点的特征提取训练,最终得到原告诉称

争议焦点提取模型;被告辩称

争议焦点提取模型,其从数据库中检索得到被告辩称文本数据集,读取数据集中的每一个被告辩称文本,将文本信息转换为计算机可以识别的二进制数据,然后输入到上述预设的深度学习模型进行训练,得到被告辩称

争议焦点提取模型;本院查明

争议焦点提取模型,其从数据库中检索得到本院查明文本数据集,读取数据集中的每一个本院查明文本,将文本信息转换为计算机可以识别的二进制数据,然后输入到上述预设的Bert

TextCNN深度学习模型进行训练,得到本院查明

争议焦点分类模型;裁判理由

争议焦点提取模型模块,从数据库中检索得到裁判理由文本数据集,读取数据集中的每一个裁判理由文本,将文本信息转换为计算机可以识别的二进制数据,然后输入到上述预设的Bert

TextCNN深度学习模型进行训练,得到裁判理由

争议焦点分类模型;分析提取模块,根据用户输入的法律裁判文书数据,利用正则表达式对所述法律裁判文书样本数据进行文本分段,分别得到所述法律裁判文书样本数据的原告诉称、被告辩称、本院查明、裁判理由文本样本段,将文本样本段分别输入已经训练好的上述原告诉称

争议焦点提取模型、被告辩称

争议焦点提取模型、本院查明

争议焦点提取模型、裁判理由

争议焦点提取模型,每一个模型将得出一个或多个争议焦点分类;通过将原告诉称

争议焦点提取模型、被告辩称

争议焦点提取模型、本院查明

争议焦点提取模型、裁判理由

争议...

【专利技术属性】
技术研发人员:孙莉莉胡智慧叶文鹏李微
申请(专利权)人:武汉百智诚远科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1