当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于深度学习的裁判文书自动生成方法及系统技术方案

技术编号:23315546 阅读:142 留言:0更新日期:2020-02-11 17:57
本发明专利技术公开了一种基于深度学习的裁判文书自动生成方法及系统,本发明专利技术充分研究不同类型裁判文书案由的通常表述,结合同类型案由的基本情况,根据每种类型案由的要素分类情况标注裁判文书涉及的案由要素,将标注数据划分为训练集和测试集;利用深度学习算法建立序列模型,将LSTM作为模型的编码器和解码器;利用训练集和测试集训练和测试模型,通过案由要素实现裁判文书自动生成,可以有效提高裁判文书制作的效率与准确率,本发明专利技术还能够高速有效的生成一篇规范的裁判文书,并且本发明专利技术中的裁判文书生成的逻辑更加通顺。

An automatic generation method and system of judgment documents based on deep learning

【技术实现步骤摘要】
一种基于深度学习的裁判文书自动生成方法及系统
本专利技术涉及自然语言处理领域,具体地,涉及一种基于深度学习的裁判文书自动生成方法及系统。
技术介绍
裁判文书是人民法院结合当事人的请求事项或者争议事项进行审理后,根据具体的案件情况向当事人下发的具有法律意义的文书。目前,裁判文书生成主要有两种方式:一种由审判人员人工“套改”已有类似案件的裁判文书生成;另一种使用OCR识别技术抓取起诉状、答辩状等诉讼材料中有限的信息生成。现有裁判文书生成方法生成的文书类型、案号、当事人信息、审判人员信息等相对简单,可以较好生成固定部分的案由事实,但是无法有效处理核心部分的案由事实的生成。每个案件的案由事实都存在或多或少的差异,使用OCR技术识别起诉状、答辩状等诉讼材料抓取的部分事实信息,不仅文字识别正确率不高,且无法提供真正符合人民法院使用的案由事实,仍然需要审判人员做大量修改。
技术实现思路
为了更加高效、准确地实现裁判文书的自动生成,解决使用OCR技术识别直接抓取信息的弊端,本专利技术充分研究不同类型裁判文书案由的通常表述,结合同类型案由的基本情况,根据每种类型案由的要素分类情况标注裁判文书涉及的案由要素,构建深度学习模型,通过案由要素实现裁判文书自动生成,达到更符合实际要求的目的。为实现上述专利技术目的,本专利技术一方面提供了一种基于深度学习的裁判文书自动生成方法,所述方法包括:将案由划分为不同类型;总结每种类型案由的要素并分类;采集样本数据,样本数据包括不同类型案由对应的裁判文书,根据每种类型案由的要素分类情况标注每种类型案由对应的裁判文书;针对每种类型案由分别建立相应的要素表,要素表第一列为标注的要素,要素表第二列为标注的要素对应的类型和值;基于所有建立的要素表获取数据集,将数据集划分为训练集和测试集;构建深度学习模型,利用训练集和测试集训练和测试深度学习模型;针对不同类型案由对应的要素表中不同类型要素对应的要素内容,将裁判文书输入训练后的深度学习模型,输出裁判文书案由的基本事实内容。其中,本专利技术的原理为:要素是归纳总结同一案由下案件后凝练的固定事项,是查明案件必不可少的因素。在案件庭审过程中,法官根据要素进行发问,原告、被告分别回答法官的发问,由此得到相关特定审判信息。本专利技术将要素填进一个表,本专利技术称之为要素表。本专利技术利用要素表的要素生成裁判文书案件基本事实内容。优选的,在本方法中,案由类型包括:劳动争议案由、离婚案由、民间借贷案由。优选的,在本方法中,将数据集按照比例8:2划分为训练集和测试集。优选的,在本方法中,构建深度学习模型,利用训练集和测试集训练和测试深度学习模型,具体包括:将sequence-to-sequence模型的编码器和解码器均定义为一系列长短期记忆网络;将数据集的第一列数据作为编码器的输入,将对应的第二列文段作为解码器的输出,构建sequence-to-sequence模型;sequence-to-sequence模型的编码器将输入的每个文字作为一个输入,输入内容以x=(x1,x2,…,xJ)形式保存,其中J代表输入文字的总长度,编码器将输入的x转换成隐藏层的信息内容,同时解码器将隐藏层的信息内容作为输入,并输出y=(y1,y2,…,yT),其中T代表输出文字的总长度,通过反向传播学习模型参数,并利用测试集验证,得到训练后的模型。优选的,在本方法中,劳动争议案由的要素类型分为五类:劳动者入职时间、劳动者离职时间、劳动合同约定工资、劳动者离职前12个月平均工资和劳动者离职原因;离婚案由的要素类型分为四类:确定恋爱的关系时间、登记结婚时间、婚姻登记机关和需要抚养的生育子女个数;民间借贷案由的要素类型分为六类:债权凭证签订日期、预扣利息具体金额、借款交付地点、借款交付日期、约定还款日期和借款金额。优选的,本方法在步骤将案由划分为不同的类型之前还包括以下步骤:采用模板自动生成裁判文书的固定格式部分,使用规则自动生成裁判文书的判决结果部分。优选的,本方法在步骤总结每种类型案由的要素并分类之后,以及采集样本数据步骤之前还包括以下步骤:使用HMM算法计算出每种类型案由中所有要素之间的概率转移矩阵;基于要素之间的概率转移矩阵,使用拓扑排序方法对新案件中的要素重排序。优选的,使用拓扑排序方法对新案件中的要素进行重排序包括:首先通过前面的概率转移矩阵对抽取到的要素来构建子图,然后对从子图中选择一个要素作为头节点,然后开始拓扑排序,最后得到对要素顺序重新排序的列表。优选的,使用HMM算法计算出每种类型案由中所有要素之间的概率转移矩阵,通过提取每种类型案由的历史裁判文件的要素,得到要素之间的先后顺序,每个裁判文书对应的要素顺序作为样本训练HMM模型,HMM实际上是分为两个部分的,一是马尔可夫链,由参数A描述,它利用一组与概率分布相联系的状态转移的统计对应关系,描述每个短时平稳段是如何转变到下一个短时平稳段的,这个过程产生的输出为状态序列;二是一个随机过程,描述状态与观察值之间的统计关系,用观察到的序列来描述隐含的状态,由B描述,其产生的输出为观察值序列。在HMM模型中的转移矩阵即为包含当前案由下所有要素的概率转移矩阵。实际情况中案由中的要素是从起诉状抽取出来和庭审过程中提取出来的,因此要素的前后顺序通常会存在着不太符合逻辑的情况,所以需要将提取出来的要素重新排序,使得下一步的文书生成的逻辑更加通顺。另一方面,本专利技术还提供了一种基于深度学习的裁判文书自动生成系统,所述系统包括:案由类型划分单元,用于将案由划分为不同类型;案由要素分类单元,用于总结每种类型案由的要素并分类;样本数据采集及标注单元,用于采集样本数据,样本数据包括不同类型案由对应的裁判文书,根据每种类型案由的要素分类情况标注每种类型案由对应的裁判文书;要素表建立单元,用于针对每种类型案由分别建立相应的要素表,要素表第一列为标注的要素,要素表第二列为标注的要素对应的类型和值;数据集获取单元,用于基于所有建立的要素表获取数据集,将数据集划分为训练集和测试集;模型构建及训练单元,用于构建深度学习模型,利用训练集和测试集训练和测试深度学习模型;基本事实内容生成单元,用于针对不同类型案由对应的要素表的不同类型要素对应的要素内容,将裁判文书输入训练后的深度学习模型,输出裁判文书案由的基本事实内容。进一步的,在本系统中,案由类型包括但不限于:劳动争议案由、离婚案由、民间借贷案由。进一步的,在本系统中,将数据集按照比例8:2划分为训练集和测试集。进一步的,在本系统中,构建深度学习模型,利用训练集和测试集训练和测试深度学习模型,具体包括:将sequence-to-sequence模型的编码器和解码器均定义为一系列长短期记忆网络;将数据集的第一列数据作为编码器的输入,将对应的第二列文段作为解码器的输出,构建sequence-to-se本文档来自技高网...

【技术保护点】
1.一种基于深度学习的裁判文书自动生成方法,其特征在于,所述方法包括:/n将案由划分为不同类型;/n总结每种类型案由的要素并分类;/n采集样本数据,样本数据包括不同类型案由对应的裁判文书,根据每种类型案由的要素分类情况,标注每种类型案由对应的裁判文书;/n针对每种类型案由分别建立相应的要素表,要素表第一列为标注的要素,要素表第二列为标注的要素对应的类型和值;/n基于所有建立的要素表获取数据集,将数据集划分为训练集和测试集;/n构建深度学习模型,利用训练集和测试集训练和测试深度学习模型;/n针对不同类型案由对应的要素表中不同类型要素对应的要素内容,将裁判文书输入训练后的深度学习模型,输出裁判文书案由的基本事实内容。/n

【技术特征摘要】
1.一种基于深度学习的裁判文书自动生成方法,其特征在于,所述方法包括:
将案由划分为不同类型;
总结每种类型案由的要素并分类;
采集样本数据,样本数据包括不同类型案由对应的裁判文书,根据每种类型案由的要素分类情况,标注每种类型案由对应的裁判文书;
针对每种类型案由分别建立相应的要素表,要素表第一列为标注的要素,要素表第二列为标注的要素对应的类型和值;
基于所有建立的要素表获取数据集,将数据集划分为训练集和测试集;
构建深度学习模型,利用训练集和测试集训练和测试深度学习模型;
针对不同类型案由对应的要素表中不同类型要素对应的要素内容,将裁判文书输入训练后的深度学习模型,输出裁判文书案由的基本事实内容。


2.根据权利要求1所述的一种基于深度学习的裁判文书自动生成方法,其特征在于,案由类型包括:劳动争议案由、离婚案由、民间借贷案由。


3.根据权利要求1所述的一种基于深度学习的裁判文书自动生成方法,其特征在于,将数据集按照比例8:2划分为训练集和测试集。


4.根据权利要求1所述的一种基于深度学习的裁判文书自动生成方法,其特征在于,构建深度学习模型,利用训练集和测试集训练和测试深度学习模型,具体包括:
将sequence-to-sequence模型的编码器和解码器均定义为一系列长短期记忆网络;
将数据集的第一列数据作为编码器的输入,将对应的第二列文段作为解码器的输出,构建sequence-to-sequence模型;
sequence-to-sequence模型的编码器将输入的每个文字作为一个输入,输入内容以x=(x1,x2,…,xJ)形式保存,其中J代表输入文字的总长度,编码器将输入的x转换成隐藏层的信息内容,同时解码器将隐藏层的信息内容作为输入,并输出y=(y1,y2,…,yT),其中T代表输出文字的总长度,通过反向传播学习模型参数,并利用测试集验证,得到训练后的模型。


5.根据权利要求2所述的一种基于深度学习的裁判文书自动生成方法,其特征在于,劳动争议案由的要素类型分为五类:劳动者入职时间、劳动者离职时间、劳动合同约定工资、劳动者离职前12个月平均工资和劳动者离职原因;离婚案由的要素类型分为四类:确定恋爱的关系时间、登记结婚时间、婚姻登记机关和需要抚养的生育子女个数;民间借贷案由的要素类型分为六类:债权凭证签订...

【专利技术属性】
技术研发人员:李鑫王竹翁洋其他发明人请求不公开姓名
申请(专利权)人:四川大学成都星云律例科技有限责任公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1