一种基于多种神经网络组合的量刑计算方法技术

技术编号:21091160 阅读:33 留言:0更新日期:2019-05-11 10:32
一种基于多种神经网络组合的量刑计算方法,包括以下步骤:步骤S1、构建训练数据集,从裁判文书网中获取文书训练集,切分出案情描述和判决刑期,对每一条案情描述文本训练词向量,统计刑期区间并划分类别,训练量刑类别划分器;步骤S2、对待计算刑期的案情描述文本查询词向量后,输入步骤S1得到的量刑类别划分器进行分类,预测出量刑区间,使用区间中统计的代表值作为刑期结果。本发明专利技术克服了传统特征分析方法过于复杂、消耗人力资源多、专家系统质量不高的缺陷,该量刑计算方法能够在可靠的文书数据量下有效拟合出特定的量刑计算模型,解决了案情描述文本量刑计算效果不佳的问题,将本发明专利技术的方法应用到量刑计算中能够使预测性能明显提升。

A Sentencing Method Based on Multiple Neural Network Combination

【技术实现步骤摘要】
一种基于多种神经网络组合的量刑计算方法
本专利技术涉及司法智能化领域,具体涉及一种基于多种神经网络组合的量刑计算方法。
技术介绍
量刑计算属于人工智能在司法领域中的应用,是为法院中的卷宗审阅者根据案情描述提供有参考价值的量刑建议的方法,在法院中存在大量的需求。目前,随着电子科技产业的迅速发展,卷宗管理进入了电子化时代,这些卷宗数据呈现出爆炸式增长。例如,在“裁判文书网”上,保存了五千四百多万篇文书。为了能更好地应对如此快速增长的信息量,从中找到有效的相似参考信息,基于人工智能的量刑计算等智能法律服务应运而生。文书数据具有行文风格严谨、数据规整、乱码少等特点,但文书类别会分为很多种,比如,从案由的角度可以分为刑事案由、民事案由、行政案由;从审判程序可以分为一审、再审、非诉执行审查、再审审查与审判监督等;从文书类型可以分为判决书、裁定书、调解书、决定书、通知书等。面对各种各样的类别,如何有效处理不同类别的差异是一个巨大的挑战。目前的量刑计算系统研究大多处于起步阶段,并且由于法律中大多数法律条文并不是直接给出应该加减刑期的年份和幅度数值,而是给出一个范围或区间,这就导致各地区甚至各法院间的刑期计算存在一定差异。传统的人工智能专家系统会对每个地区甚至每个法院的量刑习惯抽取特征并进行建模,但这种特征分析方法过于复杂,需要消耗大量的人力物力和时间,形成的量刑计算系统质量无法保证。而词向量和卷积神经网络、循环神经网络、循环卷积神经网络等深度学习算法非常适合从数据中挖掘隐含的特征,在可靠的文书数据量下能有效地拟合出特定的量刑计算模型。
技术实现思路
本专利技术的目的在于克服上述现有技术中的不足和缺陷,提供一种基于多种神经网络组合的量刑计算方法,该方法操作简单,通过训练词向量以及卷积神经网络、循环神经网络、循环卷积神经网络相组合的方法提取文书训练样本集的特征,训练出量刑计算模型的权重进行量刑计算,能够准确得出参考量刑建议结果。为了实现上述目的,本专利技术基于多种神经网络组合的量刑计算方法,包括以下步骤:步骤S1、构建训练数据集,从裁判文书网中获取文书训练集,切分出案情描述和判决刑期,对每一条案情描述文本训练词向量,统计刑期区间并划分类别,训练量刑类别划分器;步骤S2、对待计算刑期的案情描述文本查询词向量后,输入步骤S1得到的量刑类别划分器进行分类,预测出量刑区间,使用区间中统计的代表值作为刑期结果。所述的步骤S1包括:步骤S1-1)将裁判文书网中的文书数据爬取并保存到存储介质;步骤S1-2)按照文书关键词切分出案情描述部分,再根据关键词抽取出判决刑期部分;步骤S1-3)从案情描述文本集合中得到语料,对语料进行切分词汇及去除停用词操作得到清洁语料,然后将清洁语料作为训练集训练词向量,从而得到精准语义词向量表;步骤S1-4)统计得到相关语料对应的刑期集合,按照数据等份的划分方法划分刑期区间,并且记录每个区间的刑期代表值,得到相关语料的量刑计算类别标签;步骤S1-5)将相关语料和量刑计算类别标签作为量刑类别划分器的训练集,将语料中的每个词通过查询步骤S1-3)得到的精准语义关系词向量表转化为向量,训练量刑类别划分器。在所述的步骤S1-1)中将所爬取出的文书数据以XML格式保存到磁盘中。在所述的步骤S1-2)根据关键词抽取出判决刑期部分之后进行人工校对。在所述的步骤S1-4)中将“死刑”和“无期徒刑”判决单独作为两个类别。所述的步骤S2包括:步骤S2-1)对待计算刑期的案情描述文本进行切分词汇、去除停用词操作得到清洁语料,然后利用步骤S1-3)得到的精准语义词向量表将清洁语料转化为向量,得到精准语义词向量;步骤S2-2)将精准语义词向量输入量刑类别划分器,得到刑期分类结果;步骤S2-3)将待预测案情描述文本的刑期分类结果利用步骤S1-4)得到的区间的刑期代表值进行表示,得到有参考价值的量刑建议结果。所述的刑期区间采用的分类算法为将循环神经网络、卷积神经网络、循环卷积神经网络输出的向量串接起来,再经过多层感知机进行分类。所述的步骤S2使用区间中统计出来的众数作为代表值表示刑期结果。与现有技术相比,本专利技术具有如下的有益效果:首先构建训练数据集,并利用裁判文书网中获取的文书训练集对每一条案情描述文本训练词向量,然后对待计算刑期的案情描述文本查询词向量,并输入得到的量刑类别划分器进行分类。本专利技术克服了传统特征分析方法过于复杂、消耗人力资源多、专家系统质量不高的缺陷,该量刑计算方法能够在可靠的文书数据量下有效地拟合出特定的量刑计算模型。本专利技术解决了案情描述文本量刑计算效果不佳的问题,将本专利技术的方法应用到量刑计算中能够使预测性能明显提升,通过实验证明,在CAIL2018刑期预测评测任务上达到了65.78的最终得分,能够准确得出参考量刑建议结果。附图说明图1本专利技术量刑计算方法的流程示意图;具体实施方式参见图1,本专利技术基于多种神经网络组合的量刑计算方法,包括以下步骤:步骤S1)构建训练数据集,从裁判文书网中获取文书训练集,切分出案情描述和判决刑期,对每条案情描述文本进行训练词向量,统计刑期区间并划分类别,训练量刑类别划分器;步骤S1-1)将裁判文书网中的文书数据爬取并以XML格式保存到存储介质中;步骤S1-2)根据文书的特点按照关键词切分出案情描述部分,再根据关键词抽取出判决刑期部分,最后人工校对;在切分案情描述部分时,主要利用“经查”、“勘察表明”等处于段落起始位置的关键词作为指示,并将整段保存为案情描述;在抽取判决刑期部分,主要利用“判处”、“徒刑”等关键词,抽取他们周围的数词作为判决刑期。除此之外,还进行了人工校对,确保抽取的内容是语义正确的。步骤S1-3)从案情描述文本集合中得到高质量的语料,对该语料进行切分词汇、去除停用词操作得到清洁语料,然后将清洁语料作为训练集训练词向量,得到精准语义词向量表;从案情描述文本集合中根据长度筛选,得到高质量的语料,去除太短的案情描述文本和意义不明的案情描述文本。再利用thulac和jieba等分词工具进行词汇切分,并统计词汇出现频数,结合一般停用此表和词汇出现频数的高低进行人工构造适用于案情描述文本的停用词表,并根据此停用词表进行去除停用词操作,从而得到清洁语料。利用word2vec、fasttext等词向量工具在清洁语料上训练词向量,保存为精准语义词向量表。步骤S1-4)统计得到的高质量领域相关语料对应的刑期集合,按照数据等份的划分方法划分刑期区间,将“死刑”和“无期徒刑”判决单独作为两个类别,并记录每个区间的刑期代表值,得到高质量领域相关语料的量刑计算类别标签;在量刑计算的时候直接计算精确的目标刑期是十分困难的,难点主要在两个方面:一是因为法律中大多数法律条文并不是直接给出应该加减刑期的年份和幅度数值,而是给出一个范围或区间,这就导致各地区甚至各法院间的刑期计算存在一定的差异;二是由于不同刑期数据分布不均,为了解决隐含的数据稀疏性问题,采用了按照刑期数据等份的方法将高质量领域相关语料按照刑期进行区间划分到32个不同的类别。同时经过地区走访,发现在各地法院真实量刑的场景下,往往需要参考历史类案进行辅助决定如何在各种加减刑期和幅度范围中进行取值,通常会选取类似案件中判决次数最多的那个取值。为了表示每个本文档来自技高网...

【技术保护点】
1.一种基于多种神经网络组合的量刑计算方法,其特征在于,包括以下步骤:步骤S1、构建训练数据集,从裁判文书网中获取文书训练集,切分出案情描述和判决刑期,对每一条案情描述文本训练词向量,统计刑期区间并划分类别,训练量刑类别划分器;步骤S2、对待计算刑期的案情描述文本查询词向量后,输入步骤S1得到的量刑类别划分器进行分类,预测出量刑区间,使用区间中统计的代表值作为刑期结果。

【技术特征摘要】
1.一种基于多种神经网络组合的量刑计算方法,其特征在于,包括以下步骤:步骤S1、构建训练数据集,从裁判文书网中获取文书训练集,切分出案情描述和判决刑期,对每一条案情描述文本训练词向量,统计刑期区间并划分类别,训练量刑类别划分器;步骤S2、对待计算刑期的案情描述文本查询词向量后,输入步骤S1得到的量刑类别划分器进行分类,预测出量刑区间,使用区间中统计的代表值作为刑期结果。2.根据权利要求1所述基于多种神经网络组合的量刑计算方法,其特征在于:所述的步骤S1具体包括:步骤S1-1)将裁判文书网中的文书数据爬取并保存到存储介质;步骤S1-2)按照文书关键词切分出案情描述部分,再根据关键词抽取出判决刑期部分;步骤S1-3)从案情描述文本集合中得到语料,对语料进行切分词汇及去除停用词操作得到清洁语料,然后将清洁语料作为训练集训练词向量,从而得到精准语义词向量表;步骤S1-4)统计得到相关语料对应的刑期集合,按照数据等份的划分方法划分刑期区间,并且记录每个区间的刑期代表值,得到相关语料的量刑计算类别标签;步骤S1-5)将相关语料和量刑计算类别标签作为量刑类别划分器的训练集,将语料中的每个词通过查询步骤S1-3)得到的精准语义关系词向量表转化为向量,训练量刑类别划分器。3.根据权利要求2所述基于多种神经网络组合的量刑计算方法,其特征在...

【专利技术属性】
技术研发人员:王世晞张亮徐建忠李娇娇
申请(专利权)人:杭州世平信息科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1