基于胶囊网络与时序的刑事多罪名预测方法技术

技术编号:26479629 阅读:40 留言:0更新日期:2020-11-25 19:24
本发明专利技术涉及基于胶囊网络与时序的刑事多罪名预测方法,属于自然语言处理技术领域。本发明专利技术包括步骤:数据的收集;数据的预处理;提取时序特征;对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;从得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。本发明专利技术有效的解决了多罪名的低频与多标签分类问题,为智能法院的建设提供了有力支撑。

【技术实现步骤摘要】
基于胶囊网络与时序的刑事多罪名预测方法
本专利技术涉及基于胶囊网络与时序的刑事多罪名预测方法,属于自然语言处理

技术介绍
在人工智能在法律领域的应用中,罪名的判决决定着后续任务的质量,如刑期预判、罚金预判等任务对罪名的需求很高,而高准确率的罪名预判对后续的法律智能化建设具有重要意义。罪名预测是法律智能化进程中的重点也是难点,其直接影响了刑期预判、罚金预判、要素识别等任务的准确率,同时很好的推动了各类智能化进程的发展;为了解决后续工作的质量与性能,需要较高的罪名预测准确性,而其中多罪名的数占整个数据的十分之一,多罪名预测的准确率提高,能够解决10%的数据判决问题。因此,性能优秀的多罪名预判模型不仅很好的解决了罪名预判中的被忽略的多罪名预测,同时也为后续工作打好了基础。国家专利技术专利申请“一种基于序列增强胶囊网络的刑事案件罪名预测方法”(公开日2019.08.13)获取案件事实描述以及案件判罚结果为训练数据集,通过序列增强胶囊网络对数据集进行训练,将词向量视为胶囊网络的初始胶囊,构建两个序列到胶囊网络提取得到主特征向量以及注意力本文档来自技高网...

【技术保护点】
1.基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:包括如下步骤:/nStep1、数据的收集:获取罪名与事实描述文本相对应的数据集;/nStep2、数据的预处理:将得到的数据集对其中每一个罪名标签进行清理,且区分出单罪名与多罪名数据,然后按照one-hot的方式对罪名进行编码,同时删除空文档数据,构建出单罪名数据集与多罪名数据集,建立训练集、测试集与验证集,并对整个数据语料进行词向量训练,将词向量进行映射;/nStep3、提取时序特征:利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征,按照提取的时序特征数量对事实描述文本进行时序特征标签赋值;/nStep4、对事实描述文...

【技术特征摘要】
1.基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:包括如下步骤:
Step1、数据的收集:获取罪名与事实描述文本相对应的数据集;
Step2、数据的预处理:将得到的数据集对其中每一个罪名标签进行清理,且区分出单罪名与多罪名数据,然后按照one-hot的方式对罪名进行编码,同时删除空文档数据,构建出单罪名数据集与多罪名数据集,建立训练集、测试集与验证集,并对整个数据语料进行词向量训练,将词向量进行映射;
Step3、提取时序特征:利用模式匹配的方式从Step1中数据集中的事实描述文本中提取时序特征,按照提取的时序特征数量对事实描述文本进行时序特征标签赋值;
Step4、对事实描述文本进行特征表示:事实描述文本编码时将词向量按句输入,采用长短记忆力网络将词级文本提取特征得到句子级的事实描述文本特征向量表示;
Step5、胶囊预测层:从Step4中得到的特征向量经过压缩函数进行压缩生成初级胶囊,将初级胶囊作为胶囊预测层的输入,通过动态路由的方式迭代生成不同罪名的类别胶囊与罪名类别概率;
Step6、使用生成的罪名类别胶囊、罪名类别概率以及时序特征值对多罪名进行预判,最终得到罪名预测的结果。


2.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过分析裁判文书网的网页结构,通过Scrapy框架构建爬虫文件,自动从页面中抽取网站中的法律判决文书,并通过页面中的结构对数据进行第一步清理;
Step1.2、然后进行人工校正罪名与犯罪事实描述,构建罪名与事实描述文本相对应的数据集。


3.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、对得到的数据集中每一个罪名标签进行清理,除去杂余信息;然后利用单罪名和多罪名区分格式区分出单罪名与多罪名数据,同时将罪名按照one-hot的方式进行编码,同时删除空文档数据;
Step2.2、对处理好的数据集进行切分,构建单罪名的训练集、测试集、验证集以及多罪名的训练集、测试集、验证集;
Step2.3、使用skip-gram的方法对整个语料进行词向量训练,得到一个300维的词向量集,同时将法律文书中的事实描述进行数字转换。


4.根据权利要求1所述的基于胶囊网络与时序的刑事多罪名预测方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、获取事实描述文本输入:输入包含m个句子的刑事案件事实描述文本{s1,s2,...,sm},其中sm表示事实描述文本中第m个句子的词集,事实描述文本的输入能表示为矩阵S=s1+s2+...+sm,S∈Rm*n,其中n表示事实描述文本句子长度即事实描述文本句子中包含的词的数量;
Step4.2、获取LSTM网络的隐含向量:通过在词编码时使用skip-gram模型将每一个词嵌入到一个低维的词空间,然后每个词映射为对应的词向量得到句子向量集为其中sj表示事实描述文本中的第j个句子的词向量集,表示第j个句子中第i个词向量,d表示词向量维度;将sj输入进LSTM层,通过计算得到隐藏层状态向量集其中表示第j个句子中的第i个词的隐藏层向量表示;其具体的计算公式如下:












其中是门控函数通过当前输入和上层单元输出计算得到,表示输入函数,fij表示遗忘函数,表示输出函数,σ表示激活函数sigmoid函数,表示第j个句子中第i-1个词向量的隐藏层状态向量,即上层单元的输出,表示第j个句子中第i个词向量也是当前的单元输入,是当前单元...

【专利技术属性】
技术研发人员:余正涛王红涛高盛祥郭军军黄于欣朱恩昌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1