【技术实现步骤摘要】
一种基于改进卷积神经网络的裁判文书行业分类方法
本专利技术涉及一种裁判文书涉及行业分类方法,具体涉及一种基于改进卷积神经网络的裁判文书行业分类方法,属于大数据挖掘
技术介绍
裁判文书是记载人民法院审理过程和结果,它是诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。在最高人民法院的裁判文书当中,分为民事文书、刑事文书、行政文书、执行文书、涉外文书五项,本专利技术的数据来源就是民事文书中的产品质量公开民事文书。产品质量纠纷,是指因产品质量而引起的有关当事人之间的争执,包括经济合同中的质量纠纷,因产品质量而发生的侵权纠纷,因行政机关处理产品质量问题而引起的争议等。近年来,快速发展的互联网技术影响到了各行各业,法律相关的行业当然也不例外。在过去的一些年,法官通常会手写裁判文书,而随着科技的发展,法官再也不需要把大量的精力花费在动笔书写裁判文书上了,而是采用线 ...
【技术保护点】
1.一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于包含以下步骤:/n步骤(1)从法院文书数据库中获取裁判文书8413篇;/n步骤(2)定义原始文书涉及行业;/n步骤(3)人工标注原始文书涉及行业并筛除无效数据;/n步骤(4)文书数据预处理;/n步骤(5)分层抽样划分训练集、验证集与测试集;/n步骤(6)创建字符与词语字典;/n步骤(7)构建与训练改进卷积神经网络分类器;/n步骤(8)输入相关裁判文书,预测文书涉及行业。/n
【技术特征摘要】
1.一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于包含以下步骤:
步骤(1)从法院文书数据库中获取裁判文书8413篇;
步骤(2)定义原始文书涉及行业;
步骤(3)人工标注原始文书涉及行业并筛除无效数据;
步骤(4)文书数据预处理;
步骤(5)分层抽样划分训练集、验证集与测试集;
步骤(6)创建字符与词语字典;
步骤(7)构建与训练改进卷积神经网络分类器;
步骤(8)输入相关裁判文书,预测文书涉及行业。
2.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(1)中从法院文书数据库中获取裁判文书8413篇,这些文书属于产品质量公开民事文书。
3.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(2)中定义原始产品质量民事文书涉及行业,包括机械制造行业、五金建材行业、农林牧渔行业、化工行业、电子通讯行业、文体生活用品行业、农副食品行业、纺织服饰行业、家电行业、食品药品行业、交通运输行业、酒水饮料茶奶行业、其他行业,共13个类别。
4.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(3)中人工标注原始文书涉及行业并筛除无效数据,标注工作由多人共同进行,采用投票法确定类别。对于文书重复的无效数据,剔除处理。
5.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(4)中文书数据预处理。具体子步骤包括:
步骤(4.1)结构化文书数据,将文书全文转化为XML形式;
步骤(4.2)根据正则表达式提取原告诉称段文本;
步骤(4.3)数据清理,去除原告诉称内容中法律、时间相关文本以及车牌、特殊字符等无效信息;
步骤(4.4)计算数据长度分布,确定文本序列长度上下限;
步骤(4.5)限制并统一文本长度,将用户需求文本长度限制在50-1500个字符以内,字符超过1500时简单截断文本,字符不到1500时添加填充字符,字符少于50时剔除数据。
6.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(5)中分层抽样划分训练集、验证集与测试集,数据随...
【专利技术属性】
技术研发人员:葛季栋,李传艺,周晓松,冯奕,周筱羽,骆斌,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。