【技术实现步骤摘要】
一种基于自然语言处理的裁判文书文本分类方法
本专利技术公开一种分类方法,涉及文本管理
,具体地说是一种基于自然语言处理的裁判文书文本分类方法。
技术介绍
自然语言处理是人工智能中的一个子领域,研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。判决文书主要由6个部分构成,分别是刑事案件(刑事文书)、民事案件(民事文书)、行政案件(行政文书)、赔偿案件(赔偿文书)、执行案件(执行文书)、其他案件(其他文书:管辖案件、区际司法协助(暂无数据)、国际司法协助(暂无数据)、非诉保全(暂无数据)、司法制裁、强制清算与破产、其他),其中大部分为文本信息。现实数据分析的模型中,大部分模型都是基于数值型的数据去做风险预测及评估工作,但面对文本类型的数据往往束手无策。
技术实现思路
本专利技术针对现有技术的问题,提供一种基于自然语言处理的裁判文书文本分类方法,构建NLP中文本分 ...
【技术保护点】
1.一种基于自然语言处理的裁判文书文本分类方法,其特征是根据需求,利用大数据处理技术从裁判文书中筛选文书数据,/n对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,/n建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。/n
【技术特征摘要】
1.一种基于自然语言处理的裁判文书文本分类方法,其特征是根据需求,利用大数据处理技术从裁判文书中筛选文书数据,
对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,
建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。
2.根据权利要求1所述的一种基于自然语言处理的裁判文书文本分类方法,其特征是对数据集在相应字段中的数据进行去重预处理,文本分类模型利用处理后的数据集进行训练。
3.根据权利要求1或2所述的一种基于自然语言处理的裁判文书文本分类方法,其特征是文本分类模型中包括数据输入层、词向量层和卷积神经网络,其中词向量层使用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,使用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量。
4.根据权利要求3所述的一种基于自然语言处理的裁判文书文本分类方法,其特征是卷积神经网络中依次为卷积层、激活层、池化层,池化层后连接全连接层。
5.一种基于自然语言处理的裁判文书文本分类系统,其特征是包括筛选...
【专利技术属性】
技术研发人员:陈晨,
申请(专利权)人:山东爱城市网信息技术有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。