基于自学习的电子案卷分类方法及装置制造方法及图纸

技术编号：23890817 阅读：38 留言：0更新日期：2020-04-22 06:23

本发明专利技术实施方式提供一种基于自学习的电子案卷分类方法及装置，属于文本分类技术领域，所述方法包括：获取电子案卷文本样本；提取电子案卷文本样本中的特征信息样本；以特征信息样本作为输入，经预训练的第一预测模型得到电子案卷文本样本的预测类别；若预测类别不准确，修正预测类别，将特征信息样本以扩容系数为倍数复制至训练集；若预测类别准确，将特征信息样本作为训练样本加入训练集。本发明专利技术的技术方案通过训练好的预测模型对电子案卷文本进行分类，结合自学习机制，在对电子案卷分类过程中，针对不同的分类结果，对应不同的训练集数据修正策略，优化训练集数据，有效提高了预测的准确率。

Classification method and device of electronic files based on self-learning

全部详细技术资料下载

【技术实现步骤摘要】
基于自学习的电子案卷分类方法及装置
本专利技术涉及文本分类
，具体地涉及一种基于自学习的电子案卷分类方法以及一种基于自学习的电子案卷分类装置。
技术介绍
随着电子政务服务的发展，报案人员可通过政务app、热线、网页等方式进行投诉和建议，报案信息最终转换为文本数据录入、分类、提交，随后根据案件类别、意见内容将案卷分发至处理部门，以待处理。少量报案数据的情况下，人工分类可以满足需求，但随着各渠道案件量迅速上升，人工分类方式已不能满足当前的实际需要，新增案卷智能分类成为了急需解决的问题。值得注意的是，以上分类工作大多可通过机器学习的方法解决，传统的机器学习方法主要是线性和浅层非线性的方法，如SVM、朴素贝叶斯分类器实现文本分类，对于复杂词句的语义内容必然会带来许多误差，且存在数据量变大时会有收敛速度慢的缺点。
技术实现思路
本专利技术实施方式的目的是提供一种基于自学习的电子案卷分类方法以及一种基于自学习的电子案卷分类装置，以解决现有的文本分类对复杂词句的误差大，且在数据量变大时会有收敛速度慢的问题...

【技术保护点】
1.一种基于自学习的电子案卷分类方法，其特征在于，包括：/n获取电子案卷文本样本；/n提取所述电子案卷文本样本中的特征信息样本；/n以所述特征信息样本作为输入，经预训练的第一预测模型得到电子案卷文本样本的预测类别，所述第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到；/n判断所述预测类别是否准确，若不准确，修正所述预测类别，以修正后的类别作为最终分类类别，以及将所述特征信息样本以扩容系数为倍数复制至所述训练集；若准确，将所述预测类别作为最终分类类别，并将所述特征信息样本作为训练样本加入所述训练集。/n

【技术特征摘要】
1.一种基于自学习的电子案卷分类方法，其特征在于，包括：
获取电子案卷文本样本；
提取所述电子案卷文本样本中的特征信息样本；
以所述特征信息样本作为输入，经预训练的第一预测模型得到电子案卷文本样本的预测类别，所述第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到；
判断所述预测类别是否准确，若不准确，修正所述预测类别，以修正后的类别作为最终分类类别，以及将所述特征信息样本以扩容系数为倍数复制至所述训练集；若准确，将所述预测类别作为最终分类类别，并将所述特征信息样本作为训练样本加入所述训练集。

2.根据权利要求1所述的基于自学习的电子案卷分类方法，其特征在于，所述提取所述电子案卷文本样本中的特征信息样本，包括：
对所述电子案卷文本样本进行数据预处理；
对经数据预处理后的电子案卷文本样本进行分词及去停用词处理，得到分词词组，基于所述分词词组得到所述特征信息样本。

3.根据权利要求1所述的基于自学习的电子案卷分类方法，其特征在于，所述方法还包括：
在当前所有的电子案卷文本样本数量达到设定阈值时，通过所述训练集对所述第一预测模型重新进行训练，得到第二预测模型，若所述第二预测模型的预测准确率高于所述第一预测模型的预测准确率，用所述第二预测模型替换所述第一预测模型。

4.根据权利要求1所述的基于自学习的电子案卷分类方法，其特征在于，所述第一预测模型包括：
输入层，用于接收所述特征信息样本并对所述特征信息样本进行词嵌入以将输入的特征信息样本转化为特征向量；
卷积层，用于提取所述特征向量的向量特征；
池化层，用于对提取到的所有向量特征进行降维处理；
全连接层，用于依据降维处理后的向量特征输出所述特征信息样本对应的电子案卷文本样本属于每个类别的概率，并以概率最高的类别作为预测类别。

5.根据权利要求4所述的基于自学习的电子案卷分类方法，其特征在于，所述扩容系数通过以下方式确定：
将得到的电子案卷文本样本属于每个类别的概率由高到低进行排序；
若修正后的类别为第I个类别，则以I为扩容系数。

6.一种基于自学习的电子...

【专利技术属性】
技术研发人员：林静，吕晓敏，尉锦龙，卢会春，王翔，
申请(专利权)人：杭州天翼智慧城市科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人