基于自学习的电子案卷分类方法及装置制造方法及图纸

技术编号:23890817 阅读:26 留言:0更新日期:2020-04-22 06:23
本发明专利技术实施方式提供一种基于自学习的电子案卷分类方法及装置,属于文本分类技术领域,所述方法包括:获取电子案卷文本样本;提取电子案卷文本样本中的特征信息样本;以特征信息样本作为输入,经预训练的第一预测模型得到电子案卷文本样本的预测类别;若预测类别不准确,修正预测类别,将特征信息样本以扩容系数为倍数复制至训练集;若预测类别准确,将特征信息样本作为训练样本加入训练集。本发明专利技术的技术方案通过训练好的预测模型对电子案卷文本进行分类,结合自学习机制,在对电子案卷分类过程中,针对不同的分类结果,对应不同的训练集数据修正策略,优化训练集数据,有效提高了预测的准确率。

Classification method and device of electronic files based on self-learning

【技术实现步骤摘要】
基于自学习的电子案卷分类方法及装置
本专利技术涉及文本分类
,具体地涉及一种基于自学习的电子案卷分类方法以及一种基于自学习的电子案卷分类装置。
技术介绍
随着电子政务服务的发展,报案人员可通过政务app、热线、网页等方式进行投诉和建议,报案信息最终转换为文本数据录入、分类、提交,随后根据案件类别、意见内容将案卷分发至处理部门,以待处理。少量报案数据的情况下,人工分类可以满足需求,但随着各渠道案件量迅速上升,人工分类方式已不能满足当前的实际需要,新增案卷智能分类成为了急需解决的问题。值得注意的是,以上分类工作大多可通过机器学习的方法解决,传统的机器学习方法主要是线性和浅层非线性的方法,如SVM、朴素贝叶斯分类器实现文本分类,对于复杂词句的语义内容必然会带来许多误差,且存在数据量变大时会有收敛速度慢的缺点。
技术实现思路
本专利技术实施方式的目的是提供一种基于自学习的电子案卷分类方法以及一种基于自学习的电子案卷分类装置,以解决现有的文本分类对复杂词句的误差大,且在数据量变大时会有收敛速度慢的问题。为了实现上述目的,在本专利技术第一方面,提供一种基于自学习的电子案卷分类方法,包括:获取电子案卷文本样本;提取所述电子案卷文本样本中的特征信息样本;以所述特征信息样本作为输入,经预训练的第一预测模型得到电子案卷文本样本的预测类别,所述第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到;判断所述预测类别是否准确,若不准确,修正所述预测类别,以修正后的类别作为最终分类类别,以及将所述特征信息样本以扩容系数为倍数复制至所述训练集;若准确,将所述预测类别作为最终分类类别,并将所述特征信息样本作为训练样本加入所述训练集。可选地,所述提取所述电子案卷文本样本中的特征信息样本,包括:对所述电子案卷文本样本进行数据预处理;对经数据预处理后的电子案卷文本样本进行分词及去停用词处理,得到分词词组,基于所述分词词组得到所述特征信息样本。可选地,所述方法还包括:在当前所有的电子案卷文本样本数量达到设定阈值时,通过所述训练集对所述第一预测模型重新进行训练,得到第二预测模型,若所述第二预测模型的预测准确率高于所述第一预测模型的预测准确率,用所述第二预测模型替换所述第一预测模型。可选地,所述第一预测模型包括:输入层,用于接收所述特征信息样本并对所述特征信息样本进行词嵌入以将输入的特征信息样本转化为特征向量;卷积层,用于提取所述特征向量的向量特征;池化层,用于对提取到的所有向量特征进行降维处理;全连接层,用于依据降维处理后的向量特征输出所述特征信息样本对应的电子案卷文本样本属于每个类别的概率,并以概率最高的类别作为预测类别。可选地,所述扩容系数通过以下方式确定::将得到的电子案卷文本样本属于每个类别的概率由高到低进行排序;若修正后的类别为第I个类别,则以I为扩容系数。在本专利技术的第二方面,提供一种基于自学习的电子案卷分类装置,包括:获取单元,用于获取电子案卷文本样本;提取单元,用于提取所述电子案卷文本样本中的特征信息样本;预测单元,用于以所述特征信息样本作为输入,经预训练的第一预测模型得到电子案卷文本样本的预测类别,所述第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到;修正单元,用于判断所述预测类别是否准确,若不准确,修正所述预测类别,以修正后的类别作为最终分类类别,以及将所述特征信息样本以扩容系数为倍数复制至所述训练集;若准确,将所述预测类别作为最终分类类别,并将所述特征信息样本作为训练样本加入所述训练集。可选地,所述提取所述电子案卷文本样本中的特征信息样本,包括:对所述电子案卷文本样本进行数据预处理;对经数据预处理后的电子案卷文本样本进行分词及去停用词处理,得到分词词组,基于所述分词词组得到所述特征信息样本。可选地,所述装置还包括:更新单元,用于在当前所有的电子案卷文本样本数量达到设定阈值时,通过所述训练集对所述第一预测模型重新进行训练,得到第二预测模型,若所述第二预测模型的预测准确率高于所述第一预测模型的预测准确率,用所述第二预测模型替换所述第一预测模型。可选地,所述第一预测模型包括:输入层,用于接收所述特征信息样本并对所述特征信息样本进行词嵌入以将输入的特征信息样本转化为特征向量;卷积层,用于提取所述特征向量的向量特征;池化层,用于对提取到的所有向量特征进行降维处理;全连接层,用于依据降维处理后的向量特征输出所述特征信息样本对应的电子案卷文本样本属于每个类别的概率,并以概率最高的类别作为预测类别。可选地,所述扩容系数通过以下方式确定::将得到的电子案卷文本样本属于每个类别的概率由高到低进行排序;若修正后的类别为第I个类别,则以I为扩容系数。本专利技术的上述技术方案通过训练好的预测模型对电子案卷文本进行分类,同时结合自学习机制,在对电子案卷分类过程中,针对不同的分类结果,对应不同的训练集数据修正策略,优化训练集数据,有效提高了预测的准确率。本专利技术实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术实施方式,但并不构成对本专利技术实施方式的限制。在附图中:图1是本专利技术一种实施方式提供的一种基于自学习的电子案卷分类方法的方法流程图;图2是本专利技术一种实施方式提供的一种基于自学习的电子案卷分类方法的分类器训练流程图;图3是本专利技术一种实施方式提供的一种基于自学习的电子案卷分类方法的扩容系数确定方法流程图;图4是本专利技术一种实施方式提供的一种基于自学习的电子案卷分类方法的分类器自学习流程图;图5是本专利技术一种实施方式提供的一种基于自学习的电子案卷分类装置的装置示意框图。附图标记说明110-获取单元,120-提取单元,130-预测单元,140-修正单元,150-更新单元。具体实施方式以下结合附图对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。在本专利技术实施方式中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。如图1所示,在本实施方式的第一方面,提供一种基于自学习的电子案卷分类方法,包括:获取电子案卷文本本文档来自技高网...

【技术保护点】
1.一种基于自学习的电子案卷分类方法,其特征在于,包括:/n获取电子案卷文本样本;/n提取所述电子案卷文本样本中的特征信息样本;/n以所述特征信息样本作为输入,经预训练的第一预测模型得到电子案卷文本样本的预测类别,所述第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到;/n判断所述预测类别是否准确,若不准确,修正所述预测类别,以修正后的类别作为最终分类类别,以及将所述特征信息样本以扩容系数为倍数复制至所述训练集;若准确,将所述预测类别作为最终分类类别,并将所述特征信息样本作为训练样本加入所述训练集。/n

【技术特征摘要】
1.一种基于自学习的电子案卷分类方法,其特征在于,包括:
获取电子案卷文本样本;
提取所述电子案卷文本样本中的特征信息样本;
以所述特征信息样本作为输入,经预训练的第一预测模型得到电子案卷文本样本的预测类别,所述第一预测模型通过包括不同类别电子案卷文本样本的特征信息样本的训练集对卷积神经网络训练后得到;
判断所述预测类别是否准确,若不准确,修正所述预测类别,以修正后的类别作为最终分类类别,以及将所述特征信息样本以扩容系数为倍数复制至所述训练集;若准确,将所述预测类别作为最终分类类别,并将所述特征信息样本作为训练样本加入所述训练集。


2.根据权利要求1所述的基于自学习的电子案卷分类方法,其特征在于,所述提取所述电子案卷文本样本中的特征信息样本,包括:
对所述电子案卷文本样本进行数据预处理;
对经数据预处理后的电子案卷文本样本进行分词及去停用词处理,得到分词词组,基于所述分词词组得到所述特征信息样本。


3.根据权利要求1所述的基于自学习的电子案卷分类方法,其特征在于,所述方法还包括:
在当前所有的电子案卷文本样本数量达到设定阈值时,通过所述训练集对所述第一预测模型重新进行训练,得到第二预测模型,若所述第二预测模型的预测准确率高于所述第一预测模型的预测准确率,用所述第二预测模型替换所述第一预测模型。


4.根据权利要求1所述的基于自学习的电子案卷分类方法,其特征在于,所述第一预测模型包括:
输入层,用于接收所述特征信息样本并对所述特征信息样本进行词嵌入以将输入的特征信息样本转化为特征向量;
卷积层,用于提取所述特征向量的向量特征;
池化层,用于对提取到的所有向量特征进行降维处理;
全连接层,用于依据降维处理后的向量特征输出所述特征信息样本对应的电子案卷文本样本属于每个类别的概率,并以概率最高的类别作为预测类别。


5.根据权利要求4所述的基于自学习的电子案卷分类方法,其特征在于,所述扩容系数通过以下方式确定:
将得到的电子案卷文本样本属于每个类别的概率由高到低进行排序;
若修正后的类别为第I个类别,则以I为扩容系数。


6.一种基于自学习的电子...

【专利技术属性】
技术研发人员:林静吕晓敏尉锦龙卢会春王翔
申请(专利权)人:杭州天翼智慧城市科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1