一种基于迁移学习和深度学习的人民调解案例分类系统及方法技术方案

技术编号:21060148 阅读:24 留言:0更新日期:2019-05-08 06:56
本发明专利技术涉及一种基于迁移学习和深度学习的人民调解案例分类系统及方法,本发明专利技术系统包括数据采集模块、特征提取模块、特征迁移模块、网络训练模块,系统结构简单,应用范围广;本发明专利技术方法包括构造字符向量矩阵,辅助数据向量化处理,人民调解数据向量化处理,将向量化后的辅助数据输入到神经网络中,提取辅助数据特征,将提取的辅助数据特征迁移到向量化后的人民调解数据中,训练分类模型。本发明专利技术方法可以有效的对所有文本进行转换,不会忽略低频词,维度下降明显,训练速度快,便于后续的在线迭代优化;同时解决了人民调解领域与辅助领域之间的差异性,满足了特定领域的个性化需求。

A Classification System and Method of People's Mediation Cases Based on Migration Learning and Deep Learning

【技术实现步骤摘要】
一种基于迁移学习和深度学习的人民调解案例分类系统及方法
本专利技术涉及数据处理分类
,尤其涉及一种基于迁移学习和深度学习的人民调解案例分类系统及方法。
技术介绍
目前,我国每年调解纠纷900多万件,现有的纠纷类型却只有20多类,随着经济社会的发展,案件的数量增加和案件的类型呈现出多样化,如何快速的将案件进行准确的分类并及时增添新的案件类型,提高调解工作的效率,是人民调解工作面临的严峻问题。当前人民调解案件类型存在以下不足:1、已存的案件类型数目少,无法涵盖所有纠纷;2、不能及时将新增的纠纷类型与已存的纠纷类型区分开;3、现存的纠纷类型下子目未细化,不能准确体现出纠纷要点。人民调解案件类型细分种类繁多,文本分类技术可以帮助人们准确地从海量数据中提取类型特征实现自动分类功能。现有的人民调解数据主要以短文本为主,短文本存在稀疏性、实时性、海量性和不规范性等特点。短文本的这些特点使文本分类面临以下难点:1、短文本特征词少,用传统的基于词条的向量空间模型表示,会造成向量空间的稀疏,另外词频、词共现频率等信息不能得到充分利用,会丢失掉词语间潜在的语义关联关系;2、短文本的不规范性,使文本中出现不规则特征词和分词词典无法识别的未登录词,导致传统文本预处理和文本表示方法不够准确;3、短文本数据的规模巨大,在分类算法的选择上往往更倾向于非惰性的学习方法,惰性的学习方法会造成过高的时间复杂度。随着短文本数据的大量产生,人们针对短文本的分类技术做了大量探索和实践。但在人民调解领域(专业性强的短文本)中该技术的应用仍属空白。专利申请号CN201710686945.7提出了一种组合类降维算法和加权欠采样SVM算法相结合的短文本分类方法,解决了文本分类中高纬度稀疏性和类别不平衡的问题,但在多分类准确度上效果不佳。专利申请号CN201510271672.0公开了一种基于卷积神经网络的短文本分类方法,通过预训练的词表示向量对短文本进行语义扩展,利用卷积神经网络提取定长的语义特征向量,使其语义特征向量化表示得到进一步增强,并最终使其分类任务的性能得以改善。但该方法在垂直领域,很难根据外部辅助数据对语料进行扩充。由于“人民调解”领域的数据专业性强、内容短、特征抽取难,纠纷不断演变,本专利技术提供了一种基于迁移学习和深度学习的文本分类方法。
技术实现思路
本专利技术为克服上述的不足之处,目的在于提供一种基于迁移学习和深度学习的人民调解案例分类系统及方法,本专利技术系统包括数据采集模块、特征提取模块、特征迁移模块、网络训练模块,系统结构简单,应用范围广;本专利技术方法包括构造字符向量矩阵,辅助数据向量化处理,人民调解数据向量化处理,将向量化后的辅助数据输入到神经网络中,提取辅助数据特征,将提取的辅助数据特征迁移到向量化后的人民调解数据中,训练分类模型。本专利技术方法可以有效的对所有文本进行转换,不会忽略低频词,维度下降明显,训练速度快,便于后续的在线迭代优化;同时解决了人民调解领域与辅助领域之间的差异性,满足了特定领域的个性化需求。本专利技术是通过以下技术方案达到上述目的:一种基于迁移学习和深度学习的人民调解案例分类系统,包括:数据采集模块、特征提取模块、特征迁移模块、网络训练模块;所述的数据采集模块用于采集人民调解数据与辅助数据,并对采集得到的人民调解数据与辅助数据进行数据清洗、去重预处理操作,形成辅助数据集和人民调解数据集;特征提取模块,采用卷积神经网络提取辅助数据特征和人民调解数据特征;特征迁移模块用于将辅助数据通用特征迁移到新的神经网络中,将其应用在人民调解案例分类中;网络训练模块用于对卷积神经网络的训练,获得最终的训练模型。一种基于迁移学习和深度学习的人民调解案例分类方法,包括如下步骤:(1)收集人民调解数据与辅助数据,并对人民调解数据和辅助数据进行预处理得到辅助数据集A、人民调解数据集B;(2)构造字符向量矩阵,对辅助数据进行向量化处理,将向量化后的辅助数据输入到卷积神经网络中,提取辅助数据特征;同时对卷积神经网络重新训练获得辅助领域模型,并将辅助领域模型的网络结构图保存为.meta文件,网络参数保存为.checkpoint文件;(3)利用迁移学习技术将提取的辅助数据特征迁移到新的神经网络中,该新神经网络为基于辅助领域模型的网络图重建的神经网络;并对人民调解数据进行向量化处理后输入到得到的卷积神经网络中,训练分类器模型,得到并保存最终的人民调解分类模型;采用该人民调解分类模型对人民调解案例进行分类。作为优选,所述步骤(1)具体如下:(1.1)收集辅助数据:收集与领域相关的长文本数据作为辅助领域数据;(1.2)收集人民调解数据:收集近年的人民调解数据,根据专家经验将人民调解数据打上小类标签;(1.3)数据清洗:将收集的辅助数据进行清洗,删除文本中的干扰字符,删除过短的数据;将收集的人民调解数据进行清洗,删除质量差和过短的数据,删除文本中的干扰字符;(1.4)数据去重:基于清洗后的数据,采用余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离方法中的任意一种或多种方法删除重复和相似数据;(1.5)将清洗和去重后的数据存入到数据仓库中,获得辅助数据集A、人民调解数据集B。作为优选,所述步骤(2)具体如下:(2.1)构造字符向量矩阵:将辅助数据集A和人民调解数据集B的文本切分成单个字符,一行一个字符保存在.txt文件;假设C为数据中所用的字符集,构造字符向量矩阵Q∈R|C|×|C|;(2.2)文本嵌入:假设一个文本的字符序列为[s1,s2,s3,…,sn],sn为文本中第n个字符,则根据字符序列和字符向量矩阵构造文本向量S∈Rn×|C|;因此,对辅助数据集A文本嵌入后最终输出文本向量空间I∈R|L*n|×C|,L为辅助数据集A的总数;(2.3)将输出的文本向量空间I输入到卷积计算层中,利用滤波器对文本矩阵做卷积运算,若滤波器大小为h×n,其中h为卷积核窗口中的字符数量,则卷积操作后输出特征ti为:ti=f(W·Si:i+h-1+b)其中b∈R为偏差项,W∈Rh×n为卷积核的权重矩阵,f是卷积核函数;该滤波器应用于一个文本{S1:h,S2:h+1,…,Sn-h+1}得到特征T为:T=[t1,t2,t3,t4,…,tn-h+1]其中t∈Rn-h+1;通过max-pooling算法对特征进行下采样,保留最重要的特征则全连接层的特征向量V为:其中k为卷积核的个数;通过Softmax层进行归一化;(2.4)基于辅助数据集A对卷积神经网络重新训练获得辅助领域模型,并将辅助领域模型的网络结构图保存为.meta文件,网络参数保存为.checkpoint文件。作为优选,所述的字符向量矩阵Q采用one-hot编码,对角线元素均设为1,其余为0,矩阵Q的每一个行向量代表一个字符。作为优选,所述步骤(2.4)在训练过程中,基于交叉熵训练目标函数,即采用的训练目标函数是最小化目标概率分布和实际概率分布的交叉熵,其中训练目标函数J(θ)的定义式为:其中,l是训练样本数目,α是正则化因子,是样本xi的正确类别;基于所述的训练目标函数,通过梯度下降算法计算样本的误差,并使用反馈传播的方式更新网络结构的超参数的集合θ,更新公式为:其中,λ是学习率。作为优选,所述训练本文档来自技高网
...

【技术保护点】
1.一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于包括如下步骤:(1)收集人民调解数据与辅助数据,并对人民调解数据和辅助数据进行预处理得到辅助数据集A、人民调解数据集B;(2)构造字符向量矩阵,对辅助数据进行向量化处理,将向量化后的辅助数据输入到卷积神经网络中,提取辅助数据特征;同时对卷积神经网络重新训练获得辅助领域模型,并将辅助领域模型的网络结构图保存为.meta文件,网络参数保存为.checkpoint文件;(3)利用迁移学习技术将提取的辅助数据特征迁移到新的神经网络中,该新神经网络为基于辅助领域模型的网络图重建的神经网络;并对人民调解数据进行向量化处理后输入到得到的卷积神经网络中,训练分类器模型,得到并保存最终的人民调解分类模型;采用该人民调解分类模型对人民调解案例进行分类。

【技术特征摘要】
1.一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于包括如下步骤:(1)收集人民调解数据与辅助数据,并对人民调解数据和辅助数据进行预处理得到辅助数据集A、人民调解数据集B;(2)构造字符向量矩阵,对辅助数据进行向量化处理,将向量化后的辅助数据输入到卷积神经网络中,提取辅助数据特征;同时对卷积神经网络重新训练获得辅助领域模型,并将辅助领域模型的网络结构图保存为.meta文件,网络参数保存为.checkpoint文件;(3)利用迁移学习技术将提取的辅助数据特征迁移到新的神经网络中,该新神经网络为基于辅助领域模型的网络图重建的神经网络;并对人民调解数据进行向量化处理后输入到得到的卷积神经网络中,训练分类器模型,得到并保存最终的人民调解分类模型;采用该人民调解分类模型对人民调解案例进行分类。2.根据权利要求1所述的一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于:所述步骤(1)具体如下:(1.1)收集辅助数据:收集与领域相关的长文本数据作为辅助领域数据;(1.2)收集人民调解数据:收集近年的人民调解数据,根据专家经验将人民调解数据打上小类标签;(1.3)数据清洗:将收集的辅助数据进行清洗,删除文本中的干扰字符,删除过短的数据;将收集的人民调解数据进行清洗,删除质量差和过短的数据,删除文本中的干扰字符;(1.4)数据去重:基于清洗后的数据,采用余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离方法中的任意一种或多种方法删除重复和相似数据;(1.5)将清洗和去重后的数据存入到数据仓库中,获得辅助数据集A、人民调解数据集B。3.根据权利要求1所述的一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于:所述步骤(2)具体如下:(2.1)构造字符向量矩阵:将辅助数据集A和人民调解数据集B的文本切分成单个字符,一行一个字符保存在.txt文件;假设C为数据中所用的字符集,构造字符向量矩阵Q∈R|C|×|C|;(2.2)文本嵌入:假设一个文本的字符序列为[s1,s2,s3,…,sn],sn为文本中第n个字符,则根据字符序列和字符向量矩阵构造文本向量S∈Rn×|C|;因此,对辅助数据集A文本嵌入后最终输出文本向量空间I∈R|L*n|×|C|,L为辅助数据集A的总数;(2.3)将输出的文本向量空间I输入到卷积计算层中,利用滤波器对文本矩阵做卷积运算,若滤波器大小为h×n,其中h为卷积核窗口中的字符数量,则卷积操作后输出特征ti为:ti=f(W·Si:i+h-1+b)其中b∈R为偏差项,W∈Rh×n为卷积核的权重矩阵,f是卷积核函数;该滤波器应用于一个文本{S1:h,S2:h+1,…,Sn-h+1}得到特征T为:T=[t1,t2,t3,t4,…,tn-h+1]其中t∈Rn-h+1;通过max-pooling算法对特征进行下采样,保留最重要的特征则全连接层的特征向量V为:其中k为卷积核的个数;通过Softmax层进行归一化;(2.4)基于辅助数据集A对卷积神经网络重新训练获得辅助领域模型,并将辅助领域模型的网络结构图保存为.meta文件,网络参数保存为.checkpoint文件。4.根据权利要求3所述的一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于:所述的字符向量矩阵Q采用one-hot编码,对角线元素均设为1,其余为0,矩阵Q的每一个行向量代表一个字符。5.根据权利要求3所述的一种基于迁移学习和深度学习的人民调解案例分类方法,其特征...

【专利技术属性】
技术研发人员:金佳佳钱小鸿丁锴陈涛冯远静李建元
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1