【技术实现步骤摘要】
一种基于迁移学习和深度学习的人民调解案例分类系统及方法
本专利技术涉及数据处理分类
,尤其涉及一种基于迁移学习和深度学习的人民调解案例分类系统及方法。
技术介绍
目前,我国每年调解纠纷900多万件,现有的纠纷类型却只有20多类,随着经济社会的发展,案件的数量增加和案件的类型呈现出多样化,如何快速的将案件进行准确的分类并及时增添新的案件类型,提高调解工作的效率,是人民调解工作面临的严峻问题。当前人民调解案件类型存在以下不足:1、已存的案件类型数目少,无法涵盖所有纠纷;2、不能及时将新增的纠纷类型与已存的纠纷类型区分开;3、现存的纠纷类型下子目未细化,不能准确体现出纠纷要点。人民调解案件类型细分种类繁多,文本分类技术可以帮助人们准确地从海量数据中提取类型特征实现自动分类功能。现有的人民调解数据主要以短文本为主,短文本存在稀疏性、实时性、海量性和不规范性等特点。短文本的这些特点使文本分类面临以下难点:1、短文本特征词少,用传统的基于词条的向量空间模型表示,会造成向量空间的稀疏,另外词频、词共现频率等信息不能得到充分利用,会丢失掉词语间潜在的语义关联关系;2、短文本的不规范性,使文本中出现不规则特征词和分词词典无法识别的未登录词,导致传统文本预处理和文本表示方法不够准确;3、短文本数据的规模巨大,在分类算法的选择上往往更倾向于非惰性的学习方法,惰性的学习方法会造成过高的时间复杂度。随着短文本数据的大量产生,人们针对短文本的分类技术做了大量探索和实践。但在人民调解领域(专业性强的短文本)中该技术的应用仍属空白。专利申请号CN201710686945.7提出了一 ...
【技术保护点】
1.一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于包括如下步骤:(1)收集人民调解数据与辅助数据,并对人民调解数据和辅助数据进行预处理得到辅助数据集A、人民调解数据集B;(2)构造字符向量矩阵,对辅助数据进行向量化处理,将向量化后的辅助数据输入到卷积神经网络中,提取辅助数据特征;同时对卷积神经网络重新训练获得辅助领域模型,并将辅助领域模型的网络结构图保存为.meta文件,网络参数保存为.checkpoint文件;(3)利用迁移学习技术将提取的辅助数据特征迁移到新的神经网络中,该新神经网络为基于辅助领域模型的网络图重建的神经网络;并对人民调解数据进行向量化处理后输入到得到的卷积神经网络中,训练分类器模型,得到并保存最终的人民调解分类模型;采用该人民调解分类模型对人民调解案例进行分类。
【技术特征摘要】
1.一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于包括如下步骤:(1)收集人民调解数据与辅助数据,并对人民调解数据和辅助数据进行预处理得到辅助数据集A、人民调解数据集B;(2)构造字符向量矩阵,对辅助数据进行向量化处理,将向量化后的辅助数据输入到卷积神经网络中,提取辅助数据特征;同时对卷积神经网络重新训练获得辅助领域模型,并将辅助领域模型的网络结构图保存为.meta文件,网络参数保存为.checkpoint文件;(3)利用迁移学习技术将提取的辅助数据特征迁移到新的神经网络中,该新神经网络为基于辅助领域模型的网络图重建的神经网络;并对人民调解数据进行向量化处理后输入到得到的卷积神经网络中,训练分类器模型,得到并保存最终的人民调解分类模型;采用该人民调解分类模型对人民调解案例进行分类。2.根据权利要求1所述的一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于:所述步骤(1)具体如下:(1.1)收集辅助数据:收集与领域相关的长文本数据作为辅助领域数据;(1.2)收集人民调解数据:收集近年的人民调解数据,根据专家经验将人民调解数据打上小类标签;(1.3)数据清洗:将收集的辅助数据进行清洗,删除文本中的干扰字符,删除过短的数据;将收集的人民调解数据进行清洗,删除质量差和过短的数据,删除文本中的干扰字符;(1.4)数据去重:基于清洗后的数据,采用余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离方法中的任意一种或多种方法删除重复和相似数据;(1.5)将清洗和去重后的数据存入到数据仓库中,获得辅助数据集A、人民调解数据集B。3.根据权利要求1所述的一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于:所述步骤(2)具体如下:(2.1)构造字符向量矩阵:将辅助数据集A和人民调解数据集B的文本切分成单个字符,一行一个字符保存在.txt文件;假设C为数据中所用的字符集,构造字符向量矩阵Q∈R|C|×|C|;(2.2)文本嵌入:假设一个文本的字符序列为[s1,s2,s3,…,sn],sn为文本中第n个字符,则根据字符序列和字符向量矩阵构造文本向量S∈Rn×|C|;因此,对辅助数据集A文本嵌入后最终输出文本向量空间I∈R|L*n|×|C|,L为辅助数据集A的总数;(2.3)将输出的文本向量空间I输入到卷积计算层中,利用滤波器对文本矩阵做卷积运算,若滤波器大小为h×n,其中h为卷积核窗口中的字符数量,则卷积操作后输出特征ti为:ti=f(W·Si:i+h-1+b)其中b∈R为偏差项,W∈Rh×n为卷积核的权重矩阵,f是卷积核函数;该滤波器应用于一个文本{S1:h,S2:h+1,…,Sn-h+1}得到特征T为:T=[t1,t2,t3,t4,…,tn-h+1]其中t∈Rn-h+1;通过max-pooling算法对特征进行下采样,保留最重要的特征则全连接层的特征向量V为:其中k为卷积核的个数;通过Softmax层进行归一化;(2.4)基于辅助数据集A对卷积神经网络重新训练获得辅助领域模型,并将辅助领域模型的网络结构图保存为.meta文件,网络参数保存为.checkpoint文件。4.根据权利要求3所述的一种基于迁移学习和深度学习的人民调解案例分类方法,其特征在于:所述的字符向量矩阵Q采用one-hot编码,对角线元素均设为1,其余为0,矩阵Q的每一个行向量代表一个字符。5.根据权利要求3所述的一种基于迁移学习和深度学习的人民调解案例分类方法,其特征...
【专利技术属性】
技术研发人员:金佳佳,钱小鸿,丁锴,陈涛,冯远静,李建元,
申请(专利权)人:银江股份有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。