【技术实现步骤摘要】
基于多权重自训练的环境类投诉举报文本分类方法
[0001]本专利技术涉及一种环境类投诉举报文本分类方法,尤其涉及一种基于多权重自训练模型的环境类投诉举报文本分类方法。
技术介绍
[0002]涉及环境类的投诉举报类型多种多样,将投诉举报经过分类,快速准确定位投诉原因后,再交由相应主管部门会提升事件处理效率。通过分析,投诉举报文本具有口语化严重、表述不清的特点,并且有标签数据极少,直接构建有监督分类器面临着诸多困难;而通过人工进行标注开销昂贵,费时费力,且容易受到标注者主观的影响。
[0003]针对上述投诉举报分类中的问题,使用基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类,为环境类投诉举报可信度分析提供新思路。
[0004]综上所述,基于多权重自训练模型的环境类投诉举报文本分类是一项创新的研究问题,具有重要的研究意义和应用价值。
技术实现思路
[0005]本专利技术的目的是解决环境类投诉举报文本分类中文本口语化严重、表述不清,并且有标签数据极少,通过传统分类方法无法对投诉举报数据进行有效分类的问题。针对上述投诉举报分类中的问题,本专利技术提出一种基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类。
[0006]基于多权重自训练模型的环境类投诉举报文本分类方法,该方法步骤如下:
[0007]S1原始数
【技术保护点】
【技术特征摘要】
1.一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于,具体步骤如下:步骤1 原始数据收集;步骤2 从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;步骤3 将目标集和无标签数据集中X
U
中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;步骤4 使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;步骤5 计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;步骤6 使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;步骤7 然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;步骤8 对最大权重超过阈值的无标签文本添加相应的伪标签;将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;步骤9 用更新后的有标签数据集训练一个学生模型;步骤10 重复步骤6到步骤9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数;将最后得到的分类器作为自训练模型的输出;其中,所述的原始数据是环境类投诉举报文本数据。2.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:步骤2中,从全部有标签数据集X
L
中为每个类随机抽取η个样本,作为目标集x
l
={x1,x2,
…
,x
n
},其中n为投诉举报数据所包含的类别数,其中表示所抽取的第i个类别的第o个样本和标签;另外将全部无标签数据集作为无标签数据集m为全部无标签数据的数量。3.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:步骤4中,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:步骤401在义原树中两个义原节点之间的路径长度:两个义原的相似度大小与它们之间的路径距离的大小相关;义原节点w1与w2之间的相似度其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,路径距离取20),β为可调节参数,本发明中β取1;
步骤402在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大;所以义原节点w1与w2之间的相似度也可以表示为:其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合;步骤403义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α1+α2=1;从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到其中T
o
,T
j
分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算和中每个单词之间的相似度,之间的相似度记为这样就可以得到两个文本单词之间的相似度集合1≤a≤T
o
,1≤b≤T
j
。4.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:步骤5中,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:步骤501:令其中1≤b≤T
j
;将T
j
个Sim(a...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。