基于多权重自训练的环境类投诉举报文本分类方法技术

技术编号:34766039 阅读:19 留言:0更新日期:2022-08-31 19:17
基于多权重自训练模型得环境类投诉举报文本分类方法,属于人工智能技术领域。具体包括以下步骤:首先使用基于HowNet语料库的相似度计算方法赋予每个无标签数据第一权重;然后使用自训练的方法为每个无标签数据添加第二权重;接着通过权重融合和阈值筛选为每个无标签数据赋予伪标签并利用其参与训练。最后使用训练好的分类器进行投诉举报文本分类。本文所使用的基于多权重自训练模型的环境类投诉举报文本分类方法,在解决投诉举报少样本分类的问题上取得显著效果。问题上取得显著效果。问题上取得显著效果。

【技术实现步骤摘要】
基于多权重自训练的环境类投诉举报文本分类方法


[0001]本专利技术涉及一种环境类投诉举报文本分类方法,尤其涉及一种基于多权重自训练模型的环境类投诉举报文本分类方法。

技术介绍

[0002]涉及环境类的投诉举报类型多种多样,将投诉举报经过分类,快速准确定位投诉原因后,再交由相应主管部门会提升事件处理效率。通过分析,投诉举报文本具有口语化严重、表述不清的特点,并且有标签数据极少,直接构建有监督分类器面临着诸多困难;而通过人工进行标注开销昂贵,费时费力,且容易受到标注者主观的影响。
[0003]针对上述投诉举报分类中的问题,使用基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类,为环境类投诉举报可信度分析提供新思路。
[0004]综上所述,基于多权重自训练模型的环境类投诉举报文本分类是一项创新的研究问题,具有重要的研究意义和应用价值。

技术实现思路

[0005]本专利技术的目的是解决环境类投诉举报文本分类中文本口语化严重、表述不清,并且有标签数据极少,通过传统分类方法无法对投诉举报数据进行有效分类的问题。针对上述投诉举报分类中的问题,本专利技术提出一种基于多权重自训练模型的环境类投诉举报文本分类方法。通过对传统自训练模型的改进,通过对文本向量赋予多权重的策略进行投诉举报文本的少样本分类。
[0006]基于多权重自训练模型的环境类投诉举报文本分类方法,该方法步骤如下:
[0007]S1原始数据收集;
[0008]S2从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;
[0009]S3将目标集和无标签数据集中X
U
中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
[0010]S4使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;
[0011]S5计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;
[0012]S6使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;
[0013]S7然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;
[0014]S8对最大权重超过阈值的无标签文本添加相应的伪标签。将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;
[0015]S9用更新后的有标签数据集训练一个学生模型。
[0016]S10重复S6到S9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数。将最后得到的分类器作为自训练模型的输出。
附图说明
[0017]图1为基于多权重自训练模型的环境类投诉举报文本分类模型示意图。
[0018]图2为基于多权重自训练模型的环境类投诉举报文本分类模型流程图。
具体实施方式
[0019]本专利技术提出一种基于多权重自训练模型的环境类投诉举报文本分类方法,
[0020]结合附图1详细说明本专利技术的具体实施方式:
[0021]步骤1,原始数据收集;
[0022]步骤2中,从全部有标签数据集X
L
中为每个类随机抽取η个样本,本实验中η取20,作为目标集x
l
={x1,x2,

,x
n
},其中n为投诉举报数据所包含的类别数,其中表示所抽取的第i个类别的第o个样本和标签。另外将全部无标签数据集作为无标签数据集m为全部无标签数据的数量。
[0023]步骤3,将目标集和无标签数据集中X
U
中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;
[0024]步骤4,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:
[0025]步骤401,在义原树中两个义原节点之间的路径长度:两个义原的相似度大小与它们之间的路径距离的大小相关。义原节点w1与w2之间的相似度
[0026]其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,则取一个较大常数20),β为可调节参数,β取1;
[0027]步骤402,在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大。所以义原节点w1与w2之间的相似度也可以表示为:
[0028]其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合。
[0029]步骤403,义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:
[0030][0031]其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α1+α2=1。
[0032]从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到其中T
o
,T
j
分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算和中每个单词之间的相似度,之间的相似度记为这样就可以得到两个文本单词之间的相似度集合
[0033]步骤5,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:
[0034]步骤501:
[0035]令其中1≤b≤T
j
。将T
j
个Sim(a)加入集合P;
[0036]令其中1≤a≤T
o
。将T
o
个Sim(b)加入集合Q。
[0037]将P,Q集合所有元素之和的平均值作为与的相似度,即两个文本之间的相似度
[0038][0039]其中,Sim(a)∈P,a=1,2,

,T
o
,1≤o≤η,Sim(b)∈Q,b=1,2,

,T
j
,1≤j≤m。
[0040]步骤502:使用上述方法从无标签数据集X
U
中依次抽取样与目标集x
l
中的每个类的样本(i∈[1,n],o∈[1,η],第i个类的第o个样本)做相似度计算,并计算相对于目标集中第i类的平均相似度和相对于目标集中的每个类的平均相似度
[0041]在生成第一权重之前,为了提高模型的准确度,对相对于每个类的平均相似度做一次相似度筛选,并设定筛选阈值λ(λ∈[0,1]),所用相似度筛选函数如下:
[0042]y=sgn(ReLU(x

λ))...

【技术保护点】

【技术特征摘要】
1.一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于,具体步骤如下:步骤1 原始数据收集;步骤2 从全部有标签数据集中为每个类随机抽取η个样本,作为目标集;步骤3 将目标集和无标签数据集中X
U
中的所有文本数据进行分词和去停用词处理,最后得到各个集合的词集;步骤4 使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度;步骤5 计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重;步骤6 使用全部的有标签数据训练教师分类器,然后使用训练好的教师模型为每个无标签样本计算其相对于每个类的权重,该权重即为无标签样本的第二权重;步骤7 然后将每个无标签样本的第一权重和第二权重进行叠加,并再次对叠加后的权重进行归一化得到最终权重;步骤8 对最大权重超过阈值的无标签文本添加相应的伪标签;将添加伪标签的样本添加到有标签数据集中,并从无标签数据集中剔除;步骤9 用更新后的有标签数据集训练一个学生模型;步骤10 重复步骤6到步骤9操作,直到全部无标签数据全部添加伪标签或程序运行完指定循环次数;将最后得到的分类器作为自训练模型的输出;其中,所述的原始数据是环境类投诉举报文本数据。2.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:步骤2中,从全部有标签数据集X
L
中为每个类随机抽取η个样本,作为目标集x
l
={x1,x2,

,x
n
},其中n为投诉举报数据所包含的类别数,其中表示所抽取的第i个类别的第o个样本和标签;另外将全部无标签数据集作为无标签数据集m为全部无标签数据的数量。3.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:步骤4中,使用基于HowNet语料库和jaccard距离计算每个无标签数据和目标集中每个样本的相似度,具体计算方式是:步骤401在义原树中两个义原节点之间的路径长度:两个义原的相似度大小与它们之间的路径距离的大小相关;义原节点w1与w2之间的相似度其中,Dist(w1,w2)表示义原在HowNet的知识树中的路径距离(若w1,w2不在同一棵树,路径距离取20),β为可调节参数,本发明中β取1;
步骤402在两个义原节点之间的路径长度的基础上,加入义原节点的深度:在同一棵义原树中,两个义原的深度越大,表明义原包含的信息量越大,义原之间的相似度就越大;所以义原节点w1与w2之间的相似度也可以表示为:其中,inf(w1),inf(w2)表示义原w1,w2在义原树中所有的父节点组成的集合;步骤403义原之间的相似度计算综合义原路径长度,义原深度因素,因此义原之间的相似度即可由以下公式计算得到:其中α1与α2为可调节参数,0≤α1≤1,0≤α2≤1,α1+α2=1;从目标集和无标签数据集中各取出一条样本,分词去停用词之后得到其中T
o
,T
j
分别表示抽取出的文本分词去停用词之后所剩的单词数,利用(3)公式分别计算和中每个单词之间的相似度,之间的相似度记为这样就可以得到两个文本单词之间的相似度集合1≤a≤T
o
,1≤b≤T
j
。4.根据权利要求1所述的一种基于多权重自训练的环境类投诉举报文本分类方法,其特征在于:步骤5中,计算每个无标签数据相对于每个类的平均相似度,将得到的相似度经过权重筛选和归一化作为该无标签文本相对于每个类的第一权重,具体方法如下:步骤501:令其中1≤b≤T
j
;将T
j
个Sim(a...

【专利技术属性】
技术研发人员:范青武邱昌盛
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1