半监督学习下基于协同训练的多标签分类方法和系统技术方案

技术编号：39396233 阅读：10 留言：0更新日期：2023-11-19 15:50

本发明专利技术提供一种半监督学习下基于协同训练的多标签分类方法

全部详细技术资料下载

【技术实现步骤摘要】
半监督学习下基于协同训练的多标签分类方法和系统

[0001]本专利技术涉及自然语言处理
，具体涉及一种半监督学习下基于协同训练的多标签分类方法
、
系统
、
存储介质和电子设备
。

技术介绍

[0002]消费者的投诉有可能不仅仅涉及企业的一个方面所提出，这就需要在解决投诉问题时还要注重提高处理的全面性
。
而对现实世界中的数据标注对应的标签通常会受到人力物力等方面的影响，含有标签的数据往往需要专家人工进行标注生成，这样做不仅价格昂贵而且还会耗费大量的时间和精力
。
[0003]在设计投诉分类算法时还需考虑到部分投诉文本涉及多种产品服务类别，这使得该投诉分类不仅仅是普通的二分类或多分类问题，而成为了多标签分类任务
。
多标签文本分类作为自然语言处理的一支，可以准确快速的对各种投诉进行分类以方便后续处理，并逐步应用与于实际生产生活
。
然而多标签分类中标签的数量更多，与单标签分类相比，也更难保证标注的准确性和完整性
。
[0004]鉴于此，有必要提供一种应用于投诉文本分类的新方案
。

技术实现思路

[0005](
一
)
解决的技术问题
[0006]针对现有技术的不足，本专利技术提供了一种半监督学习下基于协同训练的多标签分类方法
、
系统
、
存储介质和电子设备，解决了分类准确性低的技术问题
。
>[0007](
二
)
技术方案
[0008]为实现以上目的，本专利技术通过以下技术方案予以实现：
[0009]一种半监督学习下基于协同训练的多标签分类方法，设定标签的类别为
k
，该方法包括：
[0010]S1、
基于投诉文本，构建少量有标签样本集
L、
无标签样本集
U
和待分类样本集
T
；
[0011]S2、
向量化所述少量有标签样本集
L、
无标签样本集
U
和待分类样本集
T
，获取对应的编码结果集
L
emb
、U
emb
和
T
emb
；
[0012]S3、
按照不同的标签类别划分所述
L
emb
，将各划分结果加入
k
个子样本集作为正样本，并基于预设比例将所述
U
emb
加入各子样本集作为负样本；其中
k
个子样本集依次表示为
L1，
...
，
L
i
，
...L
k
；
[0013]S4、
根据所述
L1，
...
，
L
i
，
...L
k
，训练
k
个基分类器组；若各分类器组收敛
、
达到预设的迭代轮次或
U
emb
为空集时，则训练结束并转入
S6
，否则转入
S5
；其中每一基分类器组包括两个不同基分类器；
[0014]S5、
将所述
U
emb
作为当前阶段的各基分类器组的输入，获取各基分类器组的训练补入集
V
i
；令
L
i
＝
L
i
∪V
i
，转入
S4
；
[0015]S6、
将所述
T
emb
作为训练结束后各基分类器组的输入，获取
k
个基分类器组的分类
预测结果，并将各所述分类预测结果进行拼接获得多标签的分类结果
。
[0016]优选的，所述
S4
中的基分类器组由支持向量机和随机森林组成
。
[0017]优选的，所述
S5
包括：
[0018]将所述
U
emb
作为当前阶段的各基分类器组的输入，在每个基分类器组内进行二分类结果的筛选，若两个基分类器的分类结果都显示该样本存在相同标签时，则将输入的无标签样本加入对应的训练补入集
V
i
中；其中补入规则表示为：
[0019][0020]其中，
r
i
，
svm
、r
i
，
rf
分别表示为基分类器
h
svm
、h
rf
的分类结果
。
[0021]优选的，所述
S6
中的拼接规则表示为：
[0022]若第
i
个基分类器组内两个基分类器，对于待分类样本属于的类别达成共识时，则将该标签作为预测结果；若未达到共识时，则选择两个分类器中分类概率较高的结果作为预测结果；将各所述分类预测结果进行拼接获得多标签的分类结果
。
[0023]一种半监督学习下基于协同训练的多标签分类系统，设定标签的类别为
k
，该系统包括：
[0024]构建模块，用于执行
S1、
基于投诉文本，构建少量有标签样本集
L、
无标签样本集
U
和待分类样本集
T
；
[0025]向量化模块，用于执行
S2、
向量化所述少量有标签样本集
L、
无标签样本集
U
和待分类样本集
T
，获取对应的编码结果集
L
emb
、U
emb
和
T
emb
；
[0026]划分模块，用于执行
S3、
按照不同的标签类别划分所述
L
emb
，将各划分结果加入
k
个子样本集作为正样本，并基于预设比例将所述
U
emb
加入各子样本集作为负样本；其中
k
个子样本集依次表示为
L1，
...
，
L
i
，
...L
k
；
[0027]训练模块，用于执行
S4、
根据所述
L1，
...
，
L
i
，
...L
k
，训练
k
个基分类器组；若各分类器组收敛
、
达到预设的迭代轮次或
U
emb
为空集时，则训练结束并转入预测模块执行
S本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种半监督学习下基于协同训练的多标签分类方法，其特征在于，设定标签的类别为
k
，该方法包括：
S1、
基于投诉文本，构建少量有标签样本集
L、
无标签样本集
U
和待分类样本集
T
；
S2、
向量化所述少量有标签样本集
L、
无标签样本集
U
和待分类样本集
t
，获取对应的编码结果集
L
emb
、U
emb
和
T
emb
；
S3、
按照不同的标签类别划分所述
L
emb
，将各划分结果加入
k
个子样本集作为正样本，并基于预设比例将所述
U
emb
加入各子样本集作为负样本；其中
k
个子样本集依次表示为
L1,...,L
i
,...L
k
；
S4、
根据所述
L1,...,L
i
,...L
k
，训练
k
个基分类器组；若各分类器组收敛
、
达到预设的迭代轮次或
U
emb
为空集时，则训练结束并转入
S6
，否则转入
S5
；其中每一基分类器组包括两个不同基分类器；
S5、
将所述
U
emb
作为当前阶段的各基分类器组的输入，获取各基分类器组的训练补入集
V
i
；令
L
i
＝
L
i
∪V
i
，转入
S4
；
S6、
将所述
T
emb
作为训练结束后各基分类器组的输入，获取
k
个基分类器组的分类预测结果，并将各所述分类预测结果进行拼接获得多标签的分类结果
。2.
如权利要求1所述的多标签分类方法，其特征在于，所述
S4
中的基分类器组由支持向量机和随机森林组成
。3.
如权利要求1所述的多标签分类方法，其特征在于，所述
S5
包括：将所述
U
emb
作为当前阶段的各基分类器组的输入，在每个基分类器组内进行二分类结果的筛选，若两个基分类器的分类结果都显示该样本存在相同标签时，则将输入的无标签样本加入对应的训练补入集
V
i
中；其中补入规则表示为：其中，
r
i,svm
、r
i,rf
分别表示为基分类器
h
svm
、h
rf
的分类结果
。4.
如权利要求1所述的多标签分类方法，其特征在于，所述
S6
中的拼接...

【专利技术属性】
技术研发人员：杨世军，狄广义，陈见飞，高军，王耀坤，
申请(专利权)人：国能数智科技开发北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人