一种多标签分类模型训练方法技术

技术编号:35555955 阅读:11 留言:0更新日期:2022-11-12 15:37
本发明专利技术提供一种多标签分类模型训练方法,输入训练集X={(x1,l1),(x2,l2),

【技术实现步骤摘要】
一种多标签分类模型训练方法


[0001]本专利技术涉及深度学习模型
,特别是涉及一种多标签分类模型训练方法。

技术介绍

[0002]深度学习模型发展进程中,传统数据挖掘单标签分类技术也称为多类分类技术,它由已知的有限标签集L将实例x与单个标签1关联在一起。单标签数据集D为{(x1,l1),

,(x
n
,l
n
)};多标签分类S是L的一个真子集,即S中的元素为{(x1,S1),

,(x
n
,S
n
)}。多标签分类技术受到越来越多的关注,并且众多领域得到应用,比如在文本分类、基因组合等领域的应用。
[0003]多标签分类比较常见的技术方案是把多标签分类问题转化为单标签分类问题,或把多标签问题转化为多个单标签分类问题。这种技术方案可以使用单标签分类器进行单标签分类,然后这些分类器将转换为多标签表示,而实现这种技术方案的方法有:朴素贝叶斯法、支持向量机和K

最邻近算法。
[0004]纵观这些技术方案,多标签分类问题转化为单标签分类问题的本质还是应用单标签分类技术,而在转化过程中,由于对现有算法的修改、叠加、嵌套调用使整个训练模型复杂度增加了数倍,效率也降低了数倍;如果标签集L规模庞大,转化技术基本没有实际使用意义。这种实际情况给这些应用领域的人们应用标签分类技术造成很大的应用困扰。
[0005]由此可以看出,现有多标签分类模型训练方法以单标签分类模型训练方法转化的方案存在实际应用缺陷,即对传统单标签分类技术的修修改改已不能满足大数据集,大数据量等标签分类模型的应用。

技术实现思路

[0006]鉴于以上所述现有技术的缺点和使用者实际需求,本专利技术的目的在于提供一种多标签分类模型训练方法,用于解决现有技术中存在的问题,并能应用于数据集规模较大的标签集L。
[0007]为实现上述目的及其他相关目的,本专利技术采用的技术方案如下:
[0008]一种多标签分类模型训练方法,包括步骤:
[0009]S1)输入训练集X={(x1,l1),(x2,l2),

,(x
n
,l
n
)},输入单二进制分类器序列c={c1,c2,

,c
n
},输入顺序集K={k1,k2,

,k
n
},所述顺序集K={k1,k2,

,k
n
}是单二进制分类器序列C的排列顺序,其中,c
k
是单二进制分类器序列C的第k个元素,x1,x2,

,x
n
∈S,S是实例集,其中,l1,l2,

,l
n
∈L,L是标签集,|L|是标签集L的长度;
[0010]S2)按照单二进制分类器序列C的排列顺序,用c
k
去预测样本集X的第i个元素x
i
是否包含标签集L的第j个标签l
j
,有:
[0011][0012]S3)记P
k
(x
i
)是c
k
用样本x
i
逐个预测了标签集L的所有元素c
k
(x
i
,l1),c
k
(x
i

l2),

,c
k
(x
i
,l
|L|
)的并集,即:
[0013]P
k
(x
i
)={c
k
(x
i
,l1)∪c
k
(x
i
,l2)∪

∪c
k
(x
i
,l
|L|
)};
[0014]S4)记F
y
是P
y
(x1),P
y
(x2),

,P
y
(x
n
)的集合,即:F
y
={P
y
(x1),P
y
(x2),


y
(x
n
)},其中y∈(1,|L|);
[0015]S5)记新样本u
z
={x1,x2,

,x
n
,F1,

,F
z
‑1|z∈(1,n

1)},其中第z个新样本由实例集{x1,

,x
n
}的尾部连接上{F1,

,F
z
‑1}的头部构成,总共有n

1个新样本;
[0016]S6)记U是n

1个新样本的集合,即U={u1,u2,

,u
n
‑1};
[0017]S7)记cc
q
为第q个新样本u
q
训练第q个单二进制分类器c
q
得到的第q个新分类器,总共有n

1个新分类器;
[0018]S8)记CC是n

1个新分类器的集合,即CC={cc1,cc2,

,cc
n
‑1},将CC作为多标签分类模型训练方法的最终输出结果。
[0019]可选地,步骤S1)所述的顺序集K由一个乱序集、升序集、降序集或由权重系数确定的排序集构成。
[0020]可选地,步骤S4)所述的F
k
有n个元素。
[0021]可选地,步骤S5)所述的u
z
={x1,x2,

,x
n
,F1,

,F
z
‑1|z∈(1,n

1)}元素间的顺序不可交换。
[0022]可选地,步骤S6)所述的U={u1,u2,

,u
n
‑1}元素间的顺序不可交换。
[0023]可选地,步骤S8)所述的CC={cc1,cc2,

,cc
n
‑1}元素间的顺序不可交换。
[0024]本专利技术的有益效果是:cc1,

,cc
k
在分类器之间传递标签信息,cc1,

,cc
k
考虑了标签之间的相关性,从而克服诸如二元关联这类方法中出现的标签独立性问题,并且本专利技术仍保留有二元关联方法的优势,包括低内存使用量和低运行时间复杂性。虽然平均|L|/2个特性添加到每个实例,因为|L|在实践中总是有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多标签分类模型训练方法,其特征在于,包括步骤:S1)输入训练集X={(x1,l1),(x2,l2),

,(x
n
,l
n
)},输入单二进制分类器序列C={c1,c2,

,c
n
},输入顺序集K={k1,k2,

,k
n
},所述顺序集K={k1,k2,

,k
n
}是单二进制分类器序列C的排列顺序,其中,c
k
是单二进制分类器序列C的第k个元素,x1,x2,

,x
n
∈S,S是实例集,其中,l1,l2,

,l
n
∈L,L是标签集,|L|是标签集L的长度;S2)按照单二进制分类器序列C的排列顺序,用c
k
去预测样本集X的第i个元素x
i
是否包含标签集L的第j个标签l
j
,有:S3)记P
k
(x
i
)是c
k
用样本x
i
逐个预测了标签集L的所有元素c
k
(x
i
,l1),c
k
(x
i
,l2),

,c
k
(x
i
,i
|L|
)的并集,即:P
k
(x
i
)={c
k
(x
i
,l1)∪c
k
(x
i
,l2)∪

∪c
k
(x
i
,l
|L|
)};S4)记F
y
是P
y
(x1),P
y
(x2),

,P
y
(x
n
)的集合,即:F
y
={P
y
(x1),P
y
(x...

【专利技术属性】
技术研发人员:邓彪
申请(专利权)人:中科凡语武汉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1