基于生成式模型的标签标注方法技术

技术编号:34797894 阅读:12 留言:0更新日期:2022-09-03 20:03
本发明专利技术涉及标签数据领域,公开了一种基于生成式模型的标签标注方法,本发明专利技术根据获取Corr

【技术实现步骤摘要】
基于生成式模型的标签标注方法


[0001]本申请涉及标签数据领域,特别是涉及一种基于生成式模型的标签标注方法。

技术介绍

[0002]随着数据获取,存储,传输技术的发展,近些年来数据量呈现爆炸性的增长。有效的数据分类和检索方法可以更方便的管理大规模多样化的数据,从中发现有用的信息。值得注意的是,大多数现有的数据多分类的方法,无论是监督学习还是半监督学习,都假设训练数据的标签是完全合适的。本实施例认为在现实中这样的假设是比较难实现的,即使不是不可能实现的,也是不必要的和不切实际的假设。在现实中,多数训练数据的标签其实都是非完美的,存在着不完整标签或者是噪声标签。本实施例主要研究多标签分类中存在的不完整标注问题,并尝试用生成式模型来解决该问题。数据标注是一项既费时又费力的工作,由于人的主观性,不同的关注点,缺乏耐性去标注每一个细节,甚至是由于人的感知而忽略了某些细节,即使努力认真的给数据手工添加标注,一些标签仍然会有缺失。在这种情况下,这些标注的其实是不完整的,那些认为训练集中数据的标注都是完整的假设显然会误导分类学习过程。
[0003]因此,如何在标签分类中解决不完整标注成为了一个亟待解决的技术问题。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供了一种基于生成式模型的标签标注方法,旨在解决现有技术无法解决不完整标注的技术问题。
[0006]为实现上述目的,本专利技术提供了一种基于生成式模型的标签标注方法,所述方法包括:
[0007]获取Corr

LDA模型,并根据折棒理论将所述Corr

LDA模型构建成Corr

HDP模型;
[0008]在所述Corr

HDP模型中将β截断为k维;
[0009]获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;
[0010]将所述半监督学习框架应用至所述Corr

HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;
[0011]通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。
[0012]可选地,所述获取Corr

LDA模型,并根据折棒理论将所述Corr

LDA模型构建成Corr

HDP模型的步骤,包括:
[0013]获取Corr

LDA模型,使用折棒理论的记号法以获取标记:β~Stick(α),π~DP(α^π,β);
[0014]设定随机变量y~Uniform(1,

,N
i
)来关联同一个样本中的特征和标签;
[0015]给定一个样本i,生成个N
i
特征b
i,l
,服从以为参数的多项式分布;
[0016]对于M
i
个标签中的任一个标签,用y来随机选择N
i
个特征中的一个特征,以生成这个特征的隐藏变量z为条件生成相应的标签w
i,j
,其中,其中服从以为参数的多项式分布。
[0017]可选地,所述在所述Corr

HDP模型中将β截断为k维的步骤,包括:
[0018]在所述Corr

HDP模型中将β截断为K维,其中π~DP(α
π
,β)近似为π~Dirichlet(α
π
β1,

,α
π
β
K
)。
[0019]可选地,所述获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架的步骤,包括:
[0020]获取不完整标注训练集D,对于每一个标签L
i
∈L都存在一个集合对P
j
×
S
j
,其中P
j
∈D表示正样本集,S
j
∈D表示混合样本集,w
i,j
=1

I
i
∈P
j
,w
i,j
=0

I
i
∈S
j

[0021]可选地,所述将所述半监督学习框架应用至所述Corr

HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之前,还包括:
[0022]在所述训练集中,D于每一个j∈{1,2,

,M}都可以表示为一个集合对P
j
×
S
j
,因此,设定下列关系式:
[0023]I
i
∈P
j
=>Pr[w
i,j
=1|b
i
]=1
[0024]I
i
∈P
j
≠>Pr[w
i,j
=1|b
i
]=0
[0025]其中
[0026]可选地,所述将所述半监督学习框架应用至所述Corr

HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤,包括:
[0027]将所述半监督学习框架应用至所述Corr

HDP模型上,更新每一个I
k
∈S
j
(1≤j≤M)的似然概率Pr[w
k,j
=1|b
k
],同时对每一个I
i
∈P
j
(1≤j≤M)保持Pr[w
i,j
=1|b
i
]=1。
[0028]可选地,所述将所述半监督学习框架应用至所述Corr

HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之后,还包括:
[0029]当某个样本此标签的更新值w
g,j
在S
j
中所有样本之间属于最小的t%时,将w
g,j
置为零。
[0030]此外,为实现上述目的,本专利技术还提出一种基于生成式模型的标签标注装置,所述装置包括:
[0031]模型构建模块,用于获取Corr

LDA模型,并根据折棒理论将所述Corr

LDA模型构建成Corr

HDP模型;
[0032]数据截断模块,用于在所述Corr

HDP模型中将β截断为k维;
[0033]样本获取模块,用于获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成式模型的标签标注方法,其特征在于,所述方法包括:获取Corr

LDA模型,并根据折棒理论将所述Corr

LDA模型构建成Corr

HDP模型;在所述Corr

HDP模型中将β截断为k维;获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;将所述半监督学习框架应用至所述Corr

HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。2.如权利要求1所述的方法,其特征在于,所述获取Corr

LDA模型,并根据折棒理论将所述Corr

LDA模型构建成Corr

HDP模型的步骤,包括:获取Corr

LDA模型,使用折棒理论的记号法以获取标记:β~Stick(α),π~DP(α^π,β);设定随机变量y~Uniform(1,

,N
i
)来关联同一个样本中的特征和标签;给定一个样本i,生成个N
i
特征b
i,l
,服从以为参数的多项式分布;对于M
i
个标签中的任一个标签,用y来随机选择N
i
个特征中的一个特征,以生成这个特征的隐藏变量z为条件生成相应的标签w
i,j
,其中,其中服从以为参数的多项式分布。3.如权利要求2所述的方法,其特征在于,所述在所述Corr

HDP模型中将β截断为k维的步骤,包括:在所述Corr

HDP模型中将β截断为K维,其中π~DP(α
π
,β)近似为π~Dirichlet(α
π
β1,

,α
π
β
K
)。4.如权利要求1所述的方法,其特征在于,所述获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架的步骤,包括:获取不完整标注训练集D,对于每一个标签L
i
∈L都存在一个集合对P
j
×
S
j
,其中P
j
∈D表示正样本集,S
j
∈D表示混合样本集,w
i,j
=1

I
i
∈P
j
,w
i,j
=0

I
i
∈S
j
。5.如权利要求4所述的方法,其特征在于,所述将所述半监督学习框架应用至所述Corr

HDP模型上更新所述半监督学习框架中的每一个样本的似然概...

【专利技术属性】
技术研发人员:刘忠冯旸赫刘世璇程光权黄金才施伟陈晓轩陈丽
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1