一种对抗噪声的机器学习分类方法技术

技术编号:35204456 阅读:19 留言:0更新日期:2022-10-15 10:14
本发明专利技术提供一种对抗噪声的机器学习分类方法。包括以下步骤:1)推断信息系统的用户喜好问题,输入用户和物品,输出1表示用户喜欢该物品,输出0表示用户不喜欢该物品,2)进行符号记法以及噪声建模,假设真实的分布满足二项分布,建立正样本和负样本两种概率分布以表示每个样本有噪声的概率。本发明专利技术提供的对抗噪声的机器学习分类方法,本发明专利技术从数据驱动出发,从而保证模型训练过程中不再轻易受到有噪声标签的影响,从而保证预测的性能。从而保证预测的性能。从而保证预测的性能。

【技术实现步骤摘要】
一种对抗噪声的机器学习分类方法


[0001]本专利技术涉及领域,尤其涉及一种对抗噪声的机器学习分类方法。

技术介绍

[0002]在机器学习领域中,训练模型时通常标签是有噪声的,这是因为我们收集到的数据很难保证完美,可能有一些错误的标签,例如,在图像分类中,可能会有标注错误的标签;在信息系统中,我们认为用户交互了该物品,便是喜欢该物品(认为标签=1),但事实上交互并不完全等同于喜欢;在图像分类中,训练时也会有少量人工标注错误的标签。因此在训练过程中我们所认为的标签可能并不完全正确。换句话说,我们在训练过程中使用的标签可能是有噪声的。
[0003]目前已有的研究主要分为两类:1、利用损失函数的值给该样本的梯度进行加权,这种方法来源于训练过程中的发现:通常来说有噪声标签的损失函数值会更大。但在其它的一些工作中,亦有发现在分类问题边界的点的损失函数值也会比较大,因此这种方法通常无法区分这种分类问题边界的点,和有噪声(标签错误)的点,2、在信息系统中还有另一种方法,即利用一些经验观察对采样过程进行加工,典型的一个方法,WBPR,即认为更加流行的物品未被用户点击时代表用户不喜欢的可能性更大。但这种方法通常依靠于经验观察,且很多时候很容易受到物品分布的影响,从而导致结果可能不稳定, 3、利用一些额外的信息进行判断,有的方法利用用户在该物品(新闻)界面停留的时间等其它显式的反馈,来判断用户是否真的喜欢这里的内容,但这样的额外信息通常获取的代价很高,而且很难获得全面充分的额外信息,因此实际使用中功能较为受限。
[0004]因此,有必要提供一种对抗噪声的机器学习分类方法解决上述技术问题。

技术实现思路

[0005]本专利技术提供一种对抗噪声的机器学习分类方法,解决了上述技术问题。
[0006]为解决上述技术问题,本专利技术提供的一种对抗噪声的机器学习分类方法,包括以下步骤:
[0007]1)推断信息系统的用户喜好问题;
[0008]输入用户和物品,输出1表示用户喜欢该物品,输出0表示用户不喜欢该物品;
[0009]2)进行符号记法以及噪声建模;
[0010]假设真实的分布满足二项分布:y
i
~Bernoulli(η
i
)≈Bernoulli(f
θ
(x
i
)),建立正样本和负样本两种概率分布以表示每个样本有噪声的概率;
[0011][0012][0013]记真实的标签为y,第i个标签为y
i
,观测到的数据为第i条数据的标签为其
中h
φ
(x
i
)和h

ψ
(x
i
)便是两个描述概率的模型,其参数分别为φ和ψ;
[0014]3)建立目标函数;
[0015][0016][0017]式中P(y)表示真实的用户偏好分布Bernoulli(η),用P
g
(y)和Pf(y)分别表示Bernoulli(g
μ
)和Bernoulli(f
θ
),其中αD[P
g
||P
f
]+(1

α)D[P
f
||P
g
]用于定量P
g
和P
f
之间的分布差异,而的作用则等价于将P
g
和P
f
之间的噪声信号传递到用于建模噪声的中,用h
φ
(x
i
)和h

ψ
(x
i
) 进行建模的概率;
[0018]4)进行去噪训练;
[0019]用交替训练的方式分别训练正样本去噪和负样本去噪。
[0020]进一步地,所述步骤3)中L2与L1的区别为将g
μ
换成f

θ
,其中g
μ
换成一个用不同随机种子训练出来的模型f

θ
,并且在训练f
θ
的过程中,固定住f

θ
,并将其作为一个预训练模型看待。
[0021]进一步地,,所述步骤3)中L1的计算方式分别为第一项展开式和第二项展开式;
[0022]第一项的展开式为:
[0023][0024]第二项中D[P
g
||P
f
]的展开公式为:
[0025][0026]进一步地,所述步骤4)中交替训练具体为:
[0027]4.1)正样本去噪;
[0028]标记所有观测的负样本都表示真实喜好,可以拆解为:
[0029][0030]其中C1为一个用来替代

log(1

h

ψ
(u,i))的大的正整数,也即其中的一个超参数;
[0031]4.2)负样本去噪;
[0032]标记所有观测到的正样本都表示真实喜好,可以拆解为:
[0033][0034]其中C2则是用来代替

log(h
φ
(u,i))的大的正整数,训练时作为超参处理。
[0035]进一步地,所述交替训练中,交替将按照给正样本和负样本中的方式展开。
[0036]与相关技术相比较,本专利技术提供的对抗噪声的机器学习分类方法具有如下有益效果:
[0037]本专利技术提供一种对抗噪声的机器学习分类方法,通过概率推断和变分推断,提出了两种从概率角度去噪的方法,相比于以往的三种方式,给样本梯度加权,重采样,利用额外信息,本专利技术从数据驱动出发,有效克服前面三种方法所存在的问题,从而保证模型训练过程中不再轻易受到有噪声标签的影响,从而保证预测的性能。
附图说明
[0038]图1为本专利技术一种对抗噪声的机器学习分类方法的流程图。
具体实施方式
[0039]下面结合附图和实施方式对本专利技术作进一步说明。
[0040]请结合参阅图1所示,一种对抗噪声的机器学习分类方法,包括以下步骤:1)推断信息系统的用户喜好问题;输入用户和物品,输出1表示用户喜欢该物品,输出0表示用户不喜欢该物品;
[0041]2)进行符号记法以及噪声建模;假设真实的分布满足二项分布:y
i
~ Bernoulli

i
)≈Bernoulli(f
θ
(x
i
)),建立正样本和负样本两种概率分布以表示每个样本有噪声的概率;
[0042][0043][0044]记真实的标签为y,第i个标签为y
i
,观测到的数据为第i条数据的标签为其中h
φ
(x
i
)和h

ψ
(x
i
)便是两个描述概率的模型,其参数分别为φ和ψ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对抗噪声的机器学习分类方法,其特征在于,包括以下步骤:1)推断信息系统的用户喜好问题;输入用户和物品,输出1表示用户喜欢该物品,输出0表示用户不喜欢该物品;2)进行符号记法以及噪声建模;假设真实的分布满足二项分布:y
i
~Bernoulli(η
i
)≈Bernoulli(f0(x
i
)),建立正样本和负样本两种概率分布以表示每个样本有噪声的概率;和负样本两种概率分布以表示每个样本有噪声的概率;记真实的标签为y,第i个标签为y
i
,观测到的数据为第i条数据的标签为其中h
φ
(x
i
)和h'
ψ
(x
i
)便是两个描述概率的模型,其参数分别为φ和ψ;3)建立目标函数;3)建立目标函数;式中P(y)表示真实的用户偏好分布Bernoulli(η),用P
g
(y)和P
f
(y)分别表示Bernoulli(g
μ
)和Bernoulli(f
θ
),其中αD[P
g
||P
f
]+(1

α)D[P
f
||P
g
]用于定量P
g
和P
f
之间的分布差异,而的作用则等价于将P
g
和R
f
之间的噪声信号传递到用于建模噪声的中,用h
φ
(x
i

【专利技术属性】
技术研发人员:房洁朱宏民王禹辛鑫
申请(专利权)人:安徽十锎信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1