一种对抗噪声的机器学习分类方法技术

技术编号：35204456 阅读：19 留言：0更新日期：2022-10-15 10:14

本发明专利技术提供一种对抗噪声的机器学习分类方法。包括以下步骤：1）推断信息系统的用户喜好问题，输入用户和物品，输出1表示用户喜欢该物品，输出0表示用户不喜欢该物品，2）进行符号记法以及噪声建模，假设真实的分布满足二项分布，建立正样本和负样本两种概率分布以表示每个样本有噪声的概率。本发明专利技术提供的对抗噪声的机器学习分类方法，本发明专利技术从数据驱动出发，从而保证模型训练过程中不再轻易受到有噪声标签的影响，从而保证预测的性能。从而保证预测的性能。从而保证预测的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种对抗噪声的机器学习分类方法

[0001]本专利技术涉及领域，尤其涉及一种对抗噪声的机器学习分类方法。

技术介绍

[0002]在机器学习领域中，训练模型时通常标签是有噪声的，这是因为我们收集到的数据很难保证完美，可能有一些错误的标签，例如，在图像分类中，可能会有标注错误的标签；在信息系统中，我们认为用户交互了该物品，便是喜欢该物品(认为标签＝1)，但事实上交互并不完全等同于喜欢；在图像分类中，训练时也会有少量人工标注错误的标签。因此在训练过程中我们所认为的标签可能并不完全正确。换句话说，我们在训练过程中使用的标签可能是有噪声的。
[0003]目前已有的研究主要分为两类：1、利用损失函数的值给该样本的梯度进行加权，这种方法来源于训练过程中的发现：通常来说有噪声标签的损失函数值会更大。但在其它的一些工作中，亦有发现在分类问题边界的点的损失函数值也会比较大，因此这种方法通常无法区分这种分类问题边界的点，和有噪声(标签错误)的点，2、在信息系统中还有另一种方法，即利用一些经验观察对采样过程进行加工，典型的一个方法，WBPR，即认为更加流行的物品未被用户点击时代表用户不喜欢的可能性更大。但这种方法通常依靠于经验观察，且很多时候很容易受到物品分布的影响，从而导致结果可能不稳定， 3、利用一些额外的信息进行判断，有的方法利用用户在该物品(新闻)界面停留的时间等其它显式的反馈，来判断用户是否真的喜欢这里的内容，但这样的额外信息通常获取的代价很高，而且很难获得全面充分的额外信息，因此实际使用中功能较为受限。
[000...

【技术保护点】

【技术特征摘要】
1.一种对抗噪声的机器学习分类方法，其特征在于，包括以下步骤：1)推断信息系统的用户喜好问题；输入用户和物品，输出1表示用户喜欢该物品，输出0表示用户不喜欢该物品；2)进行符号记法以及噪声建模；假设真实的分布满足二项分布:y
i
～Bernoulli(η
i
)≈Bernoulli(f0(x
i
))，建立正样本和负样本两种概率分布以表示每个样本有噪声的概率；和负样本两种概率分布以表示每个样本有噪声的概率；记真实的标签为y，第i个标签为y
i
，观测到的数据为第i条数据的标签为其中h
φ
(x
i
)和h'
ψ
(x
i
)便是两个描述概率的模型，其参数分别为φ和ψ；3)建立目标函数；3)建立目标函数；式中P(y)表示真实的用户偏好分布Bernoulli(η)，用P
g
(y)和P
f
(y)分别表示Bernoulli(g
μ
)和Bernoulli(f
θ
)，其中αD[P
g
||P
f
]+(1
‑
α)D[P
f
||P
g
]用于定量P
g
和P
f
之间的分布差异，而的作用则等价于将P
g
和R
f
之间的噪声信号传递到用于建模噪声的中，用h
φ
(x
i

【专利技术属性】
技术研发人员：房洁，朱宏民，王禹，辛鑫，
申请(专利权)人：安徽十锎信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人