基于强盗反馈在线学习的流数据分类方法和装置制造方法及图纸

技术编号：38406013 阅读：13 留言：0更新日期：2023-08-07 11:15

本申请涉及一种基于强盗反馈在线学习的流数据分类方法和装置。所述方法包括：获取流数据序列，构建流数据序列中每个数据属于不同类别上的概率分布函数，从概率分布函数中采样标签作为当前流数据的预测标签，以及基于预测标签得到预测强盗反馈，针对上一时刻更新的分类器参数，根据当前流数据的共享特征部分、预测标签以及预测强盗反馈，构建瞬时损失函数，并计算累积损失，采用在线被动

全部详细技术资料下载

【技术实现步骤摘要】
基于强盗反馈在线学习的流数据分类方法和装置

[0001]本申请涉及计算机
，特别是涉及一种基于强盗反馈在线学习的流数据分类方法和装置。

技术介绍

[0002]在线学习假设是数据流的特征空间是固定的，观察到的样本的真实标签总是可用的。但在实际应用中，数据流的采集环境通常是动态的，导致数据量和特征维度同时增加。另外，可能只能得到数据标签信息的强盗反馈，也就是说，只知道模型对数据标签的预测是否正确，而不知道数据的真实标签。
[0003]例如，在个性化推荐系统中，给定用户的个人资料，系统向该用户推荐潜在适合的商品。然后，用户会根据推荐给出反馈，反馈通常是用户的实际行为，或者是用户的具体购买情况。系统不知道当其他商品出现时会发生什么。此外，随着用户行为的积累，用户的配置文件会不断扩大，变得更加详细，这意味着数据量和特征空间的不断扩大。
[0004]上述基于增量特征空间和强盗反馈的在线学习的实际问题很难解决，因为与传统学习范式相比，数据流的数据量、特征空间和标签信息都同时发生了变化。目前，已经有文献探索了从强盗反馈中进行学习，以解决具有部分类标签信息的数据流。以及最近少部分文献研究了如何从具有动态特征空间的数据流中进行学习，以适应获得的样本的特征空间正在演变的情况。然而，从单一的角度研究上述两个挑战并不能有效解决特征空间扩增和强盗反馈同时发生的在线学习问题，因为他们在设计模型时要么只考虑强盗反馈学习问题，要么只考虑特征空间演化学习问题，而没有同时考虑这两个问题。

技术实现思路

[0005]基...

【技术保护点】

【技术特征摘要】
1.一种基于强盗反馈在线学习的流数据分类方法，其特征在于，所述方法包括：获取流数据序列；构建所述流数据序列中每个数据属于不同类别上的概率分布函数；从所述概率分布函数中采样标签作为当前流数据的预测标签，以及基于所述预测标签得到预测强盗反馈；针对上一时刻更新的分类器参数，根据所述当前流数据的共享特征部分、所述预测标签以及所述预测强盗反馈，构建瞬时损失函数，并计算累积损失；采用在线被动
‑
攻击学习策略构建将当前时刻分类器参数更新转化为当前时刻分类器共享参数更新和当前时刻分类器新增参数更新的优化问题；所述当前时刻待更新的分类器参数包括当前时刻分类器共享参数和当前时刻分类器新增参数，所述当前时刻分类器共享参数继承上一时刻分类器参数；通过求解所述优化问题和所述累积损失，得到优化后分类器在当前时刻的参数，通过优化参数后的分类器对流数据进行在线分类。2.根据权利要求1所述的方法，其特征在于，构建所述流数据序列中每个数据属于不同类别上的概率分布函数，包括：构建所述流数据序列中每个数据属于不同类别上的概率分布函数为：其中，其中，表示当前流数据的共享特征部分，表示t时刻第j个标签的分类器参数，M表示数据流的标签集，表示对共享特征部分的预测标签，表示流数据序列中每个数据属于不同类别上的概率分布函数，γ表示探索参数，的取值在时为1，否则为0。3.根据权利要求2所述的方法，其特征在于，基于所述预测标签得到预测强盗反馈，包括：基于所述预测标签得到预测强盗反馈其中，y
t
表示真实标签。4.根据权利要求3所述的方法，其特征在于，针对上一时刻更新的分类器参数，根据所述当前流数据的共享特征部分、所述预测标签以及所述预测强盗反馈，构建瞬时损失函数，包括：针对上一时刻更新的分类器参数，根据所述当前流数据的共享特征部分、所述预测标签以及所述预测强盗反馈，构建瞬时损失函数为：其中，其中，表示瞬时损失函数。5.根据权利要求4所述的方法，其特征在于，采用在线被动
‑
攻击学习策略构建将当前时刻分类器参数更新转化为当前时刻分类器共享参数更新和当前时刻分类器新增参数更新的优化问题，包括：采用在线被动
‑
攻击学习策略构建将当前时刻分类器参数更新转化为当前时刻分类器
共享参数更新和当前时刻分类器新增参数更新的优化问题为：共享参数更...

【专利技术属性】
技术研发人员：侯臣平，古仕林，罗廷金，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人