一种基于对抗训练的流行度去偏方法技术

技术编号：38751093 阅读：11 留言：0更新日期：2023-09-09 11:17

本发明专利技术提出了一种基于对抗训练的流行度去偏方法，涉及推荐系统领域。根据推荐系统点击曝光数据，得到用户的数据特征，然后利用双塔模型训练基础分类器，然后在通过生成对抗网络训练，从实际的用户点击的真实流行

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗训练的流行度去偏方法

[0001]本专利技术涉及推荐系统领域，具体而言，涉及一种基于对抗训练的流行度去偏方法。

技术介绍

[0002]推荐系统中通常存在流行度偏差，在电商、短视频等推荐场景下，将近20％的商品占据80％的点击。流行度偏差问题本质上是由模型训练时样本不均衡的分布所造成，模型在训练过程中学到了更多流行商品的信息，对长尾商品信息获取过少，导致马太效应愈专利技术显。
[0003]目前已有的流行度去偏方法主要包括利用逆权重分数进行加权和分解嵌入表示。然而，这些流行度去偏方法存在一定的缺陷：这些方法未能在造成问题的根源即样本分布进行解决，而是在最终预测时通过加权调整来实现流行度去偏。

技术实现思路

[0004]本专利技术的目的在于提供一种基于对抗训练的流行度去偏方法，其能够利用双塔模型对现有点击曝光数据训练基础分类器，通过生成器和判别器进行交替博弈训练，最小化对抗网络模型的交叉熵损失函数，使得模型可以利用真实流行
‑
真实长尾样本对生成逼近真实的真实流行
‑
虚拟长尾样本对，从而扩充长尾正样本的数量；然后使用对抗学习结果结合基础分类器对虚拟长尾样本进行预测，保留top N商品作为模型训练优质样本的补充，经过模型再训练能够从根本上去除流行度偏差。
[0005]本专利技术的实施例是这样实现的：
[0006]本申请实施例提供一种基于对抗训练的流行度去偏方法，其包括以下步骤：S1：基于实际用户点击特征、物料特征及负采样的样本，采用双塔模型...

【技术保护点】

【技术特征摘要】
1.一种基于对抗训练的流行度去偏方法，其特征在于，包括以下步骤：S1：基于实际用户点击特征、物料特征及负采样的样本，采用双塔模型进行训练，形成基础分类器并得到多维物料表征向量{itememb
n
}以及对应物料id表征向量{itemid
n
}；S2：根据t日内用户对商品的点击量占比从高到低进行排序，将累计点击量占比大于K％的商品记为为流行商品，其余商品记为长尾商品；S3：获取t日内用户点击过流行商品i和长尾商品j的物料id，形成真实流行
‑
长尾对(itemid
i
,itemid
j
)，并将其转化为表征向量如下：realvec＝concat(itememb
i
,itememb
j
)；S4：构建生成器，生成随机向量其中得到虚拟流行
‑
长尾对表征向量如下：fakevec＝concat(itememb
i
,randvec
r
)；S5：构建判别器，真实流行
‑
长尾对为1，虚拟流行
‑
长尾对为0，进行参数梯度更新，使判别器能够判别表征向量为真实或虚拟；S6：对生成器进行参数梯度更新，使判别器将生成器生成的虚拟表征向量视为真实表征向量；S7：重复步骤S5和S6以满足预设条件，使生成器生成的虚拟表征向量接近真实表征向量；S8：利用生成器及用户点击过的流行商品生成M个虚拟长尾商品表征向量fakevec
l
，计算虚拟长尾商品表征...

【专利技术属性】
技术研发人员：张丽娜，傅剑文，韩弘炀，
申请(专利权)人：天翼电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人