【技术实现步骤摘要】
一种基于GPU存储的自适应负样本采样池的模型训练方法
[0001]本专利技术涉及机器学习领域,尤其是涉及一种基于存储在GPU中的负样本采样池的模型训练方法、系统、电子设备及存储介质。
技术介绍
[0002]负采样技术已经被广泛地应用于推荐系统、信息检索、自然语言处理等场景中。一般情况下,由于数据规模庞大,对所有未交互样本进行计算会消耗大量的计算和存储资源,而更为严峻的情况下,计算机内存无法存储下数量庞大的全量负样本。目前,许多机器学习方法通常采用负采样技术,即选择部分负样本对全量负样本进行估计,得到近似值或者数据分布,大大降低时间和空间开销。
[0003]然而现有技术中,基于静态的负采样技术存在过采样和训练中收敛过程缓慢等问题;基于动态的负采样技术存在训练过程耗时、无法在全量负样本上进行采样等问题。
技术实现思路
[0004]鉴于上述问题,本专利技术提供了一种基于存储在GPU中的负样本采样池的模型训练方法、系统、电子设备及存储介质,以期至少能够解决上述问题之一。
[0005]根据本专利技术的第一个方面,提供了一种基于存储在GPU中的负样本采样池的模型训练方法,包括:步骤一,初始化计数向量、负样本总量、采样比例以及运行在GPU中的深度匹配模型的参数,并根据采样比例,对存储在可读存储介质中的训练样本集合中的物品样本集合进行随机采样,根据随机采样得到的物品样本初始化存储在GPU中的负样本采样池,其中,存储在GPU中的负样本采样池作为缓存;步骤二,从存储在可读存储介质中的训练样本集合中随机采样 ...
【技术保护点】
【技术特征摘要】
1.一种基于GPU存储的自适应负样本采样池的模型训练方法,包括:步骤一,初始化计数向量、负样本总量、采样比例以及运行在GPU中的深度匹配模型的参数,并根据所述采样比例,对存储在可读存储介质中的训练样本集合中的物品样本集合进行随机采样,根据随机采样得到的物品样本初始化所述存储在GPU中的负样本采样池,其中,所述存储在GPU中的负样本采样池作为缓存;步骤二,从所述存储在可读存储介质中的训练样本集合中随机采样得到批处理训练样本集合,将所述批处理训练样本集合中的物品样本集合作为候选样本集合,通过运行在所述GPU中的所述深度匹配模型计算所述批处理训练样本集合中用户与所述候选样本集合中物品的相似度,得到第一相似度,并根据所述候选样本集合的样本数量、第一相似度以及所述采样比例,得到第一样本集合;步骤三,通过运行在所述GPU中的所述深度匹配模型计算所述批处理训练样本集合中用户与所述存储在GPU中的负样本采样池中物品的相似度,得到第二相似度,并根据所述负样本总量、所述第一样本集合的样本数量以及所述第二相似度,得到第二样本集合;步骤四,将所述第一样本集合和所述第二样本集合进行集合运算,得到负样本集合,并利用所述负样本集合和损失函数,对运行在所述GPU中的所述深度匹配模型的参数进行更新优化;步骤五,根据所述负样本集合中每个样本的频次和所述存储在GPU中的负样本采样池的预设更新频率,更新所述计数向量,并根据更新后的计数向量对所述存储在GPU中的负样本采样池进行更新,得到更新后的负样本采样池;步骤六,重复步骤二至步骤五,直到满足预设条件,得到训练完成的深度匹配模型。2.根据权利要求1所述的方法,其中,所述运行在所述GPU中的所述深度匹配模型包括用户特征提取网络和物品特征提取网络。3.根据权利要求2所述的方法,其中,所述从所述存储在可读存储介质中的训练样本集合中随机采样得到批处理训练样本集合,将所述批处理训练样本集合中的物品样本集合作为候选样本集合,通过运行在所述GPU中的所述深度匹配模型计算所述批处理训练样本集合中用户与所述候选样本集合中物品的相似度,得到第一相似度,并根据所述候选样本集合的样本数量、第一相似度以及所述采样比例,得到第一样本集合包括:对所述存储在可读存储介质中的所述训练样本集合中的样本进行乱序处理,并根据预设数量,对乱序处理后的训练样本集合进行采样,得到所述批处理训练样本集合,并将所述批处理训练样本集合中的物品样本集合作为候选样本集合;利用所述用户特征提取网络对所述批处理训练样本集合中的用户样本集合进行特征提取,得到用户特征集合;利用所述物品特征提取网络对所述候选样本集合进行物品特征提取,得到第一物品特征集合;根据所述用户特征集合与所述第一物品特征集合,计算每个用户与所有物品的相似度,得到第一相似度;通过Softmax函数对所述第一相似度进行归一化处理,得到第一采样概率;根据所述第一采样概率、所述候选样本集合的样本数量以及所述采样比例,对所述候选样本集合进行采样,得到所述第一样本集合。
4.根据权利要求3所述的方法,其中,所述通过运行在所述GPU中的所述深度匹配模型计算所述批处理训练样本集合中用户与所述存储在GPU中的负样本采样池中物品的相似度,得到第二相似度,并根据所述负样本总量、所述第一样本集合的样本数量以及所述第二相似度,得到第二样本集合包括:利用所述物品特征提取网络对所述存储在GPU中的负样本采样池中的物品样本集合进行物品特征提取,得到第二物品特征集合;根据所述用户特征集合与所述第二物品特征集合,计算每个用户与所有物品的相似度,得到所述第二相似度;通过Softmax函数对所述第二相似度进行归一化处理,得到第二采样概率;根据所述第...
【专利技术属性】
技术研发人员:连德富,陈恩红,陈矜,李豫承,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。