一种服务器和负样本采样方法技术

技术编号:36542821 阅读:13 留言:0更新日期:2023-02-01 16:46
本公开涉及一种服务器和负样本采样方法,涉及机器学习技术领域。其中,该服务器包括:控制器,被配置为:获取初始样本集;将初始样本集中任一样本数据对作为正样本,其余样本数据对作为负样本;分别将正样本,以及负样本中的第一负样本数据对输入到初始模型中,得到初始模型输出的对应于正样本的第一相似度分值,以及对应于第一负样本数据对的第二相似度分值;根据第一相似度分值和第二相似度分值计算第一负样本数据对的第一训练困难度;遍历初始样本集得到负样本中每个负样本数据对的训练困难度;根据负样本中每个负样本数据对的训练困难度,确定非均匀概率分布,并根据非均匀概率分布对初始样本集进行负采样得到目标负样本集。布对初始样本集进行负采样得到目标负样本集。布对初始样本集进行负采样得到目标负样本集。

【技术实现步骤摘要】
一种服务器和负样本采样方法


[0001]本公开涉及机器学习
,尤其涉及一种服务器和负样本采样方法。

技术介绍

[0002]随着机器学习的发展,模型规模变大,深度也有所增大,为了加速模型收敛,如何选取训练所用到样本,尤其是负样本,成为模型训练过程中重点关注的问题。目前负样本采样通常选用静态负采样,例如从样本数据集中按照均匀分布采样得到负样本,但是静态负采样得到的负样本质量较低,影响模型训练的效率。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种服务器和负样本采样方法,可以提高负样本的质量,提升模型训练的效率。
[0004]为了实现上述目的,本公开实施例提供的技术方案如下:
[0005]第一方面,本公开提供一种服务器,该服务器包括:
[0006]控制器,被配置为:获取初始样本集,初始样本集中包括多个样本数据对;
[0007]将初始样本集中任一样本数据对作为正样本,其余样本数据对作为负样本;分别将正样本,以及负样本中的第一负样本数据对输入到初始模型中,得到初始模型输出的对应于正样本的第一相似度分值,以及对应于第一负样本数据对的第二相似度分值;
[0008]根据第一相似度分值和第二相似度分值计算第一负样本数据对的第一训练困难度,第一训练困难度用于表征第一负样本数据对相较于正样本的难易程度;遍历初始样本集得到负样本中每个负样本数据对的训练困难度;
[0009]根据负样本中每个负样本数据对的训练困难度,确定非均匀概率分布,并根据非均匀概率分布进行负采样得到目标负样本集。
[0010]第二方面,本公开提供一种负样本采样方法,包括:
[0011]获取初始样本集,初始样本集中包括多个样本数据对;
[0012]将初始样本集中任一样本数据对作为正样本,其余样本数据对作为负样本;分别将正样本,以及负样本中的第一负样本数据对输入到初始模型中,得到初始模型输出的对应于正样本的第一相似度分值,以及对应于第一负样本数据对的第二相似度分值;
[0013]根据第一相似度分值和第二相似度分值计算第一负样本数据对的第一训练困难度,第一训练困难度用于表征第一负样本数据对相较于正样本的难易程度;遍历初始样本集得到负样本中每个负样本数据对的训练困难度;
[0014]根据负样本中每个负样本数据对的训练困难度,确定非均匀概率分布,并根据非均匀概率分布进行负采样得到目标负样本集。
[0015]第三方面,本公开提供了一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第二方面所示的负样本采样方法。
[0016]第四方面,本公开提供了一种计算机程序产品,该计算机程序产品包括计算机程
序,当该计算机程序在计算机上运行时,使得计算机实现如第二方面所示的负样本采样方法。
[0017]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0018]本公开实施例提供一种服务器和负样本采样方法,其中该服务器的控制器被配置为:首先获取用于模型训练的初始样本集,选取初始样本集中的任一样本数据对作为正样本,将除该正样本之外的所有样本数据对作为负样本,并将正样本,以及负样本中的第一负样本数据对输入至初始模型,得到初始模型输出的正样本所对应的第一相似度分值,以及负样本中第一负样本数据对所对应的第二相似度分值,进而根据第一相似度分值和第二相似度分值计算第一负样本数据对的第一训练困难度,该第一训练困难度表征第一负样本数据对相较于正样本的难易程度;遍历初始样本集得到负样本中每个负样本数据对的训练困难度;进一步的,根据负样本中每个数据对的训练困难度确定用于负采样的非均匀概率分布,从而根据该非均匀概率分布进行负采样得到目标负样本集。实现根据初始样本集和初始模型计算用于负样本采样的非均匀概率分布,以更新用于模型训练的负样本,提升了负样本的质量,并且能够跟随模型变化进行负样本采样,从而有利于加速模型收敛,提高模型质量。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0020]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本公开实施例提供的一些实施例中的场景示意图;
[0022]图2为本公开实施例中控制装置的配置框图;
[0023]图3为本公开实施例中服务器的硬件配置框图;
[0024]图4是本公开实施例提供的一种服务器的结构示意图;
[0025]图5为本公开实施例提供的服务器的软件配置示意图;
[0026]图6为本公开实施例提供的一种负样本采样方法的流程示意图;
[0027]图7为本公开实施例获取初始样本数据集的示意图;
[0028]图8为本公开实施例提供的初始模型输出第一相似度分值的示意图;
[0029]图9为本公开实施例提供的初始模型输出第一相似度分值和第二相似度分值的示意图;
[0030]图10为本公开实施例提供的正样本和负样本的示意图。
具体实施方式
[0031]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0032]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采
用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0033]基于一定的策略构造与正例相对的负例的过程,称为负采样(Negative Sampling)。训练模型时需要将每个正样本与负样本进行比较,以学习到充分的、全面的信息,从而准确区分出正样本,提升样本的泛化能力,因此负样本的高质量采样能够保证模型的训练效果。
[0034]目前常用的负采样方法是静态负采样(Static Negative Sampling),静态负采样是从数据集中根据样本权重进行采样。例如,均匀负采样(Uniform Negative Sampling)和流行度负采样(Popularity

biased Negative Sampling,PNS);其中,均匀负采样是在样本数据集中随机选择得到负样本;流行度负采样是基于样本频次(frequency)或度(degree)从样本数据集中采样得到负样本,流行度越高的样本,被当作负样本的概率就越大。但是,静态负采样得到的负样本质量不高,并且静态负采样时每个样本权重不跟随模型训练发生变化,无法在模型训练过程中挑选出更难的样本帮助模型收敛。
[0035]另外,还有对式负采样或基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务器,其特征在于,包括:控制器,被配置为:获取初始样本集,所述初始样本集中包括多个样本数据对;将所述初始样本集中任一样本数据对作为正样本,其余样本数据对作为负样本;分别将所述正样本,以及所述负样本中的第一负样本数据对输入到初始模型中,得到所述初始模型输出的对应于所述正样本的第一相似度分值,以及对应于所述第一负样本数据对的第二相似度分值;根据所述第一相似度分值和所述第二相似度分值计算所述第一负样本数据对的第一训练困难度,所述第一训练困难度用于表征所述第一负样本数据对相较于所述正样本的难易程度;遍历所述初始样本集得到所述负样本中每个负样本数据对的训练困难度;根据所述负样本中每个负样本数据对的训练困难度,确定非均匀概率分布,并根据所述非均匀概率分布进行负采样得到目标负样本集。2.根据权利要求1所述的服务器,其特征在于,所述控制器,根据所述负样本中每个负样本数据对的训练困难度,确定非均匀概率分布,具体被配置为:根据所述负样本中每个负样本数据对的训练困难度,确定累积权重均值和累积权重二阶矩;根据所述累积权重均值和所述累积权重二阶矩,计算累积方差;根据所述累积权重均值和所述累积方差,计算所述非均匀概率分布。3.根据权利要求1所述的服务器,其特征在于,所述控制器,根据所述非均匀概率分布进行负采样得到目标负样本之后,还被配置为:基于所述正样本和所述目标负样本对所述初始模型进行训练,计算损失函数值;在所述损失函数值大于预设阈值的情况下,更新所述初始模型的参数,以对参数更新后的初始模型进行下一轮的训练;在所述损失函数值小于或等于所述预设阈值的情况下,训练得到收敛的目标模型。4.根据权利要求1所述的服务器,其特征在于,所述控制器,根据所述第一相似度分值和所述第二相似度分值计算所述第一负样本数据对的第一训练困难度,具体被配置为:计算所述第一相似度分值和所述第二相似度分值之间的差值;根据所述差值确定所述第一负样本数据对的第一训练困难度,所述第一训练困难度与所述差值成正相关。5.根据权利要求1所述的服务器,其特征在于,所述控制器,获取初始样本集,具体被配置为:获取样本数据集;按照均匀分布对所述样本数据集进行采样,得到所述初始样本集。6.根据权利要求5所述的服务器,其特征在于,所述控制器,根据所述非均匀概率分布进行负采样得到目标负样本,具体被配置为:根据所述非均匀概率分布对所述样本数据集进行负采样得到难样本集;根据所述均匀分布对所述样本数据集进行负采样得到易样本集;按照第一预设比例从所述难样本集中采样得到难样本数据对,按照第二预设比例从所述易样本集中采...

【专利技术属性】
技术研发人员:王宝云连德富李豫承黄山山陈恩红
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1