训练样本集的构建方法、装置和计算机设备制造方法及图纸

技术编号:20426293 阅读:24 留言:0更新日期:2019-02-23 08:53
本说明书的实施例公开了训练样本集的构建方法,包括:在数据结构为图的样本节点中,确定待区分节点的数量与其他节点的数量;若所述待区分节点的数量少于所述其他节点的数量,在所述其他节点中确定到所述待区分节点的最短路径中边的数量小于或等于预设数量的目标节点;对所述待区分节点和所述目标节点分别进行采样;根据采样得到的节点构建训练样本集。根据本说明书的实施例,可以保证构建的样本训练集可以准确地体现与待区分节点的特征较为接近的目标节点,与待区分节点的特征之间的差异,也即准确地体现待区分节点与其他节点之间的差异,进而可以保证基于样本训练集得到的区分模型能够准确地区分待区分节点和其他节点。

【技术实现步骤摘要】
训练样本集的构建方法、装置和计算机设备
本说明书实施例涉及技术样本采样领域,尤其涉及训练样本集的构建方法、训练样本集的构建装置和计算机设备。
技术介绍
在相关技术中,为了对数据进行区分,往往通过机器学习的方法得到区分模型,而为了进行机器学习,需要先构建样本训练集,进而可以基于样本训练集进行机器学习。实际构建样本训练集时,由于原始样本的量较大,需要对原始样本进行抽样,并基于抽样得到的样本构建样本训练集。然而在原始样本中某类样本的数量较少时,基于抽样得到的样本构建样本训练集可能就会存在问题。
技术实现思路
针对上述技术问题,本说明书实施例提供了训练样本集的构建方法、训练样本集的构建装置和计算机设备,技术方案如下:根据本说明书实施例的第一方面,提供一种训练样本集的构建方法,所述方法包括:在数据结构为图的样本节点中,确定待区分节点的数量与其他节点的数量;若所述待区分节点的数量少于所述其他节点的数量,在所述其他节点中确定到所述待区分节点的最短路径中边的数量小于或等于预设数量的目标节点;对所述待区分节点和所述目标节点分别进行采样;根据采样得到的节点构建训练样本集。可选地,所述方法还包括:在对所述待区分节点和所述目标节点分别进行采样之前,确定所述目标节点的数量是否大于或等于针对所述其他节点预先设置的要求采样数量;其中,若所述目标节点的数量大于或等于所述要求采样数量,所述对所述待区分节点和所述目标节点分别进行采样包括:对所述待区分节点进行采样,以及从所述目标节点中采样所述要求采样数量的目标节点。可选地,若所述目标节点的数量小于所述要求采样数量,所述对所述待区分节点和所述目标节点分别进行采样包括:计算所述要求采样数量与所述目标节点的数量的差额数量;确定所述目标节点在所述其他节点中的补集,在所述补集中采样所述差额数量的其他节点;对所述待区分节点进行采样,以及对所述目标节点和所述差额数量的其他节点进行采样。可选地,所述对所述待区分节点和所述目标节点分别进行采样包括:根据所述待区分节点的数量和所述目标节点的数量,确定对所述待区分节点的第一采样比例,和对所述目标节点的第二采样比例;根据所述第一采样比例对所述待区分节点进行采样,以及根据所述第二采样比例对所述目标节点进行采样。可选地,所述待区分节点中的节点属于相同类别,所述其他节点中的节点属于相同或不同类别。根据本说明书实施例的第二方面,提供一种训练样本集的构建装置,所述装置包括:数量确定模块,用于在数据结构为图的样本节点中,确定待区分节点的数量与其他节点的数量;节点确定模块,用于在所述待区分节点的数量少于所述其他节点的数量的情况下,在所述其他节点中确定到所述待区分节点的最短路径中边的数量小于或等于预设数量的目标节点;节点采样模块,用于对所述待区分节点和所述目标节点分别进行采样;样本集构建模块,用于根据采样得到的节点构建训练样本集。可选地,所述装置还包括:数量比较模块,用于确定所述目标节点的数量是否大于或等于针对所述其他节点预先设置的要求采样数量;其中,若所述目标节点的数量大于或等于所述要求采样数量,所述节点采样模块用于对所述待区分节点进行采样,以及从所述目标节点中采样所述要求采样数量的目标节点。可选地,若所述目标节点的数量小于所述要求采样数量,所述节点采样模块包括:差额计算子模块,用于计算所述要求采样数量与所述目标节点的数量的差额数量;补集采样子模块,用于确定所述目标节点在所述其他节点中的补集,在所述补集中采样所述差额数量的其他节点;分别采样子模块,用于对所述待区分节点进行采样,以及对所述目标节点和所述差额数量的其他节点进行采样。可选地,所述节点采样模块包括:比例确定子模块,用于根据所述待区分节点的数量和所述目标节点的数量,确定对所述待区分节点的第一采样比例,和对所述目标节点的第二采样比例;比例采样子模块,根据所述第一采样比例对所述待区分节点进行采样,以及根据所述第二采样比例对所述目标节点进行采样。可选地,所述待区分节点中的节点属于相同类别,所述其他节点中的节点属于相同或不同类别。根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如上述任一实施例所述的方法。根据本说明书的实施例,由于在样本节点中确定的目标节点,距离待区分节点较为接近,因此采样后的目标节点,也距离待区分节点较为接近,因此目标节点和待区分节点的特征较为接近,进而构建的样本训练集可以准确地体现与待区分节点的特征较为接近的目标节点,与待区分节点的特征之间的差异,也即准确地体现待区分节点与其他节点之间的差异,进而可以保证基于样本训练集得到的区分模型能够准确地区分待区分节点和其他节点。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是根据本说明书的实施例示出的一种样本节点的分布示意图。图2是基于非均匀随机采样的方式对图1所示的样本节点进行采样的示意图。图3是基于图2所示的节点所构成的训练样本集得到的区分模型的示意图。图4是将图3得到的区分模型应用到样本节点的示意图。图5是根据本说明书的实施例示出的一种训练样本集的构建方法的示意流程图。图6是根据本说明书的实施例示出的一种目标节点的示意图。图7是根据本说明书的实施例示出的一种对图1中样本节点进行采样的示意图。图8是根据本说明书的实施例示出的一种区分模型的示意图。图9是将图8得到的区分模型应用到样本节点的示意图。图10是根据本说明书的实施例示出的另一种训练样本集的构建方法的示意流程图。图11是根据本说明书的实施例示出的又一种训练样本集的构建方法的示意流程图。图12是根据本说明书的实施例示出的又一种训练样本集的构建方法的示意流程图。图13是根据本说明书的实施例示出的一种训练样本集的构建装置的示意框图。图14是根据本说明书的实施例示出的另一种训练样本集的构建装置的示意框图。图15是根据本说明书的实施例示出的一种节点采样模块的示意框图。图16是根据本说明书的实施例示出的另一种节点采样模块的示意框图。图17示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图。具体实施方式为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。以下主要数据结构为图的节点为例,对本说明书的实施例进行示例性说明。其中,图是对现实世界关系网络的一种数学描述,它包含一个节点集合和一个边集合,节点表示现实世界中的实体,边表示现实世界中实体之间的联系。例如,在社交网络中,人就是实体,人和人之间的关系或联系就本文档来自技高网...

【技术保护点】
1.一种训练样本集的构建方法,所述方法包括:在数据结构为图的样本节点中,确定待区分节点的数量与其他节点的数量;若所述待区分节点的数量少于所述其他节点的数量,在所述其他节点中确定到所述待区分节点的最短路径中边的数量小于或等于预设数量的目标节点;对所述待区分节点和所述目标节点分别进行采样;根据采样得到的节点构建训练样本集。

【技术特征摘要】
1.一种训练样本集的构建方法,所述方法包括:在数据结构为图的样本节点中,确定待区分节点的数量与其他节点的数量;若所述待区分节点的数量少于所述其他节点的数量,在所述其他节点中确定到所述待区分节点的最短路径中边的数量小于或等于预设数量的目标节点;对所述待区分节点和所述目标节点分别进行采样;根据采样得到的节点构建训练样本集。2.根据权利要求1所述的方法,所述方法还包括:在对所述待区分节点和所述目标节点分别进行采样之前,确定所述目标节点的数量是否大于或等于针对所述其他节点预先设置的要求采样数量;其中,若所述目标节点的数量大于或等于所述要求采样数量,所述对所述待区分节点和所述目标节点分别进行采样包括:对所述待区分节点进行采样,以及从所述目标节点中采样所述要求采样数量的目标节点。3.根据权利要求2所述的方法,若所述目标节点的数量小于所述要求采样数量,所述对所述待区分节点和所述目标节点分别进行采样包括:计算所述要求采样数量与所述目标节点的数量的差额数量;确定所述目标节点在所述其他节点中的补集,在所述补集中采样所述差额数量的其他节点;对所述待区分节点进行采样,以及对所述目标节点和所述差额数量的其他节点进行采样。4.根据权利要求1至3中任一项所述的方法,所述对所述待区分节点和所述目标节点分别进行采样包括:根据所述待区分节点的数量和所述目标节点的数量,确定对所述待区分节点的第一采样比例,和对所述目标节点的第二采样比例;根据所述第一采样比例对所述待区分节点进行采样,以及根据所述第二采样比例对所述目标节点进行采样。5.根据权利要求1至3中任一项所述的方法,所述待区分节点中的节点属于相同类别,所述其他节点中的节点属于相同或不同类别。6.一种训练样本集的构建装置,所述装置包括:数量确定模块,用于在数据结构为图的样本节点中,确定待区分节点的...

【专利技术属性】
技术研发人员:向彪周俊李小龙
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1