一种训练样本的生成方法、装置、存储介质及电子设备制造方法及图纸

技术编号:36982128 阅读:14 留言:0更新日期:2023-03-25 18:01
本说明书公开了一种训练样本的生成方法、装置、存储介质和电子设备,所述方法包括:采用预设的划分策略,构建二叉树,根据生成的随机数和二叉树中每个节点的权重,进行采样,得到采样边后,在二叉树中删除采样边,再根据更新后的二叉树重新进行采样,直到满足第一采样结束条件,将由采样节点、采样边和与采样边连接的节点构成的子图作为生成的训练样本,将训练样本输入待训练的图神经网络,以对待训练的图神经网络进行训练。本方法中根据生成的随机数,在二叉树中查询命中的叶子节点,而且将采样得到的边从二叉树中删除,避免了重复采样的问题,提高了采样的效率,从而能够高效的生成作为训练样本的子图。作为训练样本的子图。作为训练样本的子图。

【技术实现步骤摘要】
一种训练样本的生成方法、装置、存储介质及电子设备


[0001]本说明书涉及计算机
,尤其涉及一种训练样本的生成方法、装置、存储介质及电子设备。

技术介绍

[0002]随着科技的发展,机器学习得到了广泛的应用。随着机器学习的发展,机器学习模型的应用越来越广泛,尤其是图神经网络。
[0003]训练图神经网络的样本类型有很多,其中,可以将图中由部分节点以及节点与节点之间的边构成的子图作为训练图神经网络的样本。目前,许多应用程序和应用场景可以转化成图,根据应用程序和应用场景的不同,图有多种类型,比如静态图、时序图等。图中的节点包含实际应用的信息,边上包含节点与节点之间的关系信息。当需要获知图中某一未知节点的信息时,可以根据该未知节点与其他节点的关系信息来预测该节点的信息。
[0004]例如,在引文网络中,可以将引文网络上的每篇论文作为图中的节点,每篇论文之间存在着引用关系,这些引用关系是图上节点与节点之间连接的边的信息。当想获知引文网络中的一篇论文的所属类别时,可以根据该篇论文引用的其他论文来预测该篇论文的类别。
[0005]因此,如何高效的生成作为训练样本的子图是一个亟待解决的问题。

技术实现思路

[0006]本说明书提供一种训练样本的生成方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
[0007]本说明书采用下述技术方案:
[0008]本说明书提供一种训练样本的生成方法,包括:
[0009]获取图中的节点,作为采样节点,确定所述采样节点连接的各边,并确定由所述各边构成的待采样边集;
[0010]采用预设的划分策略,构建以所述待采样边集为根节点、以所述待采样边集中的每个边作为叶子节点的二叉树;
[0011]根据所述各边的权重,生成随机数,并根据所述二叉树中每个节点中包含的边的权重以及所述随机数,确定所述随机数所命中的叶子节点,将所述叶子节点中包含的边作为采样边;
[0012]在所述二叉树中删除所述采样边,以更新所述二叉树,并重新生成随机数,根据更新后的二叉树以及重新生成的随机数继续确定采样边,直到满足第一采样结束条件时,将由所述图中所述采样节点、所述采样边以及与所述采样边连接的节点构成的子图作为生成的训练样本,所述训练样本用于输入待训练的图神经网络,以对所述待训练的图神经网络进行训练。
[0013]可选地,采用预设的划分策略,构建以所述待采样边集为根节点、以所述待采样边
集中的每个边作为叶子节点的二叉树,具体包括:
[0014]将所述待采样边集作为父节点;
[0015]根据预设的划分策略,将所述待采样边集划分为两个子边集,作为所述父节点的两个子节点;
[0016]针对每个子节点,将所述子节点重新作为父节点,以将重新确定的父节点继续进行划分,直至每个划分出的子节点中只包含一条边为止。
[0017]可选地,生成随机数,具体包括:
[0018]确定所述待采样边集中边的最小权重,以及所述待采样边集中边的权重之和;
[0019]在所述最小权重至所述权重之和的范围内,生成随机数。
[0020]可选地,根据所述二叉树中每个节点中包含的边的权重以及所述随机数,确定所述随机数所命中的叶子节点,具体包括:
[0021]将所述二叉树中的根节点作为待采样节点;
[0022]针对所述待采样节点的每个子节点,确定该子节点中包含的边的权重之和,作为该子节点的节点权重;
[0023]确定所述待采样节点的每个子节点的节点权重中的较小权重;
[0024]判断所述随机数是否不大于所述较小权重;
[0025]若是,将所述较小权重对应的子节点确定为所述随机数所命中的子节点;否则,将较大权重对应的子节点确定为所述随机数所命中的子节点,并将所述随机数与所述较小权重的差值重新确定为随机数;
[0026]将所述随机数所命中的子节点重新作为待采样节点,直至所述随机数命中叶子节点为止。
[0027]可选地,在所述二叉树中删除所述采样边,以更新所述二叉树,具体包括:
[0028]确定所述二叉树的节点中包含所述采样边的节点,作为更新节点;
[0029]将所述更新节点中包含的所述采样边删除,以更新所述二叉树。
[0030]可选地,在所述二叉树中删除所述采样边之前,所述方法还包括:
[0031]确定当前得到的采样边不满足第二采样结束条件;
[0032]若当前得到的采样边满足所述第二采样结束条件,则所述方法还包括:
[0033]针对每个采样边,在所述图中确定该采样边连接的节点,将该节点重新作为采样节点,并根据重新确定出的采样节点继续确定采样边,直至满足第一采样结束条件。
[0034]可选地,在获取图中的节点之前,所述方法还包括:
[0035]以各样本用户为节点,以各样本用户之间的关系为边,生成图;
[0036]在对所述待训练的图神经网络进行训练之后,所述方法还包括:
[0037]以各待预测用户为节点,以各待预测用户之间的关系为边,生成所述各待预测用户对应的拓扑图;
[0038]针对至少一个待预测用户,根据该待预测用户在所述拓扑图中对应的节点,确定该待预测用户对应的子图;
[0039]将该待预测用户对应的子图输入训练后的图神经网络,得到所述训练后的图神经网络输出的该待预测用户是否为目标用户的结果。
[0040]本说明书提供了一种训练样本的生成装置,包括:
[0041]获取模块,用于获取图中的节点,作为采样节点,确定所述采样节点连接的各边,并确定由所述各边构成的待采样边集;
[0042]创建模块,用于采用预设的划分策略,构建以所述待采样边集为根节点、以所述待采样边集中的每个边作为叶子节点的二叉树;
[0043]采样模块,用于根据所述各边的权重,生成随机数,并根据所述二叉树中每个节点中包含的边的权重以及所述随机数,确定所述随机数所命中的叶子节点,将所述叶子节点中包含的边作为采样边,在所述二叉树中删除所述采样边,以更新所述二叉树,并重新生成随机数,根据更新后的二叉树以及重新生成的随机数继续确定采样边,直到满足第一采样结束条件时,将由所述图中所述采样节点、所述采样边以及与所述采样边连接的节点构成的子图作为生成的训练样本,所述训练样本用于输入待训练的图神经网络,以对所述待训练的图神经网络进行训练。
[0044]可选地,所述创建模块具体用于,将所述待采样边集作为父节点;根据预设的划分策略,将所述待采样边集划分为两个子边集,作为所述父节点的两个子节点;针对每个子节点,将所述子节点重新作为父节点,以将重新确定的父节点继续进行划分,直至每个划分出的子节点中只包含一条边为止。
[0045]可选地,所述采样模块具体用于,确定所述待采样边集中边的最小权重,以及所述待采样边集中边的权重之和;在所述最小权重至所述权重之和的范围内,生成随机数。
[0046]可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练样本的生成方法,包括:获取图中的节点,作为采样节点,确定所述采样节点连接的各边,并确定由所述各边构成的待采样边集;采用预设的划分策略,构建以所述待采样边集为根节点、以所述待采样边集中的每个边作为叶子节点的二叉树;根据所述各边的权重,生成随机数,并根据所述二叉树中每个节点中包含的边的权重以及所述随机数,确定所述随机数所命中的叶子节点,将所述叶子节点中包含的边作为采样边;在所述二叉树中删除所述采样边,以更新所述二叉树,并重新生成随机数,根据更新后的二叉树以及重新生成的随机数继续确定采样边,直到满足第一采样结束条件时,将由所述图中所述采样节点、所述采样边以及与所述采样边连接的节点构成的子图作为生成的训练样本,所述训练样本用于输入待训练的图神经网络,以对所述待训练的图神经网络进行训练。2.如权利要求1所述的方法,采用预设的划分策略,构建以所述待采样边集为根节点、以所述待采样边集中的每个边作为叶子节点的二叉树,具体包括:将所述待采样边集作为父节点;根据预设的划分策略,将所述待采样边集划分为两个子边集,作为所述父节点的两个子节点;针对每个子节点,将所述子节点重新作为父节点,以将重新确定的父节点继续进行划分,直至每个划分出的子节点中只包含一条边为止。3.如权利要求1所述的方法,生成随机数,具体包括:确定所述待采样边集中边的最小权重,以及所述待采样边集中边的权重之和;在所述最小权重至所述权重之和的范围内,生成随机数。4.如权利要求3所述的方法,根据所述二叉树中每个节点中包含的边的权重以及所述随机数,确定所述随机数所命中的叶子节点,具体包括:将所述二叉树中的根节点作为待采样节点;针对所述待采样节点的每个子节点,确定该子节点中包含的边的权重之和,作为该子节点的节点权重;确定所述待采样节点的每个子节点的节点权重中的较小权重;判断所述随机数是否不大于所述较小权重;若是,将所述较小权重对应的子节点确定为所述随机数所命中的子节点;否则,将较大权重对应的子节点确定为所述随机数所命中的子节点,并将所述随机数与所述较小权重的差值重新确定为随机数;将所述随机数所命中的子节点重新作为待采样节点,直至所述随机数命中叶子节点为止。5.如权利要求1所述的方法,在所述二叉树中删除所述采样边,以更新所述二叉树,具体包括:确定所述二叉树的节点中包含所述采样边的节点,作为更新节点;将所述更新节点中包含的所述采样边删除,以更新所述二叉树。
6.如权利要求1所述的方法,在所述二叉树中删除所述采样边之前,所述方法还包括:确定当前得到的采样边不满足第二采样结束条件;若当前得到的采样边满足所述第二采样结束条件,则所述方法还包括:针对每个采样边,在所述图中确定该采样边连接的节点,将该节点重新作为采样节点,并根据重新确定出的采样节点继续确定采样边,直至满足第一采样结束条件。7.如权利要求1所述的方法,在获取图中的节点之前,所述方法还包括:以各样本用户为节点,以各样本用户之间的关系为边,生成图;在对所述待训练的图神经网络进行训练之后,所述方法还包括:以各待预测用户为节点,以各待预测用户之间的关系为边,生成所述各待预测用户对应的拓扑图;针对至少一个待预测用户,根据该待预测用户在所述拓扑图中对应的节点,确定该待预测用户对应的子图;将该待预测用户对应的子图输入训练后的图神经网络,得到所述训练后的图神经网络输出的该待预测用户是否为目标用户的结果。8.一种训练样本的生成装置,包括:获取模块,用于获取图中的节点,作为采样节点,确...

【专利技术属性】
技术研发人员:宦成颖刘永超
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1