预测模型的样本确定方法及装置、介质和设备制造方法及图纸

技术编号:24614335 阅读:30 留言:0更新日期:2020-06-24 01:34
本公开涉及数据处理技术领域,提供了一种预测模型的样本确定方法及装置,以及计算机存储介质和电子设备。其中,该方法包括:获取节点的离散型特征和连续型特征;根据离散型特征和连续型特征,计算目标节点与其他节点之间的相似度;根据相似度确定目标节点和其他节点之间的关联权重矩阵;对关联权重矩阵进行降维处理,得到目标节点的低维向量表示,并确定目标节点的低维向量表示为预测模型的样本。本技术方案有利于提升样本所表达的特征丰富度;进而,有利于提升通过该样本训练或测试机器学习算法的预测准确率以及召回率。

Sample determination method and devices, media and equipment of prediction model

【技术实现步骤摘要】
预测模型的样本确定方法及装置、介质和设备
本公开涉及数据处理
,具体而言,涉及一种预测模型的样本确定方法及装置,以及实现上述预测模型的样本确定方法的计算机存储介质和电子设备。
技术介绍
随着大数据和人工智能技术的发展,机器学习算法越来越多的运用到各种预测类方案中。例如,对广告受众特征的预测,风控场景中对恶意账号标识的预测等。在训练或测试机器学习算法的过程中,样本处理是关键的步骤。其中,若样本的向量表示所表达的特征越丰富(多),则通过该样本训练或测试机器学习算法的预测准确率越高。反之,若样本的向量表示所表达的特征越匮乏(少),则通过该样本训练或测试机器学习算法的预测准确率越低。需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解。
技术实现思路
本公开的目的在于提供一种预测模型的样本确定方法及装置,以及实现上述预测模型的样本确定方法的计算机存储介质和电子设备,进而至少在一定程度上提升样本所表达的特征越丰富程度,有利于提升通过该样本训练或测试机器学习算法的预测准确率。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一个方面,提供一种预测模型的样本确定方法,包括:获取节点的离散型特征和连续型特征;根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。根据本公开的一个方面,提供一种预测模型的样本确定装置,包括:特征获取模块、相似度计算模块、兴趣权重确定模块,以及信息推荐模块。其中:上述特征获取模块,被配置为:获取节点的离散型特征和连续型特征;上述相似度计算模块,被配置为:根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;以及,上述关联权重矩阵确定模块,被配置为:根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;上述降维处理模块,被配置为:对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。在本公开的一些实施例中,基于前述方案,第一计算单元、第二计算单元和确定单元。其中,上述第一计算单元被配置为:计算所述目标节点的离散型特征,与其他节点中当前节点的离散型特征之间的第一相似度;上述第二计算单元被配置为:计算所述目标节点的连续型特征,与所述当前节点的连续型特征之间的第二相似度;以及,上述确定单元被配置为:根据所述第一相似度和所述第二相似度确定所述目标节点和所述当前节点之间的相似度。在本公开的一些实施例中,基于前述方案,上述第一计算单元被具体配置为:获取所述目标节点的第一离散型特征集,以及所述当前节点的第二离散型特征集;计算所述第一离散型特征集与所述第二离散型特征集的特征重合度;以及,根据所述重合度确定所述第一相似度。在本公开的一些实施例中,基于前述方案,上述第一计算单元还被具体配置为:获取所述目标节点的第一离散型特征,以及获取所述当前节点的第二离散型特征;计算所述第一离散型特征与所述第二离散型特征的编辑距离;以及,根据所述编辑距离确定所述第一相似度。在本公开的一些实施例中,基于前述方案,上述第二计算单元被具体配置为:获取所述目标节点的第一连续型特征集,以及获取其他节点中所述当前节点的第二连续型特征集;根据动态时间规整算法,计算所述第一连续型特征集与所述第二连续型特征集的序列特征相似度;以及,根据所述序列特征相似度确定所述第二相似度。在本公开的一些实施例中,基于前述方案,上述关联权重矩阵确定模块,被具体配置为:归一化或标准化所述目标节点和其他节点之间的相似度,得到所述目标节点和其他节点之间的权重值;以及,根据所述权重值确定所述目标节点和其他节点之间的关联权重矩阵。在本公开的一些实施例中,基于前述方案,上述预测模型的样本确定装置还包括:有权无向图构建模块。其中,上述有权无向图构建模块被配置为:在上述关联权重矩阵确定模块确定所述目标节点和其他节点之间的关联权重矩阵之后:根据所述目标节点和其他节点之间的关联权重矩阵,确定所述目标节点和其他节点之间的关联距离;以及,根据所述关联距离构造关于所述目标节点和其他节点的有权无向图,以根据所述有权无向图确定所述目标节点的低维向量表示。在本公开的一些实施例中,基于前述方案,上述降维处理模块,包括:采样节点序列确定单元和向量表示确定单元。其中,上述采样节点序列确定单元被配置为:以所述有权无向图中的第一节点为起点,根据所述第一节点与所述第一节点的相邻节点之间的权重距离确定下一节点,以确定采样节点序列;上述向量表示确定单元被配置为:基于多个所述采样节点序列训练向量化预测算法,以基于训练后的向量化预测算法确定所述目标节点的低维向量表示。在本公开的一些实施例中,基于前述方案,上述向量表示确定单元被具体配置为:获取多个包含节点数相同的采样节点序列作为训练样本来训练向量化预测算法。在本公开的一些实施例中,基于前述方案,上述向量表示确定单元,还被配置为:基于所述有权无向图,通过以下图表示算法中的任意一种:大规模信息网络嵌入Line算法、加权图节点向量表示GraRep算法、节点到变量Node2Vec算法和深变分网络嵌入DVNE算法,确定所述目标节点的低维向量表示。在本公开的一些实施例中,基于前述方案,上述降维处理模块,被具体配置为:通过奇异值分解SVD方式或矩阵分解MF方式对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示。在本公开的一些实施例中,基于前述方案,所述节点包括账号标识;其中,上述特征获取模块,被具体配置为:获取与所述账号标识相关的离散型特征,包括以下信息中的一种或多种:网际互连协议IP、设备标识ID和用户特征;以及获取与所述账号标识相关的连续型特征,包括以下信息中的一种或多种:关于交易金额的序列数据、关于交易时间的序列数据和关于交易物品的序列数据。根据本公开的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的预测模型的样本确定方法。根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的预测模型的样本确定方法。由上述技术方案可知,本公开示例性实施例中的预测模型的样本确定方法及装置,以及实现上述预测模型的样本确定方法的计算机存储介质和电子设备至少具备以下优点和积极效果:在本公开的一些实施例所提供的技术方案中,首先确定多个节点,并根据每个节点的离散型特征和连续型特征,计算目标节点与其他节点之间的相似度;进一步地根据本文档来自技高网...

【技术保护点】
1.一种预测模型的样本确定方法,其特征在于,所述方法包括:/n获取节点的离散型特征和连续型特征;/n根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;/n根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;/n对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。/n

【技术特征摘要】
1.一种预测模型的样本确定方法,其特征在于,所述方法包括:
获取节点的离散型特征和连续型特征;
根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度;
根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵;
对所述关联权重矩阵进行降维处理,得到所述目标节点的低维向量表示,并确定所述目标节点的低维向量表示为预测模型的样本。


2.根据权利要求1所述的预测模型的样本确定方法,其特征在于,所述根据所述离散型特征和所述连续型特征,计算目标节点与其他节点之间的相似度,包括:
计算所述目标节点的离散型特征,与其他节点中当前节点的离散型特征之间的第一相似度;
计算所述目标节点的连续型特征,与所述当前节点的连续型特征之间的第二相似度;
根据所述第一相似度和所述第二相似度确定所述目标节点和所述当前节点之间的相似度。


3.根据权利要求2所述的预测模型的样本确定方法,其特征在于,所述计算所述目标节点的离散型特征,与其他节点中当前节点的离散型特征之间的第一相似度,包括:
获取所述目标节点的第一离散型特征集,以及所述当前节点的第二离散型特征集;
计算所述第一离散型特征集与所述第二离散型特征集的特征重合度;
根据所述重合度确定所述第一相似度。


4.根据权利要求2所述的预测模型的样本确定方法,其特征在于,所述计算所述目标节点的离散型特征,与其他节点中当前节点的离散型特征之间的第一相似度,包括:
获取所述目标节点的第一离散型特征,以及获取所述当前节点的第二离散型特征;
计算所述第一离散型特征与所述第二离散型特征的编辑距离;
根据所述编辑距离确定所述第一相似度。


5.根据权利要求2所述的预测模型的样本确定方法,其特征在于,所述计算所述目标节点的连续型特征,与所述当前节点的连续型特征之间的第二相似度,包括:
获取所述目标节点的第一连续型特征集,以及获取其他节点中所述当前节点的第二连续型特征集;
根据动态时间规整算法,计算所述第一连续型特征集与所述第二连续型特征集的序列特征相似度;
根据所述序列特征相似度确定所述第二相似度。


6.根据权利要求1至5中任意一项所述的预测模型的样本确定方法,其特征在于,所述根据所述相似度确定所述目标节点和其他节点之间的关联权重矩阵,包括:
归一化或标准化所述目标节点和其他节点之间的相似度,得到所述目标节点和其他节点之间的权重值;
根据所述权重值确定所述目标节点和其他节点之间的关联权重矩阵。


7.根据权利要求1至5中任意一项所述的预测模型的样本确定方法,其特征在于,在所述确定所述目标节点和其他节点之间的关联权重矩阵之后,所述方法还包括:
根据所述目标节点和其他节点之间的关联权重矩阵,确定所述目标节点和其他节点之间的关联距离;
根据所述关联距离构造关于所述目标节点和其他节点的有权无向图,以根据所述有权无向图确定所述目标节点的低维向量表示。

【专利技术属性】
技术研发人员:陈辉亮金欢
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1