【技术实现步骤摘要】
图特征处理的方法及装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及针对用户分类模型进行图特征处理的方法和装置。
技术介绍
随着人工智能和机器学习的快速发展,在多种业务场景中开始使用机器学习的模型进行业务分析。例如,在许多应用场景中,需要对用户进行分类识别,例如,识别用户的风险等级,区分用户所属的人群,等等。为此,常常需要训练用户分类模型,来进行与业务相关的用户识别和用户分类。特征的选择和处理是模型训练的基础。对于用户分类模型来说,为了训练出性能优异,预测准确的模型,就需要从大量用户特征中选择出与预测目标更为相关、更能反映用户特点的特征,来进行模型训练。在最为简单的场景下,从用户的基本属性特征中进行特征选择,训练的模型就可以达到要求。然而,随着业务场景越来越复杂,在许多情况下,用户的基本属性特征往往不够丰富和全面,不能满足模型训练的性能要求。为此,考虑生成一些附加特征或衍生特征,作为模型训练的补充,其中,基于用户关系网络生成图特征,是补充特征的一个方面。然而,网络图是一种比较复杂的数据结构,其分析运算都需要很大的计算量,如何高效地从中提取出适用于模型训练的有意义的特征是一项困难和挑战。因此,希望能有改进的方案,可以更为高效地对图数据进行处理,快速提取出有效的图特征,以供用户分类模型进行选择和训练。
技术实现思路
本说明书一个或多个实施例描述了一种针对用户分类模型进行图特征处理的方法和装置,可以高效地生成丰富的图特征,从而便于用户分类模型的特征选择和训练。根据第一方面, ...
【技术保护点】
1.一种图特征处理的方法,包括:/n根据关系数据,构建关系网络图;所述关系数据包括,用户参与的交互事件记录;所述关系网络图包括多个节点,以及基于所述交互事件形成的节点之间的有向边,所述多个节点中包括用户节点;/n将所述关系网络图分割为多个子图,其中包括用于用户分类模型训练的第一子图;/n对于所述第一子图中各个节点,获取节点的低阶特征,其中所述低阶特征至少包括,节点的度;/n将所述第一子图转换为无向图;/n对于所述无向图中的各个节点,获取节点的高阶特征,所述高阶特征包括多阶H指数,其中每阶H指数表示,满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值;其中0阶H指数为节点的度;/n至少基于所述低阶特征和高阶特征,生成备选特征集,作为训练所述用户分类模型的备选特征。/n
【技术特征摘要】 【专利技术属性】
1.一种图特征处理的方法,包括:
根据关系数据,构建关系网络图;所述关系数据包括,用户参与的交互事件记录;所述关系网络图包括多个节点,以及基于所述交互事件形成的节点之间的有向边,所述多个节点中包括用户节点;
将所述关系网络图分割为多个子图,其中包括用于用户分类模型训练的第一子图;
对于所述第一子图中各个节点,获取节点的低阶特征,其中所述低阶特征至少包括,节点的度;
将所述第一子图转换为无向图;
对于所述无向图中的各个节点,获取节点的高阶特征,所述高阶特征包括多阶H指数,其中每阶H指数表示,满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值;其中0阶H指数为节点的度;
至少基于所述低阶特征和高阶特征,生成备选特征集,作为训练所述用户分类模型的备选特征。
2.根据权利要求1所述的方法,其中,所述交互事件为用户借助介质进行的事件;所述多个节点还包括介质节点;所述有向边为用户节点与介质节点之间的有向连接边。
3.根据权利要求2所述的方法,其中,所述交互事件为登录事件或认证事件,所述介质节点的信息包括以下中的一项或多项:设备标识信息,网络环境信息,认证媒介信息。
4.根据权利要求1所述的方法,其中,所述交互事件为用户之间的有方向的交互事件,所述用户节点包括,第一类节点和第二类节点;所述有向边为从第一类节点指向第二类节点的连接边。
5.根据权利要求4所述的方法,其中,
所述交互事件为交易事件,所述第一类节点为买家节点,第二类节点为卖家节点;或者:
所述交互事件为转账事件,所述第一类节点为转出方节点,第二类节点为收款方节点。
6.根据权利要求1所述的方法,其中,在将所述关系网络图分割为多个子图之前,还包括:从所述关系网络图中剔除不符合所述用户分类模型训练需要的若干节点,以及所述若干节点对应的连接边。
7.根据权利要求6所述的方法,其中,所述若干节点包括以下中的一项或多项:
不符合预定格式的无效节点;
连接边数目大于一定阈值的节点;
位于白名单中的节点;
在所述交互事件涉及资金的情况下,预定时长周期内往来资金超过预定阈值的节点。
8.根据权利要求1所述的方法,其中,将所述关系网络图分割为多个子图,包括:
根据所述关系网络图中有向边所对应的交互事件发生的时间段,将所述关系网络图分割为多个子图,每个子图对应一个时间段;
确定用于训练所述用户分类模型的标签数据的标注时间所对应的时间段,将该时间段对应的子图确定为所述第一子图。
9.根据权利要求1所述的方法,其中,将所述关系网络图分割为多个子图,包括:
根据所述用户节点的基本属性中的地理区域,将关系网络图分割为多个子图,每个子图对应一个地理区域;
将与用于训练所述用户分类模型的标签数据中用户样本集的地理区域相对应的子图,确定为所述第一子图。
10.根据权利要求4所述的方法,其中,所述节点的低阶特征还包括:该节点所连接的邻居节点中,双重节点的数目和占比;其中所述双重节点为,在所述关系网络图中同时作为第一类节点和第二类节点的用户节点。
技术研发人员:张屹綮,张天翼,王维强,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。