图特征处理的方法及装置制造方法及图纸

技术编号:24756605 阅读:18 留言:0更新日期:2020-07-04 09:16
本说明书实施例提供一种图特征处理的方法和装置。根据该方法,首先根据关系数据,构建关系网络图,其中关系数据包括用户参与的交互事件记录;关系网络图包括多个用户节点,以及基于交互事件形成的有向边。然后,将该关系图分割为多个子图,其中包括用于用户分类模型训练的第一子图。对于第一子图中各个节点,获取节点的低阶特征,其中包括节点的度。然后,还对于基于第一子图得到的无向图中的各个节点,获取节点的高阶特征,其中包括多阶H指数,每阶H指数表示,满足H个邻居节点的上一阶H指数大于等于H的最大H值;其中0阶H指数为节点的度。于是,可以基于低阶特征和高阶特征,生成备选特征集,作为训练用户分类模型的备选特征。

Method and device of graph feature processing

【技术实现步骤摘要】
图特征处理的方法及装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及针对用户分类模型进行图特征处理的方法和装置。
技术介绍
随着人工智能和机器学习的快速发展,在多种业务场景中开始使用机器学习的模型进行业务分析。例如,在许多应用场景中,需要对用户进行分类识别,例如,识别用户的风险等级,区分用户所属的人群,等等。为此,常常需要训练用户分类模型,来进行与业务相关的用户识别和用户分类。特征的选择和处理是模型训练的基础。对于用户分类模型来说,为了训练出性能优异,预测准确的模型,就需要从大量用户特征中选择出与预测目标更为相关、更能反映用户特点的特征,来进行模型训练。在最为简单的场景下,从用户的基本属性特征中进行特征选择,训练的模型就可以达到要求。然而,随着业务场景越来越复杂,在许多情况下,用户的基本属性特征往往不够丰富和全面,不能满足模型训练的性能要求。为此,考虑生成一些附加特征或衍生特征,作为模型训练的补充,其中,基于用户关系网络生成图特征,是补充特征的一个方面。然而,网络图是一种比较复杂的数据结构,其分析运算都需要很大的计算量,如何高效地从中提取出适用于模型训练的有意义的特征是一项困难和挑战。因此,希望能有改进的方案,可以更为高效地对图数据进行处理,快速提取出有效的图特征,以供用户分类模型进行选择和训练。
技术实现思路
本说明书一个或多个实施例描述了一种针对用户分类模型进行图特征处理的方法和装置,可以高效地生成丰富的图特征,从而便于用户分类模型的特征选择和训练。根据第一方面,提供了一种图特征处理的方法,包括:根据关系数据,构建关系网络图;所述关系数据包括,用户参与的交互事件记录;所述关系网络图包括多个节点,以及基于所述交互事件形成的节点之间的有向边,所述多个节点中包括用户节点;将所述关系网络图分割为多个子图,其中包括用于用户分类模型训练的第一子图;对于所述第一子图中各个节点,获取节点的低阶特征,其中所述低阶特征至少包括,节点的度;将所述第一子图转换为无向图;对于所述无向图中的各个节点,获取节点的高阶特征,所述高阶特征包括多阶H指数,其中每阶H指数表示,满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值;其中0阶H指数为节点的度;至少基于所述低阶特征和高阶特征,生成备选特征集,作为训练所述用户分类模型的备选特征。根据一种实施方式,交互事件为用户借助介质进行的事件;所述多个节点还包括介质节点;所述有向边为用户节点与介质节点之间的有向连接边。在上述实施方式的具体实施例中,交互事件具体为登录事件或认证事件,所述介质节点的信息包括以下中的一项或多项:设备标识信息,网络环境信息,认证媒介信息。根据另一种实施方式,交互事件为用户之间的有方向的交互事件,所述用户节点包括,第一类节点和第二类节点;所述有向边为从第一类节点指向第二类节点的连接边。在上述实施方式的具体实施例中,交互事件可以为交易事件,此时所述第一类节点为买家节点,第二类节点为卖家节点;或者,交互事件可以为转账事件,此时所述第一类节点为转出方节点,第二类节点为收款方节点。根据一个实施例,在将所述关系网络图分割为多个子图之前,对该关系网络图进行图过滤,这包括,从所述关系网络图中剔除不符合所述用户分类模型训练需要的若干节点,以及所述若干节点对应的连接边。具体的,所剔除的若干节点可以包括以下中的一项或多项:不符合预定格式的无效节点;连接边数目大于一定阈值的节点;位于白名单中的节点;在所述交互事件涉及资金的情况下,预定时长周期内往来资金超过预定阈值的节点。根据一种实施方式,通过以下方式将关系网络图分割为多个子图:根据所述关系网络图中有向边所对应的交互事件发生的时间段,将所述关系网络图分割为多个子图,每个子图对应一个时间段;确定用于训练所述用户分类模型的标签数据的标注时间所对应的时间段,将该时间段对应的子图确定为所述第一子图。根据另一种实施方式,通过以下方式将关系网络图分割为多个子图:根据所述用户节点的基本属性中的地理区域,将关系网络图分割为多个子图,每个子图对应一个地理区域;将与用于训练所述用户分类模型的标签数据中用户样本集的地理区域相对应的子图,确定为所述第一子图。根据一个实施例,所述关系网络图为同质图,此时,获取的节点的低阶特征还包括:该节点所连接的邻居节点中,双重节点的数目和占比;其中所述双重节点为,在所述关系网络图中同时作为第一类节点和第二类节点的用户节点。在关系网络图为同质图的情况下,将所述第一子图转换为无向图具体包括:将所述第一子图中的有向边转换为无向边,并合并其中的重复节点,得到所述无向图。根据一个实施例,在获取节点的高阶特征时,对于任意阶H指数,当无法确定出所述满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值时,将满足H个邻居节点的上一阶H指数大于H这一条件的最大H值,作为其本阶H指数。根据一个实施例,生成备选特征集具体包括:对于各个节点,根据其邻居节点的低阶特征和高阶特征中各项特征的统计结果,得到统计特征,将所述统计特征包含在所述备选特征集中;所述统计结果包括以下中的一项或多项:最大值、最小值、平均值、中位数和众数。根据一种实施方式,所述方法还包括:获取用于训练所述用户分类模型的标签数据,所述标签数据包括用户样本集和其中各个用户样本的类别标签;将所述用户样本集映射到所述第一子图中的第一节点集;根据所述备选特征集中的各项特征在所述第一节点集上的特征值分布和标签值分布,进行特征筛选,得到用于所述用户分类模型的特征集。在上述实施方式中,特征筛选的过程具体可以包括:根据所述各项特征的特征值分布和所述标签值分布,确定各项特征的信息价值IV,基于信息价值IV对各项特征进行第一筛选操作;对于所述第一筛选操作后的保留特征,计算保留特征之间的相关系数,基于所述相关系数进行第二筛选操作,得到所述特征集。在一个实施例中,在得到上述特征集后,还生成特征记录表,用于记录所述特征集中各项特征的描述信息。根据第二方面,提供了一种图特征处理的装置,包括:图构建单元,配置为根据关系数据,构建关系网络图;所述关系数据包括,用户参与的交互事件记录;所述关系网络图包括多个节点,以及基于所述交互事件形成的节点之间的有向边,所述多个节点中包括用户节点;图分割单元,配置为将所述关系网络图分割为多个子图,其中包括用于用户分类模型训练的第一子图;低阶特征获取单元,配置为对于所述第一子图中各个节点,获取节点的低阶特征,其中所述低阶特征至少包括,节点的度;图转换单元,配置为将所述第一子图转换为无向图;高阶特征获取单元,配置为对于所述无向图中的各个节点,获取节点的高阶特征,所述高阶特征包括多阶H指数,其中每阶H指数表示,满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值;其中0阶H指数为节点的度;特征集生成单元,配置为至少基于所述低阶特征和高阶特征,生成备选特征集本文档来自技高网...

【技术保护点】
1.一种图特征处理的方法,包括:/n根据关系数据,构建关系网络图;所述关系数据包括,用户参与的交互事件记录;所述关系网络图包括多个节点,以及基于所述交互事件形成的节点之间的有向边,所述多个节点中包括用户节点;/n将所述关系网络图分割为多个子图,其中包括用于用户分类模型训练的第一子图;/n对于所述第一子图中各个节点,获取节点的低阶特征,其中所述低阶特征至少包括,节点的度;/n将所述第一子图转换为无向图;/n对于所述无向图中的各个节点,获取节点的高阶特征,所述高阶特征包括多阶H指数,其中每阶H指数表示,满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值;其中0阶H指数为节点的度;/n至少基于所述低阶特征和高阶特征,生成备选特征集,作为训练所述用户分类模型的备选特征。/n

【技术特征摘要】
1.一种图特征处理的方法,包括:
根据关系数据,构建关系网络图;所述关系数据包括,用户参与的交互事件记录;所述关系网络图包括多个节点,以及基于所述交互事件形成的节点之间的有向边,所述多个节点中包括用户节点;
将所述关系网络图分割为多个子图,其中包括用于用户分类模型训练的第一子图;
对于所述第一子图中各个节点,获取节点的低阶特征,其中所述低阶特征至少包括,节点的度;
将所述第一子图转换为无向图;
对于所述无向图中的各个节点,获取节点的高阶特征,所述高阶特征包括多阶H指数,其中每阶H指数表示,满足H个邻居节点的上一阶H指数大于等于H这一条件的最大H值;其中0阶H指数为节点的度;
至少基于所述低阶特征和高阶特征,生成备选特征集,作为训练所述用户分类模型的备选特征。


2.根据权利要求1所述的方法,其中,所述交互事件为用户借助介质进行的事件;所述多个节点还包括介质节点;所述有向边为用户节点与介质节点之间的有向连接边。


3.根据权利要求2所述的方法,其中,所述交互事件为登录事件或认证事件,所述介质节点的信息包括以下中的一项或多项:设备标识信息,网络环境信息,认证媒介信息。


4.根据权利要求1所述的方法,其中,所述交互事件为用户之间的有方向的交互事件,所述用户节点包括,第一类节点和第二类节点;所述有向边为从第一类节点指向第二类节点的连接边。


5.根据权利要求4所述的方法,其中,
所述交互事件为交易事件,所述第一类节点为买家节点,第二类节点为卖家节点;或者:
所述交互事件为转账事件,所述第一类节点为转出方节点,第二类节点为收款方节点。


6.根据权利要求1所述的方法,其中,在将所述关系网络图分割为多个子图之前,还包括:从所述关系网络图中剔除不符合所述用户分类模型训练需要的若干节点,以及所述若干节点对应的连接边。


7.根据权利要求6所述的方法,其中,所述若干节点包括以下中的一项或多项:
不符合预定格式的无效节点;
连接边数目大于一定阈值的节点;
位于白名单中的节点;
在所述交互事件涉及资金的情况下,预定时长周期内往来资金超过预定阈值的节点。


8.根据权利要求1所述的方法,其中,将所述关系网络图分割为多个子图,包括:
根据所述关系网络图中有向边所对应的交互事件发生的时间段,将所述关系网络图分割为多个子图,每个子图对应一个时间段;
确定用于训练所述用户分类模型的标签数据的标注时间所对应的时间段,将该时间段对应的子图确定为所述第一子图。


9.根据权利要求1所述的方法,其中,将所述关系网络图分割为多个子图,包括:
根据所述用户节点的基本属性中的地理区域,将关系网络图分割为多个子图,每个子图对应一个地理区域;
将与用于训练所述用户分类模型的标签数据中用户样本集的地理区域相对应的子图,确定为所述第一子图。


10.根据权利要求4所述的方法,其中,所述节点的低阶特征还包括:该节点所连接的邻居节点中,双重节点的数目和占比;其中所述双重节点为,在所述关系网络图中同时作为第一类节点和第二类节点的用户节点。

【专利技术属性】
技术研发人员:张屹綮张天翼王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1