建立风险识别模型的方法及对应装置制造方法及图纸

技术编号:35473815 阅读:15 留言:0更新日期:2022-11-05 16:21
本说明书实施例提供了一种建立风险识别模型的方法及对应装置。其中方法包括:获取利用用户的网络行为数据构建的异构网络图,异构网络图包括节点和边,节点包括行为主体和行为对象,边依据行为主体和行为对象之间的行为关系确定;对异构网络图中的边进行掩膜处理,得到掩膜子图和剩余子图;利用剩余子图和掩膜子图训练图自编码器;其中,图自编码器包括编码网络和第一解码网络;编码网络利用输入的剩余子图得到各节点的表征向量,第一解码网络利用各节点的表征向量预测被掩膜的边,训练目标包括:最小化预测结果与掩膜子图之间的差异;利用训练得到的图自编码器中的编码网络,构建风险识别模型。本申请能够提高风险识别模型的识别效果。别效果。别效果。

【技术实现步骤摘要】
建立风险识别模型的方法及对应装置


[0001]本说明书一个或多个实施例涉及人工智能
,尤其涉及一种建立风险识别模型的方法及对应装置。

技术介绍

[0002]在互联网技术日益发展的今天,用户在使用互联网的各种行为中出现各种风险。例如可能存在诸如网络交易诈骗、虚假兼职诈骗、网络交友诈骗等各种各样的欺诈形式。还可能存在诸如洗钱、作弊等风险形式。在实际的风险控制场景中,图神经网络模型是目前应用比较广泛的一种深度神经网络模型。图神经网络在对图结构中节点之间的关联关系进行建模方面表现出强大的学习和表征能力。然而,目前基于图神经网络的表征学习都采用有监督或半监督的方式,这就使得图神经网络的表征学习效果很大程度上依赖于标注数据。然而,在风险控制场景中,标注数据是稀缺的,不易获取且成本很高,这就容易造成图神经网络的表征学习效果差,进而影响风险识别模型的识别效果。

技术实现思路

[0003]有鉴于此,本说明书一个或多个实施例公开了一种建立风险识别模型的方法及对应装置,以便于提高风险识别模型的识别效果。
[0004]根据第一方面,本公开提供了一种建立风险识别模型的方法,该方法包括:
[0005]获取利用用户的网络行为数据构建的异构网络图,所述异构网络图包括节点和边,所述节点包括行为主体和行为对象,所述边依据行为主体和行为对象之间的行为关系确定;
[0006]对所述异构网络图中的边进行掩膜处理,得到掩膜子图和剩余子图;
[0007]利用所述剩余子图和掩膜子图训练所述图自编码器;其中,所述图自编码器包括编码网络和第一解码网络;所述编码网络利用输入的所述剩余子图得到各节点的表征向量,所述第一解码网络利用所述各节点的表征向量预测被掩膜的边,训练目标包括:最小化预测结果与掩膜子图之间的差异;
[0008]利用训练得到的图自编码器中的编码网络,构建风险识别模型。
[0009]根据本申请实施例中一可实现的方式,对所述异构网络图中的边进行掩膜处理包括:
[0010]对所述异构网络图中的边进行随机采样,将采样得到的M个边构成掩膜子图,将所述异构网络图中采样的M个边进行掩膜处理后得到剩余子图;或者,
[0011]对所述异构网络图中的边进行随机采样,将采样得到的M1个边作为根节点;分别将各根节点作为起点进行路径随机游走,得到的各条路径构成掩膜子图,将所述各条路径包含的M2个边进行掩膜处理后得到剩余子图;
[0012]其中,所述M、M1和M2为正整数。
[0013]根据本申请实施例中一可实现的方式,所述图自编码器还包括第二解码网络,所
述第二解码网络利用所述各节点的表征向量预测各节点的度;
[0014]所述训练目标还包括:最小化所述第二解码网络的预测结果与所述异构网络图中各节点的度之间的差异。
[0015]根据本申请实施例中一可实现的方式,利用所述剩余子图和掩膜子图训练所述图自编码器包括:
[0016]在每一轮迭代中确定总训练损失,所述总训练损失由第一训练损失和第二训练损失确定,所述第一训练损失由所述第一解码网络的预测结果与掩膜子图之间的差异得到,所述第二训练损失由所述第二解码网络的预测结果与所述异构网络图中各节点的度之间的差异得到;利用所述总训练损失的值更新所述图自编码器的模型参数,直至达到预设的训练结束条件。
[0017]根据本申请实施例中一可实现的方式,所述风险识别模型用以对所述异构网络图中的目标节点、目标边或目标子图进行风险识别。
[0018]根据本申请实施例中一可实现的方式,所述利用训练得到的图自编码器中的编码网络,构建风险识别模型包括:
[0019]获取风险识别模型的训练数据;
[0020]利用所述训练数据,在训练得到的图自编码器中的编码网络上进行风险识别模型的迁移学习,其中所述风险识别模型包括所述编码网络和分类网络。
[0021]根据本申请实施例中一可实现的方式,所述获取风险识别模型的训练数据包括以下至少一种:
[0022]从所述异构网络图中获取被标注为风险用户和非风险用户的节点作为训练数据;或者,
[0023]从所述异构网络图中获取被标注为风险行为和非风险行为的边作为训练数据;或者,
[0024]从所述异构网络图中获取被标注为风险用户集合和非风险用户集合的子图作为训练数据。
[0025]第二方面,提供了一种建立风险识别模型的装置,该装置包括:
[0026]图获取单元,被配置为获取利用用户的网络行为数据构建的异构网络图,所述异构网络图包括节点和边,所述节点包括行为主体和行为对象,所述边依据行为主体和行为对象之间的行为关系确定;
[0027]图掩膜单元,被配置为对所述异构网络图中的边进行掩膜处理,得到掩膜子图和剩余子图;
[0028]图训练单元,被配置为利用所述剩余子图和掩膜子图训练所述图自编码器;其中,所述图自编码器包括编码网络和第一解码网络;所述编码网络利用输入的所述剩余子图得到各节点的表征向量,所述第一解码网络利用所述各节点的表征向量预测被掩膜的边,训练目标包括:最小化预测结果与掩膜子图之间的差异;
[0029]模型构建单元,被配置为利用训练得到的图自编码器中的编码网络,构建风险识别模型,所述风险识别模型用以对输入的待识别网络图中的目标节点、目标边或目标子图进行风险识别。
[0030]根据第三方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,
当所述计算机程序在计算机中执行时,令计算机执行如上所述的方法。
[0031]根据第四方面,本公开提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如上所述的方法。
[0032]根据本申请提供的具体实施例,本申请可以具备以下技术效果:
[0033]1)本申请通过对异构网络图中的边进行掩膜处理得到掩膜子图和剩余子图,图自编码器利用剩余子图预测掩膜子图从而进行自监督式学习,相比较传统对比学习的方式无需受限于标注数据的数量,从而保证训练得到的编码网络的表征能力,进而提高风险识别模型的识别效果。
[0034]2)本申请中通过路径随机游走的方式进行路径级别的边掩膜,能够实现路径级别的学习,图自编码器能够捕获节点的远距离特征,避免过拟合现象,使得编码网络得到的表征向量更具有泛化性和鲁棒性。
[0035]3)本申请采用了非对称式的图自编码器结构,通过第一解码网络和第二解码网络实现边的重构和节点的度信息重构,利用两个重构任务进行图表征学习,提高编码网络的表征能力,更进一步提高风险识别模型的识别效果。
附图说明
[0036]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种建立风险识别模型的方法,其特征在于,该方法包括:获取利用用户的网络行为数据构建的异构网络图,所述异构网络图包括节点和边,所述节点包括行为主体和行为对象,所述边依据行为主体和行为对象之间的行为关系确定;对所述异构网络图中的边进行掩膜处理,得到掩膜子图和剩余子图;利用所述剩余子图和掩膜子图训练所述图自编码器;其中,所述图自编码器包括编码网络和第一解码网络;所述编码网络利用输入的所述剩余子图得到各节点的表征向量,所述第一解码网络利用所述各节点的表征向量预测被掩膜的边,训练目标包括:最小化预测结果与掩膜子图之间的差异;利用训练得到的图自编码器中的编码网络,构建风险识别模型。2.根据权利要求1所述的方法,其特征在于,对所述异构网络图中的边进行掩膜处理包括:对所述异构网络图中的边进行随机采样,将采样得到的M个边构成掩膜子图,将所述异构网络图中采样的M个边进行掩膜处理后得到剩余子图;或者,对所述异构网络图中的边进行随机采样,将采样得到的M1个边作为根节点;分别将各根节点作为起点进行路径随机游走,得到的各条路径构成掩膜子图,将所述各条路径包含的M2个边进行掩膜处理后得到剩余子图;其中,所述M、M1和M2为正整数。3.根据权利要求1所述的方法,其特征在于,所述图自编码器还包括第二解码网络,所述第二解码网络利用所述各节点的表征向量预测各节点的度;所述训练目标还包括:最小化所述第二解码网络的预测结果与所述异构网络图中各节点的度之间的差异。4.根据权利要求3所述的方法,其特征在于,利用所述剩余子图和掩膜子图训练所述图自编码器包括:在每一轮迭代中确定总训练损失,所述总训练损失由第一训练损失和第二训练损失确定,所述第一训练损失由所述第一解码网络的预测结果与掩膜子图之间的差异得到,所述第二训练损失由所述第二解码网络的预测结果与所述异构网络图中各节点的度之间的差异得到;利用所述总训练损失的值更新所述图自编码器的模型参数,直至达到预设的训练结束条件。5.根据权利要求1所述的方法,其特征在于,所述风险识别模型用以...

【专利技术属性】
技术研发人员:李金膛陈亮吴若凡朱亮田胜但家旺孟昌华王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1