黑产用户识别模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31508883 阅读:19 留言:0更新日期:2021-12-22 23:44
本发明专利技术实施例提供了一种黑产用户识别模型训练方法、装置、电子设备及存储介质,该方法包括:利用第一样本集合训练第一基础模型,直至满足第一约束条件,得到第一识别模型,基于第一识别模型中的第二子模型确定第二基础模型,并利用第二样本集合训练第二基础模型,得到第二识别模型,在本发明专利技术实施例中,采用联合训练的方式,利用第一样本集合对第一基础模型中的第一子模型和第二子模型进行联合训练。因为第二子模型已经与第一子模型进行了联合训练,而该第二基础模型是基于第二子模型得到的,所以第二样本集合中只需少量标注有标签数据的用户行为特征序列便可以完成训练,从而减少了用于训练用户识别模型的正样本的数量对该模型的准确度的影响。该模型的准确度的影响。该模型的准确度的影响。

【技术实现步骤摘要】
黑产用户识别模型训练方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,特别是涉及一种黑产用户识别模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,互联网服务提供商所提供的互联网服务也越来越多,然而,在实际互联网服务场景中,部分人员会基于互联网服务提供商所提供的互联网服务进行异常活动,例如:盗取正常用户信息、恶意刷赞、刷评论、刷订单、发布非法交易信息以及诈骗消息等,这里将进行上述异常活动的人员称为异常用户或黑产用户。互联网服务提供商需要不断识别这些异常用户,以保证正常用户的账户安全以及互联网服务的正常运行。
[0003]相关技术中,利用训练好的用户识别模型来对用户的用户行为特征进行分析,从而识别出具有异常行为的异常用户。其中,用户识别模型的训练过程包括:人工选取异常用户的用户行为特征并标记异常用户标签作为正样本,人工选取正常用户的用户行为特征作为负样本,利用正样本及负样本对用户识别模型进行训练,从而得到训练好的用户识别模型。
[0004]然而,专利技术人在研究中发现,采用上述用户识别模型训练方法,需要人工选取大量异常用户的用户行为特征作为正样本,然而实际场景中,异常用户的数量要远远小于正常用户的数量,导致无法选取到足够数量的异常用户的用户行为特征作为正样本,并且人工选取异常用户的用户行为特征的工作量很大,同样限制了异常用户的用户行为特征的正样本的数量,从而导致能够用于训练用户识别模型的正样本的数量较少,最终影响用户识别模型的准确度。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种黑产用户识别模型训练方法、装置、电子设备及存储介质,以实现减少能够用于训练用户识别模型的正样本的数量对用户识别模型的准确度的影响。具体技术方案如下:
[0006]在本专利技术实施的第一方面,提供了一种黑产用户识别模型训练方法,该方法包括:
[0007]利用第一样本集合对第一基础模型进行训练,直至满足第一约束条件,得到第一识别模型;第一识别模型用于基于文本特征序列、用户行为特征序列,预测文本特征序列对应的文本是否为垃圾内容;第一基础模型包括:第一子模型与第二子模型,第一子模型用于对文本特征序列进行分析得到第一垃圾内容预测结果,第二子模型用于对用户行为特征序列进行分析得到第二垃圾内容预测结果;其中,第一约束条件与第一损失相关联,第一损失包括:第二损失、第三损失与第四损失,第二损失为第一子模型的损失,第三损失为第二子模型的损失,第四损失为第一子模型与第二子模型之间的特征损失;
[0008]基于第一识别模型中的第二子模型,确定第二基础模型,并利用第二样本集合对第二基础模型进行训练,得到第二识别模型;第二识别模型用于基于用户行为特征序列来
识别用户行为特征序列对应的用户是否为黑产用户。
[0009]在本专利技术实施的第二方面,还提供了一种黑产用户识别方法,该方法还包括:
[0010]获取待识别用户的用户行为特征序列;
[0011]将待识别用户的用户行为特征序列输入到训练完成的第二识别模型中,确定待识别用户是否为黑产用户,其中,训练完成的第二识别模型是通过本申请任一所述的黑产用户识别模型训练方法训练得到的;
[0012]基于待识别用户的预测结果,确定待识别用户是否为黑产用户。
[0013]在本专利技术实施的第三方面,还提供了一种黑产用户识别模型训练装置,该装置包括:
[0014]第一训练模块,用于利用第一样本集合对第一基础模型进行训练,直至满足第一约束条件,得到第一识别模型;第一识别模型用于基于文本特征序列、用户行为特征序列,预测文本特征序列对应的文本是否为垃圾内容;第一基础模型包括:第一子模型与第二子模型,第一子模型用于对文本特征序列进行分析得到第一垃圾内容预测结果,第二子模型用于对用户行为特征序列进行分析得到第二垃圾内容预测结果;其中,第一约束条件与第一损失相关联,第一损失包括:第二损失、第三损失与第四损失,第二损失为第一子模型的损失,第三损失为第二子模型的损失,第四损失为第一子模型与第二子模型之间的特征损失;
[0015]第二训练模块,用于将第一识别模型中的第二子模型作为第二基础模型,并利用第二样本集合对第二基础模型进行训练,得到第二识别模型;第二识别模型用于基于用户行为特征序列来识别用户行为特征序列对应的用户是否为黑产用户。
[0016]在本专利技术实施的第四方面,还提供了一种黑产用户识别装置,该装置还包括:
[0017]获取模块,用于获取待识别用户的用户行为特征序列;
[0018]识别模块,用于将待识别用户的用户行为特征序列输入到训练完成的第二识别模型中,确定待识别用户是否为黑产用户,其中,训练完成的第二识别模型是通过本申请任一所述的黑产用户识别模型训练装置训练得到的;
[0019]确定模块,用于基于待识别用户的预测结果,确定待识别用户是否为黑产用户。
[0020]在本专利技术实施的第五方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0021]存储器,用于存放计算机程序;
[0022]处理器,用于执行存储器上所存放的程序时,实现本申请任一所述的方法的步骤。
[0023]在本专利技术实施的第六方面,还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现本申请任一所述的方法的步骤。
[0024]在本专利技术实施的第七方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本申请任一所述的方法的步骤。
[0025]本专利技术实施例提供的一种黑产用户识别模型训练方法、装置、电子设备及存储介质,包括:利用第一样本集合对第一基础模型进行训练,直至满足第一约束条件,得到第一识别模型;基于第一识别模型中的第二子模型,确定第二基础模型,并利用第二样本集合对第二基础模型进行训练,得到第二识别模型;其中,第一识别模型用于基于文本特征序列、
用户行为特征序列,预测文本特征序列对应的文本是否为垃圾内容;第一基础模型包括:第一子模型与第二子模型,第一子模型用于对文本特征序列进行分析得到第一垃圾内容预测结果,第二子模型用于对用户行为特征序列进行分析得到第二垃圾内容预测结果;其中,第一约束条件与第一损失相关联,第一损失包括:第二损失、第三损失与第四损失,第二损失为第一子模型的损失,第三损失为第二子模型的损失,第四损失为第一子模型与第二子模型之间的特征损失;第二识别模型用于基于用户行为特征序列来识别用户行为特征序列对应的用户是否为黑产用户。
[0026]可见,在本专利技术实施例中,采用联合训练的方式,利用第一样本集合对第一基础模型中的第一子模型和第二子模型进行联合训练,得到第一子模型的第二损失、第二子模型的第三损失以及第一子模型与第二子模型之间的第四损失,利用包含第二损失、第三损失与第四损失的第一损失,来调整第一基础模型的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种黑产用户识别模型训练方法,其特征在于,所述方法包括:利用第一样本集合对第一基础模型进行训练,直至满足第一约束条件,得到第一识别模型;所述第一识别模型用于基于文本特征序列、用户行为特征序列,预测所述文本特征序列对应的文本是否为垃圾内容;所述第一基础模型包括:第一子模型与第二子模型,所述第一子模型用于对所述文本特征序列进行分析得到第一垃圾内容预测结果,所述第二子模型用于对所述用户行为特征序列进行分析得到第二垃圾内容预测结果;其中,所述第一约束条件与第一损失相关联,所述第一损失包括:第二损失、第三损失与第四损失,所述第二损失为所述第一子模型的损失,第三损失为所述第二子模型的损失,第四损失为所述第一子模型与所述第二子模型之间的特征损失;基于所述第一识别模型中的第二子模型,确定第二基础模型,并利用第二样本集合对所述第二基础模型进行训练,得到第二识别模型;第二识别模型用于基于所述用户行为特征序列来识别用户行为特征序列对应的用户是否为黑产用户。2.根据利要求1所述的方法,其特征在于,所述第一样本集合包括:文本特征序列、用户行为特征序列以及第一标签数据,所述第一标签数据用于指示所述文本特征序列是否为垃圾内容;所述利用第一样本集合对第一基础模型进行训练,直至满足第一约束条件,得到第一识别模型,包括:将所述文本特征序列输入到所述第一子模型中,得到第一全连接层特征及所述第一垃圾内容预测结果;将所述用户行为特征序列输入到所述第二子模型中,得到第二全连接层特征及所述第二垃圾内容预测结果;基于所述第一标签数据及所述第一垃圾内容预测结果计算所述第二损失,基于所述第一标签数据及所述第二垃圾内容预测结果计算第三损失,基于所述第一全连接层特征及所述第二全连接层特征计算所述第四损失;根据所述第二损失、所述第三损失及所述第四损失,确定所述第一损失;根据所述第一损失调整所述第一基础模型中的训练参数,直至满足所述第一约束条件,得到所述第一识别模型。3.根据权利要求2所述的方法,其特征在于,所述第一子模型和所述第二子模型均包括:多个嵌入层、多个双向长短期记忆层、反向前馈神经网络层、正向前馈神经网络层、第一全连接层、隐藏表示层、第二全连接层、逻辑回归层以及归一化层;其中,所述第一子模型中的第二全连接层输出所述第一全连接层特征;所述第二子模型中的第二全连接层输出所述第二全连接层特征。4.根据权利要求2所述的方法,其特征在于,所述基于所述第一全连接层特征及所述第二全连接层特征计算第四损失,包括:计算所述第一全连接层特征及所述第二全连接层特征之间的最大均值差异;并将所述最大均值差异确定为所述第四损失。5.根据权利要求2所述的方法,其特征在于,所述根据所述第二损失、所述第三损失及所述第四损失,确定所述第一损失,包括:
对所述第二损...

【专利技术属性】
技术研发人员:张徵秦超陈柏宇
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1