黑产用户识别模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：31508883 阅读：19 留言：0更新日期：2021-12-22 23:44

本发明专利技术实施例提供了一种黑产用户识别模型训练方法、装置、电子设备及存储介质，该方法包括：利用第一样本集合训练第一基础模型，直至满足第一约束条件，得到第一识别模型，基于第一识别模型中的第二子模型确定第二基础模型，并利用第二样本集合训练第二基础模型，得到第二识别模型，在本发明专利技术实施例中，采用联合训练的方式，利用第一样本集合对第一基础模型中的第一子模型和第二子模型进行联合训练。因为第二子模型已经与第一子模型进行了联合训练，而该第二基础模型是基于第二子模型得到的，所以第二样本集合中只需少量标注有标签数据的用户行为特征序列便可以完成训练，从而减少了用于训练用户识别模型的正样本的数量对该模型的准确度的影响。该模型的准确度的影响。该模型的准确度的影响。

全部详细技术资料下载

【技术实现步骤摘要】
黑产用户识别模型训练方法、装置、电子设备及存储介质

[0001]本专利技术涉及数据处理
，特别是涉及一种黑产用户识别模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的发展，互联网服务提供商所提供的互联网服务也越来越多，然而，在实际互联网服务场景中，部分人员会基于互联网服务提供商所提供的互联网服务进行异常活动，例如：盗取正常用户信息、恶意刷赞、刷评论、刷订单、发布非法交易信息以及诈骗消息等，这里将进行上述异常活动的人员称为异常用户或黑产用户。互联网服务提供商需要不断识别这些异常用户，以保证正常用户的账户安全以及互联网服务的正常运行。
[0003]相关技术中，利用训练好的用户识别模型来对用户的用户行为特征进行分析，从而识别出具有异常行为的异常用户。其中，用户识别模型的训练过程包括：人工选取异常用户的用户行为特征并标记异常用户标签作为正样本，人工选取正常用户的用户行为特征作为负样本，利用正样本及负样本对用户识别模型进行训练，从而得到训练好的用户识别模型。
[0004]然而，专利技术人在研究中发现，采用上述用户识别模型训练方法，需要人工选取大量异常用户的用户行为特征作为正样本，然而实际场景中，异常用户的数量要远远小于正常用户的数量，导致无法选取到足够数量的异常用户的用户行为特征作为正样本，并且人工选取异常用户的用户行为特征的工作量很大，同样限制了异常用户的用户行为特征的正样本的数量，从而导致能够用于训练用户识别模型的正样本的数量较少，最终影响用户识别模型的准确度。
...

【技术保护点】

【技术特征摘要】
1.一种黑产用户识别模型训练方法，其特征在于，所述方法包括：利用第一样本集合对第一基础模型进行训练，直至满足第一约束条件，得到第一识别模型；所述第一识别模型用于基于文本特征序列、用户行为特征序列，预测所述文本特征序列对应的文本是否为垃圾内容；所述第一基础模型包括：第一子模型与第二子模型，所述第一子模型用于对所述文本特征序列进行分析得到第一垃圾内容预测结果，所述第二子模型用于对所述用户行为特征序列进行分析得到第二垃圾内容预测结果；其中，所述第一约束条件与第一损失相关联，所述第一损失包括：第二损失、第三损失与第四损失，所述第二损失为所述第一子模型的损失，第三损失为所述第二子模型的损失，第四损失为所述第一子模型与所述第二子模型之间的特征损失；基于所述第一识别模型中的第二子模型，确定第二基础模型，并利用第二样本集合对所述第二基础模型进行训练，得到第二识别模型；第二识别模型用于基于所述用户行为特征序列来识别用户行为特征序列对应的用户是否为黑产用户。2.根据利要求1所述的方法，其特征在于，所述第一样本集合包括：文本特征序列、用户行为特征序列以及第一标签数据，所述第一标签数据用于指示所述文本特征序列是否为垃圾内容；所述利用第一样本集合对第一基础模型进行训练，直至满足第一约束条件，得到第一识别模型，包括：将所述文本特征序列输入到所述第一子模型中，得到第一全连接层特征及所述第一垃圾内容预测结果；将所述用户行为特征序列输入到所述第二子模型中，得到第二全连接层特征及所述第二垃圾内容预测结果；基于所述第一标签数据及所述第一垃圾内容预测结果计算所述第二损失，基于所述第一标签数据及所述第二垃圾内容预测结果计算第三损失，基于所述第一全连接层特征及所述第二全连接层特征计算所述第四损失；根据所述第二损失、所述第三损失及所述第四损失，确定所述第一损失；根据所述第一损失调整所述第一基础模型中的训练参数，直至满足所述第一约束条件，得到所述第一识别模型。3.根据权利要求2所述的方法，其特征在于，所述第一子模型和所述第二子模型均包括：多个嵌入层、多个双向长短期记忆层、反向前馈神经网络层、正向前馈神经网络层、第一全连接层、隐藏表示层、第二全连接层、逻辑回归层以及归一化层；其中，所述第一子模型中的第二全连接层输出所述第一全连接层特征；所述第二子模型中的第二全连接层输出所述第二全连接层特征。4.根据权利要求2所述的方法，其特征在于，所述基于所述第一全连接层特征及所述第二全连接层特征计算第四损失，包括：计算所述第一全连接层特征及所述第二全连接层特征之间的最大均值差异；并将所述最大均值差异确定为所述第四损失。5.根据权利要求2所述的方法，其特征在于，所述根据所述第二损失、所述第三损失及所述第四损失，确定所述第一损失，包括：
对所述第二损...

【专利技术属性】
技术研发人员：张徵，秦超，陈柏宇，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人