用于训练检测登录数据风险值的模型的方法、设备和介质技术

技术编号：40354130 阅读：6 留言：0更新日期：2024-02-09 14:39

本公开的实施例涉及一种用于训练检测登录数据风险值的模型的方法、设备和介质，方法包括：基于登录数据的维度，构建具有多个维度的、与登录数据对应的特征向量；基于所定义的时间窗口，将具有相同维度的特征向量进行聚合，以获取基于特征向量的聚合向量；根据自注意力模型中的位置编码函数，计算所述聚合向量的位置编码，从而确定与登录数据对应的位置矩阵；以及将所述位置矩阵输入到自注意力模型进行训练，从而获取用于检测登录数据风险值的模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络通信，具体涉及一种用于训练检测登录数据风险值的模型的方法及设备和介质。

技术介绍

1、很多的网站，都提供有登录功能，登录是非常重要的安全点。除了一些基于多因素认证的解决方案，很多网站都有自己的登录安全风控系统，动态的感知用户的登录是否安全。很多的安全事件，通过某次单独登录是检测不到的。比如：撞库。撞库可能导致某个大型网站的用户数据泄漏，其他人员会拿到这些用户数据，来尝试登录其他网站。而现在用户习惯将很多网站的密码都设置一样。其他人员有很大的成功概率；暴力破解。一些采用匿名卡券兑换网站，卡号存在连号的情况，密码规则又不复杂（比如6位数字）；如果网站做的好，会加入一些简单的风控规则，比如某个网络地址（ip）、某个设备在一段连续的时间内因为登录失败次数超过某个阈值，那么限制该ip一段时间。但是，此这些规则因为是写死的，而且其他人员很容易测试得到上限，它就降低频次即可。

2、因此需要一种确定登录数据风险值的方法。然而确定登录数据风险值有几个难点：参数的合理性，比如某个ip一个小时内失败超过1000次，但是ip可能是基站ip，那么数量就会多一点；参数之间的可能存在关系，ip和ip实际地址有关联性，比如单纯看ip不够，还需要看ip实际地址；单条规则很难满足，参数的维度非常多，例如手机、ip、ip实际地址、浏览器用户代理useragent、操作系统、设备、当前设备是否已登录过、上次退出时间、登录方式（手机验证/邮箱验证码/密码）、是否多因素认证、上次登录信息、当前账号已经登录设备、）很多参数以及时间维度的数据；维

3、如果将上面这些参数通过硬编码的方式确定风险值，那么实现的难度非常大，而且可维护性比较低。

4、因此，传统的检测登录数据风险值的方法的不足之处在于，涉及登录数据的参数维度复杂且相互关联。

技术实现思路

1、针对上述问题，本公开提供了一种用于训练检测登录数据风险值的神经网络模型以及使用模型确定登录数据风险值的方法，旨在建立一个神经网络模型，通过输入参数，判断当前登录登录数据的安全风险。

2、根据本公开的第一方面，提供了一种用于训练检测登录数据风险值的模型的方法，方法包括：基于登录数据的维度，构建具有多个维度的、与登录数据对应的特征向量；基于所定义的时间窗口，将具有相同维度的特征向量进行聚合，以获取基于特征向量的聚合向量；根据自注意力模型中的位置编码函数，计算所述聚合向量的位置编码，从而确定与登录数据对应的位置矩阵；以及将所述位置矩阵输入到自注意力模型进行训练，从而获取用于检测登录数据风险值的模型。

3、在一个实施例中，构建具有多个维度的与登录数据对应的特征向量包括：确定表征登录数据风险值的多个维度；对所确定的多个维度中的一个或多个维度执行独热编码以及归一化操作，从而获取可用于自注意力模型的维度值；以及基于预定义序列，拼接所述维度值，从而获得静态特征向量。

4、在一个实施例中，构建具有多个维度的与登录数据对应的特征向量还包括：确定对登录数据风险值的动态扩容的时间维度；选择所确定的多个维度中的一个或多个维度；以及在所确定的时间维度内，遍历登录数据所存储的系统，从而对所选择的一个或多个维度进行动态扩容，从而获得动态特征向量。

5、在一个实施例中，登录数据包括：网络地址、基站、地理位置、登录设备、手机号、邮箱、浏览器用户代理、登录操作系统、登录设备是否已登录、登录设备上次退出时间、登录方式中的任一项或多项。

6、在一个实施例中，基于所定义的时间窗口将具有相同维度的特征向量进行聚合包括：确定可以表征登录数据所存储的系统活跃程度的时间维度；基于时间维度，将具有相同维度的多个特征向量聚合为一个中间特征向量；确定具有相同维度的多个特征向量的特征向量条数值；以及将所述特征向量条数值作为条数维度扩充在所述中间特征向量中，从而获取基于特征向量的聚合向量。

7、在一个实施例中，自注意力模型包括多头注意力机制层、残差和标准化层、前向传播层、多元线性层、线性回归层、激活函数层和损失函数层中的一层或多层。

8、在一个实施例中，获取用于检测登录数据风险值的模型包括：将登录数据集分为n个相等的子集并且选取其中一个子集作为模型验证集，其余n-1个子集作为模型训练集，n为自然数；执行n次交叉验证，其中在每次交叉验证中，利用自注意力模型对模型训练集进行训练并在模型验证集上进行评估，从而确定自注意力模型的性能指标；将每次交叉验证中所确定的自注意力模型的性能指标进行记录，得到n次独立的性能评估结果；对执行n次交叉验证而确定的n次独立的性能评估结果进行平均，以确定自注意力模型的平均性能评估；以及基于所确定的平均性能评估，为自注意力模型选择模型超参数。

9、在一个实施例中，为自注意力模型选择模型超参数包括选择以下超参数中的一项或多项：学习率、图像样本批量大小、正则化参数、隐藏层单元数、网络结构和层数、激活函数、交叉验证折数、优化器、加权采样确定参数、dropout丢弃比例、加权衰减值。

10、根据本公开的第二方面，提供了一种方法，方法包括：接收所输入的网路地址数据集；以及将所接收的网路地址数据集输入到基于如上所述的方法所训练的检测登录数据风险值的模型，从而确定在网路地址数据集中的登录数据的风险值。

11、根据本公开的第三方面，提供了一种计算设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开的第一方面的方法。

12、在本公开的第四方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中计算机指令用于使计算机执行本公开的第一方面的方法。

13、通过本公开的技术方案，可以有效地检测登录数据的风险值，帮助保护网络和系统免受潜在的安全威胁。确保训练模型具有足够的准确性和可靠性，以提高风险检测的效力。

14、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种用于训练检测登录数据风险值的模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，构建具有多个维度的与登录数据对应的特征向量包括：

3.根据权利要求2所述的方法，其特征在于，构建具有多个维度的与登录数据对应的特征向量还包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述登录数据包括：网络地址、基站、地理位置、登录设备、手机号、邮箱、浏览器用户代理、登录操作系统、登录设备是否已登录、登录设备上次退出时间、登录方式中的任一项或多项。

5.据权利要求4述的方法，其特征在于，基于所定义的时间窗口将具有相同维度的特征向量进行聚合包括：

6.据权利要求4所述的方法，其特征在于，所述自注意力模型包括多头注意力机制层、残差和标准化层、前向传播层、多元线性层、线性回归层、激活函数层和损失函数层中的一层或多层。

7.据权利要求1所述的方法，其特征在于，获取用于检测登录数据风险值的模型包括：

8.据权利要求7述的方法，其特征在于，为自注意力模型选择模型超参数包括选择以下

9. 一种用于检测登录数据风险值的方法，其特征在于，所述方法包括：

10.一种计算设备，其特征在于，包括：

11.一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，所述计算机程序被机器执行时实现根据权利要求1至9中任一项所述的方法。

...

【技术特征摘要】

1.一种用于训练检测登录数据风险值的模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，构建具有多个维度的与登录数据对应的特征向量包括：

3.根据权利要求2所述的方法，其特征在于，构建具有多个维度的与登录数据对应的特征向量还包括：

5.据权利要求4述的方法，其特征在于，基于所定义的时间窗口将具有相同维度的特征向量进行聚合包括：

6.据权利要求4所述的方法，其特征在于，所述自注意力模型包括多头注意力机制层、残差和标准化...

【专利技术属性】
技术研发人员：周智伟，
申请(专利权)人：中智关爱通南京信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人