【技术实现步骤摘要】
机器学习模型中特征值的确定方法、装置及电子设备
本申请涉及服务器安全
,特别涉及一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质。
技术介绍
随着互联网的飞速发展,针对互联网应用的攻击行为也愈加泛滥,服务器提供的应用程序被恶意用户恶意访问,已经成为影响服务器运行安全的重要问题。目前,通常基于机器学习模型来进行恶意用户的识别,而该机器学习模型是根据用户的历史访问行为的特征值以及用户恶意与否来训练得到的。其中,历史访问行为可以包括IP地址、登录设备、是否查阅帖子和是否回复帖子等行为,相应地,历史访问行为的特征值可以包括“IP地址更换频率”、“登录设备更换频率”、“查阅帖子的数量”和“回复帖子的数量”等。而模型训练的前提是特征值的确定,即如何根据样本数据确定特征值。现有技术通常采用笛卡尔积的方法计算特征值,即,把样本数据看作是一个集合,包括N条数据记录,那么,采用笛卡尔积的方法就是将每条数据记录自关联后,得到N*N个组合,再分别对每个组合进行计算。但是实际运用过程中,样本数据中包括的数据记录的数量可以达到 ...
【技术保护点】
1.一种机器学习模型中特征值的确定方法,其特征在于,所述方法包括:/n获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;/n从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;/n根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;/n根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。/n
【技术特征摘要】
1.一种机器学习模型中特征值的确定方法,其特征在于,所述方法包括:
获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;
从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;
根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。
2.根据权利要求1所述的方法,其特征在于,从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,包括:
根据所述离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;
从所述初始样本数据集合中选取包含所述目标特征字段的样本数据集合。
3.根据权利要求1所述的方法,其特征在于,根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合,包括:
根据每条样本数据对应的时间戳信息,将所述样本数据按照时间先后顺序进行排序;
根据所述当前时间戳信息以及排序后的样本数据,确定符合所述预设取值时间段的目标样本数据集合。
4.根据权利要求3所述的方法,其特征在于,所述目标样本数据集合包括多条目标样本数据;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值,包括:
根据每条目标样本数据中所述目标特征字段的属性值以及所述在线行为数据中目标特征字段的属性值,确定机器学习模型的特征值。
5.根据权利要求1所述的方法,其特征在于,确定机器学习模型的特征值之后,所述方法还包括:
根据所述特征值,训练机器学习模型。
6.一种机器学习模型中特征值的确定装置,其特征在于,所述装置包括:
获取单元,用于获取...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。