机器学习模型中特征值的确定方法、装置及电子设备制造方法及图纸

技术编号:24176300 阅读:42 留言:0更新日期:2020-05-16 04:46
本申请提供了一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质。所述方法包括:先从离线行为数据集合中选取包含目标特征字段的样本数据集合,然后根据当前时间戳信息和每条样本数据对应的时间戳信息,从样本数据集合中确定符合预设取值时间段的目标样本数据集合,再根据用户当前时刻访问服务器产生的在线行为数据,以及目标样本数据集合,确定机器学习模型的特征值。相比于现有技术中采用笛卡尔积方法计算特征值的方式而言,本申请选取的目标样本数据集合的数据量远远小于笛卡尔积方法对应的数据量。进而,一方面能够降低特征值计算的难度,另一方面能够缩短特征及计算所耗费的时间,提高特征值的计算效率。

Method, device and electronic equipment for determining eigenvalues in machine learning model

【技术实现步骤摘要】
机器学习模型中特征值的确定方法、装置及电子设备
本申请涉及服务器安全
,特别涉及一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质。
技术介绍
随着互联网的飞速发展,针对互联网应用的攻击行为也愈加泛滥,服务器提供的应用程序被恶意用户恶意访问,已经成为影响服务器运行安全的重要问题。目前,通常基于机器学习模型来进行恶意用户的识别,而该机器学习模型是根据用户的历史访问行为的特征值以及用户恶意与否来训练得到的。其中,历史访问行为可以包括IP地址、登录设备、是否查阅帖子和是否回复帖子等行为,相应地,历史访问行为的特征值可以包括“IP地址更换频率”、“登录设备更换频率”、“查阅帖子的数量”和“回复帖子的数量”等。而模型训练的前提是特征值的确定,即如何根据样本数据确定特征值。现有技术通常采用笛卡尔积的方法计算特征值,即,把样本数据看作是一个集合,包括N条数据记录,那么,采用笛卡尔积的方法就是将每条数据记录自关联后,得到N*N个组合,再分别对每个组合进行计算。但是实际运用过程中,样本数据中包括的数据记录的数量可以达到千万级,采用笛卡尔积本文档来自技高网...

【技术保护点】
1.一种机器学习模型中特征值的确定方法,其特征在于,所述方法包括:/n获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;/n从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;/n根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;/n根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。/n

【技术特征摘要】
1.一种机器学习模型中特征值的确定方法,其特征在于,所述方法包括:
获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;
从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;
根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。


2.根据权利要求1所述的方法,其特征在于,从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,包括:
根据所述离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;
从所述初始样本数据集合中选取包含所述目标特征字段的样本数据集合。


3.根据权利要求1所述的方法,其特征在于,根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合,包括:
根据每条样本数据对应的时间戳信息,将所述样本数据按照时间先后顺序进行排序;
根据所述当前时间戳信息以及排序后的样本数据,确定符合所述预设取值时间段的目标样本数据集合。


4.根据权利要求3所述的方法,其特征在于,所述目标样本数据集合包括多条目标样本数据;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值,包括:
根据每条目标样本数据中所述目标特征字段的属性值以及所述在线行为数据中目标特征字段的属性值,确定机器学习模型的特征值。


5.根据权利要求1所述的方法,其特征在于,确定机器学习模型的特征值之后,所述方法还包括:
根据所述特征值,训练机器学习模型。


6.一种机器学习模型中特征值的确定装置,其特征在于,所述装置包括:
获取单元,用于获取...

【专利技术属性】
技术研发人员:李文学史忠伟
申请(专利权)人:五八有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1