异常数据检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34888455 阅读:18 留言:0更新日期:2022-09-10 13:46
本申请提供一种异常数据检测方法、装置、电子设备及存储介质。该方法包括:获取历史预约数据、实时预约数据和异常模式标签;根据历史预约数据和异常模式标签训练检测模型;根据检测模型检测实时预约数据以确定实时预约数据的异常度;确定异常度是否高于预设第一异常度阈值;响应于异常度高于预设第一异常度阈值,则确定实时预约数据为异常数据。根据历史预约数据,聚合多个维度的信息,在用户未产生任何行为数据前确定属于异常模式的实时预约数据,进而确定属于异常数据的账号,提高异常识别的准确度和覆盖度,显著的缩小原始预约数据的异常识别范围,降低人力成本,提高检测效率,保证了检测结果的一致性。保证了检测结果的一致性。保证了检测结果的一致性。

【技术实现步骤摘要】
异常数据检测方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种异常数据检测方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中,主要集中在离线的异常数据识别上,对已有的账号进行异常检测,并直接应用于线上推理,根据用户实际创建的角色,确定产生行为序列的数据,再通过离线分析用户画像来判断账号的异常情况。
[0003]但是,相关技术需要获取已经产生行为序列的数据,因此无法解决游戏新服预约场景的异常数据判断的场景需求,难以保证检测结果的准确性和一致性。

技术实现思路

[0004]有鉴于此,本申请的目的在于提出一种异常数据检测方法、装置、电子设备及存储介质。
[0005]基于上述目的,在第一方面,本申请提供了一种异常数据检测方法,包括:
[0006]获取历史预约数据、实时预约数据和异常模式标签;
[0007]根据所述历史预约数据和异常模式标签训练检测模型;
[0008]根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度;
[0009]确定所述异常度是否高于预设第一异常度阈值;
[0010]响应于所述异常度高于预设第一异常度阈值,则确定所述实时预约数据为异常数据。
[0011]在一种可能的实现方式中,所述获取历史预约数据,包括:
[0012]获取用户数据;
[0013]根据所述用户数据确定与所述用户数据关联的账号数据和历史用户行为数据;
[0014]根据所述账号数据确定与所述账号数据绑定的网络数据和硬盘数据;
[0015]根据所述用户数据、账号数据、历史用户行为数据、网络数据和硬盘数据确定所述历史预约数据。
[0016]在一种可能的实现方式中,所述根据所述历史预约数据和异常模式标签训练检测模型,包括:
[0017]根据所述历史预约数据确定多个目标训练数据和用户历史画像;
[0018]根据所述历史预约数据确定预约时间;
[0019]根据所述预约时间确定所述多个目标训练数据的连续性信息;
[0020]根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码;
[0021]关联所述多个目标训练数据编码、用户历史画像和连续性信息以确定训练样本;
[0022]根据所述训练样本和所述异常模式标签训练所述检测模型。
[0023]在一种可能的实现方式中,所述根据所述预约时间确定所述多个目标训练数据的连续性信息,包括:
[0024]根据所述预约时间分别对所述多个目标训练数据顺次排序;
[0025]根据所述预约时间确定相邻的目标训练数据之间的时间间隔是否小于预设时间间隔;
[0026]响应于所述相邻的目标训练数据之间的时间间隔小于所述预设时间间隔,则确定所述相邻的目标训练数据具有连续性;
[0027]响应于所述相邻的目标训练数据之间的时间间隔不小于所述预设时间间隔,则确定所述相邻的目标训练数据不具有连续性。
[0028]在一种可能的实现方式中,所述根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码,包括:
[0029]将所述多个目标训练数据进行分类以确定至少两种字符类型;其中,每种字符类型分别对应不同的预设编码;
[0030]顺次确定所述多个目标训练数据中每个字符对应的所述字符类型,以及所述字符类型连续出现的统计数量;
[0031]根据所述预设编码和所述统计数量对所述多个目标训练数据中的每个字符进行编码以确定多个目标训练数据编码。
[0032]在一种可能的实现方式中,所述根据所述训练样本和所述异常模式标签训练所述检测模型,包括:
[0033]确定每个所述目标训练数据编码对应的类内向量;
[0034]选择任意一个所述目标训练数据编码确定为目标筛选条件,根据所述类内向量确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离,得到所述目标筛选条件对应的类内距离;
[0035]将所述目标筛选条件更新为未被选择过的所述目标训练数据编码中的任意一个目标训练数据编码,重复执行确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离的步骤,直至得到每个所述目标训练数据编码对应的类内距离;
[0036]根据所述异常模式标签确定异常数据;
[0037]根据所述异常数据和全部所述类内距离以确定异常类内距离;
[0038]根据所述异常类内距离训练所述检测模型。
[0039]在一种可能的实现方式中,所述实时预约数据,包括:时间戳;
[0040]所述根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度,包括:
[0041]通过分布式处理引擎按照所述时间戳的时序存储所述实时预约数据,并将所述实时预约数据标记为未推理数据;
[0042]对所述未推理数据进行哈希映射以确定所述未推理数据对应的第一哈希值;
[0043]获取多个推理实例;其中,每个所述推理实例包括第二哈希值;
[0044]对所述第一哈希值和所述第二哈希值进行匹配,以将所述未推理数据分配至与所述推理实例;
[0045]同步全部所述推理实例,并根据所述未推理数据的时间戳读取所述时间戳前N个
时间窗口的所述实时预约数据以确定待检测数据,其中,所述N为正整数;
[0046]根据所述检测模型检测所述待检测数据以确定所述待检测数据的异常度。
[0047]在一种可能的实现方式中,所述方法还包括:
[0048]设置恢复时间节点;
[0049]响应于所述检测模型停止服务,根据所述恢复时间节点将所述恢复时间节点与当前时刻内的所述实时预约数据重置为所述未推理数据;
[0050]清除所述恢复时间节点与当前时刻内的所述实时预约数据的异常度和所述异常数据;
[0051]根据所述恢复时间节点重启所述检测模型。
[0052]在一种可能的实现方式中,所述根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度之后,还包括:
[0053]响应于所述异常度高于所述预设第二异常度阈值,则对所述实时预约数据进行聚类分析;
[0054]根据高于所述第二异常度阈值的异常度对应的所述实时预约数据确定新异常模式标签;
[0055]基于在线学习技术根据所述实时预约数据和所述新异常模式标签更新所述检测模型。
[0056]在一种可能的实现方式中,所述第二异常度阈值大于所述第一异常度阈值。
[0057]在第二方面,本申请提供了一种异常数据检测装置,包括:
[0058]获取模块,被配置为获取历史预约数据、实时预约数据和异常模式标签;
[0059]训练模块,被配置为根据所述历史预约数据和异常模式标签训练检测模型;
[0060]第一确定模块,被配置为根据所述检测模型检测所述实时预约数据以确定所述实时预约本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据检测方法,其特征在于,包括:获取历史预约数据、实时预约数据和异常模式标签;根据所述历史预约数据和异常模式标签训练检测模型;根据所述检测模型检测所述实时预约数据以确定所述实时预约数据的异常度;确定所述异常度是否高于预设第一异常度阈值;响应于所述异常度高于所述预设第一异常度阈值,则确定所述实时预约数据为异常数据。2.根据权利要求1所述的方法,其特征在于,所述获取历史预约数据,包括:获取用户数据;根据所述用户数据确定与所述用户数据关联的账号数据和历史用户行为数据;根据所述账号数据确定与所述账号数据绑定的网络数据和硬盘数据;根据所述用户数据、账号数据、历史用户行为数据、网络数据和硬盘数据确定所述历史预约数据。3.根据权利要求1所述的方法,其特征在于,所述根据所述历史预约数据和异常模式标签训练检测模型,包括:根据所述历史预约数据确定多个目标训练数据和用户历史画像;根据所述历史预约数据确定预约时间;根据所述预约时间确定所述多个目标训练数据的连续性信息;根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码;关联所述多个目标训练数据编码、用户历史画像和连续性信息以确定训练样本;根据所述训练样本和所述异常模式标签训练所述检测模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述预约时间确定所述多个目标训练数据的连续性信息,包括:根据所述预约时间分别对所述多个目标训练数据顺次排序;根据所述预约时间确定相邻的目标训练数据之间的时间间隔是否小于预设时间间隔;响应于所述相邻的目标训练数据之间的时间间隔小于所述预设时间间隔,则确定所述相邻的目标训练数据具有连续性;响应于所述相邻的目标训练数据之间的时间间隔不小于所述预设时间间隔,则确定所述相邻的目标训练数据不具有连续性。5.根据权利要求3所述的方法,其特征在于,所述根据预设编码规则对所述多个目标训练数据进行编码以确定多个目标训练数据编码,包括:将所述多个目标训练数据进行分类以确定至少两种字符类型;其中,每种字符类型分别对应不同的预设编码;顺次确定所述多个目标训练数据中每个字符对应的所述字符类型,以及所述字符类型连续出现的统计数量;根据所述预设编码和所述统计数量对所述多个目标训练数据中的每个字符进行编码以确定多个目标训练数据编码。6.根据权利要求3所述的方法,其特征在于,所述根据所述训练样本和所述异常模式标签训练所述检测模型,包括:
确定每个所述目标训练数据编码对应的类内向量;选择任意一个所述目标训练数据编码确定为目标筛选条件,根据所述类内向量确定其余每个所述目标训练数据编码与所述目标筛选条件之间的类内距离,得到所述目标筛选条件对应的类内距离;将所述目标筛选条件更新为未被选择过的所述目标训练数据编码中的任意一个目标训练数据编码,重复执行确定其余每个所述目标训练数据编码与所...

【专利技术属性】
技术研发人员:朱钰森吴剑飞刘柏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1