数据分析、异常信息识别方法、设备及存储介质技术

技术编号:34098833 阅读:27 留言:0更新日期:2022-07-11 22:57
本申请实施例提供数据分析、异常信息识别方法、设备及存储介质。其中,该方法包括:获取异常样本集合;确定异常样本集合中任意两个异常样本之间的相似度值;统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量,得到各异常样本对应统计信息;根据各异常样本对应统计信息,从异常样本集合中确定中心样本,以便基于中心样本进行数据分析。在不清楚异常原因的情况下,通过从多个异常样本中选择出中心样本作为对异常样本进行分析的依据,能够有效避免对历史数据依赖,提高分析效果和效率。在进行异常样本分析时是依据中心样本所包含的特征进行分析的,不会因为特征维度增加显著提升分析计算量,能够有效提高分析效率。析效率。析效率。

【技术实现步骤摘要】
数据分析、异常信息识别方法、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及数据分析、异常信息识别方法、设备及存储介质。

技术介绍

[0002]随着网络技术的发展,网络结构越来越庞大复杂,安全问题以及故障分析等均是确保网络正常运行中需要时刻关注的问题。
[0003]在现有技术当中,对网络相关数据进行分析时(比如,网络安全问题排查、网络故障分析),通常会预先设定一些排查规则或分析规则。这些规则数据的设定,通常是依据历史数据(比如,历史安全问题或者历史故障分析结果)所总结得到的规则。然而,随着技术发展,在设定规则数据的时候,所需要考虑的规则数据越来越多,当出现新的问题或者故障之后,都需要向原有规则中补充新的规则数据,以确保设定的规则数据能够时刻有效进行网络相关数据分析。随着规则数据的增多,利用规则数据进行排查分析时的规则数据维度呈现爆炸式增长,增加计算负担。此外,预设规则的方式需要依赖历史数据(比如,历史安全问题或者历史故障分析结果等)作为制定规则数据的原始数据,面对新的问题或者故障时将无法利用已有规则数据进行排查分析。因此,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法,其特征在于,所述方法包括:获取异常样本集合;确定所述异常样本集合中任意两个异常样本之间的相似度值;统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量,得到各异常样本对应统计信息;根据所述各异常样本对应统计信息,从所述异常样本集合中确定中心样本,以便基于所述中心样本进行数据分析。2.根据权利要求1所述的方法,其特征在于,所述统计所述异常样本集合中每个异常样本的各所述相似度值对应的异常样本数量,得到各异常样本对应统计信息,包括:统计每个所述异常样本的各个相似度值分别对应的异常样本数量;确定等于相似度阈值的所述各个相似度分别对应的异常样本数量的数量总和,以将所述数量总和作为所述统计信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述各异常样本对应统计信息,从所述异常样本集合中确定中心样本,包括:获取正常样本各个相似度的正常概率分布;从所述正常概率分布中确定所述相似度阈值对应的概率值作为正常概率阈值;根据所述异常样本集合的样本总数量、所述正常概率阈值,确定所述数量阈值;根据所述统计信息与所述数量阈值的比较结果,将所述异常样本集合中所述统计信息大于所述数量阈值的异常样本为所述中心样本。4.根据权利要求1所述的方法,其特征在于,所述确定所述异常样本集合中任意两个异常样本之间的相似度值,包括:确定所述任意两个异常样本之间具有相同特征的特征数量;确定所述特征数量作为所述任意两个异常样本的所述相似度值。5.根据权利要求1所述的方法,其特征在于,所述获取异常样本集合,包括:获取异常报警信息;基于所述异常报警信息中携带的关键信息生成至少一个样本;若所述至少一个样本与预设异常特征不匹配,则基于所述至少一个样本生成所述异常样本集合。6.根据权利要求1所述的方法,其特征在于,所述获取异常样本集合,包括:获取异常报警信息;基于所述异常报警信息中携带的关键信息生成至少...

【专利技术属性】
技术研发人员:王群
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1