一种检测应用系统操作人员离群行为的方法技术方案

技术编号:37145816 阅读:16 留言:0更新日期:2023-04-06 21:57
本发明专利技术公开了一种检测应用系统操作人员离群行为的方法,包括检测系统,检测系统包括数据处理、群体行为刻画模块、个人行为刻画模块、离群行为分析模块、告警模块,数据处理输入端接收较长时间段内操作人员的操作数据或较短时间段内操作人员的操作数据,数据处理模块输出端通过群体行为刻画模块和个体行为刻画模块连接离群行为分析模块,离群行为分析模块连接告警模块,本发明专利技术解决了若安全体系被突破,攻击者可以尝试进行大量的合法行为对系统进行探测,而后将进行恶意操作的问题。本发明专利技术通过将个人行为与群体行为进行对比,能够从中发现个人的异常行为,对比指标可以考虑部门的文档拷贝基线、接入外设频率等;具备独有的解释工程,对异常操作进行了解释,一定程度上解决了算法解释性较差的问题。决了算法解释性较差的问题。决了算法解释性较差的问题。

【技术实现步骤摘要】
一种检测应用系统操作人员离群行为的方法


[0001]本专利技术涉及信息安全
,具体为一种检测应用系统操作人员离群行为的方法。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)就是用计算机来分析和生成自然语言(文本、语音),目的是让人类可以用自然语言形式跟计算机系统进行人机交互,从而更便捷、有效地进行信息管理。NLP任务可以大致分为词法分析、句法分析、语义分析三个层面。本专利技术中涉及语义分析层面的TF

IDF算法和余弦相似度算法。
[0003]TF

IDF(term frequency

inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF

IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。公式如下:
[0004][0005]分母之所以要加一,是为了避免分母为0TF

IDF倾向于过滤掉常见的词语,保留重要的词语。
[0006]余弦相似度又称为余弦相似性,通过测量两个向量的夹角的余弦值来度量它们之间的相似性。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90/>°
时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为

1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为

1到1之间。余弦相似度在度量文本相似度、用户相似度、物品相似度的时候都较为常用。
[0007]对于安全运营者来说,通过等级保护及行业标准建设的安全体系,在面对具体的攻防时会面临防御体系被突破的风险。但作为企业安全运营者在技术能力和财力的限制下,又不可能无止境的通过增加不同类型的安全产品来应对日益更新的安全风险。企业安全运营者需要将从根本上解决业务安全保护的问题。
[0008]在实际应用环境中,如果安全体系被突破,攻击者可以尝试进行大量的合法行为对系统进行探测,而后将进行恶意操作,这在标准安全防护体系中是无法发现的。由此有必要发展从操作行为角度分析安全问题的方法,利用AI算法学习并分析操作的异常行为,以发现攻击者的合法探测行为。

技术实现思路

[0009]本专利技术的目的在于提供一种检测应用系统操作人员离群行为的方法,以解决上述
技术介绍
中提出的问题。
[0010]为实现上述目的,本专利技术提供如下技术方案:一种检测应用系统操作人员离群行
为的方法,包括检测系统,所述检测系统包括数据处理模块、群体行为刻画模块、个体行为刻画模块、离群行为分析模块和告警模块,其中,所述数据处理模块对原始数据进行数据清洗、数据格式化、特征处理等操作;所述群体行为刻画模块计算群体的TF

IDF值;所述个体行为刻画模块计算个人的TF

IDF值;所述离群行为分析模块负责分析对比个人行为与群体行为,并实现可解释性;所述的告警模块用于向用户反馈操作行为异常;在训练阶段,所述的数据处理模块与群体行为刻画模块连接;所述的群体行为刻画模块与推理阶段的离群行为分析模块连接。在推理阶段,所述的数据处理模块与个人行为刻画模块连接;所述的个人行为刻画模块与离群行为分析模块连接;所述的离群行为分析模块与推理阶段的群体行为刻画模块连接;所述的离群行为分析模块与告警模块连接。
[0011]优选的,检测方法包括以下步骤:
[0012]A、数据处理;负责对原始数据进行数据清洗、数据格式化、特征处理等操作。本步骤的输出将作为下一步骤行为刻画的依据。
[0013]B、行为刻画;本步骤以数据处理步骤的输出为依据,计算群体与个人的TF、IDF、TF

IDF值以刻画人物行为。本步骤的输出将作为后续数值化步骤、可解释化步骤的依据。
[0014]C、数值化;本步骤以行为刻画步骤的输出为依据,计算群体向量与个人向量的余弦值,将个人行为与群体行为的差异度进行数值化表示。本步骤的输出将作为后续推送告警步骤的依据。
[0015]D、可解释化;本步骤以行为刻画步骤的输出为依据,计算偏离度,准确体现哪个或哪几个行为异常导致偏离度过大。本步骤的输出将作为下一步骤推送告警的依据。
[0016]E、推送告警;本步骤以数值化步骤和可解释化步骤的输出为依据,判定哪位营业员的什么行为操作存在异常,有效减少查询原始数据从而确认该员工的什么行为被判定为异常的时间,大大提高溯源效率。
[0017]优选的,所述步骤A具体步骤如下:
[0018]a、设置操作人员ID和菜单ID,原始数据中的操作人员列均为操作人员账号名称、菜单均为菜单名称,为方便在此场景中应用更多方法,设置一个大字典,ID与名称一一对应;
[0019]b、选择子集,选择需要进行分析的数据集中的数据列——操作人员ID、操作时间、菜单ID三列;
[0020]c、对操作时间进行一致化处理,指定日期和具体时间的显示方式;
[0021]d、量化菜单及时间,将菜单及时间数值化,以适应后续在算法中进行使用。
[0022]优选的,所述步骤B具体步骤如下:
[0023]a、在训练阶段,使用时间段T内X位操作人员的操作数据(共Y个菜单)作为训练数据,计算部门每个菜单的TF值——操作数据中所有操作人员点击每个菜单的频率,例如所有操作人员点击A菜单的TF值:
[0024][0025]把每位操作人员在这段时间内的操作数据看作一篇文档,计算每个菜单的IDF值,例如计算A菜单的IDF值的公式为:
[0026][0027]然后计算TF

IDF值即TF*IDF。
[0028]b、在推理阶段,使用一段时间内X位操作人员的操作数据,计算每位操作人员点击每个菜单的TF值,例如操作人员1点击A菜单的TF值:
[0029][0030]然后计算TF

IDF值即TF*IDF。
[0031]优选的,所述步骤C具体步骤如下:
[0032]a、将行为刻画步骤输出的每一个TF

IDF值看作多维空间内的一个点,训练阶段可以得到1个Y维的空间向量,推理阶段可以得到X个Y维的空间向量;
[0033]b、通过使用欧几里得点积公式计算推理阶段每位操作人员的向量与训练阶段部门所有操作人员的向量间的余弦值。同部门的操作人员的行为往往较为一致,通过这个余弦值的大小分析操作人员的个人行为是否与群体行为有严重偏离现象,两个向量夹角越大则余弦值越小,说明该操作人员的操作行为与同部门操作人员的操作行为相似度越低,可能存在操作异本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种检测应用系统操作人员离群行为的方法,其特征在于:包括检测系统,所述检测系统包括数据处理模块(1)、群体行为刻画模块(2)、个体行为刻画模块(3)、离群行为分析模块(4)和告警模块(5),其中,所述数据处理模块(1)对原始数据进行数据清洗、数据格式化、特征处理等操作;所述群体行为刻画模块(2)计算群体的TF

IDF值;所述个体行为刻画模块(3)计算个人的TF

IDF值;所述离群行为分析模块(4)负责分析对比个人行为与群体行为,并实现可解释性;所述的告警模块(5)用于向用户反馈操作行为异常;在训练阶段,所述的数据处理模块与群体行为刻画模块连接;所述的群体行为刻画模块与推理阶段的离群行为分析模块连接。在推理阶段,所述的数据处理模块与个人行为刻画模块连接;所述的个人行为刻画模块与离群行为分析模块连接;所述的离群行为分析模块与推理阶段的群体行为刻画模块连接;所述的离群行为分析模块与告警模块连接。2.根据权利要求1所述的一种检测应用系统操作人员离群行为的方法,其特征在于:检测方法包括以下步骤:A、数据处理;负责对原始数据进行数据清洗、数据格式化、特征处理等操作。本步骤的输出将作为下一步骤行为刻画的依据。B、行为刻画;本步骤以数据处理步骤的输出为依据,计算群体与个人的TF、IDF、TF

IDF值以刻画人物行为。本步骤的输出将作为后续数值化步骤、可解释化步骤的依据。C、数值化;本步骤以行为刻画步骤的输出为依据,计算群体向量与个人向量的余弦值,将个人行为与群体行为的差异度进行数值化表示。本步骤的输出将作为后续推送告警步骤的依据。D、可解释化;本步骤以行为刻画步骤的输出为依据,计算偏离度,准确体现哪个或哪几个行为异常导致偏离度过大。本步骤的输出将作为下一步骤推送告警的依据。E、推送告警;本步骤以数值化步骤和可解释化步骤的输出为依据,判定哪位营业员的什么行为操作存在异常,有效减少查询原始数据从而确认该员工的什么行为被判定为异常的时间,大大提高溯源效率。3.根据权利要求2所述的一种检测应用系统操作人员离群行为的方法,其特征在于:所述步骤A具体步骤如下:a、设置操作人员ID和菜单ID,原始数据中的操作人员列均为操作人员账号名称、菜单均为菜单名称,为方便在此场景中应用更多方法,设置一个大字典,ID与名称一一对应;b、选择子集,选择需要进行分析的数据集中的数据列——操作人员ID、操作时间、菜单ID三列;c、对操作时间进行一致化处理,指定日期和具体时间的显示方式;d、量化菜单及时间,将菜单及时间数值化,以适应后续在算法中进行使用。4.根据权利要求2所述的一种检测应用系统操作人员离群行为的方法,其特征在于:所述步骤B具体步骤如下:a、在训练阶段,使用时间段T内X位操作人员的操作数据(共Y个菜单)...

【专利技术属性】
技术研发人员:黄乐王聚鑫
申请(专利权)人:北京掌数信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1