【技术实现步骤摘要】
一种检测内容发布系统操作人员行为异常的方法
[0001]本专利技术涉及信息安全
,具体为一种检测内容发布系统操作人员行为异常的方法。
技术介绍
[0002]自然语言处理(NLP,Natural Language Processing)就是开发能够理解人类语言的应用程序或服务。处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。 本专利技术中涉及自然语言处理中的skip
‑
gram算法。
[0003]Word2Vec 是一个过程(技术),在这个过程中,将文本作为神经网络的训练数据,这个神经网络的输出向量被称作嵌入,这些嵌入(向量)在训练后会包含单词的语义信息。这个过程做的就是从每个单词有多个维度的空间嵌入到具有低得多维度的连续向量空间。该技术被广泛地应用于自然语言处理中,通过上下文来学习语义信息,skip
‑
gram是它的经典模型之一,是根据给定的中心词预测上下文,上下文也常被称为背景词。
[0004]目前企业安全管理者面临安全事件难以全面处置的问题,攻击者利用各种手段绕过重金打造的安全防线。而在突破最外层安全防线后,内部安全防御和检测变得异常困难。所以目前攻防双方 ...
【技术保护点】
【技术特征摘要】
1.一种检测内容发布系统操作人员行为异常的方法,其特征在于:包括检测系统,所述检测系统包括数据处理模块(1)、一种检测内容发布系统操作人员行为异常的方法,其特征在于:包括检测系统,所述检测系统包括数据处理模块(1)、初创模块(2)、计算模块(3)、转化模块(4)、调整模块(5)、存储模块(6)、异常检测模块(7)、告警模块(8),其中,所述的数据处理模块(1)对原始业务数据进行数据清洗、对菜单进行编号、遍历数据、采取正样本及负样本、遍历菜单ID等操作;所述的初创模块(2)负责初始化向量以及创建矩阵;所述的计算模块(3)计算菜单点积及相似度;所述的转化模块(4)将相似度进行归一化处理;所述的调整模块(5)负责调整矩阵、减小误差以及优化模型;所述的存储模块(6)记录基准表及阈值;所述的异常检测(7)模块将推理数据与基准表进行比对查找;所述的告警模块(8)用于向用户反馈操作行为异常;在训练阶段,所述的数据处理模块与初创模块连接;所述的初创模块与计算模块连接;所述的计算模块与转化模块连接;所述的转化模块与调整模块连接;所述的调整模块与计算模块连接;所述的计算模块与存储模块连接;所述的存储模块与推理阶段的异常检测模块连接;在推理阶段,所述的数据处理模块与异常检测模块连接;所述的异常检测模块与训练阶段的存储模块连接;所述的异常检测模块与告警模块连接。2.根据权利要求1所述的一种检测内容发布系统操作人员行为异常的方法 ,其特征在于:检测方法包括以下步骤:A、数据处理;包括对原始业务数据进行数据清洗、对菜单进行编号、遍历数据、采取正样本及负样本,在推理阶段,从第二条数据开始遍历菜单ID;本步骤的输出将作为后续初始化向量与创建矩阵步骤、调整步骤和异常数据检测步骤的依据;B、初始化向量与创建矩阵;初始化中心菜单向量、背景菜单向量以及标签向量,创建Embedding、Context矩阵,本步骤的输出将作为后续计算点积、调整步骤的依据;C、计算点积;本步骤以初始化向量和创建矩阵步骤的输出为依据,计算中心菜单向量与背景菜单向量的点积;本步骤的输出将作为后续归一化步骤的依据; D、归一化;本步骤以计算点积步骤的输出为依据,利用Sigmoid激活函数对其进行归一化处理,放大数据之间的差距,算出每个中心菜单以及其对应的背景菜单的对应0、1的“概率”,因所有输出值总和为1,所以此应用中将该输出值解释为“概率”;本步骤的输出将作为下一步骤调整的依据;E、调整;本步骤以数据处理步骤得到的正负样本以及归一化步骤得到的时间段T内所有菜单点击的“概率”为依据,二者相减得到错误分数即模型预测中的误差,为调整矩阵、减小误差以及优化模型,需要利用梯度下降算法不断训练模型;本步骤最终的输出将作为下一步骤生成基准表的依据;F、生成基准表;本步骤以调整嵌入步骤的最终输出为依据,生成一张相似度基准表,每个菜单和其他各个菜单的相似度,同时根据业务实际情况以及数据结果设定阈值;本步骤的输出将作为后续异常数据检测步骤的依据;G、异常数据检测;本步骤以推理阶段的数据处理结果和训练阶段生成基准表步骤最终生成的基准表以及阈值为依据,遍历推理数据中菜单点击数据,与基准表进行比对查询,查看是否低于设定的阈值;本步骤的输出将作为后续推送告警阶段的依据;H、推送告警;本步骤以异常数据检测步骤的结果为依据,可以推送哪位操作人员在点击什么菜单之前点击了什么菜单存在异常以及阈值为多少等信息。
3.根据权利要求2所述的一种检测内容发布系统操作人员行为异常的方法,其特征在于:所述步骤A具体步骤如下:在训练阶段,a、首先设置操作人员ID和菜单ID,原始业务数据中的操作人员列均为操作人员账号名称、菜单均为菜单名称,为方便在此场景中应用更多方法,在这里设置一个大字典,操作人员ID与操作人员账号名称一一对应、菜单ID与菜单名称一一对应;b、选择子集,选择需要进行分析的数据集中的数据列,在这里选择操作人员ID、菜单ID两列,清洗脏数据;c、遍历菜单ID,记录该菜单ID及下一个菜单ID生成训练样本,然后对每一个菜单按照出现的次数进行ID编号(例如ID1在所有菜单出现次数最多,那么它的编号ID为0,即0代表ID1菜单);d、再次遍历所有菜单,采用负采样,按照窗口大小(此处取1)划分正样本与负样本(例如遍历到ID1这个菜单,那么中心菜单上下紧挨着出现的菜单均为菜单ID1的正样本,并将标签设为1,否则为负样本,标签设为0);遍历完成后,得到一个中心菜单与背景菜单以及标签的列表;在推理阶段,a、首先设置操作人员ID和菜单ID,原始业务数据中的操作人员列均为操作人员账号名称、菜单均为菜单名称,为方便在此场景中应用更多方法,在这里设置一个大字典,操作人员ID与操作人员账号名称一一对应、菜单ID与菜单名称一一对应;b、选择子集,选择需要进行分析的数据集中的数据列,在这里选择操作...
【专利技术属性】
技术研发人员:黄乐,王聚鑫,
申请(专利权)人:北京掌数信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。