用户操作行为数据的检测方法、装置及电子设备制造方法及图纸

技术编号:34904847 阅读:24 留言:0更新日期:2022-09-15 06:49
本发明专利技术提供一种用户操作行为数据的检测方法、装置及电子设备,属于计算机技术领域,所述方法包括:采集用户操作行为数据;对所述用户操作行为数据进行实体抽取,得到实体识别数据;对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据;对所述特征数据进行聚类分析,得到各种操作行为的归类数据;采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户异常操作行为的异常数据。本发明专利技术通过对用户操作行为数据进行实体抽取、特征选择、特征降维、聚类分析以及异常检测算法分析,能够有效地检测出用户异常操作行为的异常数据。用户异常操作行为的异常数据。用户异常操作行为的异常数据。

【技术实现步骤摘要】
用户操作行为数据的检测方法、装置及电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种用户操作行为数据的检测方法、装置及电子设备。

技术介绍

[0002]现有技术中,异常检测系统在发现网络中的违规行为方面发挥了重要作用。由于难以直接从海量数据中提取出异常流量,现有的异常检测设备所采用的方式是对所有流量数据进行随机抽样,对提取到的异常流量进行进一步的分析,但是由于网络中用户正常行为的流量数据远远多于异常流量数据,因此随机抽样的采样方式会遗漏大量的异常流量。采用现有技术中的传统机器学习、深度学习算法或随机抽样进行异常检测在实际操作的过程中主要有下列几项问题:参数设置较难、假定条件过多、数据内容限制较多等。

技术实现思路

[0003]本专利技术提供一种用户操作行为数据的检测方法、装置及电子设备,用以解决现有技术中对用户行为进行异常检测中会遗漏大量的异常流量以及采取有关算法进行异常检测存在算法的参数设置较难、假定条件过多以及数据内容限制较多等问题,实现根据用户操作行为的情况进行实时监测及对可能的违规操作做出预测。
[0004]本专利技术提供一种用户操作行为数据的检测方法,包括:
[0005]采集用户操作行为数据,所述用户操作行为数据用于分析用户的操作行为是否异常;
[0006]对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据用于提取与用户异常操作行为有关的数据;
[0007]对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维实现特征抽取和数据压缩的数据;
[0008]对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类;
[0009]采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户异常操作行为的异常数据。
[0010]根据本专利技术提供的一种用户操作行为数据的检测方法,所述采集用户操作行为数据,包括:
[0011]基于第一数据库采集用户操作行为数据,所述第一数据库中存储有关系型数据和记录用户各种操作行为的日志数据;
[0012]所述用户操作行为数据包括用户各种操作开始/结束时间、操作具体步骤、操作顺序、操作最终结果的一种或多种组合的数据。
[0013]根据本专利技术提供的一种用户操作行为数据的检测方法,所述对所述用户操作行为数据进行实体抽取,得到实体识别数据,包括:
[0014]对所述用户操作行为数据的部分数据进行标注以作为训练数据,并利用神经网络训练实体抽取模型;
[0015]基于所述实体抽取模型,对所述用户操作行为数据进行实体抽取,得到实体识别数据;其中,
[0016]所述实体抽取模型的第一层为词嵌入层,用于将输入的单词序列训练成词向量输出;
[0017]所述实体抽取模型的第二层,用于将第一层输出的词向量输入至BiLSTM层进行训练以学习单词与输出标签的关系,所述BiLSTM层包括正向LSTM网络和反向LSTM网络,正向LSTM网络和反向LSTM网络通过一输出层进行连接;
[0018]所述实体抽取模型的第三层是在BiLSTM层的输出序列上设有注意力模型,用于处理标签问题以使所述实体抽取模型更好聚焦局部特征并突出关键词的重要作用;
[0019]所述实体抽取模型的第四层为所述注意力机制后所使用的CRF层,用于通过转移矩阵输出标签之间的转移得分,并基于每个标签的转换规律以及标签语法的合理性,得到最佳标签序列。
[0020]根据本专利技术提供的一种用户操作行为数据的检测方法,所述对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,包括:
[0021]将所述实体识别数据和第二数据库中存储的数据进行汇总,所述第二数据库中存储有办理用户业务的数据;
[0022]对数据中出现的异常值/重复值进行处理;
[0023]对处理后的数据进行特征选择,并存储经过选择过滤的特征选择数据;
[0024]基于所述特征选择数据计算表征数据相关性的协方差矩阵,并对其进行特征分解,得到特征值和特征向量集合;
[0025]将所述特征值和特征向量集合投影至特征矩阵,得到降维后的特征数据,并将所述特征数据进行存储。
[0026]根据本专利技术提供的一种用户操作行为数据的检测方法,所述对所述特征数据进行聚类分析,得到各种操作行为的归类信息,包括:
[0027]基于K

means密度聚类算法,将所述特征数据的集合按照特征相似度分成属于不同簇类对象,包括将特征相似的数据分布于同一簇中,将特征不相似的数据分布在簇外;
[0028]基于所述特征数据分布的密度进行数据分析,得到各种操作行为的归类数据;
[0029]所述K

means密度聚类算法是通过在聚类之前预先设定阈值,基于所述特征数据的密度、簇内平均距离和簇间距离计算出权重,采用加权的欧氏距离计算出所述特征数据的距离,并通过计算得到的所述特征数据的密度、权值和距离来选择初始聚类中心,得到所述K

means密度聚类算法的初始输入参数。
[0030]根据本专利技术提供的一种用户操作行为数据的检测方法,所述基于异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户违规操作行为的异常数据,包括:
[0031]采用孤立森林、One Class SVM以及局部异常因子三种异常检测算法分别对所述归类数据进行异常打分,得到对应的异常打分值;
[0032]将所述三种异常检测算法输出的异常打分值进行加权归一,得到针对所有用户的
异常打分值的排名;
[0033]根据所述异常打分值的排名,确定用户正常操作行为的正常数据与用户违规操作行为的异常数据。
[0034]根据本专利技术提供的一种用户操作行为数据的检测方法,所述基于异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户违规操作行为的异常数据之后,还包括:
[0035]若确定为用户违规操作行为的异常数据,则以邮件、短信方式告知系统管理员及相关的技术人员,以及对部分异常数据启动灾备机制以解决异常的问题。
[0036]本专利技术还提供一种用户操作行为数据的检测装置,包括:
[0037]数据采集模块,用于采集用户操作行为数据,所述用户操作行为数据为描述用户各种操作行为的数据;
[0038]实体抽取模块,用于对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据为从所述用户操作行为数据中提取和异常数据有关的数据;
[0039]特征选择模块,用于对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维来实现特征抽取和数据压缩的数据;
[0040]聚类分析模块,用于对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户操作行为数据的检测方法,其特征在于,包括:采集用户操作行为数据,所述用户操作行为数据用于分析用户的操作行为是否异常;对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据用于提取与用户异常操作行为有关的数据;对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维实现特征抽取和数据压缩的数据;对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类;采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户异常操作行为的异常数据。2.根据权利要求1所述的用户操作行为数据的检测方法,其特征在于,所述采集用户操作行为数据,包括:基于第一数据库采集用户操作行为数据,所述第一数据库中存储有关系型数据和记录用户各种操作行为的日志数据;所述用户操作行为数据包括用户各种操作开始/结束时间、操作具体步骤、操作顺序、操作最终结果的一种或多种组合的数据。3.根据权利要求1所述的用户操作行为数据的检测方法,其特征在于,所述对所述用户操作行为数据进行实体抽取,得到实体识别数据,包括:对所述用户操作行为数据的部分数据进行标注以作为训练数据,并利用神经网络训练实体抽取模型;基于所述实体抽取模型,对所述用户操作行为数据进行实体抽取,得到实体识别数据;其中,所述实体抽取模型的第一层为词嵌入层,用于将输入的单词序列训练成词向量输出;所述实体抽取模型的第二层,用于将第一层输出的词向量输入至BiLSTM层进行训练以学习单词与输出标签的关系,所述BiLSTM层包括正向LSTM网络和反向LSTM网络,正向LSTM网络和反向LSTM网络通过一输出层进行连接;所述实体抽取模型的第三层是在BiLSTM层的输出序列上设有注意力模型,用于处理标签问题以使所述实体抽取模型更好聚焦局部特征并突出关键词的重要作用;所述实体抽取模型的第四层为所述注意力机制后所使用的CRF层,用于通过转移矩阵输出标签之间的转移得分,并基于每个标签的转换规律以及标签语法的合理性,得到最佳标签序列。4.根据利要求1所述的用户操作行为数据的检测方法,其特征在于,所述对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,包括:将所述实体识别数据和第二数据库中存储的数据进行汇总,所述第二数据库中存储有办理用户业务的数据;对数据中出现的异常值/重复值进行处理;对处理后的数据进行特征选择,并存储经过选择过滤的特征选择数据;基于所述特征选择数据计算表征数据相关性的协方差矩阵,并对其进行特征分解,得到特征值和特征向量集合;
将所述特征值和特征向量集合投影至特征矩阵,得到降维后的特征数据,并将所述特征数据进行存储。5.根据利要求1所述的用户操作行为数据的检测方法,其特征在于,所述对所述特征数据进行聚类分析,得到各种操作行为的归类信息,包...

【专利技术属性】
技术研发人员:顾强孙小娟屈林波丁乐
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1