基于潜在语义索引的上网行为分析方法、系统和介质技术方案

技术编号:28144169 阅读:22 留言:0更新日期:2021-04-21 19:25
本发明专利技术提供一种基于潜在语义索引的上网行为分析方法、系统和介质。所述方法包括:步骤S1、基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;步骤S2、利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及步骤S3、根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。该方法能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。现了及时应急响应和处置。现了及时应急响应和处置。

【技术实现步骤摘要】
基于潜在语义索引的上网行为分析方法、系统和介质


[0001]本专利技术涉及语义索引领域,尤其是涉及一种基于潜在语义索引的上网行为分析方法、系统和介质。

技术介绍

[0002]互联网给工作带来极大的便利,如果缺乏有效的管理,将会给业务带来各种风险,如信息泄漏、网络攻击、工作效率低下等。基于网页语义特征的用户上网行为分析以用户为视角,从规则分析转变为关联分析、行为建模、异常分析,基于大数据驱动、安全分析和机器学习,以用户为视角,通过刻画用户行为,将内部违规操作、窃取数据、非法删除等异常行为与正常行为进行关联分析,行为建模,准确地描述出行为细节,从而提高了命中异常事件的准确率,弥补了传统行为分析无法及时监测内部威胁的不足,有效分析用户上网的行为习惯,对用户上网实行监管。
[0003]目前针对用户上网行为分析,主要是采用基于规则和专家经验,对用户的上网历史日志进行增量式爬虫,将网页进行分析后匹配规则,通过人为设定阈值对行为进行检测,但是这种方法工作量大,会导致大量的噪声和误报。现有的上网行为分析技术一般通过利用机器学习驱动,从上网日志中发现异常的行为。但是目前该方法应用并不能确定具体的异常行为场景,对于异常上网行为不能实现有效管控。具体地,通过网页的URL类别进行划分,并对网页进行信息抽取,获得有效链接;然后对链接主题进行相关性判定,计算与主题有关的URL权重,建立URL的主题类别标签映射表。最后将用户上网行为产生的URL与所述映射表进行匹配,最终获得用户上网行为标签。以上采用URL的类别进行上网行为分析的方法依赖于类别判定规则,易受类别噪声干扰,标签的定义不能充分说明用户的行为异常。

技术实现思路

[0004]本专利技术的目的在于提供一种基于潜在语义索引的上网行为分析方案,以解决现有技术中存在的上述技术问题。该方案能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。
[0005]本专利技术第一方面提供了一种基于潜在语义索引的上网行为分析方法,所述方法包括:步骤S1、基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;步骤S2、利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及步骤S3、根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。
[0006]根据本专利技术第一方面提供的方法,在所述步骤S1中:获取所述用户的历史上网日志中的URL和所述URL对应的网页文本;基于所述URL和所述URL对应的网页文本来确定网页语义特征矩阵,所述网页语义特征矩阵用于表征所述用户的上网行为特征;以及对所述网页语义特征矩阵进行奇异值分解和降维处理,来重构所述网页语义特征矩阵,以获得基于
潜在语义空间的所述潜在语义特征矩阵;其中,对于所述网页语义特征矩阵,矩阵行为所述网页文本中的词语,矩阵列为所述URL,矩阵值为所述词语在所述URL中出现的频次。
[0007]根据本专利技术第一方面提供的方法,在所述步骤S2中,利用所述潜在语义特征矩阵来计算所述用户的上网行为基线;以及根据所述上网行为基线来确定所述用户的上网行为偏差,以构建所述用户的上网行为的行为链,其中所述行为链中的值为所述URL的行为偏差值。
[0008]根据本专利技术第一方面提供的方法,所述方法还包括,更新所述网页语义特征矩阵,将所述用户新访问的URL添加至所述网页语义特征矩阵。
[0009]本专利技术第二方面提供了一种基于潜在语义索引的上网行为分析系统,所述系统包括:确定模块,被配置为,基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;计算模块,被配置为,利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及检测模块,被配置为,根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。
[0010]根据本专利技术第二方面提供的系统,所述确定模块具体被配置为:获取所述用户的历史上网日志中的URL和所述URL对应的网页文本;基于所述URL和所述URL对应的网页文本来确定网页语义特征矩阵,所述网页语义特征矩阵用于表征所述用户的上网行为特征;以及对所述网页语义特征矩阵进行奇异值分解和降维处理,来重构所述网页语义特征矩阵,以获得基于潜在语义空间的所述潜在语义特征矩阵;其中,对于所述网页语义特征矩阵,矩阵行为所述网页文本中的词语,矩阵列为所述URL,矩阵值为所述词语在所述URL中出现的频次。
[0011]根据本专利技术第二方面提供的系统,所述计算模块具体被配置为:利用所述潜在语义特征矩阵来计算所述用户的上网行为基线;以及根据所述上网行为基线来确定所述用户的上网行为偏差,以构建所述用户的上网行为的行为链,其中所述行为链中的值为所述URL的行为偏差值。
[0012]根据本专利技术第二方面提供的系统,所述系统还包括,更新模块,被配置为,更新所述网页语义特征矩阵,将所述用户新访问的URL添加至所述网页语义特征矩阵。
[0013]本专利技术第三方面提供了一种存储有指令的非暂时性计算机可读介质,当所述指令由处理器执行时,执行根据本专利技术第一方面的基于潜在语义索引的上网行为分析方法中的步骤。
[0014]综上,本方案能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。
附图说明
[0015]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为根据本专利技术实施例的基于潜在语义索引的上网行为分析方法的流程的示意
图;以及
[0017]图2为根据本专利技术实施例的基于潜在语义索引的上网行为分析系统的结构图。
具体实施方式
[0018]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]本专利技术第一方面提供了一种基于潜在语义索引的上网行为分析方法。图1为根据本专利技术实施例的基于潜在语义索引的上网行为分析方法的流程的示意图,如图1所示,所述方法包括:步骤S1、基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;步骤S2、利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及步骤S3、根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。
[0020]在步骤S1,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于潜在语义索引的上网行为分析方法,其特征在于,所述方法包括:步骤S1、基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;步骤S2、利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及步骤S3、根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。2.根据权利要求1所述的基于潜在语义索引的上网行为分析方法,其特征在于,在所述步骤S1中:获取所述用户的历史上网日志中的URL和所述URL对应的网页文本;基于所述URL和所述URL对应的网页文本来确定网页语义特征矩阵,所述网页语义特征矩阵用于表征所述用户的上网行为特征;以及对所述网页语义特征矩阵进行奇异值分解和降维处理,来重构所述网页语义特征矩阵,以获得基于潜在语义空间的所述潜在语义特征矩阵;其中,对于所述网页语义特征矩阵,矩阵行为所述网页文本中的词语,矩阵列为所述URL,矩阵值为所述词语在所述URL中出现的频次。3.根据权利要求1所述的基于潜在语义索引的上网行为分析方法,其特征在于,在所述步骤S2中,利用所述潜在语义特征矩阵来计算所述用户的上网行为基线;以及根据所述上网行为基线来确定所述用户的上网行为偏差,以构建所述用户的上网行为的行为链,其中所述行为链中的值为所述URL的行为偏差值。4.根据权利要求2所述的基于潜在语义索引的上网行为分析方法,其特征在于,所述方法还包括,更新所述网页语义特征矩阵,将所述用户新访问的URL添加至所述网页语义特征矩阵。5.一种基于潜在语义索引的上网行为分析系统,其特征在于,所述系统包括:确定模块,被配置为,基于用户历史上网日志来确定所述用户的上网行为的...

【专利技术属性】
技术研发人员:张强喻波王志海魏力谢福进
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1