System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于半监督模糊综合评价法的网络机器人行为检测方法技术_技高网
当前位置: 首页 > 专利查询>南昌大学专利>正文

基于半监督模糊综合评价法的网络机器人行为检测方法技术

技术编号:41204767 阅读:3 留言:0更新日期:2024-05-07 22:30
本发明专利技术公开了一种基于半监督模糊综合评价法的网络机器人行为检测方法,步骤1、Web会话识别:从原始Web访问记录中提取、聚合、排序并切割得到Web会话;步骤2、Web访问行为特征提取:从每个IP访问的会话内部和会话间分别提取行为特征,实现对用户Web访问行为的刻画;步骤3、基于半监督模糊综合评价法的模型训练:依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,然后通过自监督迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能;步骤4、网络机器人行为检测。本发明专利技术采用Web会话作为基本单位,综合考虑了每个IP访问的会话内部和会话间的Web访问行为,实现了对用户行为的全面评估。

【技术实现步骤摘要】

本专利技术属于网络安全领域,具体为基于半监督模糊综合评价法的网络机器人行为检测方法


技术介绍

1、在当前的网络安全环境中,对于web访问行为的检测成为一项至关重要的任务。目前已有的检测方法可以分为两类:基于特征码和基于web统计特征。

2、基于特征码的检测方法主要包括以下几种:(1)useragent字段识别:通过解析和识别http请求中的useragent字段来判断访问者的身份。正常用户的useragent通常包含有关浏览器和操作系统的信息,而机器访问者可能采用自定义的useragent来伪装身份。然而,这种方法容易受到恶意用户的伪装攻击,因为useragent字段可以被轻松修改。(2)访问robots.txt:通过监测访问robots.txt文件,检测网络爬虫的存在。规范的网络爬虫在访问网站时应该首先请求robots.txt文件,其中包含了对爬虫访问的规定。然而,这种方法局限于只能检测遵循规范的网络爬虫,对于恶意机器人可能不够敏感。

3、基于web统计特征的检测方法主要包括以下几种:(1)返回码统计:通过统计http请求的返回码,如200(成功)、404(未找到)等,来判断访问的成功与否。然而,该方法忽略了http记录间的关系,无法全面了解访问行为的复杂性。(2)请求方法统计和文件类型统计:通过统计请求方法(get、post等)和文件类型(html、css、js等)等特征,以识别访问者的行为。然而,这种方法同样存在无法深入分析http记录之间关系的问题,可能导致对复杂访问行为的误判。

4、然而,现有的检测方法存在一些不足之处:(1)伪装攻击容易成功:恶意用户和机器人可以通过伪造特征码来规避检测,降低了检测的准确性;(2)缺乏对http记录间关系的全面考虑:现有方法过于依赖特定的统计特征,未能充分考虑http记录之间的关联,导致对复杂访问行为的识别不足。


技术实现思路

1、针对上述问题,本专利技术旨在提供基于半监督模糊综合评价法的网络机器人行为检测方法,在面对已知样本较少情况下,进行准确的判断。

2、技术方案如下:

3、步骤1:web会话识别;

4、web会话是指一个用户从访问某个具体的web页面到离开该页面的一组活动。该步骤主要从原始web访问记录中提取、聚合、排序并切割得到web会话。主要分为以下几个过程:

5、步骤1.1:预设访问ip的web访问序列提取:令为某个srcip的按时间先后排序过的web访问序列,srcip表示web访问者的ip,其中 为第i条web日志记录;

6、步骤1.2:根据时间间隔对序列re进行切割,假设切割阈值为delta,若re内相邻的2条记录 和 的时间间隔超过delta,则对序列re进行一次切割。经过以上处理后,序列re被切割为多段序列,每段序列表示一条切割好的web会话,进而将web访问序列re转换为会话序列,其中 表示其中第i条web会话。

7、步骤1.3:参考步骤1.1-步骤1.2,对全体访问ip的web访问记录进行提取,得到每个访问ip的会话序列。

8、步骤2:web访问行为特征提取:

9、该步骤主要从每个ip访问的会话内部和会话间分别提取行为特征,实现对用户web访问行为的刻画。主要分为以下几个过程:

10、步骤2.1:会话内行为特征提取:如果会话序列中包括多条web会话,则求下列特征的均值;

11、步骤2.1.1:使用cookie指数:使用cookie的http请求占比;

12、步骤2.1.2:使用referer指数:包含referer信息的http请求占比;

13、步骤2.1.3:脚本使用指数:http请求记录中js资源占比;

14、步骤2.1.4:每个会话请求的资源数:该会话内访问的资源数;

15、步骤2.1.5:每个会话的资源类型复杂的指数:将请求的资源类型分为主页面、js类型、css类型、图片类型、文件类型、其他类型,统计该会话内各类资源的占比,然后根据信息熵计算复杂指数;

16、步骤2.2:会话间行为特征提取;

17、步骤2.2.1:会话间隔时间:各相邻web会话之间的时间间隔均值;

18、步骤2.2.2:会话间隔方差系数:各相邻web会话之间的时间间隔方差;

19、步骤2.2.3:访问路径深度方差:每条web会话访问的url路径深度的方差;

20、步骤2.2.4:访问页面重复率:web会话主页面的重复率;

21、步骤2.2.5:访问网站的有序性:web会话序列中host交叉访问统计情况的信息熵。

22、步骤3:基于半监督模糊综合评价法的模型训练;

23、该步骤依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,然后通过自监督迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能。主要分为以下几个过程:

24、步骤3.1:给定数据集 ,其中 代表有标签数据集,其中 为其中第i个样本,为该样本特征向量,为其标签;代表待测试的无标签数据集, 为其中第i个样本。

25、步骤3.2:在ld数据集上进行模糊综合评价法的模型训练工作,通过统计数据分布特性,自动构建模糊综合评价的隶属函数和权重。

26、步骤3.3:训练结果在ud上进行预测,得到,其中中的表示预测类别,表示将预测为的置信度。

27、步骤3.4:从pd中提取置信度高于阈值delta的样本,然后与ld合并为新的ld’替代ld。

28、步骤3.5:重复上述步骤,直到迭代到设定的最大次数n或模型预测准确率不再提升。

29、其中的步骤3.2中模糊综合评价法过程如下:

30、步骤3.2.1:建立因素集,设,其中 为第i个因素。本专利技术共十个因素分别为会话内和会话间共10个行为特征,即m=10。

31、步骤3.2.2:建立评语集,设,是评价者对被评价对象做出的各种总的评价结果组成的评语等级的集合。其中代表第j个评价结果,j=1, 2,…, n,n为总的评价结果数。本专利技术拟设计2个等级用于表示网络机器人的检测评估结果,即n=2,分别为:h、r,h表示人类用户,r表示网络机器人。

32、步骤3.2.3:对每个因素进行分箱, ,假设每个因素分为l段,则分箱 , 表示第k个因素进行分箱的结果, 表示中第i个分箱结果,其中h和r分别表示落在该分箱中的h和r样本的占比。

33、步骤3.2.4:基于分箱结果统计计算每个因素的隶属函数,对中的h、r进行归一化,得到在该分箱的隶属度。对于第k个因素,其隶属函数表示为,其中表示 中第i个分箱的隶属度。对所有因素进行如上处理,进而得到整体的隶属函数。

34、步骤3.2.5:统计计算模糊权矢量a,即每个因素的权重。通过常见的机本文档来自技高网...

【技术保护点】

1.基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤1中,Web会话识别包括以下步骤:

3.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤2中,Web访问行为特征提取包括以下步骤:

4.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤3.2中,模糊综合评价法过程如下:

5.根据权利要求4所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤4中,网络机器人行为检测包括以下步骤:

【技术特征摘要】

1.基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤1中,web会话识别包括以下步骤:

3.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:邵国林管延浩盛之硕
申请(专利权)人:南昌大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1