反蜜罐技术的网络数据抓取方法及装置制造方法及图纸

技术编号:37964234 阅读:23 留言:0更新日期:2023-06-30 09:39
本发明专利技术公开一种反蜜罐技术的网络数据抓取方法及装置,应用于软件开发技术领域,包括:接收初始访问链接;通过爬虫模拟浏览器请求,由初始访问链接访问站点;接收站点返回的响应信息;确定多个能访问的链接及路径信息;使用RPA打开初始访问链接对应的站点页面;对每一能访问的链接使用RPA通过路径信息获取链接对应的句柄,确定站点页面上句柄的位置信息,对句柄进行标记;根据句柄位置信息及标记结果,确定句柄对应的链接是否为蜜罐;句柄对应的链接是蜜罐时禁止访问该链接;句柄对应的链接不是蜜罐时将该链接作为初始访问链接重复上述步骤,直至所有链接处理完成,本发明专利技术可以优化爬虫抓取网络信息的能力,避开蜜罐陷阱,采集到更多的信息。到更多的信息。到更多的信息。

【技术实现步骤摘要】
反蜜罐技术的网络数据抓取方法及装置


[0001]本专利技术涉及网络安全
,尤其涉及一种反蜜罐技术的网络数据抓取方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着互联网的发展,时至今日,各类公司厂商尤其是搜索引擎,对使用爬虫进行数据搜集的需求有增无减。爬虫经常被使用在短时间内抓取大量数据,这样可能会对目标网站造成一定的流量压力。故各个网站运营者可能会采用一些技术去防止爬虫对其进行数据采集,例如使用数据头User

Agent反爬虫机制、访问频率检验或限制、蜜罐技术等。而爬虫使用方也会针对以上技术进行对抗,例如设定Request Headers、设定随机访问频率、使用代理IP等等。
[0004]在常用的蜜罐技术里,网页上会故意留下一些人类看不到或者绝对不会点击的链接。由于爬虫会从源代码中获取内容,所以爬虫可能会访问这样的链接。这个时候,只要网站发现了有IP访问这个链接,则立刻永久封禁该IP+Us本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种反蜜罐技术的网络数据抓取方法,其特征在于,包括:接收站点的初始访问链接;通过爬虫模拟浏览器请求,由初始访问链接访问站点;接收站点返回的响应信息;根据响应信息确定多个能够访问的链接及每一能够访问的链接的路径信息;使用机器人流程自动化RPA打开初始访问链接对应的站点页面;对每一能够访问的链接,使用RPA通过路径信息获取链接对应的句柄,通过对句柄进行操作确定站点页面上句柄的位置信息,在站点页面上对句柄进行显示标记;根据句柄的位置信息及显示标记结果,确定句柄对应的链接是否为蜜罐;在句柄对应的链接是蜜罐时,禁止访问该链接;在句柄对应的链接不是蜜罐时,将该链接重新作为初始访问链接,重复上述步骤,直至所有能够访问的链接处理完成。2.如权利要求1所述的方法,其特征在于,响应信息包括HTML代码;根据响应信息确定多个能够访问的链接及每一能够访问的链接的路径信息,包括:查找HTML代码中的超链接;根据查找到的超链接,确定多个能够访问的链接及每一能够访问的链接的路径信息。3.如权利要求1所述的方法,其特征在于,通过对句柄进行操作确定站点页面上句柄的位置信息,在站点页面上对句柄进行显示标记,包括:通过对句柄进行操作确定站点页面上句柄的坐标,在站点页面上对句柄进行高亮显示。4.如权利要求3所述的方法,其特征在于,根据句柄的位置信息及显示标记结果,确定句柄对应的链接是否为蜜罐,包括:在句柄的坐标值小于等于0,或句柄无法高亮显示时,确定句柄对应的链接是蜜罐。5.一种反蜜罐技术的网络数据抓取装置,其特征在于,包括:链接接收模块,用于接收站点的初始访问链接;爬虫模块,用于通过爬虫模拟浏览器请求,由初始访问链接访问站点;响应接收模块,用于接收站点返回的响应信息;链接确定模块,用于根据...

【专利技术属性】
技术研发人员:林晨唐景峰陈艺辉廖鹭姗陈宪蔡培义施勇佳
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1