数据获取方法及设备技术

技术编号：20978525 阅读：41 留言：0更新日期：2019-04-29 18:41

本公开提供一种数据获取方法及设备，涉及电子信息技术领域，能够解决因为无法区分用户登陆前后的页面内容，使得漏洞检测存在漏检的问题。具体技术方案为：获取目标页面的URL和用户认证信息，用户认证信息用于指示目标用户登陆目标页面的认证信息；根据目标页面的URL，调用爬虫脚本获取目标页面的登陆前页面内容；根据目标页面的URL以及用户认证信息，调用爬虫脚本获取目标页面的登陆后页面内容；根据登陆前页面内容和登陆后页面内容获取差异内容。本公开用于获取页面登陆前后的差异内容。

Data Acquisition Method and Equipment

The present disclosure provides a data acquisition method and device, which relates to the field of electronic information technology, and can solve the problem of leak detection due to the inability to distinguish the content of pages before and after user login. Specific technical solutions are as follows: to obtain the URL of the target page and user authentication information, which is used to indicate the authentication information of the target user landing on the target page; to call the crawler script to get the content of the target page before landing according to the URL of the target page; to call the crawler script to get the content of the target page after landing according to the URL of the target page and the user authentication information; and to call the crawler script to get the content of the target page after landing. Content: Get different content according to the content of the page before landing and the content of the page after landing. The present disclosure is used to obtain differentiated content before and after page landing.

全部详细技术资料下载

【技术实现步骤摘要】
数据获取方法及设备
本公开涉及电子信息
，尤其涉及数据获取方法及设备。
技术介绍
在Web(英文：WorldWideWeb，全球广域网)页面的漏洞扫描过程中，因其通常为B/S架构，通过爬虫脚本获取被检测页面的信息通常是依靠读取HTTP(英文：HyperTextTransferProtocol，超文本传输协议)响应包，无法区分哪些是用户登陆前内容，哪些是用户登陆后内容。但随着互联网技术的进步，新的Web相关技术不断被应用，更多的安全问题暴露在登陆后的接口中，这使得漏洞检测存在漏检的问题。
技术实现思路
本公开实施例提供一种数据获取方法及设备，能够解决因为无法区分用户登陆前后的页面内容，使得漏洞检测存在漏检的问题。技术方案如下：根据本公开实施例的第一方面，提供一种数据获取方法，该方法包括：获取目标页面的统一资源定位符URL和用户认证信息，用户认证信息用于指示目标用户登陆目标页面的认证信息；根据目标页面的URL，调用爬虫脚本获取目标页面的登陆前页面内容，登陆前页面内容用于指示在目标用户登陆之前，目标页面的显示内容；根据目标页面的URL以及用户认证信息，调用爬虫脚本获取...

【技术保护点】
1.一种数据获取方法，其特征在于，所述方法包括：获取目标页面的统一资源定位符URL和用户认证信息，所述用户认证信息用于指示目标用户登陆所述目标页面的认证信息；根据所述目标页面的URL，调用爬虫脚本获取所述目标页面的登陆前页面内容，所述登陆前页面内容用于指示在所述目标用户登陆之前，所述目标页面的显示内容；根据所述目标页面的URL以及所述用户认证信息，调用爬虫脚本获取所述目标页面的登陆后页面内容，所述登陆后页面内容用于指示在所述目标用户登陆之后，所述目标页面的显示内容；根据所述登陆前页面内容和所述登陆后页面内容获取差异内容，所述目标页面的差异内容用于指示所述登陆前页面内容和所述登陆后页面内容有差异...

【技术特征摘要】
1.一种数据获取方法，其特征在于，所述方法包括：获取目标页面的统一资源定位符URL和用户认证信息，所述用户认证信息用于指示目标用户登陆所述目标页面的认证信息；根据所述目标页面的URL，调用爬虫脚本获取所述目标页面的登陆前页面内容，所述登陆前页面内容用于指示在所述目标用户登陆之前，所述目标页面的显示内容；根据所述目标页面的URL以及所述用户认证信息，调用爬虫脚本获取所述目标页面的登陆后页面内容，所述登陆后页面内容用于指示在所述目标用户登陆之后，所述目标页面的显示内容；根据所述登陆前页面内容和所述登陆后页面内容获取差异内容，所述目标页面的差异内容用于指示所述登陆前页面内容和所述登陆后页面内容有差异的内容。2.根据权利要求1所述的方法，其特征在于，所述目标页面的URL包括初始URL，获取目标页面的统一资源定位符URL，包括：将所述初始URL加入所述爬虫脚本的队列中；执行所述爬虫脚本的程序，并获取第一请求结果；对所述第一请求结果进行解析，并获取第一URL，所述目标页面的URL包括所述第一URL。3.根据权利要求1所述的方法，其特征在于，根据所述目标页面的URL，调用爬虫脚本获取所述目标页面的登陆前页面内容，包括：根据所述目标页面的URL，向至少一个服务器发送请求信息；接收所述至少一个服务器返回的页面内容，并得到所述目标页面的登陆前页面内容。4.根据权利要求1所述的方法，其特征在于，所述登陆前页面内容用于指示所述登陆前页面的超文本标记语言文档对象模型HTMLDOM树结构。5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：对所述目标页面的差异内容进行漏洞检测。6.一种电子设备，其特征在于，所述电子设备包括：获取模块、第一爬虫模块、第二爬虫模块和差异模块；其中，所述获取模块，用于获取目标页...

【专利技术属性】
技术研发人员：李鹏轩，马坤，童小敏，
申请(专利权)人：西安四叶草信息技术有限公司，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人