一种数据搜集方法及装置制造方法及图纸

技术编号:23343693 阅读:42 留言:0更新日期:2020-02-15 03:59
本申请提供了一种数据搜集方法及装置,该方案包括:获取暗网站点域名,通过域名向暗网站点发送访问请求,其中,通过预设第一样式表css路径获取暗网站点网页的meta标签,并基于meta标签确定暗网站点的最新域名。在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。将网页数据转化为符合预设格式的数据,并将数据存储至数据库。基于本申请,通过域名向暗网站点发送访问请求能够实现暗网站点的自动访问,通过预设第一样式表css路径获取暗网站点的最新域名,避免无法访问,以及基于预设第二样式表css路径实现数据的自动搜索和摘录,减少人力成本,提高在暗网中进行舆情数据搜集的效率。

A data collection method and device

【技术实现步骤摘要】
一种数据搜集方法及装置
本申请涉及互联网信息
,尤其涉及一种数据搜集方法及装置。
技术介绍
整个互联网可以划分为明网和深网,明网和深网的区别在于能否被普通的搜索引擎检索到。在深网中,还有一小部分被称为暗网,暗网站点需要特定的浏览器、特殊授权或是特殊设置才能进行访问。实时搜集暗网中相关的舆情数据,能提高企业对网络舆情的整体掌控能力和应急处置能力。目前,现有的暗网站点中舆情数据的搜集方式大部分采用的是人工进行搜集,预先架构海外服务器,并通过人工连接洋葱网络搜寻相应的暗网站点,人工注册和登陆暗网站点的账户后,进行人工的信息检索和信息录入。然而,人工搜索暗网站点,成功的概率十分小,并且人工进行信息检索和信息录入耗费大量的人力资源。综上可知,人工在暗网中进行舆情数据搜集,耗费人力资源成本太多,且效率十分低下。
技术实现思路
本申请提供了一种数据搜集方法及装置,目的在于解决现有在暗网中进行舆情数据搜集耗费大量人力资源,搜集效率低下的问题。为了实现上述目的,本申请提供了以下技术方案:本申请实施例第一方面公开了本文档来自技高网...

【技术保护点】
1.一种数据搜集方法,其特征在于,包括:/n获取暗网站点域名,通过所述域名向所述暗网站点发送访问请求,其中,通过预设第一样式表css路径获取所述暗网站点网页的meta标签,并基于所述meta标签确定所述暗网站点的最新域名;/n在登录状态为登录的情况下,基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据;/n将所述网页数据转化为符合预设格式的数据,并将所述数据存储至数据库。/n

【技术特征摘要】
1.一种数据搜集方法,其特征在于,包括:
获取暗网站点域名,通过所述域名向所述暗网站点发送访问请求,其中,通过预设第一样式表css路径获取所述暗网站点网页的meta标签,并基于所述meta标签确定所述暗网站点的最新域名;
在登录状态为登录的情况下,基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据;
将所述网页数据转化为符合预设格式的数据,并将所述数据存储至数据库。


2.根据权利要求1所述的方法,其特征在于,所述通过所述域名向所述暗网站点发送访问请求,包括:
将所述域名发送至上级节点,并接收所述上级节点反馈的网页,所述上级节点用于,通过解析所述域名得到所述暗网站点的实际地址,并依据所述实际地址获取所述暗网站点的网页;
依据所述网页的head标签中的目标参数,获取所述暗网站点的最新网址;
基于所述暗网站点的最新网址,生成符合浏览器访问请求格式的访问请求,并向所述暗网站点发送所述访问请求,其中,采用多个真实的用户UA信息作为所述访问请求中的标头Header信息。


3.根据权利要求1所述的方法,其特征在于,还包括:
在所述登录状态为未登录的情况下,判断用户状态是否为已注册且未被注销;
在所述用户状态为未注册或者被注销的情况下,基于预设第三样式表css路径,生成第一post请求,并向所述暗网站点发送所述第一post请求,使得所述用户状态更新为已注册且未被注销,所述第一post请求包括所述暗网站点的注册表单所需的数据;
在所述用户状态为已注册且未被注销的情况下,基于预设第四样式表css路径,生成第二post请求,并向所述暗网站点发送所述第二post请求,使得所述登录状态更新为登录,所述第二post请求包括所述暗网站点的登录表单所需的数据。


4.根据权利要求1所述的方法,其特征在于,所述基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据,包括:
基于预设第五样式表css路径获取所述暗网站点中各个网页链接所对应的网页信息;
基于预设第二样式表css路径获取所述网页信息中满足预设搜索条件的网页数据。


5.根据权利要求1所述的方法,其特征在于,在将所述网页数据转化为符合预设格式的数据之后,还包括:
比较所述数据的标识和数据库中存储的数据的标识;
在所述数据的标识和所述数据库中存储的数据的标识不相同的情况下,将所...

【专利技术属性】
技术研发人员:姚轶麒林颜双童将廖位明
申请(专利权)人:连连银通电子支付有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1