【技术实现步骤摘要】
本专利技术属于自适应网络数据获取,尤其涉及一种自适应网络数据获取方法。
技术介绍
1、随着大数据时代的到来,人们对数据的需求越来越旺盛,互联网上的公开数据,网站改版是比较频繁的,例如,很多网站十至十五天便会改版一次,一般每改版一次,都需要重新写代码以适应其网页结构。
2、当前主流网络爬虫技术获取数据主要分为以下几步:1.选择网络爬虫框架并设计网络爬虫线程池和内存池;2.设置访问代理和访问消息头,用以解决网站反扒问题;3.在网页中寻找相应的节点标签,对节点标签的内容进行解析;4.将解析后的数据进行清洗;5.将清洗后的数据保存到数据库,进行分析处理。
3、在传统网络爬虫中,针对每一个网站都需要独立开发一个网络爬虫系统,对网站数据进行解析,在解析过程中采取传统的数据统计和分析技术,挖掘不到数据深度的关联性。
4、因此,有必要提供一种新的自适应网络数据获取方法解决上述技术问题。
技术实现思路
1、本专利技术解决的技术问题是提供一种解决了传统网络爬虫不能进行深度数
...【技术保护点】
1.一种自适应网络数据获取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自适应网络数据获取方法,其特征在于:所述步骤S2中识别到的文字信息和文字坐标信息进行记录时,如果当前信息不在该页面时,则需要通过控制鼠标点击事件,让浏览器显示所需要的网页。
3.根据权利要求1所述的自适应网络数据获取方法,其特征在于:所述步骤S8中相关信息的关联性通过相关性系数表现出来的具体表现形式比具体如下:
4.根据权利要求1所述的自适应网络数据获取方法,其特征在于:所述步骤S10通过不同的图形表现形式,对分析的数据进行统计的表现形式包括散点图、
...【技术特征摘要】
1.一种自适应网络数据获取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自适应网络数据获取方法,其特征在于:所述步骤s2中识别到的文字信息和文字坐标信息进行记录时,如果当前信息不在该页面时,则需要通过控制鼠标点击事件,让浏览器显示所需要的网页。
3.根据权利要求1所述的自适应网络数据获取方法,其特征在于:所述步骤s8中相关信息的关联性通过相关性系数表现出来的具体表现形式比具体如下:
4.根据权利要求...
【专利技术属性】
技术研发人员:季飞,
申请(专利权)人:杭州蜀道科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。