一种自适应网络数据获取方法技术

技术编号：42877908 阅读：18 留言：0更新日期：2024-09-30 15:02

本发明专利技术提供一种自适应网络数据获取方法。所述自适应网络数据获取方法包括：以下步骤：S1.在获取网站数据时，采用浏览器加载的方式直接获取网页信息，并将这个网页信息加载到自适应网络数据获取应用中；S2.通过OpenCV图像识别算法，将当前网页的信息进行文字信息识别。本发明专利技术提供的自适应网络数据获取方法解决了传统网络爬虫不能进行深度数据关联性分析的问题以及解决了通过当前获取到的数据对后续将要发生的事件进行预测的问题，同时本发明专利技术还可以通过图形和直接数据获取的方式避免了采用获取标签的方式获取内容，这样就能满足网络数据获取的自动适配以及通过直接浏览器获取数据，避免了网站反扒技术的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自适应网络数据获取，尤其涉及一种自适应网络数据获取方法。

技术介绍

1、随着大数据时代的到来，人们对数据的需求越来越旺盛，互联网上的公开数据，网站改版是比较频繁的，例如，很多网站十至十五天便会改版一次，一般每改版一次，都需要重新写代码以适应其网页结构。

2、当前主流网络爬虫技术获取数据主要分为以下几步：1.选择网络爬虫框架并设计网络爬虫线程池和内存池；2.设置访问代理和访问消息头，用以解决网站反扒问题；3.在网页中寻找相应的节点标签，对节点标签的内容进行解析；4.将解析后的数据进行清洗；5.将清洗后的数据保存到数据库，进行分析处理。

3、在传统网络爬虫中，针对每一个网站都需要独立开发一个网络爬虫系统，对网站数据进行解析，在解析过程中采取传统的数据统计和分析技术，挖掘不到数据深度的关联性。

4、因此，有必要提供一种新的自适应网络数据获取方法解决上述技术问题。

技术实现思路

1、本专利技术解决的技术问题是提供一种解决了传统网络爬虫不能进行深度数...

【技术保护点】

1.一种自适应网络数据获取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自适应网络数据获取方法，其特征在于：所述步骤S2中识别到的文字信息和文字坐标信息进行记录时，如果当前信息不在该页面时，则需要通过控制鼠标点击事件，让浏览器显示所需要的网页。

3.根据权利要求1所述的自适应网络数据获取方法，其特征在于：所述步骤S8中相关信息的关联性通过相关性系数表现出来的具体表现形式比具体如下：

4.根据权利要求1所述的自适应网络数据获取方法，其特征在于：所述步骤S10通过不同的图形表现形式，对分析的数据进行统计的表现形式包括散点图、关联图、折线图和箱型...

【技术特征摘要】

1.一种自适应网络数据获取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自适应网络数据获取方法，其特征在于：所述步骤s2中识别到的文字信息和文字坐标信息进行记录时，如果当前信息不在该页面时，则需要通过控制鼠标点击事件，让浏览器显示所需要的网页。

3.根据权利要求1所述的自适应网络数据获取方法，其特征在于：所述步骤s8中相关信息的关联性通过相关性系数表现出来的具体表现形式比具体如下：

4.根据权利要求...

【专利技术属性】
技术研发人员：季飞，
申请(专利权)人：杭州蜀道科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人