面向社交平台的数据采集方法与系统技术方案

技术编号:33277183 阅读:15 留言:0更新日期:2022-04-30 23:36
本发明专利技术公开了一种面向社交平台的数据采集方法,包括:1)在主机上通过模拟用户发出的浏览器访问请求获取社交平台上相关页面的Web页面数据;2)将真机或模拟器连接主机,模拟用户发出的APP访问请求,在主机上设置网络代理,拦截APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;3)将Web页面数据和APP页面数据分别进行页面解析、数据对齐融合,输出并存入数据库。本发明专利技术公开了面向社交平台的数据采集系统,包括:Web数据采集模块、APP数据采集模块和双终端数据对齐融合模块。本发明专利技术的方法与系统同时适用于Web端和APP端的社交平台数据采集,能够获得全量的社交平台数据。的社交平台数据。的社交平台数据。

【技术实现步骤摘要】
面向社交平台的数据采集方法与系统


[0001]本专利技术涉及网络数据采集
更具体地说,本专利技术涉及一种面向社交平台的数据采集方法与系统。

技术介绍

[0002]随着互联网技术的发展,网络成为新兴舆论场,新兴媒体终端和自媒体平台层出不穷。网站和APP开发技术也呈现多样性,各平台使用的页面开发技术和编程框架五花八门,没有统一的标准。新兴媒体通常没有直接暴露在外面的采集接口,对个别存在数据接口的平台通常接口权限难以申请或每日接口请求数量有上限。另一方面,在数据加载上,新媒体平台为支持富媒体页面和高效响应的需求一般采用动态异步加载的方法,简单的抓包很难获取全部的网页内容。传统的网络采集技术立足于对新闻、论坛、博客等平台的采集,这些平台的网页结构一般比较稳定,通常可以直接获取网页的源码和DOM树,但难以应用于新兴平台实现高效的数据采集。
[0003]新媒体社交平台通常在Web端和移动App端同时铺开,Web端展示相对开放的内容,如热点榜单、群组等,而App端侧重于信息交流。现有的采集方法面向Web端数据采集,不能支持对App端数据获取和网页异步数据加载的请求,对于多变的媒体很难兼容。
[0004]专利技术人在进行社交平台数据采集技术研究时,发现现有技术通常针对特定的终端平台进行分析,形成面向特定平台的数据流量获取技术,这类技术定向解决某平台的采集问题和采集需求,只能使用Web端或App端进行数据采集,无法获取全量的平台数据。

技术实现思路

[0005]本专利技术的一个目的是提供一种面向社交平台的数据采集方法与系统,通过模拟用户发出的浏览器访问请求采集Web页面数据,通过设置网络代理拦截模拟用户发出的APP访问请求获得相应HTTP/HTTPS请求,采集APP页面数据,再将Web页面数据和APP页面数据经页面解析、对齐融合后更新,获得全量的社交平台数据,本专利技术的数据采集方法同时适用于Web端和APP端的社交平台数据采集。
[0006]为了实现根据本专利技术的目的和其它优点,提供了一种面向社交平台的数据采集方法,包括以下步骤:
[0007]1)在主机上通过模拟用户发出的浏览器访问请求获取社交平台上相关页面的Web页面数据;
[0008]2)将真机或模拟器连接主机,模拟用户发出的APP访问请求,在主机上设置网络代理,拦截APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;
[0009]3)将Web页面数据和APP页面数据分别进行页面解析、数据对齐融合,输出并存入数据库。
[0010]优选的是,所述的面向社交平台的数据采集方法,步骤1)中通过Selenium模拟用
户发出的浏览器访问请求,通过参数请求子模块模拟用户对相关页面的请求参数,Selenium调用请求参数获取Web页面数据。
[0011]优选的是,所述的面向社交平台的数据采集方法,使用mitmproxy为网络代理。
[0012]优选的是,所述的面向社交平台的数据采集方法,Web页面数据和APP页面数据通过数据解析、字段提取和数据清洗进行页面解析获得相应的标准数据,再以标准数据的相关属性为标识进行数据对齐融合更新。
[0013]本专利技术还提供了一种面向社交平台的数据采集系统,包括:
[0014]Web数据采集模块,其包括:
[0015]模拟浏览器子模块,用于模拟用户发出的浏览器访问请求,以及获取社交平台上相关页面的Web页面数据;
[0016]参数请求子模块,与模拟浏览器子模块连接,参数请求子模块通过模拟浏览器子模块模拟用户的浏览器访问请求触发参数请求,模拟用户对相关页面的请求参数,模拟浏览器子模块调用请求参数获取Web页面数据;
[0017]第一页面解析子模块,与模拟浏览器子模块连接,用于对Web页面数据进行数
[0018]据解析、字段提取和数据清洗以获得Web标准数据;
[0019]APP数据采集模块,其包括:
[0020]环境配置子模块,其与主机连接,环境配置子模块为模拟器或真机,用于模拟用户发出的APP访问请求;
[0021]请求拦截子模块,与环境配置子模块连接,用于主机设置网络代理,拦截环境配置子模块模拟用户发出的APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;
[0022]第二页面解析子模块,与请求拦截子模块连接,用于对APP页面数据进行数据解析、字段提取和数据清洗以获得APP标准数据;
[0023]双终端数据对齐融合模块,与第一页面解析子模块、第二页面解析子模块连接,用于将Web标准数据与APP标准数据对齐融合,输出并存入数据库。
[0024]优选的是,所述的面向社交平台的数据采集系统,模拟浏览器子模块为Selenium。
[0025]优选的是,所述的面向社交平台的数据采集系统,使用mitmproxy为网络代理。
[0026]本专利技术至少包括以下有益效果:
[0027](1)本专利技术面向社交平台的数据采集方法与系统,能够同时适用于Web端和APP端,可以实现双终端的数据补全,获得全量的社交平台数据,同时,本专利技术提出的技术框架能够兼容不同新型终端的采集,减少反复分析网页结构带来的人力和物力开销;
[0028](2)社交平台通常包含大量的异步加载,依赖简单的收发包难以获取全部的网页信息,还需要解析JavaScript进行网页渲染,本专利技术通过Selenium可以直接模拟用户请求,获取完整的网页内容和源码,无需异步加载便能获取全部的Web页面数据;
[0029](3)对于移动端数据的采集,通常可以采用抓包的方式获取其当前的请求接口,但该接口会存在失效时限,在一定时间之后难以进行采集,本专利技术基于模拟器或真机的采集技术可以支持在线的用户授权,能够及时顺利通过接口的动态验证,保证长时间的有效采集;
[0030](4)Web端和APP端的平台数据具有各自的倾向,存在网页数据不如移动端数据齐
全或移动端数据缺失的情况,双终端采集到的数据经对齐融合后能得到一份完整的社交平台数据。
[0031]本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。
附图说明
[0032]图1是本专利技术一个技术方案中面向社交平台的数据采集系统的框架结构示意图。
具体实施方式
[0033]下面结合实施例和附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0034]应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
[0035]需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。
[0036]一种面向社交平台的数据采集方法,包括以下步骤:
[0037]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向社交平台的数据采集方法,其特征在于,包括以下步骤:1)在主机上通过模拟用户发出的浏览器访问请求获取社交平台上相关页面的Web页面数据;2)将真机或模拟器连接主机,模拟用户发出的APP访问请求,在主机上设置网络代理,拦截APP访问请求获得相应的HTTP/HTTPS请求,获取社交平台上相关页面的APP页面数据;3)将Web页面数据和APP页面数据分别进行页面解析、数据对齐融合,输出并存入数据库。2.如权利要求1所述的面向社交平台的数据采集方法,其特征在于,步骤1)中通过Selenium模拟用户发出的浏览器访问请求,通过参数请求子模块模拟用户对相关页面的请求参数,Selenium调用请求参数获取Web页面数据。3.如权利要求2所述的面向社交平台的数据采集方法,其特征在于,使用mitmproxy为网络代理。4.如权利要求1所述的面向社交平台的数据采集方法,其特征在于,Web页面数据和APP页面数据通过数据解析、字段提取和数据清洗进行页面解析获得相应的标准数据,再以标准数据的相关属性为标识进行数据对齐融合更新。5.面向社交平台的数据采集系统,其特征在于,包括:Web数据采集模块,其包括:模拟浏览器子模块,用于模拟用户发出的浏览器访问请求,以及获取社交平台上相关页面的W...

【专利技术属性】
技术研发人员:张翔宇刘春阳张旭钟习史存会赵岭俞晓明刘悦沈华伟程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1