【技术实现步骤摘要】
基于应用接口的爬虫方法、终端及存储介质
本专利技术实施例涉及信息安全领域,特别涉及一种基于应用接口的爬虫方法、终端及存储介质。
技术介绍
随着信息社会的快速发展,各个领域中的数据越来越多,为获取有用信息,目前常常通过网络爬虫技术来爬取有用数据,爬虫技术可以自动对web网页中的数据进行爬取,减少了人力的消耗,提高了数据爬取的效率。爬虫技术从web网页中获取数据时,首先模拟请求的url,给服务器发送请求,并在获得响应后得到web页面展示数据,再后利用xpath,bs4等解析技术提取到对应有价值的数据,完成网页数据的获取。专利技术人发现相关技术中至少存在如下问题:从网页中获取所需的数据稳定性较差,若web网页的样式发生改变,则提取的数据的位置同样发生改变,若利用爬虫技术的原设置中的解析技术则无法提取到准确的数据,需要投入大量的时间对其进行适应性调整及维护。
技术实现思路
本专利技术实施例的目的在于提供一种基于应用接口的爬虫方法、终端及存储介质,从而更加稳定的获取数据,并且降低维护所需花费的时间。 ...
【技术保护点】
1.一种基于应用接口的爬虫方法,其特征在于,包括:/n根据待获取的数据确定目标应用接口;/n调用所述目标应用接口建立数据交互通道;/n利用爬虫技术采集所述数据交互通道中的第一数据包,并在所述第一数据包中获取所述待获取的数据。/n
【技术特征摘要】
1.一种基于应用接口的爬虫方法,其特征在于,包括:
根据待获取的数据确定目标应用接口;
调用所述目标应用接口建立数据交互通道;
利用爬虫技术采集所述数据交互通道中的第一数据包,并在所述第一数据包中获取所述待获取的数据。
2.根据权利要求1所述的基于应用接口的爬虫方法,其特征在于,在所述根据待获取的数据确定目标应用接口之前,还包括:
获取应用中若干个应用接口在交互过程中产生的第二数据包;
所述根据待获取的数据确定目标应用接口,包括:
根据所述第二数据包中包含的数据和所述待获取的数据的比对结果,在所述若干个应用接口中确定目标应用接口。
3.根据权利要求2所述的基于应用接口的爬虫方法,其特征在于,在所述获取应用中若干个应用接口在交互过程中产生的第二数据包之后,还包括:
判断所述第二数据包是否为加密数据包;
若是,则对所述加密数据包进行解密;
所述根据所述第二数据包中包含的数据和所述待获取的数据的比对结果,在所述若干个应用接口中确定目标应用接口,包括:
根据所述解密后的所述加密数据包中的数据和所述待获取的数据的比对结果,在所述若干个应用接口中确定目标应用接口。
4.根据权利要求3所述的基于应用接口的爬虫方法,其特征在于,所述对所述加密数据包进行解密,包括:
通过对所述应用的源码进行逆向分析得到解密算法;
根据所述解密算法对所述加密数据包进行解密。
5.根据权利要求2所述的基于应用接口的爬虫方法,其特征在于,在所述获取应用中若干个应用接口在交互过程中产生的第...
【专利技术属性】
技术研发人员:郑忠斌,王朝栋,彭新,张雪帆,
申请(专利权)人:工业互联网创新中心上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。