【技术实现步骤摘要】
基于社交关系网络的爬虫方法及装置
本专利技术涉及网络爬虫领域,尤其涉及一种基于社交关系网络的爬虫方法及装置。
技术介绍
随着移动互联网的普及,同时随着人们的需求日益增加,网络信息呈指数增长,人们认识到了信息的重要性,而在当下这个网络时代,信息的网络化使得人们对于信息的收集和使用变得更加便捷,但是如何有效地提取和利用这些信息面临巨大挑战。在这样的背景下,诞生了网络爬虫技术。随着科技的快速发展,各行各业的发展都离不开数据的支撑。由于不同的人群,不同的领域所需要的数据不同且网络信息更新快,为了满足一些选定人群对选定领域数据的需求,应对网络信息更新快的特点,网络爬虫需要定期去抓取选定网站的数据,因此诞生了聚焦网络爬虫和增量式网络爬虫。聚焦网络爬虫又称主题网络爬虫,它的主要特点是有选择性的抓取与主题相关的网页信息。增量式网络爬虫的主要特点是根据已经获取到的数据去抓取新产生或已更新的网页信息。聚焦网络爬虫的关键是有选择性的抓取与某一选定主题内容相关的网页。由于网络数据量大,大部分门户网站不会显示全部的数据信息,通过关键词 ...
【技术保护点】
1.一种基于社交关系网络的爬虫方法,用于对选定的门户网站上的选定信息进行采集,其特征在于,所述方法包括:/n步骤1)以用户之间的关联关系即社交关系网络作为采集时爬虫的链接;/n其中,获取选定用户,通过代理IP访问应用程序编程接口API的方式获取选定用户关联的其他用户,抓取关联的其他用户的用户数据,将获取的其他用户作为新的选定用户重复上述其他用户的获取以及用户数据的抓取操作,以获取选定的门户网站的社交关系网络,并将所述社交关系网络作为采集时爬虫的链接;/n其中,社交关系网络由用户信息和用户之间的关注信息构成,用户信息包括用户的ID、登录名、名字和关注度,用户之间的关注信息包括 ...
【技术特征摘要】
1.一种基于社交关系网络的爬虫方法,用于对选定的门户网站上的选定信息进行采集,其特征在于,所述方法包括:
步骤1)以用户之间的关联关系即社交关系网络作为采集时爬虫的链接;
其中,获取选定用户,通过代理IP访问应用程序编程接口API的方式获取选定用户关联的其他用户,抓取关联的其他用户的用户数据,将获取的其他用户作为新的选定用户重复上述其他用户的获取以及用户数据的抓取操作,以获取选定的门户网站的社交关系网络,并将所述社交关系网络作为采集时爬虫的链接;
其中,社交关系网络由用户信息和用户之间的关注信息构成,用户信息包括用户的ID、登录名、名字和关注度,用户之间的关注信息包括每一个用户关注的用户和关注每一个用户的用户,通过选定用户获取所述社交关系网络;
其中,以社交关系网络作为采集时爬虫的链接包括:对于选定用户,利用选定用户抓取其发布或共享的所有数据,基于选定信息对抓取到的数据进行筛选,再利用筛选后的抓取到的数据作为索引去抓取下一级的数据,对抓取到的下一级的数据再次筛选以再次获取索引以重复下一级的数据的抓取,在获取所有索引后,采用分布式方式通过获取的所有索引执行数据的抓取;
步骤2)基于上述爬虫的链接,通过访问应用程序编程接口API的方式采集社交关系网络中每一个用户发布的数据。
2.如权利要求1所述的基于社交关系网络的爬虫方法,其特征在于:
步骤2)还包括增量爬取数据:基于上述爬虫的链接,通过访问应用程序编程接口API的方式,根据数据的发布时间采集社交关系网络中每一个用户最新发布或更新的数据。
3.如权利要求2所述的基于社交关系网络的爬虫方法,其特征在于:
选定用户为关注度高的用户或人为筛选的用户,在采集之前被存入数据库中,选定用户是一个或多个。
4.如权利要求3所述的基于社交关系网络的爬虫方法,其特征在于:
用分布式方式通过获取的所有索引执行数据的抓取包括:通过索引表将执行数据抓取的不同机器处建立连接,每一台机器从索引表中读取其负责抓取的数据并标记为抓取中,然后执行相应数据的抓取。
5.一种基于社交关系网络的爬虫装置,用于对选...
【专利技术属性】
技术研发人员:田伟丽,闫卫杰,余徐勇,
申请(专利权)人:北京关键科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。