The invention provides an information acquisition method and device for collecting information, which includes the information collection method: after the application of the login page version of the list page link to obtain the application of Cookie, and use the target account published in the application of the data; according to the Cookie and the list page link access list page, and access to at least one of the content page links the list page; each content page link to download the at least one content page links in the content page. Through the technical scheme of the invention, we can simulate human behavior, collect valuable data in the mass data of application, and further improve the efficiency of information collection.
【技术实现步骤摘要】
信息采集方法和信息采集装置
本专利技术涉及信息处理
,具体而言,涉及一种信息采集方法和一种信息采集装置。
技术介绍
目前,微信有1千多万个公众账号,拥有上亿计的文章量,而且以每天上百万的速度在增长,且公众账号发布文章的数据价值较高,因此微信公众号文章的采集成为海量数据采集中必不可少的部分。采集微信公众号的文章,是指实时的获取公众号所发文章。相对于其他采集来说,微信与手机、平板等终端设备相关联,其采集方式独特,需要模拟人的行为,且会受到很严格的封禁。因此,如何模拟人的行为在微信的海量数据中采集有价值的数据,从而提高信息采集的效率成为亟待解决的问题。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的技术方案,可以模拟人的行为在应用的海量数据中采集有价值的数据,进而提高了信息采集的效率。有鉴于此,本专利技术的第一方面提出了一种信息采集方法,包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。在该技术方案中,在登录网页版的应用之后,例如,使用seleniumwebdriver工具登录网页版的应用之后,通过获取该应用的Cookie和使用目标账号在该应用上发布的数据的列表页链接,以获取列表页,然后获取该列表页中的至少一个内容页链接,最后根据至少一个内容页链接就可以获取到目标账号在应用上发布的数据,从而实现了模拟人的行为在应用的海量数据中采集有价值的数据,进而提 ...
【技术保护点】
一种信息采集方法,其特征在于,包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。
【技术特征摘要】
1.一种信息采集方法,其特征在于,包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。2.根据权利要求1所述的信息采集方法,其特征在于,根据所述Cookie和所述列表页链接获取所述列表页的步骤,还包括:若根据所述Cookie和所述列表页链接未获取到所述列表页,则重新获取所述应用的其他Cookie,以根据所述其他Cookie和所述列表页链接获取所述列表页。3.根据权利要求1所述的信息采集方法,其特征在于,还包括:对所述内容页进行解析以获取所述内容页中的内容,并将所述内容页中的内容转化为目标格式的数据。4.根据权利要求1至3中任一项所述的信息采集方法,其特征在于,还包括:在登录网页版的所述应用之后,周期性地刷新所述应用的网页。5.根据权利要求1至3中任一项所述的信息采集方法,其特征在于,所述列表页和所述内容页为JSON格式的数据。6.一种信息采集装...
【专利技术属性】
技术研发人员:张学颖,张丹,于晓明,杨建武,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。