信息采集方法和信息采集装置制造方法及图纸

技术编号:17162145 阅读:25 留言:0更新日期:2018-02-01 20:25
本发明专利技术提出了一种信息采集方法和信息采集装置,其中,所述信息采集方法包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。通过本发明专利技术的技术方案,可以模拟人的行为在应用的海量数据中采集有价值的数据,进而提高了信息采集的效率。

Information collection method and information collection device

The invention provides an information acquisition method and device for collecting information, which includes the information collection method: after the application of the login page version of the list page link to obtain the application of Cookie, and use the target account published in the application of the data; according to the Cookie and the list page link access list page, and access to at least one of the content page links the list page; each content page link to download the at least one content page links in the content page. Through the technical scheme of the invention, we can simulate human behavior, collect valuable data in the mass data of application, and further improve the efficiency of information collection.

【技术实现步骤摘要】
信息采集方法和信息采集装置
本专利技术涉及信息处理
,具体而言,涉及一种信息采集方法和一种信息采集装置。
技术介绍
目前,微信有1千多万个公众账号,拥有上亿计的文章量,而且以每天上百万的速度在增长,且公众账号发布文章的数据价值较高,因此微信公众号文章的采集成为海量数据采集中必不可少的部分。采集微信公众号的文章,是指实时的获取公众号所发文章。相对于其他采集来说,微信与手机、平板等终端设备相关联,其采集方式独特,需要模拟人的行为,且会受到很严格的封禁。因此,如何模拟人的行为在微信的海量数据中采集有价值的数据,从而提高信息采集的效率成为亟待解决的问题。
技术实现思路
本专利技术正是基于上述问题,提出了一种新的技术方案,可以模拟人的行为在应用的海量数据中采集有价值的数据,进而提高了信息采集的效率。有鉴于此,本专利技术的第一方面提出了一种信息采集方法,包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。在该技术方案中,在登录网页版的应用之后,例如,使用seleniumwebdriver工具登录网页版的应用之后,通过获取该应用的Cookie和使用目标账号在该应用上发布的数据的列表页链接,以获取列表页,然后获取该列表页中的至少一个内容页链接,最后根据至少一个内容页链接就可以获取到目标账号在应用上发布的数据,从而实现了模拟人的行为在应用的海量数据中采集有价值的数据,进而提高了信息采集的效率。例如,使用seleniumwebdriver登录网页版的微信之后,获取微信的Cookie和使用目标公众账号为“北京”发布的文章的列表页链接,根据Cookie和列表页链接获取列表页,在列表页中有文章标题为“北京5日游攻略”、“在北京必去的10大旅游胜地”、“北京美食集锦”。对列表页进行解析以获取到列表页中的内容页链接,即获取到访问“北京5日游攻略”、“在北京必去的10大旅游胜地”、“北京美食集锦”这几篇文章内容的链接,最后根据这几篇文章内容的链接就可以获取到这几篇文章的内容。在上述技术方案中,优选地,根据所述Cookie和所述列表页链接获取所述列表页的步骤,还包括:若根据所述Cookie和所述列表页链接未获取到所述列表页,则重新获取所述应用的其他Cookie,以根据所述其他Cookie和所述列表页链接获取所述列表页。在该技术方案中,由于应用的Cookie具有一定的时效性,若根据Cookie和列表页链接无法获取到列表页,说明Cookie是无效的,则重新获取其他Cookie,从而根据其他Cookie和列表页链接获取到列表页。在上述任一技术方案中,优选地,还包括:对所述内容页进行解析以获取所述内容页中的内容,并将所述内容页中的内容转化为目标格式的数据。在该技术方案中,通过提取内容页中的各项内容,并将内容页中的各项内容转化为统一的目标格式的数据进行保存,例如,转化为TXT或WORD格式的纯文本数据,从而方便对下载的内容页的内容进行统一管理。在上述任一技术方案中,优选地,还包括:在登录网页版的所述应用之后,周期性地刷新所述应用的网页。在该技术方案中,由于长时间不操作应用,应用处于掉线状态或者退出登录的状态,则通过周期性地刷新应用的网络,以保证网页版的应用处于在线状态,避免了在应用掉线之后重新登录应用。在上述任一技术方案中,优选地,所述列表页和所述内容页为JSON格式的数据。在该技术方案中,获取的列表页和内容页为JSON格式的数据,从而根据JSON库对列表页和内容页进行解析即可获取到列表页中的至少一个内容页链接、和内容页中的内容。本专利技术的第二方面提出了一种信息采集装置,包括:第一获取单元,用于在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;第二获取单元,用于根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载单元,用于下载所述至少一个内容页链接中的每个内容页链接对应的内容页。在该技术方案中,在登录网页版的应用之后,例如,使用seleniumwebdriver工具登录网页版的应用之后,通过获取该应用的Cookie和使用目标账号在该应用上发布的数据的列表页链接,以获取列表页,然后获取该列表页中的至少一个内容页链接,最后根据至少一个内容页链接就可以获取到目标账号在应用上发布的数据,从而实现了模拟人的行为在应用的海量数据中采集有价值的数据,进而提高了信息采集的效率。例如,使用seleniumwebdriver登录网页版的微信之后,获取微信的Cookie和使用目标公众账号为“北京”发布的文章的列表页链接,根据Cookie和列表页链接获取列表页,在列表页中有文章标题为“北京5日游攻略”、“在北京必去的10大旅游胜地”、“北京美食集锦”。对列表页进行解析以获取到列表页中的内容页链接,即获取到访问“北京5日游攻略”、“在北京必去的10大旅游胜地”、“北京美食集锦”这几篇文章内容的链接,最后根据这几篇文章内容的链接就可以获取到这几篇文章的内容。在上述技术方案中,优选地,还包括:第三获取单元,若根据所述Cookie和所述列表页链接未获取到所述列表页,则重新获取所述应用的其他Cookie,以根据所述其他Cookie和所述列表页链接获取所述列表页。在该技术方案中,由于应用的Cookie具有一定的时效性,若根据Cookie和列表页链接无法获取到列表页,说明Cookie是无效的,则重新获取其他Cookie,从而根据其他Cookie和列表页链接获取到列表页。在上述任一技术方案中,优选地,还包括:转换单元,用于对所述内容页进行解析以获取所述内容页中的内容,并将所述内容页中的内容转化为目标格式的数据。在该技术方案中,通过提取内容页中的各项内容,并将内容页中的各项内容转化为统一的目标格式的数据进行保存,例如,转化为TXT或WORD格式的纯文本数据,从而方便对下载的内容页的内容进行统一管理。在上述任一技术方案中,优选地,还包括:刷新单元,用于在登录网页版的所述应用之后,周期性地刷新所述应用的网页。在该技术方案中,由于长时间不操作应用,应用处于掉线状态或者退出登录的状态,则通过周期性地刷新应用的网络,以保证网页版的应用处于在线状态,避免了在应用掉线之后重新登录应用。在上述任一技术方案中,优选地,所述列表页和所述内容页为JSON格式的数据。在该技术方案中,获取的列表页和内容页为JSON格式的数据,从而根据JSON库对列表页和内容页进行解析即可获取到列表页中的至少一个内容页链接、和内容页中的内容。通过本专利技术的技术方案,可以模拟人的行为在应用的海量数据中采集有价值的数据,进而提高了信息采集的效率。附图说明图1示出了根据本专利技术的一个实施例的信息采集方法的流程示意图;图2示出了根据本专利技术的另一个实施例的信息采集方法的流程示意图;图3示出了根据本专利技术的一个实施例的信息采集装置的结构示意图;图4示出了根据本专利技术的另一个实施例的信息采集装置的结构示意图。具体实施方式为了可以更清楚地理解本专利技术的上述目的、特本文档来自技高网...
信息采集方法和信息采集装置

【技术保护点】
一种信息采集方法,其特征在于,包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。

【技术特征摘要】
1.一种信息采集方法,其特征在于,包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。2.根据权利要求1所述的信息采集方法,其特征在于,根据所述Cookie和所述列表页链接获取所述列表页的步骤,还包括:若根据所述Cookie和所述列表页链接未获取到所述列表页,则重新获取所述应用的其他Cookie,以根据所述其他Cookie和所述列表页链接获取所述列表页。3.根据权利要求1所述的信息采集方法,其特征在于,还包括:对所述内容页进行解析以获取所述内容页中的内容,并将所述内容页中的内容转化为目标格式的数据。4.根据权利要求1至3中任一项所述的信息采集方法,其特征在于,还包括:在登录网页版的所述应用之后,周期性地刷新所述应用的网页。5.根据权利要求1至3中任一项所述的信息采集方法,其特征在于,所述列表页和所述内容页为JSON格式的数据。6.一种信息采集装...

【专利技术属性】
技术研发人员:张学颖张丹于晓明杨建武
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1