一种应用商城中应用信息的抓取方法及装置制造方法及图纸

技术编号:19857884 阅读:28 留言:0更新日期:2018-12-22 11:47
本发明专利技术公开了一种应用商城中应用信息的抓取方法,所述方法包括:接收预定义的与应用商城匹配的爬虫规则,其中,所述预定义的规则中至少包括:与应用商城的标识信息相对应的爬虫标识信息、应用商城的分类列表、应用商城分类列表页面连接模式、列表页抓取配置、详情页抓取配置、抓取脚本、HTTP请求头以及爬虫工具的cookie设置中的至少一种;解析所述爬虫规则,并加载所述爬虫规则;根据所述爬虫规则对所述应用商城中的应用进行应用信息抓取。本发明专利技术实施例还提供了一种应用商城中应用信息的抓取方装置。应用本发明专利技术实施例,可以提高应用信息的采集效率。

【技术实现步骤摘要】
一种应用商城中应用信息的抓取方法及装置
本专利技术涉及一种信息的抓取方法及装置,更具体涉及一种应用商城中应用信息的抓取方法及装置。
技术介绍
随着智能手机的发展,手机应用也越来越多,如何对手机应用进行分析是亟待解决的技术问题。目前,可以通过爬虫技术来统计各个应用商店中的应用的应用信息、应用详情信息等。由于各个应用商店具有差异性,因此,在采集各个应用商店中的应用的应用信息、应用详情信息时,需要进行定制爬虫的开发,因此,现有技术存在采集效率较低的技术问题。
技术实现思路
本专利技术所要解决的技术问题在于提供了一种应用商城中应用信息的抓取方法及装置,以提高应用信息的采集效率。本专利技术是通过以下技术方案解决上述技术问题的:本专利技术实施例提供了一种应用商城中应用信息的抓取方法,所述方法包括:接收预定义的与应用商城匹配的爬虫规则,其中,所述预定义的规则中至少包括:与应用商城的标识信息相对应的爬虫标识信息、应用商城的分类列表、应用商城分类列表页面连接模式、列表页抓取配置、详情页抓取配置、抓取脚本、HTTP请求头以及爬虫工具的cookie设置中的至少一种;解析所述爬虫规则,并加载所述爬虫规则;根据所述爬虫规则对所述应用商城中的应用进行应用信息抓取。可选的,所述根据所述爬虫规则对所述应用商城中的应用进行应用信息抓取,包括:获取应用商城的分类列表,并对所述应用商城的分类列表中的每一个分类,获取每一个分类的首页地址,将分类列表中的一个分类作为当前分类,进而获取当前分类下的应用信息;判断是否存在还未进行应用信息抓取的分类;若是,将所述分类列表中除所述当前分类之外的其他分类作为当前分类,并返回执行所述获取当前分类下的应用信息的步骤,直至所述分类列表中所有的分类下的应用信息都被采集。可选的,所述获取当前分类下的应用信息,包括:获取当前分类下的列表页面链接,进而将获取列表页作为当前分类下的当前列表页;判断所述当前列表页是否有效;若是,获取所述当前列表页中所包含的应用信息,并将所述当前列表页的下一列表页作为当前列表页,获取所述当前列表页中所包含的应用信息,直至当前分类下所由的列表页中的应用信息都被抓取;若否,将所述当前列表页的下一列表页作为当前列表页,并返回执行所述判断所述当前列表页是否有效的步骤,直至当前分类下所由的列表页中的应用信息都被抓取。可选的,所述获取所述当前列表页中所包含的应用信息,包括:在获取所述当前列表页中所包含的应用信息时,判断所述爬虫规则中是否定义了抓取应用详情的规则;若是,获取所述当前列表页中所包含的应用详情。本专利技术实施例还提供了一种应用商城中应用信息的抓取装置,所述装置包括:接收模块,用于接收预定义的与应用商城匹配的爬虫规则,其中,所述预定义的规则中至少包括:与应用商城的标识信息相对应的爬虫标识信息、应用商城的分类列表、应用商城分类列表页面连接模式、列表页抓取配置、详情页抓取配置、抓取脚本、HTTP请求头以及爬虫工具的cookie设置中的至少一种;解析模块,用于解析所述爬虫规则,并加载所述爬虫规则;抓取模块,用于根据所述爬虫规则对所述应用商城中的应用进行应用信息抓取。可选的,所述抓取模块,还用于:获取应用商城的分类列表,并对所述应用商城的分类列表中的每一个分类,获取每一个分类的首页地址,将分类列表中的一个分类作为当前分类,进而获取当前分类下的应用信息;判断是否存在还未进行应用信息抓取的分类;若是,将所述分类列表中除所述当前分类之外的其他分类作为当前分类,并返回执行所述获取当前分类下的应用信息的步骤,直至所述分类列表中所有的分类下的应用信息都被采集。可选的,所述抓取模块,还用于:获取当前分类下的列表页面链接,进而将获取列表页作为当前分类下的当前列表页;判断所述当前列表页是否有效;若是,获取所述当前列表页中所包含的应用信息,并将所述当前列表页的下一列表页作为当前列表页,获取所述当前列表页中所包含的应用信息,直至当前分类下所由的列表页中的应用信息都被抓取;若否,将所述当前列表页的下一列表页作为当前列表页,并返回执行所述判断所述当前列表页是否有效的步骤,直至当前分类下所由的列表页中的应用信息都被抓取。可选的,所述抓取模块,还用于:在获取所述当前列表页中所包含的应用信息时,判断所述爬虫规则中是否定义了抓取应用详情的规则;若是,获取所述当前列表页中所包含的应用详情。本专利技术相比现有技术具有以下优点:应用本专利技术实施例,使用一种可适配兼容现网主流应用商城的语法规则,基于该语法规则针对各应用商城定义不同的爬虫规则,在进行爬虫采集时仅需要进行针对性的规则配置即可,相对于现有技术中需要进行定制爬虫的开发,可以提高采集效率。附图说明图1为本专利技术实施例提供的一种应用商城中应用信息的抓取方法的流程示意图;图2为本专利技术实施例提供的一种应用商城中应用信息的抓取装置的结构示意图。具体实施方式下面对本专利技术的实施例作详细说明,本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本专利技术实施例提供了一种应用商城中应用信息的抓取方法及装置,下面首先就本专利技术实施例提供的一种应用商城中应用信息的抓取方法进行介绍。图1为本专利技术实施例提供的一种应用商城中应用信息的抓取方法的流程示意图,如图1所示,所述方法包括:S101:接收预定义的与应用商城匹配的爬虫规则,其中,所述预定义的规则中至少包括:与应用商城的标识信息相对应的爬虫标识信息、应用商城的分类列表、应用商城分类列表页面连接模式、列表页抓取配置、详情页抓取配置、抓取脚本、HTTP(HyperTextTransferProtocol,超文本传输协议)请求头以及爬虫工具的cookie(为了辨别用户身份而存储在用户终端上的数据)设置中的至少一种。表1为本专利技术实施例提供的爬虫规则的汇总表,如表1所示:表1为了对本专利技术实施例进行充分说明,下面以华为的手机应用商城为例对本专利技术实施例的实施过程进行说明。1)、listSeed和categories是用来确定分类列表页面的请求地址的,其中,listSeed定义的是列表页请求地址的模式,里面定义了些可替换的变量。本商城分类列表中的变量有categories[0],对应一级分类,也就是手机应用是属于功能应用(soft)还是游戏应用(game);categories[1],对应二级分类,例如功能应用中含有的影音娱乐应用,标识符为23;实用工具应用,标识符为24;金融理财应用,标识符为25以及其他的应用等。在本专利技术实施例中将前述二级分类作为应用信息采集的分类。可以理解的是,应用商城中手机应用的分类可以仅有一级分类,也可以具有二级分类,也可以具有二级以上的分类,本专利技术实施例在此并不对其作出限定。2)、列表页内容抓取的规则在listExtraction中定义,其中,可以包含selector规则,即遍历具有预设属性的类,例如,遍历并获取页面中所有的类中的应用中,其div元素(隔离标记)含有game-info(应用资料)的应用信息。规则listExtraction中还可以包含data规则,其作用是,配置每一个变量应该怎么页面中的信息来源。3)、infoExtraction,详情页内容抓取,如果我们从列表页中已经获得了足够多的应用本文档来自技高网...

【技术保护点】
1.一种应用商城中应用信息的抓取方法,其特征在于,所述方法包括:接收预定义的与应用商城匹配的爬虫规则,其中,所述预定义的规则中至少包括:与应用商城的标识信息相对应的爬虫标识信息、应用商城的分类列表、应用商城分类列表页面连接模式、列表页抓取配置、详情页抓取配置、抓取脚本、HTTP请求头以及爬虫工具的cookie设置中的至少一种;解析所述爬虫规则,并加载所述爬虫规则;根据所述爬虫规则对所述应用商城中的应用进行应用信息抓取。

【技术特征摘要】
1.一种应用商城中应用信息的抓取方法,其特征在于,所述方法包括:接收预定义的与应用商城匹配的爬虫规则,其中,所述预定义的规则中至少包括:与应用商城的标识信息相对应的爬虫标识信息、应用商城的分类列表、应用商城分类列表页面连接模式、列表页抓取配置、详情页抓取配置、抓取脚本、HTTP请求头以及爬虫工具的cookie设置中的至少一种;解析所述爬虫规则,并加载所述爬虫规则;根据所述爬虫规则对所述应用商城中的应用进行应用信息抓取。2.根据权利要求1所述的一种应用商城中应用信息的抓取方法,其特征在于,所述根据所述爬虫规则对所述应用商城中的应用进行应用信息抓取,包括:获取应用商城的分类列表,并对所述应用商城的分类列表中的每一个分类,获取每一个分类的首页地址,将分类列表中的一个分类作为当前分类,进而获取当前分类下的应用信息;判断是否存在还未进行应用信息抓取的分类;若是,将所述分类列表中除所述当前分类之外的其他分类作为当前分类,并返回执行所述获取当前分类下的应用信息的步骤,直至所述分类列表中所有的分类下的应用信息都被采集。3.根据权利要求2所述的一种应用商城中应用信息的抓取方法,其特征在于,所述获取当前分类下的应用信息,包括:获取当前分类下的列表页面链接,进而将获取列表页作为当前分类下的当前列表页;判断所述当前列表页是否有效;若是,获取所述当前列表页中所包含的应用信息,并将所述当前列表页的下一列表页作为当前列表页,获取所述当前列表页中所包含的应用信息,直至当前分类下所由的列表页中的应用信息都被抓取;若否,将所述当前列表页的下一列表页作为当前列表页,并返回执行所述判断所述当前列表页是否有效的步骤,直至当前分类下所由的列表页中的应用信息都被抓取。4.根据权利要求3所述的一种应用商城中应用信息的抓取方法,其特征在于,所述获取所述当前列表页中所包含的应用信息,包括:在获取所述当前列表页中所包含的应用信息时,判断所述爬虫规则中是否定义了抓取应用详情的规则;若是,获取所述当前列表...

【专利技术属性】
技术研发人员:阳雄
申请(专利权)人:安徽捷兴信息安全技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1