【技术实现步骤摘要】
下载APK的去重方法及装置
本专利技术涉及一种下载APK的去重方法及装置,尤其涉及一种应用于爬虫系统的APK下载去重的方法及装置。
技术介绍
为了满足用户各应用搜索需求,应用搜索引擎需要及时收集海量的应用样本进行数据分析和供用户下载。在应用搜索引擎中,爬虫系统需要快速收集海量的、来自不同应用商店APK文件,然而,不同应用商店中存在大量重复的APK文件,其会严重影响应用搜索引擎的搜索效率、推荐质量;并且,对于手机安全检测而言,大量重复的APK文件会降低安全检测的时效性;另外,大量重复APK文件的下载需要额外耗费大量的带宽和存储,造成大量的资金浪费。
技术实现思路
本专利技术的目的之一在于提供一种下载APK的去重方法及装置。 为实现上述专利技术目的之一,本专利技术一实施方式提供了一种下载APK的去重方法,其包括: S1、获取外部服务器中待下载APK的部分信息; S2、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集; S3、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若发现与所述待下载APK相同特征集的本地APK,则不再下载所述待下载APK的全部内容。 作为本专利技术的进一步改进,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。 为实现上述专利技术目的之一,本专利技术一实施方式提供了一种下载APK的去重方法,其包括: S1、获取外部服务器中待下载APK的部分信息,所述部分信息包括所述待下载APK的MF文件; S2、计算所 ...
【技术保护点】
一种下载APK的去重方法,其特征在于,所述方法包括:S1、获取外部服务器中待下载APK的部分信息;S2、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集;S3、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若发现与所述待下载APK相同特征集的本地APK,则不再下载所述待下载APK的全部内容。
【技术特征摘要】
1.一种下载APK的去重方法,其特征在于,所述方法包括: 51、获取外部服务器中待下载APK的部分信息; 52、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集; 53、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若发现与所述待下载APK相同特征集的本地APK,则不再下载所述待下载APK的全部内容。2.根据权利要求1所述的下载APK的去重方法,其特征在于,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。3.一种下载APK的去重方法,其特征在于,所述方法包括: 51、获取外部服务器中待下载APK的部分信息,所述部分信息包括所述待下载APK的MF文件; 52、计算所述待下载APK的MF文件的偏移量; 53、将所述待下载APK的MF文件的偏移量与本地数据库已存的本地APK的MF文件的偏移量相匹配,判断是否有与待下载APK的MF文件的偏移量相同的本地APK ;若有,则进入S4步骤,若无,则进 入S5步骤; 54、将所述待下载APK的MF文件的哈希值与本地数据库已存的本地APK的MF文件的哈希值相匹配,判断是否有与待下载APK的MF文件的哈希值相同的本地APK ;若有,则不再下载所述待下载APK的全部内容,若无,则进入S5步骤; 55、下载所述待下载APK的全部内容。4.根据权利要求3所述的下载APK的去重方法,其特征在于,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。5.—种下载APK的去重方法,其特征在于,所述方法包括: 51、获取外部服务器中待下载APK的部分信息; 52、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集; 53、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若未发现与所述待下载APK相同特征集的本地APK,则下载所述待下载APK的全部内容;若发现与所述待下载APK相同特征集的本地APK,则执行S4步骤; 54、计算所述待下载APK的MF文件的偏移量; 55、将所述待下载APK的MF文件的偏移量与本地数据库已存的本地APK的MF文件的偏移量相匹配,判断是否有与待下载APK的MF文件的偏移量相同的本地APK ;若有,则进入S6步骤,若无,则进入S7步骤; 56、将所述待下载APK的MF文件的哈希值与本地数据库已存的本地APK的MF文件的哈希值相匹配,判断是否有与待下载APK的MF文件的哈希值相同的本地APK ;若有,则不再下载所述待下载APK的全部内容,若无,则进入S7步骤; 57、下载所述待下载APK的全部内容。6.根据权利要求5所述的下载APK的去重方法,其特征在于,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。7.根据权利要求5所述的下载APK的去重方法,其特征在于,所述方法包括:获取外部服务器中对待下载APK的描述文本信息; 将所述待下载APK的描述文本信息与本地数据库中已存的本地APK的描述文本信息相匹配,若发现描述文本信息相同的本地APK,则执行SI~S7步骤,若未发现描述文本信息相同的本地APK,则直接下载所述待下载APK的全部内容。8...
【专利技术属性】
技术研发人员:施敏,夏良钊,贾志军,王磊,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11