下载APK的去重方法及装置制造方法及图纸

技术编号:10487585 阅读:101 留言:1更新日期:2014-10-03 16:25
本发明专利技术提供一种下载APK的去重方法及装置,其中,所述方法包括:获取外部服务器中待下载APK的部分信息;通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集;将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若发现与所述待下载APK相同特征集的本地APK,则不再下载所述待下载APK的全部内容。本发明专利技术的有益效果是:减少了带宽资源的占用,提高了爬虫系统下载文件的速度,快速及时的给应用搜索和安全检测提供基础数据信息,改善了产品的响应速度,增加了用户体验、节省了公司成本。

【技术实现步骤摘要】
下载APK的去重方法及装置
本专利技术涉及一种下载APK的去重方法及装置,尤其涉及一种应用于爬虫系统的APK下载去重的方法及装置。
技术介绍
为了满足用户各应用搜索需求,应用搜索引擎需要及时收集海量的应用样本进行数据分析和供用户下载。在应用搜索引擎中,爬虫系统需要快速收集海量的、来自不同应用商店APK文件,然而,不同应用商店中存在大量重复的APK文件,其会严重影响应用搜索引擎的搜索效率、推荐质量;并且,对于手机安全检测而言,大量重复的APK文件会降低安全检测的时效性;另外,大量重复APK文件的下载需要额外耗费大量的带宽和存储,造成大量的资金浪费。
技术实现思路
本专利技术的目的之一在于提供一种下载APK的去重方法及装置。 为实现上述专利技术目的之一,本专利技术一实施方式提供了一种下载APK的去重方法,其包括: S1、获取外部服务器中待下载APK的部分信息; S2、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集; S3、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若发现与所述待下载APK相同特征集的本地APK,则不再下载所述待下载APK的全部内容。 作为本专利技术的进一步改进,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。 为实现上述专利技术目的之一,本专利技术一实施方式提供了一种下载APK的去重方法,其包括: S1、获取外部服务器中待下载APK的部分信息,所述部分信息包括所述待下载APK的MF文件; S2、计算所述待下载APK的MF文件的偏移量; S3、将所述待下载APK的MF文件的偏移量与本地数据库已存的本地APK的MF文件的偏移量相匹配,判断是否有与待下载APK的MF文件的偏移量相同的本地APK ;若有,则进入S4步骤,若无,则进入S5步骤; S4、将所述待下载APK的MF文件的哈希值与本地数据库已存的本地APK的MF文件的哈希值相匹配,判断是否有与待下载APK的MF文件的哈希值相同的本地APK ;若有,则不再下载所述待下载APK的全部内容,若无,则进入S5步骤; S5、下载所述待下载APK的全部内容。 作为本专利技术的进一步改进,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。 为实现上述专利技术目的之一,本专利技术一实施方式提供了一种下载APK的去重方法,其包括: S1、获取外部服务器中待下载APK的部分信息; S2、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集; S3、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若未发现与所述待下载APK相同特征集的本地APK,则下载所述待下载APK的全部内容;若发现与所述待下载APK相同特征集的本地APK,则执行S4步骤; S4、计算所述待下载APK的MF文件的偏移量; S5、将所述待下载APK的MF文件的偏移量与本地数据库已存的本地APK的MF文件的偏移量相匹配,判断是否有与待下载APK的MF文件的偏移量相同的本地APK ;若有,则进入S6步骤,若无,则进入S7步骤; S6、将所述待下载APK的MF文件的哈希值与本地数据库已存的本地APK的MF文件的哈希值相匹配,判断是否有与待下载APK的MF文件的哈希值相同的本地APK ;若有,则不再下载所述待下载APK的全部内容,若无,则进入S7步骤; S7、下载所述待下载APK的全部内容。 作为本专利技术的进一步改进,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。 作为本专利技术的进一步改进,所述方法包括: 获取外部服务器中对待下载APK的描述文本信息; 将所述待下载APK的描述文本信息与本地数据库中已存的本地APK的描述文本信息相匹配,若发现描述文本信息相同的本地APK,则执行SI?S7步骤,若未发现描述文本信息相同的本地APK,则直接下载所述待下载APK的全部内容。 为实现上述专利技术目的之一,本专利技术一实施方式提供了一种下载APK的去重装置,其包括: 下载模块,用于获取外部服务器中待下载APK的部分信息; 计算模块,用于通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集; 判断模块,用于将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若发现与所述待下载APK相同特征集的本地APK,则不再下载所述待下载APK的全部内容。 作为本专利技术的进一步改进,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。 为实现上述专利技术目的之一,本专利技术一实施方式提供了一种下载APK的去重装置,其包括: 下载模块,用于获取外部服务器中待下载APK的部分信息,所述部分信息包括所述待下载APK的MF文件; 计算模块,用于计算所述待下载APK的MF文件的偏移量; 判断模块,用于将所述待下载APK的MF文件的偏移量与本地数据库已存的本地APK的MF文件的偏移量相匹配,判断是否有与待下载APK的MF文件的偏移量相同的本地APK ; 所述判断模块还用于,将所述待下载APK的MF文件的哈希值与本地数据库已存的本地APK的MF文件的哈希值相匹配,判断是否有与待下载APK的MF文件的哈希值相同的本地APK ; 所述下载模块还用于当判断模块判断本地数据库中没有与待下载APK相同的本地APK时,下载所述待下载APK的全部内容。 作为本专利技术的进一步改进,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。 为实现上述专利技术目的之一,本专利技术一实施方式提供了一种下载APK的去重装置,其包括: 下载模块,用于获取外部服务器中待下载APK的部分信息; 计算模块,用于通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集,以及计算所述待下载APK的MF文件的偏移量; 判断模块,用于将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若未发现与所述待下载APK相同特征集的本地APK,则下载所述待下载APK的全部内容;若发现与所述待下载APK相同特征集的本地APK,则将所述待下载APK的MF文件的偏移量与本地数据库已存的本地APK的MF文件的偏移量相匹配,判断是否有与待下载APK的MF文件的偏移量相同的本地APK ; 所述判断模块还用于,将所述待下载APK的MF文件的哈希值与本地数据库已存的本地APK的MF文件的哈希值相匹配,判断是否有与待下载APK的MF文件的哈希值相同的本地APK ; 所述下载模块还用于当判断模块判断本地数据库中没有与待下载APK相同的本地APK时,下载所述待下载APK的全部内容。 作为本专利技术的进一步改进,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。 作为本专利技术的进一步改进,所述下载模块还用于,获取外部服务器中对待下载APK的描述文本信息; 所述判断模块还用于,将所述待下载APK的描述文本信息与本地数据库中已存的本地APK的描述文本信息相匹配,若未发本文档来自技高网...
下载APK的去重方法及装置

【技术保护点】
一种下载APK的去重方法,其特征在于,所述方法包括:S1、获取外部服务器中待下载APK的部分信息;S2、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集;S3、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若发现与所述待下载APK相同特征集的本地APK,则不再下载所述待下载APK的全部内容。

【技术特征摘要】
1.一种下载APK的去重方法,其特征在于,所述方法包括: 51、获取外部服务器中待下载APK的部分信息; 52、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集; 53、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若发现与所述待下载APK相同特征集的本地APK,则不再下载所述待下载APK的全部内容。2.根据权利要求1所述的下载APK的去重方法,其特征在于,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。3.一种下载APK的去重方法,其特征在于,所述方法包括: 51、获取外部服务器中待下载APK的部分信息,所述部分信息包括所述待下载APK的MF文件; 52、计算所述待下载APK的MF文件的偏移量; 53、将所述待下载APK的MF文件的偏移量与本地数据库已存的本地APK的MF文件的偏移量相匹配,判断是否有与待下载APK的MF文件的偏移量相同的本地APK ;若有,则进入S4步骤,若无,则进 入S5步骤; 54、将所述待下载APK的MF文件的哈希值与本地数据库已存的本地APK的MF文件的哈希值相匹配,判断是否有与待下载APK的MF文件的哈希值相同的本地APK ;若有,则不再下载所述待下载APK的全部内容,若无,则进入S5步骤; 55、下载所述待下载APK的全部内容。4.根据权利要求3所述的下载APK的去重方法,其特征在于,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。5.—种下载APK的去重方法,其特征在于,所述方法包括: 51、获取外部服务器中待下载APK的部分信息; 52、通过哈希算法对所述待下载APK的部分信息提取固定片段,作为该待下载APK的特征集; 53、将所述待下载APK的特征集与本地数据库已存的本地APK的特征集相匹配,若未发现与所述待下载APK相同特征集的本地APK,则下载所述待下载APK的全部内容;若发现与所述待下载APK相同特征集的本地APK,则执行S4步骤; 54、计算所述待下载APK的MF文件的偏移量; 55、将所述待下载APK的MF文件的偏移量与本地数据库已存的本地APK的MF文件的偏移量相匹配,判断是否有与待下载APK的MF文件的偏移量相同的本地APK ;若有,则进入S6步骤,若无,则进入S7步骤; 56、将所述待下载APK的MF文件的哈希值与本地数据库已存的本地APK的MF文件的哈希值相匹配,判断是否有与待下载APK的MF文件的哈希值相同的本地APK ;若有,则不再下载所述待下载APK的全部内容,若无,则进入S7步骤; 57、下载所述待下载APK的全部内容。6.根据权利要求5所述的下载APK的去重方法,其特征在于,所述部分信息为文件头部信息,所述文件头部信息为所述待下载APK的前1024字节内容。7.根据权利要求5所述的下载APK的去重方法,其特征在于,所述方法包括:获取外部服务器中对待下载APK的描述文本信息; 将所述待下载APK的描述文本信息与本地数据库中已存的本地APK的描述文本信息相匹配,若发现描述文本信息相同的本地APK,则执行SI~S7步骤,若未发现描述文本信息相同的本地APK,则直接下载所述待下载APK的全部内容。8...

【专利技术属性】
技术研发人员:施敏夏良钊贾志军王磊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有1条评论
  • 来自[广东省广州市电信] 2014年12月28日 11:35
    下载xiàzài很多人都将载读成zǎi请注意哦~是指通过网络进行传输文件把互联网或其他电子计算机上的信息保存到本地电脑上的一种网络活动下载可以显式或隐式地进行只要是获得本地电脑上所没有的信息的活动都可以认为是下载如在线观看视频
    0
1