The invention relates to the technical field of data information retrieval, in particular to an application crawling method and a system thereof. A crawling method comprises the following steps: 1) to obtain the name of the package; 2) the application of the package through the bloom filter processing to generate a crawling array; 3) of the application for crawling and storing the crawling array. On the application of crawling before, also includes: crawling array and stored in the application system of the crawling crawling array using the comparison, judging whether the application is crawling; if the application is not crawling, the application for crawling, and the climb from the array is stored in the application of crawling system. The present invention by Bloom filter to filter the application to ensure that the amount of repetition is not high in the case of a crawling the whole amount of application, and through comparing the white list similarity, reduces the error rate by crawling.
【技术实现步骤摘要】
一种应用爬取方法及系统
本专利技术涉及数据信息检索
,具体为一种应用爬取方法及系统。
技术介绍
随着移动互联网的日益兴盛以及“互联网+”的提出,移动互联网的便捷性与高效性越来越为人们所熟知。O2O(OnlineToOffline,线上到线下)概念的提出及各种线上线下的应用,不仅快速促进了商品的买卖,也极大的丰富了人们的生活。在大众的“互联网+”的生活中,海量的移动应用(MobileApplications,简称app)占据着举足重要的地位。国内各大移动应用市场为大众的app需求提供了强有力的支撑。在移动互联网的时代,盛产apk,推广各个apk也会在各大android市场上架。我们做应用市场的时候爬取应用如果不局限于一个应用市场,比如要从应用宝,360的橙子市场,百度轻运用爬取apk,很多apk会在多家市场发布,海量的apk其中有些重复的apk,怎样保证重复量不高的情况下爬取一个全量的apk包,是一个急需解决的难题。其中,apk的相似度计算是极其重要的一步。对于应用的相似性计算,有基于app内容的相似性计算方法。大部分的基于内容的相似性计算方法是基于app的描 ...
【技术保护点】
一种爬取应用方法,应用于应用爬取系统中,其特征在于:包括以下步骤,1)获取应用的包名;2)将所述应用的包名通过布隆过滤器处理生成一爬取数组;3)利用所述爬取数组与已存储在应用爬取系统中的爬取数组做比较,判断所述应用是否已爬取;若所述应用未爬取,对所述应用进行爬取,并将所述爬取数组存储在所述应用爬取系统中。
【技术特征摘要】
1.一种爬取应用方法,应用于应用爬取系统中,其特征在于:包括以下步骤,1)获取应用的包名;2)将所述应用的包名通过布隆过滤器处理生成一爬取数组;3)利用所述爬取数组与已存储在应用爬取系统中的爬取数组做比较,判断所述应用是否已爬取;若所述应用未爬取,对所述应用进行爬取,并将所述爬取数组存储在所述应用爬取系统中。2.根据权利要求1所述的一种爬取应用方法,其特征在于,所述将所述应用的包名通过布隆过滤器处理生成一爬取数组,包括:创建一个多位的数组,将数组中的所有位均设置为0;选取一个以上哈希函数,获取所述应用的包名对应不同哈希函数的不同结果值;根据所述结果值所对应的数组的相应位均设置为1。3.根据权利要求1所述的一种爬取应用方法,其特征在于,所述哈希函数的个数可以通过计算式k=ln(2)*m/n获得,其中,k表示哈希函数的个数,m表示爬取数组的位数,n表示应用的数量。4.根据权利要求1所述的一种爬取应用方法,其特征在于,还包括,将所述应用的特征信息与白名单进行比较,所述白名单中记录已爬取应用的特征信息。5.根据权利要求4所述的应用爬取方法...
【专利技术属性】
技术研发人员:雷建朝,
申请(专利权)人:上海斐讯数据通信技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。