The invention relates to a deep link acquisition method, the method includes: obtaining the target page address, according to the target address of the page to download the target page and get suitable for the target page configuration file, extract the required target data associated with the target depth of links and extract the target data analytic function and variables from the target page according to the configuration files in the configuration rules, according to the target data, extract the functions and variables to get the depth of target link. The method only needs to extract relevant data according to the rule of configuration, and then it can get the target depth link. It not only reduces the cost, but also improves the efficiency of the acquisition. In addition, a deep link acquisition device is also proposed.
【技术实现步骤摘要】
深度链接获取方法和装置
本专利技术涉及计算机技术,特别是涉及一种深度链接获取方法和装置。
技术介绍
随着当今互联网的飞速发展,各种网络信息的内容日益丰富。作为网络信息主要承载形式的万维网被应用了大量复杂技术例如AdobeFlash、Ajax、连接加密等来呈现内容,以提高用户体验和安全性。由于大量内容是网页加载后由JavaScript动态生成的,导致一些深度链接难以抓取和利用。传统的网络爬虫在抓取网页数据时,只能抓取具有特殊关键字符的数据,但很多网站并不会将所有的内容都直接输出到一个页面中,部分数据需要通过JavaScript处理才能得到,还有些内容可能需要用户触发才会被加载。所以传统的爬虫无法抓取深度链接的网页数据。而目前解决这些限制的一般做法需要运行一套完整的浏览器环境以获取这些动态内容。由于完整的浏览器环境需要较大的资源开销并且速度较慢,会导致深度链接的抓取成本高而且效率低。
技术实现思路
基于此,有必要针对深度链接抓取成本高、效率低的问题,提供一种开销比较低且效率比较高的深度链接获取方法和装置。一种深度链接获取方法,所述方法包括:获取目标页面的地址;根据所述目标页面的地址下载所述目标页面并获取适用于所述目标页面的配置文件;根据所述配置文件中的配置规则从所述目标页面中提取与目标深度链接相关的目标数据以及提取解析所述目标数据所需要的函数和变量;根据提取出的所述目标数据、函数和变量获取目标深度链接。在其中一个实施例中,所述根据提取出的所述目标数据、函数和变量获取目标深度链接的步骤包括:获取所述配置文件中的触发代码;将所述触发代码、解析所述目标数据所述需要的函数 ...
【技术保护点】
一种深度链接获取方法,所述方法包括:获取目标页面的地址;根据所述目标页面的地址下载所述目标页面并获取适用于所述目标页面的配置文件;根据所述配置文件中的配置规则从所述目标页面中提取与目标深度链接相关的目标数据以及提取解析所述目标数据所需要的函数和变量;根据提取出的所述目标数据、函数和变量获取目标深度链接。
【技术特征摘要】
1.一种深度链接获取方法,所述方法包括:获取目标页面的地址;根据所述目标页面的地址下载所述目标页面并获取适用于所述目标页面的配置文件;根据所述配置文件中的配置规则从所述目标页面中提取与目标深度链接相关的目标数据以及提取解析所述目标数据所需要的函数和变量;根据提取出的所述目标数据、函数和变量获取目标深度链接。2.根据权利要求1所述的方法,其特征在于,所述根据提取出的所述目标数据、函数和变量获取目标深度链接的步骤包括:获取所述配置文件中的触发代码;将所述触发代码、解析所述目标数据所述需要的函数和变量进行组合得到组合代码;调用运行引擎运行所述组合代码,根据运行的结果解析所述目标数据得到所述目标深度链接。3.根据权利要求1所述的方法,其特征在于,所述根据所述配置文件中的配置规则从所述目标页面中提取与目标深度链接相关的目标数据以及提取解析所述目标数据所需要的函数和变量的步骤包括:根据所述配置文件中预设的字段从所述目标页面中提取与目标深度链接相关的目标数据;根据所述配置文件中预设的正则表达式从所述目标页面中提取解析所述目标数据所需要的第一函数;通过语法分析获取所述第一函数的依赖关系;根据所述依赖关系提取所述第一函数依赖的第二函数和变量;所述根据提取出的所述目标数据、函数和变量获取目标深度链接的步骤包括:根据提取出的所述目标数据、第一函数、第二函数和变量获取目标深度链接。4.根据权利要求3所述的方法,其特征在于,根据所述依赖关系提取所述第一函数依赖的第二函数和变量的步骤包括:根据所述依赖关系从所述目标页面的源代码中以及从与所述目标深度链接相关联的外部页面的源代码中获取所述第一函数依赖的第二函数和变量。5.根据权利要求4所述的方法,其特征在于,在根据所述依赖关系提取所述第一函数依赖的第二函数和变量的步骤之前还包括:检测缓存内是否存在与所述目标深度链接相关联的外部页面的源代码;若不存在,则获取与所述目标深度链接相关联的外部页面的源代码,将获取到的所述外部页面的源代码存入所述缓存内。6...
【专利技术属性】
技术研发人员:黄冬,
申请(专利权)人:深圳大宇无限科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。