【技术实现步骤摘要】
网络数据增量采集方法、装置、设备及存储介质
本专利技术涉及金融科技(Fintech)
,尤其涉及网络数据增量采集方法、装置、设备及计算机可读存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,网络数据增量采集技术也不例外,但由于金融行业的安全性、实时性要求,也对增量采集技术提出的更高的要求。目前,增量数据采集主要包括三种方式,第一种是基于页面链接URL去重的周期性采集网站更新数据;第二种是基于网站页面内容去重周期性采集网站更新数据;第三种是直接全量采集网站更新数据。但是第一种采集方式无法识别页面内容更新而URL并未变化的网站的更新数据,容易导致需采集数据的遗漏;第二种采集方式对网站更新数据过于敏感,且计算量较大;第三种采集方式需要采集全部页面数据,数据采集效率低下。
技术实现思路
本专利技术的主要目的在于提出一种网络数据增量采集方法、装置、设备及计算机可读存储介质,旨在解决现有增量数据采集方法采集准确效率以及准确率低下的技术问题。为实现上述目的,本专利技术提供一种网络数据增量采集方法,所述网络数据增量采集方法包括如下步骤:获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识;若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值 ...
【技术保护点】
1.一种网络数据增量采集方法,其特征在于,所述网络数据增量采集方法包括如下步骤:/n获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识;/n若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值;/n获取缓存数据中所述待采集页面上一次采集的局部敏感哈希值,基于预设距离测量算法,计算所述待采集历史页面上一次采集的局部敏感哈希值与所述待采集历史页面数据本次对应的局部敏感哈希值之间的相似度;/n在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库。/n
【技术特征摘要】
1.一种网络数据增量采集方法,其特征在于,所述网络数据增量采集方法包括如下步骤:
获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识;
若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值;
获取缓存数据中所述待采集页面上一次采集的局部敏感哈希值,基于预设距离测量算法,计算所述待采集历史页面上一次采集的局部敏感哈希值与所述待采集历史页面数据本次对应的局部敏感哈希值之间的相似度;
在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库。
2.如权利要求1所述的网络数据增量采集方法,其特征在于,所述若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值的步骤具体包括:
若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并裁剪网页无关代码,保留网页body部分数据,作为所述待采集历史页面数据;
将所述历史页面数据进行分词,抽取分词后的关键字及所述分词后的关键字对应的预设权重,将所述历史页面数据转换为一组加权的特征值构成的向量;
基于特定局部敏感哈希算法Simhash,计算所述加权特征值向量对应的加权哈希值,作为所述历史页面数据对应的局部敏感哈希值。
3.如权利要求2所述的网络数据增量采集方法,其特征在于,所述在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库的步骤具体包括:
在所述相似度大于预设阈值时,解析所述下载历史页面数据,基于哈希算法以及所述历史页面解析数据重点内容,计算所述历史页面解析数据重点内容对应的哈希值,作为所述历史页面数据对应的重点内容数据指纹;
判断缓存历史数据指纹中是否存在所述历史页面数据对应的重点内容数据指纹;
若所述历史数据指纹中不存在所述历史页面数据对应的重点内容数据指纹,则将所述历史页面解析数据存储至所述数据采集库。
4.如权利要求1所述的网络数据增量采集方法,其特征在于,所述获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识的步骤之前,还包括:
获取所述目标网站中的采集页面,并基于所述采集页面生成数据采集任务集,其中,所述数据采集任务集包括至少一个待采集页面。
5.如权利要求4所述的网络数据增量采集方法,其特征在于,所述获取缓存数据中所述待采集页面的上一次采集的局部敏感哈希值,基于预...
【专利技术属性】
技术研发人员:张振海,廖海波,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。