网络数据增量采集方法、装置、设备及存储介质制造方法及图纸

技术编号:24996272 阅读:20 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种网络数据增量采集方法、装置、设备及存储介质,该方法通过判断待采集页面内容是否更新进行采集动作,按照数据更新方式具体分新页面标识和历史页面标识;若为历史页面标识,则下载待采集页面数据,并根据Simhash算法,计算历史页面数据对应的局部敏感哈希值;加载缓存数据中待采集页面上一次采集的局部敏感哈希值,基于预设距离测量算法,计算历史页面数据本次与上一次采集的局部敏感哈希值之间的相似度;在相似度大于预设阈值时,更新缓存的局部敏感哈希值,进一步解析历史页面数据并存储至数据采集库,降低了增量数据采集的资源消耗,提高了网络数据增量采集效率,最大程度实现增量采集的目标。

【技术实现步骤摘要】
网络数据增量采集方法、装置、设备及存储介质
本专利技术涉及金融科技(Fintech)
,尤其涉及网络数据增量采集方法、装置、设备及计算机可读存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,网络数据增量采集技术也不例外,但由于金融行业的安全性、实时性要求,也对增量采集技术提出的更高的要求。目前,增量数据采集主要包括三种方式,第一种是基于页面链接URL去重的周期性采集网站更新数据;第二种是基于网站页面内容去重周期性采集网站更新数据;第三种是直接全量采集网站更新数据。但是第一种采集方式无法识别页面内容更新而URL并未变化的网站的更新数据,容易导致需采集数据的遗漏;第二种采集方式对网站更新数据过于敏感,且计算量较大;第三种采集方式需要采集全部页面数据,数据采集效率低下。
技术实现思路
本专利技术的主要目的在于提出一种网络数据增量采集方法、装置、设备及计算机可读存储介质,旨在解决现有增量数据采集方法采集准确效率以及准确率低下的技术问题。为实现上述目的,本专利技术提供一种网络数据增量采集方法,所述网络数据增量采集方法包括如下步骤:获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识;若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值;获取缓存数据中所述待采集页面上一次采集的局部敏感哈希值,基于预设距离测量算法,计算所述待采集历史页面上一次采集的局部敏感哈希值与所述待采集历史页面数据本次对应的局部敏感哈希值之间的相似度;在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库。可选地,所述若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值的步骤具体包括:若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并裁剪网页无关代码,保留网页body部分数据,作为所述待采集历史页面数据;将所述历史页面数据进行分词,抽取分词后的关键字及所述分词后的关键字对应的预设权重,将所述历史页面数据转换为一组加权的特征值构成的向量;基于特定局部敏感哈希算法Simhash,计算所述加权特征值向量对应的加权哈希值,作为所述历史页面数据对应的局部敏感哈希值。可选地,所述在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库的步骤具体包括:在所述相似度大于预设阈值时,解析所述下载历史页面数据,基于哈希算法以及所述历史页面解析数据重点内容,计算所述历史页面解析数据重点内容对应的哈希值,作为所述历史页面数据对应的重点内容数据指纹;判断缓存历史数据指纹中是否存在所述历史页面数据对应的重点内容数据指纹;若所述历史数据指纹中不存在所述历史页面数据对应的重点内容数据指纹,则将所述历史页面解析数据存储至所述数据采集库。可选地,所述获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识的步骤之前,还包括:获取所述目标网站中的采集页面,并基于所述采集页面生成数据采集任务集,其中,所述数据采集任务集包括至少一个待采集页面。可选地,所述获取缓存数据中所述待采集页面的上一次采集的局部敏感哈希值,基于预设距离测量算法,计算所述待采集页面的上一次采集的局部敏感哈希值以及所述历史页面数据本次采集对应的局部敏感哈希值的相似度的步骤之后,还包括:判断所述相似度是否大于预设阈值;在所述相似度小于预设阈值时,判定所述待采集页面的页面数据为历史已采集数据,停止解析并在所述数据采集任务集中获取下一采集任务进行数据采集。可选地,所述的步骤所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库之后,还包括:在所述缓存数据中将所述待采集页面对应的所述待采集页面的上一次采集的局部敏感哈希值更新为所述历史页面数据本次采集对应的局部敏感哈希值。可选地,所述获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识的步骤之后,还包括:若所述待采集页面的页面标识是新页面标识,则生成新页面的新页面数据指纹,并判断预设历史采集数据指纹中是否存在所述新页面数据指纹;若所述历史采集数据指纹中不存在所述新页面数据指纹,则将所述新页面数据指纹写入历史数据指纹中,下载解析新页面数据并存储至所述数据采集库。此外,为实现上述目的,本专利技术还提供一种网络数据增量采集装置,所述网络数据增量采集装置包括:页面标识判断模块,用于获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识;页面哈希值计算模块,用于若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值;页面相似度计算模块,用于获取缓存数据中所述待采集页面上一次采集的局部敏感哈希值,基于预设距离测量算法,计算所述待采集历史页面上一次采集的局部敏感哈希值与所述待采集历史页面数据本次对应的局部敏感哈希值之间的相似度;页面数据解析模块,用于在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库。此外,为实现上述目的,本专利技术还提供一种网络数据增量采集设备,所述网络数据增量采集设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络数据增量采集程序,所述网络数据增量采集程序被所述处理器执行时实现如上所述的网络数据增量采集方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网络数据增量采集程序,所述网络数据增量采集程序被处理器执行时实现如上所述的网络数据增量采集方法的步骤。本专利技术提供一种网络数据增量采集方法,通过获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识;若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值;获取缓存数据中所述待采集页面上一次采集的局部敏感哈希值,基于预设距离测量算法,计算所述待采集历史页面上一次采集的局部敏感哈希值与所述待采集历史页面数据本次对应的局部敏感哈希值之间的相似度;在所述相似度大于预设阈值时,更新缓本文档来自技高网...

【技术保护点】
1.一种网络数据增量采集方法,其特征在于,所述网络数据增量采集方法包括如下步骤:/n获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识;/n若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值;/n获取缓存数据中所述待采集页面上一次采集的局部敏感哈希值,基于预设距离测量算法,计算所述待采集历史页面上一次采集的局部敏感哈希值与所述待采集历史页面数据本次对应的局部敏感哈希值之间的相似度;/n在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库。/n

【技术特征摘要】
1.一种网络数据增量采集方法,其特征在于,所述网络数据增量采集方法包括如下步骤:
获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识;
若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值;
获取缓存数据中所述待采集页面上一次采集的局部敏感哈希值,基于预设距离测量算法,计算所述待采集历史页面上一次采集的局部敏感哈希值与所述待采集历史页面数据本次对应的局部敏感哈希值之间的相似度;
在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库。


2.如权利要求1所述的网络数据增量采集方法,其特征在于,所述若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并根据特定局部敏感哈希算法Simhash,计算所述历史页面数据对应的局部敏感哈希值的步骤具体包括:
若所述待采集页面的页面标识为所述历史页面标识,则获取所述待采集历史页面数据,并裁剪网页无关代码,保留网页body部分数据,作为所述待采集历史页面数据;
将所述历史页面数据进行分词,抽取分词后的关键字及所述分词后的关键字对应的预设权重,将所述历史页面数据转换为一组加权的特征值构成的向量;
基于特定局部敏感哈希算法Simhash,计算所述加权特征值向量对应的加权哈希值,作为所述历史页面数据对应的局部敏感哈希值。


3.如权利要求2所述的网络数据增量采集方法,其特征在于,所述在所述相似度大于预设阈值时,更新缓存的局部敏感哈希值,解析所述历史页面数据并存储至数据采集库的步骤具体包括:
在所述相似度大于预设阈值时,解析所述下载历史页面数据,基于哈希算法以及所述历史页面解析数据重点内容,计算所述历史页面解析数据重点内容对应的哈希值,作为所述历史页面数据对应的重点内容数据指纹;
判断缓存历史数据指纹中是否存在所述历史页面数据对应的重点内容数据指纹;
若所述历史数据指纹中不存在所述历史页面数据对应的重点内容数据指纹,则将所述历史页面解析数据存储至所述数据采集库。


4.如权利要求1所述的网络数据增量采集方法,其特征在于,所述获取目标网站中的待采集页面以及生成所述待采集页面的页面标识,并判断所述待采集页面的页面标识是新页面标识还是历史页面标识的步骤之前,还包括:
获取所述目标网站中的采集页面,并基于所述采集页面生成数据采集任务集,其中,所述数据采集任务集包括至少一个待采集页面。


5.如权利要求4所述的网络数据增量采集方法,其特征在于,所述获取缓存数据中所述待采集页面的上一次采集的局部敏感哈希值,基于预...

【专利技术属性】
技术研发人员:张振海廖海波
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1