当前位置: 首页 > 专利查询>黄超专利>正文

一种区块链大数据防爬虫处理方法及云平台系统技术方案

技术编号:28632505 阅读:57 留言:0更新日期:2021-05-28 16:29
本发明专利技术涉及区块链大数据处理技术领域,具体涉及一种区块链大数据防爬虫处理方法及云平台系统。本发明专利技术由于分别在大数据云服务器侧以及大数据业务用户终端侧部署了实时网络爬虫监测网络,且不同的实时网络爬虫监测网络是基于初始业务操作数据集、初始业务响应数据集以及设定网络训练条件训练得到的,因而能够通过两个不同的实时网络爬虫监测网络将不同大数据业务用户终端的业务操作和业务响应考虑在内,不仅可以确保大数据业务用户终端对待监测业务互动事项的准确的网络爬虫监测,还能够确保针对网络爬虫监测所确定的待监测业务互动事项的网络爬虫防护策略的爬虫防护性能,提高网络爬虫监测和防护的效率和可信度。

【技术实现步骤摘要】
一种区块链大数据防爬虫处理方法及云平台系统
本专利技术涉及区块链大数据处理
,具体涉及一种区块链大数据防爬虫处理方法及云平台系统。
技术介绍
网络爬虫(webcrawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析、目标客户数据的收集等各个领域。在一些大数据云业务互动中,用户并不希望自己的相关数据被非法的网络爬虫所爬取,因此需要在一定情况下实现区块链大数据防爬虫处理。区块链技术因其具有去中心化和可追溯的特性,使得数据处理的安全性得到极大的提升,因而,被广泛应用在大数据安全防爬虫领域上。然而相关的区块链大数据防爬虫处理技术存在监测防护效率差和可信度低下的技术问题。<br>专利技本文档来自技高网...

【技术保护点】
1.一种区块链大数据防爬虫处理方法,其特征在于,应用于与大数据业务用户终端通信的大数据云服务器,所述方法包括:/n获得初始业务操作数据集以及初始业务响应数据集;/n利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集;/n利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络;/n基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端...

【技术特征摘要】
1.一种区块链大数据防爬虫处理方法,其特征在于,应用于与大数据业务用户终端通信的大数据云服务器,所述方法包括:
获得初始业务操作数据集以及初始业务响应数据集;
利用所述初始业务操作数据集训练设定业务操作识别网络,得到完成训练的业务操作识别网络;通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集;
利用所述初始业务画像数据集训练设定的针对大数据云服务器的实时网络爬虫监测网络,得到完成训练的针对大数据云服务器的实时网络爬虫监测网络;
基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
将完成训练的针对大数据业务用户终端的实时网络爬虫监测网络下发至所述大数据业务用户终端,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略。


2.根据权利要求1所述的方法,其特征在于,通过所述大数据业务用户终端以及所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络对待监测业务互动事项进行网络爬虫监测得到网络爬虫监测结果,并基于所述网络爬虫监测结果确定所述待监测业务互动事项的网络爬虫防护策略,包括:
使所述大数据业务用户终端基于所述完成训练的针对大数据业务用户终端的实时网络爬虫监测网络提取待监测业务互动事项的目标互动状态对应的局部业务互动事项;其中,所述目标互动状态是所述待监测业务互动事项未被大数据云服务器记录的互动状态;
获得所述大数据业务用户终端上传的所述局部业务互动事项;
在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,将所述目标网络爬虫防护策略确定为所述待监测业务互动事项的网络爬虫防护策略。


3.根据权利要求2所述的方法,其特征在于,在预存互动事项集中检索与所述局部业务互动事项匹配的目标网络爬虫防护策略,包括:
对所述局部业务互动事项进行互动事项特征识别,得到多个互动事项特征内容;获得多个互动事项特征内容的特征内容行为画像数据,以及所述多个互动事项特征内容在当前网络爬虫监测状态之前的y个不间断的网络爬虫监测状态对应的y个历史互动事项特征内容集合,其中,每一网络爬虫监测状态的历史互动事项特征内容集合包括所述互动事项特征内容在多个实时业务状态类别下的历史互动事项特征内容;
分别获得各互动事项特征内容的y个历史互动事项特征内容集合中每一历史互动事项特征内容集合对应的事项安全等级偏差集合;其中,每一事项安全等级偏差集合包括所述互动事项特征内容在多个实时业务状态类别下的事项安全等级偏差,每一事项安全等级偏差表示一个实时业务状态类别下实时事项安全等级与参考事项安全等级之间的比对结果;
利用已训练的事项安全等级修复网络,根据各互动事项特征内容的特征内容行为画像数据与y个历史互动事项特征内容集合对应的y个事项安全等级偏差集合,获得各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差;其中,所述事项安全等级修复网络是利用多个网络训练样本训练得到的,每一网络训练样本包括一个互动事项特征内容的特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态的事项安全等级偏差集合;所述事项安全等级偏差表示互动事项特征内容的实时事项安全等级与参考事项安全等级之间的比对结果;
通过各互动事项特征内容在当前网络爬虫监测状态的事项安全等级偏差分别对各互动事项特征内容的实时事项安全等级进行修复;根据各互动事项特征内容修复后的实时事项安全等级,从所述多个互动事项特征内容中确定目标互动事项特征内容,根据所述目标互动事项特征内容对所述局部业务互动事项进行互动事项整理,得到用于进行网络爬虫匹配的待匹配互动事项;
在预存互动事项集中检索与所述待匹配互动事项的相关性系数最小的预存业务互动事项,并确定与所述预存业务互动事项的全局网络爬虫防护策略为所述局部业务互动事项匹配的目标网络爬虫防护策略;
其中,所述事项安全等级修复网络是通过如下训练过程训练得到的:从网络训练样本数据库中获得预设数量个的网络训练样本;通过获得的网络训练样本,按照设定的网络模型训练参数对所述事项安全等级修复网络进行多轮训练,每一轮训练过程包括如下步骤:
根据所述特征内容行为画像数据以及y+1个不间断的网络爬虫监测状态中前y个网络爬虫监测状态的事项安全等级偏差集合,通过所述事项安全等级修复网络,获得每一网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差;
根据所述网络训练样本的互动事项特征内容在第y+1个网络爬虫监测状态的事项安全等级偏差,与所述网络训练样本中第y+1个网络爬虫监测状态的事项安全等级偏差集合,获得所述事项安全等级修复网络的网络性能评价条件;
根据所述网络性能评价条件确定是否继续对所述事项安全等级修复网络进行训练;若确定继续对所述事项安全等级修复网络进行训练,则对所述事项安全等级修复网络的模型网络参数进行调整,并通过调整后的所述事项安全等级修复网络继续下一次训练过程;
其中,所述事项安全等级修复网络包括互动事项时序网络层和互动事项安全网络层,则针对每一互动事项特征内容,利用事项安全等级修复网络获得事项安全等级偏差,包括:
根据所述y个事项安全等级偏差集合,通过所述互动事项时序网络层获得互动事项特征内容的互动事项时序条件;
根据所述特征内容行为画像数据,通过所述互动事项安全网络层获得互动事项特征内容的互动事项安全条件;
基于所述互动事项时序网络层和所述互动事项安全网络层的网络关联数据,根据所述互动事项时序条件和所述互动事项安全条件得到在当前网络爬虫监测状态的事项安全等级偏差。


4.根据权利要求1所述的方法,其特征在于,基于设定网络训练条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;
其中,基于当前网络转移条件以及所述完成训练的针对大数据云服务器的实时网络爬虫监测网络训练设定的针对大数据业务用户终端的实时网络爬虫监测网络,得到完成训练的针对大数据业务用户终端的实时网络爬虫监测网络,包括:
当第x次训练之后,所述当前网络转移条件的模型网络匹配指数位于设定匹配指数范围时,将第x次训练之后得到的针对大数据业务用户终端的实时网络爬虫监测网络确定为完成训练的针对大数据业务用户终端的实时网络爬虫监测网络;其中,x为正整数。


5.根据权利要求1所述的方法,其特征在于,通过所述完成训练的业务操作识别网络对所述初始业务响应数据集进行业务操作识别,得到初始业务画像数据集,包括:
针对所述初始业务响应数据集中的每个初始业务响应数据,获得该个初始业务响应数据的业务行为统计结果以及各业务互动事项;
在基于所述业务行为统计结果确定出该个初始业务响应数据中包含有主动型业务操作类别的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的主动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并将该个初始业务响应数据的被动型业务操作类别对应的与主动型业务操作类别对应的业务互动事项关联的业务互动事项分配到所述主动型业务操作类别;其中,在该个初始业务响应数据的当前被动型业务操作类别对应包含有多个业务互动事项的情况下,根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的当前被动型业务操作类别对应的各业务互动事项之间的互动事项匹配度,并根据所述各业务互动事项之间的互动事项匹配度对当前被动型业务操作类别对应的各业务互动事项进行互动事项聚类;根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签为上述互动事项聚类获得的业务聚类互动事项设置互动事项分配指示,并根据所述互动事项分配指示将所述业务聚类互动事项分配到所述主动型业务操作类别;
基于该个初始业务响应数据对应的主动型业务操作类别中的目标业务互动事项确定初始业务画像数据,并将确定出的初始业务画像数据进行整合得到初始业务画像数据集;其中,所述初始业务画像数据为初始意图业务数据;
其中,所述根据该个初始业务响应数据的主动型业务操作类别对应的业务互动事项及其网络爬虫监测标签确定该个初始业务响应数据的被动型业务操作类别对应的各业务互动事项与该个初始业务响应数据的...

【专利技术属性】
技术研发人员:黄超
申请(专利权)人:黄超
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1