一种互联网大数据抓取系统及分类梳理方法技术方案

技术编号:37262093 阅读:41 留言:0更新日期:2023-04-20 23:35
本发明专利技术属于互联网大数据领域,具体涉及一种互联网大数据抓取系统及分类梳理方法,所述方法包括核心词判断部提取所述网页的第一核心词,并将所述第一核心词与用户端第二存储部中存储的核心词库进行比较,以获取所述第一核心词与所述核心库中的核心词重合的第一核心词数量;在所述第一核心词数量大于第一阈值时,第一地址添加部将所述地址添加至所述无权限地址库,第一通信部将所述地址发送至云服务器。配合使用的用户信息,动态调整核心词库中的核心词以及无权限地址库中的无权限地址,使得无权限地址库中的地址以及核心词库中的核心词能够精准地与用户信息匹配。心词能够精准地与用户信息匹配。心词能够精准地与用户信息匹配。

【技术实现步骤摘要】
一种互联网大数据抓取系统及分类梳理方法


[0001]本专利技术属于互联网大数据领域,更具体涉及一种互联网大数据系统及分类梳理方法。

技术介绍

[0002]一般用户端都是通过互联网上的网页内容分来获取所需的大数据,随着近年来互联网的发展,互联网中的数据信息也是海量的,但是用户端想要从互联网上通过网页获取所需精准的大数据是比较困难的,特别是很多包含有敏感、内容不适合用户端属性甚至危害极大的网页,而且随着技术的发展这些网页也变得越来越隐蔽,如果一旦被用户获取有可能会造成不可挽回的损失。
[0003]因此,本专利技术针对上述问题,在用户通过浏览器获取网页数据时,通过加强用户端对网页访问的权限管理,动态调整用户端核心词库和无权限地址库,针对不同用户端管理用户访问页面的权限,能够使用户端更精准的抓取所需要的数据,并阻止有害页面的访问,避免用户不必要的损失。

技术实现思路

[0004]为了更好的解决上述问题,本专利技术提供一种互联网大数据抓取系统的分类梳理方法,包括如下步骤:
[0005]步骤S1、用户端的第一权限判断部将访问本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种互联网大数据抓取系统的分类梳理方法,其特征在于,包括如下步骤:步骤S1、用户端的第一权限判断部将访问的地址与第一存储部中存储的无权限地址库进行比对,在所述无权限地址库不包含所述地址时,所述第一权限判断部允许访问所述地址,否则不允许访问所述地址;步骤S2、在访问所述地址时,浏览器通过网络服务器获取所述地址对应的网页;步骤S3、核心词判断部提取所述网页的第一核心词,并将所述第一核心词与用户端第二存储部中存储的核心词库进行比较,以获取所述第一核心词与所述核心库中的核心词重合的第一核心词数量;在所述第一核心词数量大于第一阈值时,第一地址添加部将所述地址添加至所述无权限地址库,第一通信部将所述地址发送至云服务器;步骤S4、所述云服务器接收所述地址,通过抓取部抓取所述网页的对应的第二核心词,并将所述第二核心词与云服务器中的核心词标准库进行比较,以获得所述第二核心词与所述核心词标准库中的核心词重合的第二核心词数量;在所述第二核心词数量大于第二阈值时,将所述重合的第二核心词发送至所述用户端。2.根据权利要求1所述的一种互联网大数据抓取系统的分类梳理方法,其特征在于:在所述第二核心词数量小于第二阈值时,所述步骤S4中还包括:步骤S41、所述云服务器获取所述用户端的位置,并建立所述位置与所述地址的对应关系;步骤S42、所述云服务器判断所述用户端在第二预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于第六阈值时,将第四信息发送至所述用户端;步骤S43、所述用户端接收所述第四信息,并基于所述第四信息将所述重合的第二核心词从所述核心词口中删除,并基于所述重合的第二核心词生成拟合地址,并在所述无权限地址库中存在所述拟合地址时,将所述无权限地址库中拟合地址删除。3.根据权利要求1所述的一种互联网大数据抓取系统的分类梳理方法,其特征在于:在所述步骤S4后还包括步骤S5:所述用户端接收所述重合的第二核心词,将所述重合的第二核心词与所述核心词库进行比较以获得重合的第三核心词的第三核心词数量,在所述第三核心词数量大于第三阈值时,所述用户端的第一地址添加部将所述地址添加至所述无权限地址库,同时将所述第三核心词添加至所述核心词库;在所述第三核心词数量小于第三阈值时,用户端将所述地址以及所述第三核心词分别暂存在所述用户端的第一暂存区和第二暂存区,同时将所述用户端的位置发送至云服务器。4.根据权利要求3所述的一种互联网大数据抓取系统的分类梳理方法,其特征在于:在所述步骤S5后还包括步骤S6:所述云服务器接收所述位置,并基于所述位置查询该位置处成功访问所述地址的其他用户端数量;在所述其他用户端数量大于第四阈值时,所述云服务器建立所述位置与所述地址的对应关系,同时所述云服务器判断所述用户端在第一预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于第五阈值时,将第一信息发送至用户端,在所述访问次数小于所述第五阈值时,将第二信息发送至用户端;在所述其他用户端数量小于第四阈值时,将第三信息发送至用户端。5.根据权利要求4所述的一种互联网大数据抓取系统的分类梳理方法,其特征在于:在
所述步骤S6后还包括步骤S7:所述用户端接收所述第一信息和第二信息,并基于所述第一信息删除暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词,基于所述第二信息和/或第三信息将暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词分别添加至所述无权限地址库和所述核心词库。6.一种互联网大数据抓取系统,所述系统基于如权...

【专利技术属性】
技术研发人员:王道大于东云吴桂玲李源王楠
申请(专利权)人:信阳农林学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1