一种数据抓取系统及数据抓取方法技术方案

技术编号:30527520 阅读:13 留言:0更新日期:2021-10-27 23:13
本发明专利技术公开了一种数据抓取系统及数据抓取方法,包括数据抓取系统、数据搜索模块、数据抓取模块、数据筛选模块、数据接收模块、数据整理模块、数据去重模块、数据传输模块、数据判断模块、数据导出模块、数据存储模块、数据查看模块和数据存储库,本发明专利技术一种数据抓取系统及数据抓取方法,通过数据筛选模块,可保证数据抓取系统抓取的数据更加全面,得到的网络数据质量更佳,避免数据庞大复杂的问题,保证人员查看更加方便,且通过数据判断模块来判断抓取的数据是否含有违规和不良信息,避免未成年人接触,保护未成年人的身心发展,提高了数据的抓取质量,抓取数据更加高效,人员使用更加便利。人员使用更加便利。人员使用更加便利。

【技术实现步骤摘要】
一种数据抓取系统及数据抓取方法


[0001]本专利技术涉及轨道交通降尘
,特别涉及一种数据抓取系统及数据抓取方法。
[0002]
技术介绍

[0003]网络数据是现实世界中最常用的数据类型之一。随着社会的发展,网络信息增长迅速,使得网络数据的信息量更大,范围更广。
[0004]目前,在对网络数据进行抓取时,由于信息太多,不具数据筛选功能,导致人员得到的数据庞大而复杂,对人员的查看带来很大的不便,且不具有数据判断功能,信息庞大含有很多违规、不良信息,不具有数据判断功能,导致人员在搜索数据时出现大量违规、不良信息,尤其对未成年人的身心发展产生严重影响,因此需要一种数据抓取系统来对网络信息进行筛选和区分判断,从而保证人员的使用。
[0005]
技术实现思路

[0006]本专利技术的目的在于提供一种数据抓取系统及数据抓取方法,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种数据抓取系统及数据抓取方法,包括数据抓取系统、数据搜索模块、数据抓取模块、数据筛选模块、数据接收模块、数据整理模块、数据去重模块、数据传输模块、数据判断模块、数据导出模块、数据存储模块、数据查看模块和数据存储库,其中:可通过数据搜索模块输入数据相关关键词,数据搜索模块将数据关键词传输至数据抓取系统,数据抓取系统在获取数据关键词时根据关键词生成数据抓取命令,数据抓取命令传输至数据抓取模块,数据抓取模块根据数据抓取命令检索线上数据并抓取相关数据,数据抓取模块抓取的相关数据传输至数据筛选模块,数据筛选模块包括数据接收模块、数据整理模块、数据去重模块和数据传输模块,数据接收模块对相关数据进行接收,接收的相关数据由数据整理模块对其进行收集整理并进行相互补充,整理后的数据传输至数据去重模块,数据去重模块对整理后的数据进行去重,将重复的数据去除,去重后的数据通过数据传输模块将数据传出。
[0008]优选的,数据筛选模块将筛选后的数据传输至数据判断模块,数据判断模块对每条数据进行逐条判断,若数据判断模块判断该条数据含有违规、不良信息,数据判断模块会将该条数据进行屏蔽,放弃对该条数据的传输。
[0009]优选的,若数据判断模块判断该条数据不含有违规、不良信息,此时数据判断模块将该合格数据传输至数据导出模块。
[0010]优选的,数据导出模块将合格数据导出传输至数据存储模块,数据存储模块将数据传输至数据抓取系统,数据抓取系统将抓取的合格数据上传至数据存储库内进行备份保
存。
[0011]优选的,数据导出模块将抓取的合格数据传输至数据查看模块,人员可通过数据查看模块对相关数据进行查看。
[0012]优选的,所述数据抓取系统根据数据搜索模块传输的关键词,生成相应的数据抓取命令,该命令针对关键词搜索相应的文本、图片、视频等数据。
[0013]优选的,数据抓取模块抓取的线上数据为线上各个渠道获得的相关数据。
[0014]本专利技术的技术效果和优点:本专利技术一种数据抓取系统及数据抓取方法,通过数据筛选模块,可保证数据抓取系统抓取的数据更加全面,得到的网络数据质量更佳,避免数据庞大复杂的问题,保证人员查看更加方便,且通过数据判断模块来判断抓取的数据是否含有违规和不良信息,避免未成年人接触,保护未成年人的身心发展,提高了数据的抓取质量,抓取数据更加高效,人员使用更加便利。
[0015]附图说明
[0016]图1为本专利技术的模块示意图;图2为本专利技术数据判断模块的示意图。
[0017]图中:1、数据抓取系统;2、数据搜索模块;3、数据抓取模块;4、数据筛选模块;401、数据接收模块;402、数据整理模块;403、数据去重模块;404、数据传输模块;5、数据判断模块;6、数据导出模块;7、数据存储模块;8、数据查看模块;9、数据存储库。
[0018]具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]本专利技术提供了如图1

2所示的一种数据抓取系统及数据抓取方法,包括数据抓取系统1、数据搜索模块2、数据抓取模块3、数据筛选模块4、数据接收模块401、数据整理模块402、数据去重模块403、数据传输模块404、数据判断模块5、数据导出模块6、数据存储模块7、数据查看模块8和数据存储库9,其中:可通过数据搜索模块2输入数据相关关键词,数据搜索模块2将数据关键词传输至数据抓取系统1,数据抓取系统1在获取数据关键词时根据关键词生成数据抓取命令,数据抓取命令传输至数据抓取模块3,数据抓取模块3根据数据抓取命令检索线上数据并抓取相关数据,数据抓取模块3抓取的相关数据传输至数据筛选模块4,数据筛选模块4包括数据接收模块401、数据整理模块402、数据去重模块403和数据传输模块404,数据接收模块401对相关数据进行接收,接收的相关数据由数据整理模块402对其进行收集整理并进行相互补充,整理后的数据传输至数据去重模块403,数据去重模块403对整理后的数据进行去重,将重复的数据去除,去重后的数据通过数据传输模块404将数据传出;
根据图1

2所示,数据筛选模块4将筛选后的数据传输至数据判断模块5,数据判断模块5对每条数据进行逐条判断,若数据判断模块5判断该条数据含有违规、不良信息,数据判断模块5会将该条数据进行屏蔽,放弃对该条数据的传输,若数据判断模块5判断该条数据不含有违规、不良信息,此时数据判断模块5将该合格数据传输至数据导出模块6,数据导出模块6将合格数据导出传输至数据存储模块7,数据存储模块7将数据传输至数据抓取系统1,数据抓取系统1将抓取的合格数据上传至数据存储库9内进行备份保存,数据导出模块6将抓取的合格数据传输至数据查看模块8,人员可通过数据查看模块8对相关数据进行查看,数据抓取系统1根据数据搜索模块2传输的关键词,生成相应的数据抓取命令,该命令针对关键词搜索相应的文本、图片、视频等数据,数据抓取模块3抓取的线上数据为线上各个渠道获得的相关数据。
[0021]本专利技术工作原理:人员通过数据搜索模块2输入数据关键词,数据抓取系统1根据数据关键词生成数据抓取命令,数据抓取命令针对关键词产生搜索文本、图片、视频等指令,数据抓取命令指令数据抓取模块3在线上抓取初步的相关数据,数据抓取模块3抓取的初步数据通过数据筛选模块4进行筛选,数据接收模块401接收初步相关数据并将其传输至数据整理模块402,数据整理模块402将抓取的相关数据进行初步筛选和整理,并进行相互补充,整理后的数据通过数据去重模块403进行筛选去重,将重复的数据剔除,数据去重后通过数据传输模块404传出,筛选后的数据经过数据判断模块5进行判断,数据判断模块5判断每条数据是否含有违规、不良的信息,其中一条数据含有违本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据抓取系统及数据抓取方法,其特征在于,包括数据抓取系统(1)、数据搜索模块(2)、数据抓取模块(3)、数据筛选模块(4)、数据接收模块(401)、数据整理模块(402)、数据去重模块(403)、数据传输模块(404)、数据判断模块(5)、数据导出模块(6)、数据存储模块(7)、数据查看模块(8)和数据存储库(9),其中:可通过数据搜索模块(2)输入数据相关关键词,数据搜索模块(2)将数据关键词传输至数据抓取系统(1),数据抓取系统(1)在获取数据关键词时根据关键词生成数据抓取命令,数据抓取命令传输至数据抓取模块(3),数据抓取模块(3)根据数据抓取命令检索线上数据并抓取相关数据,数据抓取模块(3)抓取的相关数据传输至数据筛选模块(4),数据筛选模块(4)包括数据接收模块(401)、数据整理模块(402)、数据去重模块(403)和数据传输模块(404),数据接收模块(401)对相关数据进行接收,接收的相关数据由数据整理模块(402)对其进行收集整理并进行相互补充,整理后的数据传输至数据去重模块(403),数据去重模块(403)对整理后的数据进行去重,将重复的数据去除,去重后的数据通过数据传输模块(404)将数据传出。2.根据权利要求1所述的一种数据抓取系统,其特征在于,数据筛选模块(4)将筛选后的数据传输至数据判断模块(5),数据判断模块(5)对每条数据进行逐条判断,若数据判断模块(5)判断该条数据含有违规、不良信息,数据判断模块(5)会将该条数据进行屏蔽,放弃对该条数据的传输。3.根据权利要求2所述的一种数据抓取系统,其特征在于,若数据判断模块(5)判断该条数据不含有违规、不良信息,此时数据判断模块(5)将该合格数据传输至数据导出模块(6)。4.根据权利要求3所述的一种数据抓取系统,其特征在于,数据导出模块(6)将合格数据导出传输至数据存储模块(7),数据存储模块(7)将数据传输至数据抓取系统(1)...

【专利技术属性】
技术研发人员:童华兵
申请(专利权)人:南京今日商讯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1