【技术实现步骤摘要】
一种互联网空间数据的搜索系统及方法
本专利技术涉及互联网数据搜索领域,特别是涉及一种互联网空间数据的搜索系统及方法。
技术介绍
在互联网空间中存在着无数的主机与终端设备,它们虽然每日产生巨量的数据信息,但是用户却不能对其有效的掌握,我们可以通过抓取这些数据并存入数据库,通过构建搜索系统来完成对这些数据信息的搜索,从而方便用户利用。现有的搜索系统大多采用爬虫的方法爬取数据,但大多采用直接将数据导入搜索服务器,从而实现其搜索数据的功能。但是,由于现有技术中搜索系统的数据存储结构与搜索结构不明确,易产生阻塞。另外,由于互联网中不同数据类型的主机间关联程度较低,采用爬虫框架得到的数据量会远远小于实际存在的数据量,偏差过大。
技术实现思路
本专利技术的目的是提供一种互联网空间数据的搜索系统及方法,能够提高搜索系统的存储和搜索读取效率。为实现上述目的,本专利技术提供了如下方案:一种互联网空间数据的搜索系统,所述系统包括:探测模块、抓取模块、清洗模块、存储模块、搜索模块和中间件,所述探测模块用于探测互联网中存活的主机和设备,抓取模块用于获取存活的主机和设备的数据信息;清洗模块用于对 ...
【技术保护点】
1.一种互联网空间数据的搜索系统,其特征在于,所述系统包括:探测模块、抓取模块、清洗模块、存储模块、搜索模块和中间件,所述探测模块用于探测互联网中存活的主机和设备,抓取模块用于获取存活的主机和设备的数据信息;清洗模块用于对所述数据信息进行清洗;存储模块用于将清洗后的数据信息保存到数据库;所述中间件连接所述存储模块和所述搜索模块,所述中间件用于将所述存储模块中的数据索引同步到所述搜索模块中;搜索模块用于从所述数据索引搜索中搜索设备或主机的数据信息。
【技术特征摘要】
1.一种互联网空间数据的搜索系统,其特征在于,所述系统包括:探测模块、抓取模块、清洗模块、存储模块、搜索模块和中间件,所述探测模块用于探测互联网中存活的主机和设备,抓取模块用于获取存活的主机和设备的数据信息;清洗模块用于对所述数据信息进行清洗;存储模块用于将清洗后的数据信息保存到数据库;所述中间件连接所述存储模块和所述搜索模块,所述中间件用于将所述存储模块中的数据索引同步到所述搜索模块中;搜索模块用于从所述数据索引搜索中搜索设备或主机的数据信息。2.根据权利要求1所述的互联网空间数据的搜索系统,其特征在于,所述中间件为Monstache模块。3.根据权利要求1所述的互联网空间数据的搜索系统,其特征在于,所述存储模块为MongoDB存储服务器。4.根据权利要求1所述的互联网空间数据的搜索系统,其特征在于,所述所述搜索模块为ElasticSearch搜索服务器。5.一种互联网空间数据的搜索方法,其特征在于,所述方法应用于如权利要求1-4中任一项所述的互联网空间数据的搜索系统,所述方法包括:探测互联网中存活的各种主机和设备;获取存活的主机和设备的数据信息;对所述数据信息进行清洗;将清洗后的数据信息保存到数据库;采用中间件将数据库中的数据信息的索引同步于搜索...
【专利技术属性】
技术研发人员:姚茗亮,史闻博,翟润棣,汤梓寅,刘永辉,刘乃齐,
申请(专利权)人:东北大学秦皇岛分校,
类型:发明
国别省市:河北,13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。