一种专业情报信息采集方法、装置、设备及存储介质制造方法及图纸

技术编号:33306744 阅读:9 留言:0更新日期:2022-05-06 12:16
本发明专利技术提供了一种显示盒,一种专业情报信息采集方法,包括如下步骤:S01:读取任务计划,S02:按照所述任务计划进行数据采集,S03:判断数据采集是否成功,S04:判断待入库数据是否已存在情报库中。还提供了一种专业情报信息采集装置、一种专业情报信息采集设备及一种计算机可读存储介质。本申请通过按照任务计划自动收集所需专业情报,并将收集的专业情报进行标准格式化,并对文件内容进行判断,避免重复内容重复存储,方便后续的分析;同时有效节省了人工收集、分析、整理专业情报数据的时间和人力资源成本;还通过URL去重,有效减少重复信息的重复采集,进一步提高采集效率;另外通过针对性的采集配置设置,提高采集的成功率和准确度。度。度。

【技术实现步骤摘要】
一种专业情报信息采集方法、装置、设备及存储介质


[0001]本申请涉及专业情报
,尤其涉及一种专业情报信息采集方法,还涉及一种专业情报信息采集装置、设备以及计算机可读存储介质。

技术介绍

[0002]随着时代与技术的发展,在报刊、图书、地图、声像资料等众多公开情报来源当中,互联网已经成了进行公开情报收集的一个重要渠道。计算机互联网络已经遍布全球,因特网已经广泛应用于政治、经济、军事等各个领域,已经形成超越传统地理空间的“计算机网络空间”,其时效性、方便性及内容的丰富性都十分突出。
[0003]但是随着互联网,信息越来越庞杂,同时各种资料的获取难度也越来越高。大多数基于网络上开放源代码的爬虫技术的监测是无法全面正确处理网络上的各种风格各异技术各异的网站的,特别是AJAX网站,很容易采集到空白数据垃圾数据或非目标数据,因此当用户使用这类系统时如果自己添加目标网站,一旦遇到稍复杂一点的就无法添加成功。

技术实现思路

[0004]本专利技术的目的在于提供一种专业情报信息采集方法,该专业情报信息采集方法可以定期地对互联网上的专业情报进行采集,有效的提高了信息采集效率,同时进行去重,减少信息的干扰;本申请的另一目的是提供一种网络安全情报采集装置、设备以及计算机可读存储介质,也具有上述有益效果。
[0005]本专利技术提供了一种专业情报信息采集方法,包括如下步骤:
[0006]S01:读取任务计划,所述任务计划用于任务的批量管理;
[0007]S02:按照所述任务计划进行数据采集,所述数据采集按照采集配置进行采集;
[0008]S03:判断数据采集是否成功,若否,则标记采集失败,并按照任务计划执行下一个数据采集任务,若是,则将采集到的数据进行标准格式化,形成待入库数据;
[0009]S04:判断待入库数据是否已存在情报库中,若否,则将待入库数据保存至所述情报库中,并按照任务计划执行下一个数据采集任务,若是,则直接按照任务计划执行下一个数据采集任务。
[0010]进一步地,所述步骤S02中的采集配置包括URL、API、标题、发表时间、作者、内容及采集时间;针对有限制权限的网站,所述采集配置还包括账号、密码、session、cookies。
[0011]进一步地,所述步骤S02按照所述任务计划进行数据采集,所述数据采集按照采集配置进行采集之前,先进行URL查重,
[0012]若URL已被采集,且采集时间到当前时间的差值小于预设值,则不对该URL采集;
[0013]若URL已被采集,且采集时间到当前时间的差值大于等于预设值,则对该URL采集;
[0014]若URL未被采集,则对该URL采集。
[0015]进一步地,所述步骤S02中的采集配置中还包括关键词;
[0016]当所述关键词不为空时,调用搜索API检索所述关键词,将所获得的URL添加至所
述任务计划中。
[0017]进一步地,所述关键词经过如下步骤处理:
[0018]判断搜索关键词与网站对应语言是否一致;若是,则执行搜索,若否,则将所述关键词自动翻译为网站语言所对应的文本,并执行搜索。
[0019]进一步地,所述步骤S03中,判断数据采集是否成功,若否,则标记采集失败,同时记录采集失败原因及原因对应代状态码,用于后续更新采集配置。
[0020]进一步地,所述步骤S01中,所述任务计划包括目标网站集的开始调度时间、调度频率及开启的进程数信息。
[0021]本专利技术还提供了一种专业情报信息采集装置,包括:
[0022]任务计划编辑模块,用于形成任务计划;
[0023]任务计划调度模块,用于调度和执行任务计划;
[0024]采集配置模块,用于配置各网站的采集配置;
[0025]采集模块,用于按照采集配置进行数据采集;
[0026]情报标准化模块,用于将采集到的数据进行标准格式化,形成待入库数据;
[0027]存储模块,用于存储待入库数据。
[0028]本专利技术还提供了一种专业情报信息采集设备,包括:
[0029]存储器,用于存储计算机程序;
[0030]处理器,用于执行所述计算机程序时实现如上所述任意一项所述的专业情报信息采集方法的步骤。
[0031]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述任意一项所述的专业情报信息采集方法的步骤。
[0032]与现有技术相比,本申请有如下优点:
[0033]通过按照任务计划自动收集所需专业情报,并将收集的专业情报进行标准格式化,并对文件内容进行判断,避免重复内容重复存储,方便后续的分析;同时有效节省了人工收集、分析、整理专业情报数据的时间和人力资源成本;还通过URL去重,有效减少重复信息的重复采集,进一步提高采集效率;另外通过针对性的采集配置设置,提高采集的成功率和准确度。
【附图说明】
[0034]图1为本申请提供的一种专业情报信息采集方法的流程示意图。
[0035]图2为本申请提供的一种专业情报信息采集装置的结构示意图。
[0036]图3为本申请提供的一种专业情报信息采集设备的结构示意图。
【具体实施方式】
[0037]为让本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合附图,作详细说明如下,但本专利技术并不限于此。
[0038]如图1所示,本专利技术提供了一种专业情报信息采集方法,包括如下步骤:
[0039]S01:读取任务计划,所述任务计划用于任务的批量管理;任务计划包括目标网站
集的开始调度时间、调度频率及开启的进程数信息;
[0040]S02:按照所述任务计划进行数据采集,所述数据采集按照采集配置进行采集;
[0041]采集配置包括URL、API、标题、发表时间、作者、内容及采集时间;针对有限制权限的网站,所述采集配置还包括账号、密码、session、cookies。针对公开的信息可直接获取材料的标题、发表时间、作者、内容,针对有限制权限的网站,还可通过账号、密码、session、cookies实现自动登陆,进而获取相关信息。
[0042]按照所述任务计划进行数据采集,所述数据采集按照采集配置进行采集之前,先进行URL查重,
[0043]若URL已被采集,且采集时间到当前时间的差值小于预设值,则不对该URL采集;
[0044]若URL已被采集,且采集时间到当前时间的差值大于等于预设值,则对该URL采集;
[0045]若URL未被采集,则对该URL采集。
[0046]通过URL去重,可减少数据的重复获取,避免资源浪费。
[0047]当采集配置中包括关键词时;且当所述关键词不为空时,先判断搜索关键词与网站对应语言是否一致;若是,则执行搜索,若否,则将所述关键词自动翻译为网站语言所对应的文本,并执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专业情报信息采集方法,其特征在于,包括如下步骤:S01:读取任务计划,所述任务计划用于任务的批量管理;S02:按照所述任务计划进行数据采集,所述数据采集按照采集配置进行采集;S03:判断数据采集是否成功,若否,则标记采集失败,并按照任务计划执行下一个数据采集任务,若是,则将采集到的数据进行标准格式化,形成待入库数据;S04:判断待入库数据是否已存在情报库中,若否,则将待入库数据保存至所述情报库中,并按照任务计划执行下一个数据采集任务,若是,则直接按照任务计划执行下一个数据采集任务。2.根据权利要求1所述的专业情报信息采集方法,其特征在于,所述步骤S02中的采集配置包括URL、API、标题、发表时间、作者、内容及采集时间;针对有限制权限的网站,所述采集配置还包括账号、密码、session、cookies。3.根据权利要求2所述的专业情报信息采集方法,其特征在于,所述步骤S02按照所述任务计划进行数据采集,所述数据采集按照采集配置进行采集之前,先进行URL查重,若URL已被采集,且采集时间到当前时间的差值小于预设值,则不对该URL采集;若URL已被采集,且采集时间到当前时间的差值大于等于预设值,则对该URL采集;若URL未被采集,则对该URL采集。4.根据权利要求3所述的专业情报信息采集方法,其特征在于,所述步骤S02中的采集配置中还包括关键词;当所述关键词不为空时,调用搜索API检索所述关键词,将所获得的U...

【专利技术属性】
技术研发人员:雷关勇
申请(专利权)人:深圳市易海聚信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1