一种专业情报信息采集方法、装置、设备及存储介质制造方法及图纸

技术编号：33306744 阅读：9 留言：0更新日期：2022-05-06 12:16

本发明专利技术提供了一种显示盒，一种专业情报信息采集方法，包括如下步骤：S01：读取任务计划，S02：按照所述任务计划进行数据采集，S03：判断数据采集是否成功，S04：判断待入库数据是否已存在情报库中。还提供了一种专业情报信息采集装置、一种专业情报信息采集设备及一种计算机可读存储介质。本申请通过按照任务计划自动收集所需专业情报，并将收集的专业情报进行标准格式化，并对文件内容进行判断，避免重复内容重复存储，方便后续的分析；同时有效节省了人工收集、分析、整理专业情报数据的时间和人力资源成本；还通过URL去重，有效减少重复信息的重复采集，进一步提高采集效率；另外通过针对性的采集配置设置，提高采集的成功率和准确度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种专业情报信息采集方法、装置、设备及存储介质

[0001]本申请涉及专业情报
，尤其涉及一种专业情报信息采集方法，还涉及一种专业情报信息采集装置、设备以及计算机可读存储介质。

技术介绍

[0002]随着时代与技术的发展,在报刊、图书、地图、声像资料等众多公开情报来源当中,互联网已经成了进行公开情报收集的一个重要渠道。计算机互联网络已经遍布全球,因特网已经广泛应用于政治、经济、军事等各个领域,已经形成超越传统地理空间的“计算机网络空间”,其时效性、方便性及内容的丰富性都十分突出。
[0003]但是随着互联网，信息越来越庞杂，同时各种资料的获取难度也越来越高。大多数基于网络上开放源代码的爬虫技术的监测是无法全面正确处理网络上的各种风格各异技术各异的网站的，特别是AJAX网站，很容易采集到空白数据垃圾数据或非目标数据，因此当用户使用这类系统时如果自己添加目标网站，一旦遇到稍复杂一点的就无法添加成功。

技术实现思路

[0004]本专利技术的目的在于提供一种专业情报信息采集方法，该专业情报信息采集方法可以定期地对互联网上的专业情报进行采集，有效的提高了信息采集效率，同时进行去重，减少信息的干扰；本申请的另一目的是提供一种网络安全情报采集装置、设备以及计算机可读存储介质，也具有上述有益效果。
[0005]本专利技术提供了一种专业情报信息采集方法，包括如下步骤：
[0006]S01：读取任务计划，所述任务计划用于任务的批量管理；
[0007]S02：按照所述任务计...

【技术保护点】

【技术特征摘要】
1.一种专业情报信息采集方法，其特征在于，包括如下步骤：S01：读取任务计划，所述任务计划用于任务的批量管理；S02：按照所述任务计划进行数据采集，所述数据采集按照采集配置进行采集；S03：判断数据采集是否成功，若否，则标记采集失败，并按照任务计划执行下一个数据采集任务，若是，则将采集到的数据进行标准格式化，形成待入库数据；S04：判断待入库数据是否已存在情报库中，若否，则将待入库数据保存至所述情报库中，并按照任务计划执行下一个数据采集任务，若是，则直接按照任务计划执行下一个数据采集任务。2.根据权利要求1所述的专业情报信息采集方法，其特征在于，所述步骤S02中的采集配置包括URL、API、标题、发表时间、作者、内容及采集时间；针对有限制权限的网站，所述采集配置还包括账号、密码、session、cookies。3.根据权利要求2所述的专业情报信息采集方法，其特征在于，所述步骤S02按照所述任务计划进行数据采集，所述数据采集按照采集配置进行采集之前，先进行URL查重，若URL已被采集，且采集时间到当前时间的差值小于预设值，则不对该URL采集；若URL已被采集，且采集时间到当前时间的差值大于等于预设值，则对该URL采集；若URL未被采集，则对该URL采集。4.根据权利要求3所述的专业情报信息采集方法，其特征在于，所述步骤S02中的采集配置中还包括关键词；当所述关键词不为空时，调用搜索API检索所述关键词，将所获得的U...

【专利技术属性】
技术研发人员：雷关勇，
申请(专利权)人：深圳市易海聚信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人