一种基于机器学习评估多源威胁情报质量的方法和系统技术方案

技术编号：41223410 阅读：2 留言：0更新日期：2024-05-09 23:42

本发明专利技术公开了一种基于机器学习评估多源威胁情报质量的方法和系统，所述方法包括：从不同渠道收集原始威胁情报；对所述原始威胁情报进行处理，获取标准化的情报数据；对获取的标准化的情报数据进行挖掘，提取相应的情报特征，保存到特征库中；使用随机森林算法模型计算威胁情报的综合评分，对威胁情报的置信度进行评估。该方法和系统可以发现威胁情报IOC情报数据中的错误、不一致和缺失等问题，提高情报数据的准确性和可靠性；能够帮助决策者更好的利用情报数据，做出更加准确、有针对性的决策，大大提高了决策效率，减少决策时间和成本；还可以更加快速地发现潜在的安全威胁和漏洞，从而增强企业的安全防御能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种多源威胁情报质量评估方法和系统，具体涉及一种基于机器学习评估多源威胁情报质量的方法和系统，属于网络安全。

技术介绍

1、随着威胁情报、大数据和人工智能技术的发展，网络安全研究员往往会收集来自不同渠道的威胁情报ioc。然而大量的威胁情报中有些情报可能已经过期，展示的维度也较少，甚至相互之间是互斥的。并且随着时间的推移，情报库中的数据量会越来越大，如果这些情报全部应用到生产环境会对系统产生巨大的负担，也会大大降低计算效率，甚至还会因为一些弃用的威胁情报ioc导致大量的误报。由于低质量的威胁情报而产生的漏报、误报，给企业带来较大的损害。

技术实现思路

1、为了解决至少一个上述问题，本专利技术提供一种基于机器学习评估多源威胁情报质量的方法和系统，旨在衡量不同渠道威胁情报的质量，减少低质量的威胁情报给用户带来的损害。

2、为了实现上述目的，本专利技术实施例提供如下技术方案：

3、本专利技术提供一种基于机器学习评估多源威胁情报质量的方法，包括：

4、从不同渠道收集原始威胁情报；

5、对所述原始威胁情报进行处理，获取标准化的情报数据；

6、对获取的标准化的情报数据进行挖掘，提取相应的情报特征，保存到特征库中；

7、使用随机森林算法模型计算威胁情报的综合评分，对威胁情报的置信度进行评估。

8、进一步地，所述对所述原始威胁情报进行处理，获取标准化的情报数据包括：

9、步骤一：使用自然语言

10、ioc关联信息，所述ioc关联信息包括apt组织、恶意家族、来源、报告信息、录入人、标签和关联ioc中的至少一种；

11、ip相关的信息，所述ip相关的信息包括地理位置、所有者、isp和活跃度中的至少一种；

12、域名相关的信息，所述域名相关的信息包括whois和活跃度中的至少一种。

13、步骤二：将处理后的数据按照国标或stix的标准格式存储到数据库中。

14、进一步地，所述对获取的标准化的情报数据进行挖掘，提取相应的情报特征，保存到特征库中；其中，提取的情报特征包括：

15、情报源特征，所述情报源特征包含以下特征中至少一个：ioc情报源的权威度、ioc类型数量、ioc更新频率、ioc误报率、ioc漏报率、ioc丰富程度和ioc率先发现率；

16、内容特征，所述内容特征包含以下特征中至少一个：ioc防御级别、ioc时效性、ioc提交时间、ioc涉及安全事件数量、ioc是否有历史情报、ioc历史情报数量；

17、时间特征，所述时间特征包含以下特征中至少一个：ioc最早发现时间、ioc最晚发现时间、ioc更新频率。

18、进一步地，所述使用随机森林算法模型计算威胁情报的综合评分，对威胁情报的置信度进行评估包括：

19、读取保存的特征库；

20、将处理好的特征数据分为测试集合训练集，采用交叉验证的方法来评估模型的性能；

21、使用随机森林算法对训练集进行训练，得到一个打分器模型；

22、对测试集进行预测，判断预测结果与实际结果之间的误差；

23、优化模型；

24、再次评估模型的性能；

25、使用优化后的模型对新的情报数据进行评估打分。

26、根据本专利技术的另外一个方面，提供一种基于机器学习评估多源威胁情报质量的系统，包括：

27、收集威胁情报模块，用于从不同渠道收集原始威胁情报；

28、获取标准化数据模块，用于对所述原始威胁情报进行处理，获取标准化的情报数据；

29、提取情报特征模块，用于对获取的标准化的情报数据进行挖掘，提取相应的情报特征，保存到特征库中；

30、评估情报置信度模块，用于使用随机森林算法模型计算威胁情报的综合评分，对威胁情报的置信度进行评估。

31、进一步地，所述获取标准化数据模块包括：

32、数据处理模块，用于使用自然语言处理的方式，对收集到的原始威胁情报进行数据预处理和清洗，提取、富化威胁情报的下列信息：

33、ioc关联信息，所述ioc关联信息包括apt组织、恶意家族、来源、报告信息、录入人、标签和关联ioc中的至少一种；

34、ip相关的信息，所述ip相关的信息包括地理位置、所有者、isp和活跃度中的至少一种；

35、域名相关的信息，所述域名相关的信息包括whois和活跃度中的至少一种；

36、数据存储模块，用于将处理后的数据按照国标或stix的标准格式存储到数据库中。

37、进一步地，所述提取情报特征模块提取的情报特征包括：

38、情报源特征，所述情报源特征包含以下特征中至少一个：ioc情报源的权威度、ioc类型数量、ioc更新频率、ioc误报率、ioc漏报率、ioc丰富程度和ioc率先发现率；

39、内容特征，所述内容特征包含以下特征中至少一个：ioc防御级别、ioc时效性、ioc提交时间、ioc涉及安全事件数量、ioc是否有历史情报、ioc历史情报数量；

40、时间特征，所述时间特征包含以下特征中至少一个：ioc最早发现时间、ioc最晚发现时间、ioc更新频率。

41、进一步地，所述评估情报置信度模块包括：

42、读取模块，用于读取保存的特征库；

43、评估模型模块，用于将处理好的特征数据分为测试集合训练集，采用交叉验证的方法来评估模型的性能；

44、训练模块，用于使用随机森林算法对训练集进行训练，得到一个打分器模型；

45、预测模块，用于对测试集进行预测，判断预测结果与实际结果之间的误差；

46、优化模块，用于优化模型；

47、再次评估模型模块，用于再次评估模型的性能；

48、评估打分模块，用于使用优化后的模型对新的情报数据进行评估打分。

49、本专利技术还提供一种智能终端，所述智能终端包括：数据采集装置、处理器和存储器；

50、所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行如上所述的方法。

51、本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如上所述的方法。

52、本专利技术的有益效果主要体现在：

53、本专利技术采用机器学习技术，自然语言处理技术，数据挖掘技术以及专家系统技术全方面对情报源和情报质量进行有效评估，让企业能够更好的运用这些数据来保护自身安全。本专利技术提供的基于机器学习评估多源威胁情报质量的方法和系统可以发现威胁情报ioc情报数据中的错误、不一致和缺失等问题，提高情报数据的本文档来自技高网...

【技术保护点】

1.一种基于机器学习评估多源威胁情报质量的方法，其特征在于，包括：

2.根据权利要求1的方法，其特征在于，所述对所述原始威胁情报进行处理，获取标准化的情报数据包括：

3.根据权利要求1的方法，其特征在于，所述对获取的标准化的情报数据进行挖掘，提取相应的情报特征，保存到特征库中；其中，提取的情报特征包括：

4.根据权利要求1的方法，其特征在于，所述使用随机森林算法模型计算威胁情报的综合评分，对威胁情报的置信度进行评估包括：

5.一种基于机器学习评估多源威胁情报质量的系统，其特征在于，包括：

6.根据权利要求5的系统，其特征在于，所述获取标准化数据模块包括：

7.根据权利要求5的系统，其特征在于，所述提取情报特征模块提取的情报特征包括：

8.根据权利要求5的系统，其特征在于，所述评估情报置信度模块包括：

9.一种智能终端，其特征在于，所述智能终端包括：数据采集装置、处理器和存储器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包含一个或多个程序指令，所述一

...

【技术特征摘要】

1.一种基于机器学习评估多源威胁情报质量的方法，其特征在于，包括：

2.根据权利要求1的方法，其特征在于，所述对所述原始威胁情报进行处理，获取标准化的情报数据包括：

4.根据权利要求1的方法，其特征在于，所述使用随机森林算法模型计算威胁情报的综合评分，对威胁情报的置信度进行评估包括：

5.一种基于机器学习评估多源威胁情报质量的系统，其特...

【专利技术属性】
技术研发人员：李志坤，赖文杰，
申请(专利权)人：北京观成科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人