本发明专利技术公开了一种基于机器学习的攻击事件类型的识别方法和系统,方法包括:获取攻击事件日志文件和攻击事件类型对应的字符串信息;使用攻击事件类型对应的字符串信息对攻击事件日志文件中的多行日志数据进行相似度分析和相似度排序,得到攻击事件类型排序列表,并从中提取前预定项数的日志数据组成同一组区域网络攻击事件;对同一组区域网络攻击事件包含的日志数据进行相似度分析得到关键字符串信息;根据关键字符串信息训练文本分类模型,并使用训练好的文本分类模型对攻击事件的待测试日志数据进行识别,得到待测试日志数据对应的攻击事件类型。通过本发明专利技术提供的方法及系统,能够区分不同类型的网络攻击事件,减少计算机系统存在的安全隐患。计算机系统存在的安全隐患。计算机系统存在的安全隐患。
【技术实现步骤摘要】
一种基于机器学习的攻击事件类型的识别方法和系统
[0001]本专利技术涉及网络
,具体涉及一种基于机器学习的攻击事件类型的识别方法和系统。
技术介绍
[0002]网络攻击也被称为赛博攻击,是指针对计算机信息系统、基础设施、计算机网络甚至个人计算机设备的任何类型的进攻动作。对于计算机网络而言,破坏、揭露、修改、使软件或服务失去功能以及在没有得到授权的情况下偷取或访问任何一台计算机的数据,都会被视为对计算机的网络攻击。
[0003]通常情况下,网络攻击主要包括:网际互连协议(Internet Protocol,IP)报文攻击和拒绝服务(Denial Of Service,DoS)攻击两种。其中,IP报文攻击是指通过向目标系统发送有缺陷的IP报文,利用该报文破坏目标系统的数据、窃取目标系统的信息以及瘫痪目标系统的功能,IP报文攻击的攻击方式主要包括:死亡之Ping(Ping of Death)、泪滴(Teardrop)和ExeBind等方式。另一种主要的网络攻击方式为DoS攻击。DoS攻击是指使用大量的数据包攻击目标系统,使目标系统无法接受用户的正常请求,或者使目标主机挂起从而不能正常工作等。DoS攻击的攻击方式主要包括:SYN洪水(SYN Flood)和Fraggle等方式。在多种网络攻击类型中,DoS攻击是最常见的一种,因为这种攻击方式对攻击技能要求不高,攻击者可以利用各种开放的攻击软件实施攻击行为,所以DoS攻击的威胁逐步增大。成功的DoS攻击能够导致服务器性能急剧下降,造成正常客户访问失败。
[0004]现有的计算机系统,针对网络攻击,尤其是DoS网络攻击其分辨能力较差,由于网络攻击的隐匿性较强,重合特征多,新特征形式的网络攻击层出不穷,导致计算机系统难以区分不同类型的网络攻击,给计算机系统的安全性带来巨大威胁。
技术实现思路
[0005]因此,本专利技术提供了一种基于机器学习的攻击事件类型的识别方法和系统,能够通过文本分类模型区分不同类型的网络攻击事件,减少计算机系统存在的安全隐患,以解决上述
技术介绍
中提出的问题。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]第一方面,本专利技术实施例提供一种基于机器学习的攻击事件类型的识别方法,包括:
[0008]获取攻击事件日志文件和攻击事件类型对应的字符串信息;
[0009]使用所述攻击事件类型对应的字符串信息对所述攻击事件日志文件中的多行日志数据进行相似度分析和相似度排序,得到攻击事件类型排序列表;
[0010]从所述攻击事件类型排序列表中提取前预定项数的日志数据,使用所述前预定项数的日志数据组成同一组区域网络攻击事件;
[0011]对所述同一组区域网络攻击事件包含的日志数据进行相似度分析,得到关键字符
串信息;
[0012]根据所述关键字符串信息训练文本分类模型,并使用训练好的文本分类模型对攻击事件的待测试日志数据进行识别,得到待测试日志数据对应的攻击事件类型。
[0013]优选的,得到攻击事件类型排序列表的步骤,包括:
[0014]从所述攻击事件日志文件的多行日志数据中提取字符串信息;
[0015]对所述多行日志数据的字符串信息与所述攻击事件类型对应的字符串信息进行相似度匹配,得到所述多行日志数据与攻击事件类型对应的相似度;
[0016]按照所述相似度的大小对所述多行日志数据进行相似度排序,得到所述多行日志数据所属的攻击事件类型排序列表。
[0017]优选的,使用前预定项数的日志数据组成同一组区域网络攻击事件的步骤,包括:
[0018]使用前预定项数的日志数据作为攻击事件类型对应的多组日志数据;
[0019]提取每组日志数据在日志文件的位置信息以及其对应的时间戳信息,并将每组日志数据的位置信息和时间戳信息进行关联;
[0020]对关联的日志数据进行能否组成同一组区域网络攻击事件的判断,若所述关联的日志数据的位置信息的位置间距小于或等于标准间距且时间戳信息的时间间隔小于或等于单次攻击时长,则将关联的日志数据组成同一组区域网络攻击事件。
[0021]优选的,得到关键字符串信息的步骤,包括:
[0022]将所述同一组区域网络攻击事件包含的日志数据作为重点排查区域日志数据;
[0023]使用所述攻击事件类型对应的字符串信息对所述重点排查区域日志数据所属的多行日志数据进行相似度分析;
[0024]提取相似度大于等于预设相似度阈值的字符串信息作为关键字符串信息。
[0025]优选的,根据关键字符串信息训练文本分类模型的步骤,包括:
[0026]对关键字符串信息进行分词操作得到分词后的关键字符串信息;
[0027]对所述分词后的关键字符串信息进行关键词提取的操作,并使用TF
‑
IDF算法得到每个关键词对应的逆向词频;
[0028]根据所述逆向词频筛选得到目标关键词和所述目标关键词的标签集合;
[0029]使用标签相似度大于或等于基本标签阈值的目标关键词构建特征矩阵;
[0030]对特征矩阵进行处理后输入至所述文本分类模型进行训练。
[0031]优选的,对特征矩阵进行处理的过程,包括:
[0032]将所述标签相似度大于或等于基本标签阈值的目标关键词作为高相似度关键词;
[0033]使用矢量化器生成所述高相似度关键词的词向量并将其组成特征矩阵;
[0034]使用主成分分析算法对特征矩阵进行降维,得到降维后的特征矩阵。
[0035]优选的,得到待测试日志数据对应的攻击事件类型的步骤,包括:
[0036]从同一组网络攻击事件的待测试日志数据包含的字符串信息中提取待测试关键词;
[0037]构建所述待测试关键词对应的特征矩阵,将所述特征矩阵输入至训练好的文本分类模型中进行识别,得到待测试日志数据对应的攻击事件类型。
[0038]第二方面,本专利技术实施例提供一种基于机器学习的攻击事件类型的识别系统,包括:
[0039]数据获取模块,用于获取攻击事件日志文件和攻击事件类型对应的字符串信息;
[0040]第一相似度分析模块,用于使用所述攻击事件类型对应的字符串信息对所述攻击事件日志文件中的多行日志数据进行相似度分析和相似度排序,得到攻击事件类型排序列表;
[0041]日志数据提取模块,用于从所述攻击事件类型排序列表中提取前预定项数的日志数据,使用所述前预定项数的日志数据组成同一组区域网络攻击事件;
[0042]第二相似度分析模块,用于对所述同一组区域网络攻击事件包含的日志数据进行相似度分析,得到关键字符串信息;
[0043]分类模型训练和识别模块,用于根据所述关键字符串信息训练文本分类模型,并使用训练好的文本分类模型对攻击事件的待测试日志数据进行识别,得到待测试日志数据对应的攻击事件类型。
[0044]第三方面,本专利技术实施例提供一种计算机设备,包括:至本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的攻击事件类型的识别方法,其特征在于,包括:获取攻击事件日志文件和攻击事件类型对应的字符串信息;使用所述攻击事件类型对应的字符串信息对所述攻击事件日志文件中的多行日志数据进行相似度分析和相似度排序,得到攻击事件类型排序列表;从所述攻击事件类型排序列表中提取前预定项数的日志数据,使用所述前预定项数的日志数据组成同一组区域网络攻击事件;对所述同一组区域网络攻击事件包含的日志数据进行相似度分析,得到关键字符串信息;根据所述关键字符串信息训练文本分类模型,并使用训练好的文本分类模型对攻击事件的待测试日志数据进行识别,得到待测试日志数据对应的攻击事件类型。2.根据权利要求1所述的基于机器学习的攻击事件类型的识别方法,其特征在于,所述得到攻击事件类型排序列表的步骤,包括:从所述攻击事件日志文件的多行日志数据中提取字符串信息;对所述多行日志数据的字符串信息与所述攻击事件类型对应的字符串信息进行相似度匹配,得到所述多行日志数据与攻击事件类型对应的相似度;按照所述相似度的大小对所述多行日志数据进行相似度排序,得到所述多行日志数据所属的攻击事件类型排序列表。3.根据权利要求1所述的基于机器学习的攻击事件类型的识别方法,其特征在于,所述使用前预定项数的日志数据组成同一组区域网络攻击事件的步骤,包括:使用前预定项数的日志数据作为攻击事件类型对应的多组日志数据;提取每组日志数据在日志文件的位置信息以及其对应的时间戳信息,并将每组日志数据的位置信息和时间戳信息进行关联;对关联的日志数据进行能否组成同一组区域网络攻击事件的判断,若所述关联的日志数据的位置信息的位置间距小于或等于标准间距且时间戳信息的时间间隔小于或等于单次攻击时长,则将关联的日志数据组成同一组区域网络攻击事件。4.根据权利要求3所述的基于机器学习的攻击事件类型的识别方法,其特征在于,所述得到关键字符串信息的步骤,包括:将所述同一组区域网络攻击事件包含的日志数据作为重点排查区域日志数据;使用所述攻击事件类型对应的字符串信息对所述重点排查区域日志数据所属的多行日志数据进行相似度分析;提取相似度大于等于预设相似度阈值的字符串信息作为关键字符串信息。5.根据权利要求4所述的基于机器学习的攻击事件类型的识别方法,其特征在于,所述根据关键字符串信息训练文本分类模型的步骤,包括:对关键字符串信息进行分词操作得到分词后的关键字符串信息;对所述分词后的关键字符串信息进行关键词提取的操作,并使用TF
‑...
【专利技术属性】
技术研发人员:刘鹏飞,杨东,崔逸群,燕前,肖力炀,朱博迪,刘骁,刘迪,刘超飞,毕玉冰,王文庆,邓楠轶,
申请(专利权)人:西安热工研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。