【技术实现步骤摘要】
针对web入侵检测的输出内容过滤方法及系统
[0001]本专利技术涉及网络信息安全领域,具体地涉及一种针对web入侵检测的输出内容过滤方法以及一种针对web入侵检测的输出内容过滤系统。
技术介绍
[0002]通常正常流量是大量重复性存在的,因此,在web入侵检测中,无论是用户访问非法网站,还是检测出现误报,都将导致大量相似的警告,而入侵行为则相对稀少。因此,通过url的聚类分析,可以识别大量相似行为,剩下的小部分的异常行为,再进行web入侵检测过滤。将相似数据过滤,留下不同且更可能是入侵行为的url,提高用户的使用体验。
[0003]url相似度计算不同于字符串相似度,路径相同的两个url,可能具体的参数有很大的区别,又或者是不同的站点但是里面的结构是相同的,都需要判定为相似。并且流量是大量重复性存在的,需要计算大量数据。因此,如何选取url的特征,计算url的相似程度,并根据相似程度快速有效的进行过滤,是非常必要的。
[0004]申请号为201611182696.X的专利技术专利公开了《一种基于相似度比较的 ...
【技术保护点】
【技术特征摘要】
1.一种针对web入侵检测的输出内容过滤方法,其特征在于,所述方法包括:对待告警数据进行分词,得到待告警数据对应的数据词条;使用训练好的TF
‑
IDF模型提取所述数据词条的TF
‑
IDF特征矩阵;计算所述数据词条的TF
‑
IDF特征矩阵与训练集的TF
‑
IDF特征矩阵的相似度;若相似度大于或等于相似度阈值,则降低告警分数,否则保持告警分数不变;所述告警分数表示所述待告警数据的告警等级。2.根据权利要求1所述的针对web入侵检测的输出内容过滤方法,其特征在于,所述训练好的TF
‑
IDF模型的训练步骤包括:计算第一训练集中的URL数据间的相似度,得到不同类URL的对应的相似度矩阵;逐一对各个所述相似度矩阵进行聚类,得到各个所述相似度矩阵对应的公共URL;将得到的各个公共URL合并为第二训练集;使用第二训练集训练基础TF
‑
IDF模型,得到训练好的TF
‑
IDF模型;所述训练集的TF
‑
IDF特征矩阵通过以下方式得到:使用训练好的TF
‑
IDF模型从所述第二训练集中提取得到训练集的TF
‑
IDF特征矩阵。3.根据权利要求2所述的针对web入侵检测的输出内容过滤方法,其特征在于,所述第一训练集包括设定数量的相似告警数据。4.根据权利要求2所述的针对web入侵检测的输出内容过滤方法,其特征在于,所述计算第一训练集中的URL数据间的相似度,得到不同类URL的对应的相似度矩阵,包括:对第一训练集中的各URL数据进行分词,得到各URL数据对应的URL数据词条;将各URL数据的URL数据词条个数和首字母对应的ASCII码值保存为特征;将各URL数据的每个URL数据词条对应的ASCII码值相加,得到各URL数据对应的一维向量;通过所述特征建立字典,将特征相同的URL数据划分为一类;根据各URL数据对应的一维向量计算各类URL数据的相似度;将同一类URL数据的相似度组成该类URL数据对应的相似度矩阵。5.根据权利要求2所述的针对web入侵检测的输出内容过滤方法,其特征在于,所述逐一对各个所述相似度矩阵进行聚类,得到各个所述相似度矩阵对应的公共URL,包括:逐...
【专利技术属性】
技术研发人员:丰竹勃,安韬,王智民,王高杰,
申请(专利权)人:北京六方云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。