一种日志分析方法及装置制造方法及图纸

技术编号:24497478 阅读:44 留言:0更新日期:2020-06-13 03:37
本发明专利技术提供一种日志分析方法及装置,确定待测试日志属于N类参照集中的第一类参照集;根据该参照集的第一主题矩阵,确定待测试日志与该参照集的第一主题距离;根据该参照集的第一词向量矩阵和第一互斥矩阵,确定待测试日志与该参照集的第一词距离;根据第一主题距离和第一词距离,确定待测试日志与该参照集的互斥相似度;在互斥相似度不大于第一阈值时,确定待测试日志为异常日志。该方案通过将待测试日志与已知N类参照集进行匹配,可快速确定待测试日志所属的类型,极大缩短确定待测试日志正常与否的时间;在确定相似度的过程中,通过将词集间的互斥关系引入,对于确定待测试日志正常与否的问题,极大程度上提高了对其判断的准确性。

A log analysis method and device

【技术实现步骤摘要】
一种日志分析方法及装置
本专利技术涉及Web安全分析领域,尤其涉及一种日志分析方法及装置。
技术介绍
目前,基于传统规则的Web安全检测易被绕过,基于AI的检测方法已逐渐成为发展趋势。但是,通常情况下,基于AI的检测方法的时间复杂度较高,如果对全量数据进行检测,则在实际场景中有较高的时延。因此,当进行web安全检测时,须预先执行流量过滤步骤,对绝大部分的流量使用较低复杂度的处理流程进行过滤。也即,如何快速并准确地过滤正常大流量显得十分重要。现有技术通常使用基于规则的特征抽取方案,即无论是基于正则表达式或字段筛选,均依赖于技术人员的安全经验对其进行设定。以up1.com/api1/api2/api3/?p=123&p2=test&p3=3为例,基于规则,对每个参数值对独立判断,对参数值123和test分别做单独的正则过滤,与host、url完全无关。以上技术存在人为干预成本较高的问题,也即必须要求技术人员有较高的技术能力与场景经验才能设定泛而准的规则,每一次维护规则库均需要技术人员投入较大的精力,才本文档来自技高网...

【技术保护点】
1.一种日志分析方法,其特征在于,包括:/n确定待测试日志属于N类参照集中的第一类参照集;所述N类参照集是对历史正常日志进行划分得到的;/n根据所述第一类参照集的第一主题矩阵,确定所述待测试日志与所述第一类参照集的第一主题距离;所述第一主题矩阵是根据所述第一类参照集中的多个历史正常日志确定的;/n根据所述第一类参照集的第一词向量矩阵和所述第一类参照集的第一互斥矩阵,确定所述待测试日志与所述第一类参照集的第一词距离;所述第一词向量矩阵和所述第一互斥矩阵均是根据所述第一类参照集中的多个历史正常日志确定的;/n根据所述第一主题距离和所述第一词距离,确定所述待测试日志与所述第一类参照集的互斥相似度;/...

【技术特征摘要】
1.一种日志分析方法,其特征在于,包括:
确定待测试日志属于N类参照集中的第一类参照集;所述N类参照集是对历史正常日志进行划分得到的;
根据所述第一类参照集的第一主题矩阵,确定所述待测试日志与所述第一类参照集的第一主题距离;所述第一主题矩阵是根据所述第一类参照集中的多个历史正常日志确定的;
根据所述第一类参照集的第一词向量矩阵和所述第一类参照集的第一互斥矩阵,确定所述待测试日志与所述第一类参照集的第一词距离;所述第一词向量矩阵和所述第一互斥矩阵均是根据所述第一类参照集中的多个历史正常日志确定的;
根据所述第一主题距离和所述第一词距离,确定所述待测试日志与所述第一类参照集的互斥相似度;
在所述互斥相似度不大于第一阈值时,确定所述待测试日志为异常日志。


2.如权利要求1所述的方法,其特征在于,
所述第一主题矩阵包括作为类中心的M个主题向量,其中,M个类中心的主题向量是对所述第一主题矩阵聚类后得到的;
根据所述第一类参照集的第一主题矩阵,确定所述待测试日志与所述第一类参照集的第一主题距离,包括:
根据所述第一主题矩阵,确定所述待测试日志的第一主题向量;
针对M个类中心中的任一类中心,确定所述第一主题向量与所述类中心的主题向量之间的第一主题距离;
根据所述第一类参照集的第一词向量矩阵和所述第一类参照集的第一互斥矩阵,确定所述待测试日志与所述第一类参照集的第一词距离,包括:
根据所述第一词向量矩阵,确定所述待测试日志的第一词向量;
针对M个类中心中的任一类中心,根据所述第一互斥矩阵,确定所述第一词向量与所述类中心的词向量之间的第一词距离;
根据所述第一主题距离和所述第一词距离,确定所述待测试日志与所述第一类参照集的互斥相似度,包括:
针对同一类中心,根据所述待测试日志与所述类中心的主题向量之间的第一主题距离、所述待测试日志与所述类中心的词向量之间的第一词距离,确定所述待测试日志与所述第一类参照集的类中心的互斥相似度。


3.如权利要求2所述的方法,其特征在于,
确定所述第一词向量与所述类中心的词向量之间的第一词距离,包括:
确定所述第一词向量和所述类中心的词向量构建的词集二分图;所述词集二分图中包括节点和边,其中,所述第一词向量和所述类中心的词向量中的每个词对应一个节点;根据所述第一互斥矩阵,若所述第一词向量和所述类中心的词向量中的各词之间存在互斥关系,则在存在互斥关系的词之间建立一条边;若所述第一词向量和所述类中心的词向量中的各词包括同一词,则在同一词之间建立一条边;
在所述词集二分图中确定包含所述第一词向量和所述类中心的词向量中各词的最小覆盖路径;
根据所述最小覆盖路径,确定所述第一词向量和所述类中心的词向量中置零的词;
根据置零处理后的所述第一词向量和所述类中心的词向量,确定所述第一词向量和所述类中心的词向量之间的第一词距离。


4.如权利要求2所述的方法,其特征在于,
在所述互斥相似度不大于第一阈值时,确定所述待测试日志为异常日志,包括:
确定所述待测...

【专利技术属性】
技术研发人员:黄自力杨阳陈舟熊璐邱震尧潘孝闻
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1