一种DNS日志分析方法及装置制造方法及图纸

技术编号:13187388 阅读:69 留言:0更新日期:2016-05-11 17:21
本发明专利技术实施例提供一种DNS日志分析方法及装置,以至少解决现有技术中无法在DNS日志分析过程中简单有效的确定合理的K值的问题。方法包括:获取DNS日志并对所述DNS日志进行预处理,获得预处理后的日志文本,所述预处理后的日志文本中包含至少一条文本信息,每条文本信息包含该文本信息对应的第一信息;从所述预处理后的日志文本中提取所述每条文本信息包含的所述第一信息,构建所述第一信息的特征向量矩阵;根据所述第一信息的特征向量矩阵,确定对所述每条文本信息包含的所述第一信息进行K-means聚类时对应的K值;根据所述K值对所述每条文本信息包含的所述第一信息进行K-means聚类,获得聚类结果。本发明专利技术适用于互联网技术领域。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种域名系统(英文:domain name system,简称:DNS)日志分析方法及装置。
技术介绍
DNS作为互联网的第一入口,为Internet上的主机分配域名地址和网络协议(英 文:internet protocol,简称:IP)地址,任何体系结构的互联网都离不开DNS。因此,基于 DNS的相关研究日益受到重视。互联网公司和运营商纷纷针对DNS开展深入研究,目前,基于 大数据平台的DNS分析工作成为研究的一个重点方向。 其中,蕴含着丰富信息的DNS访问日志具有很高的挖掘价值,传统的DNS日志分析 流程如下:首先通过日志工具获取DNS访问日志并保存,其次对日志文件进行处理,提取有 用数据,最后针对数据进行分析,得出结论。其中,对日志文件进行处理的方式有很多种,其 中一种很有效的方法是聚类算法,聚类算法将一系列文档聚成多个簇,其目标是要求簇内 的文档之间尽可能相似,而簇间的文档之间尽可能不相似。K-means是一种重要的聚类算 法。K-means聚类算法速度快,结果直观易于理解,但是初始化的簇中心的分布对K-means的 聚类结果影响很大。与此同时簇的个数K往往是算法的输入参数,而K的合理取值往往很难 推测,目前有一些K值确定算法,但是运算较为复杂,需要多次聚类来确定合理的K值,或者 需要先验知识,并且应用在DNS日志文件上面效果并不明显。 因此,如何在DNS日志分析过程中简单有效的确定合理的K值,从而更好的提升聚 类效果,成为目前亟待解决的问题。
技术实现思路
本专利技术的实施例提供一种DNS日志分析方法及装置,以至少解决现有技术中无法 在DNS日志分析过程中简单有效的确定合理的K值的问题。 为达到上述目的,本专利技术的实施例采用如下技术方案: 第一方面,提供一种域名系统DNS日志分析方法,所述方法包括: 获取DNS日志并对所述DNS日志进行预处理,获得预处理后的日志文本,所述预处 理后的日志文本中包含至少一条文本信息,每条文本信息包含该文本信息对应的第一信 息; 从所述预处理后的日志文本中提取所述每条文本信息包含的所述第一信息,构建 所述第一信息的特征向量矩阵; 根据所述第一信息的特征向量矩阵,确定对所述每条文本信息包含的所述第一信 息进行K-means聚类时对应的K值; 根据所述K值对所述每条文本信息包含的所述第一信息进行K-means聚类,获得聚 类结果。 基于本专利技术实施例提供的DNS日志分析方法,由于在提取第一信息之后,可以构建 该第一信息的特征向量矩阵,进而根据该特征向量矩阵确定对第一信息进行K-means聚类 时对应的K值,因此运算简单有效,从而可以更好的提升聚类效果。 第二方面,提供一种域名系统DNS日志分析装置,所述DNS日志分析装置包括:获取 单元、构建单元、确定单元和聚类单元; 所述获取单元,用于获取DNS日志并对所述DNS日志进行预处理,获得预处理后的 日志文本,所述预处理后的日志文本中包含至少一条文本信息,每条文本信息包含该文本 信息对应的第一信息; 所述构建单元,用于从所述预处理后的日志文本中提取所述每条文本信息包含的 所述第一信息,构建所述第一信息的特征向量矩阵; 所述确定单元,用于根据所述第一信息的特征向量矩阵,确定对所述每条文本信 息包含的所述第一信息进行K-means聚类时对应的K值; 所述聚类单元,用于根据所述K值对所述每条文本信息包含的所述第一信息进行 K-means聚类,获得聚类结果。 基于本专利技术实施例提供的DNS日志分析装置,由于在提取第一信息之后,可以构建 该第一信息的特征向量矩阵,进而根据该特征向量矩阵确定对第一信息进行K-means聚类 时对应的K值,因此运算简单有效,从而可以更好的提升聚类效果。【附图说明】图1为本专利技术实施例提供的DNS日志分析方法流程示意图一;图2为本专利技术实施例提供的DNS日志分析方法流程示意图二;图3为本专利技术实施例提供的确定K值的过程的算法流程图;图4为本专利技术实施例提供的DNS日志分析方法流程示意图三;图5为本专利技术实施例提供的DNS日志分析装置结构示意图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 为了便于清楚描述本专利技术实施例的技术方案,在本专利技术的实施例中,采用了"第 一"、"第二"等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可 以理解"第一"、"第二"等字样并不对数量和执行次序进行限定。 另外,在本专利技术实施例中,"示例的"、"例如"等词用于表示作例子、例证或说明。本 申请中被描述为"示例的"、"例如"的任何实施例或设计方案不应被解释为比其它实施例或 设计方案更优选或更具优势。确切而言,使用"示例的"、"例如"等词旨在以具体方式呈现概 念。 实施例一、本专利技术实施例提供一种DNS日志分析方法,如图1所示,包括步骤S101-S104: S101、DNS日志分析装置获取DNS日志并对该DNS日志进行预处理,获得预处理后的 日志文本。 其中,预处理后的日志文本中包含至少一条文本信息,每条文本信息包含该文本 信息对应的第一信息。 S102、DNS日志分析装置从预处理后的日志文本中提取每条文本信息包含的第一 信息,构建第一信息的特征向量矩阵。 S103、DNS日志分析装置根据第一信息的特征向量矩阵,确定对每条文本信息包含 的第一信息进行K-means聚类时对应的K值。 S104、DNS日志分析装置根据K值对每条文本信息包含的第一信息进行K-means聚 类,获得聚类结果。具体的,本专利技术实施例步骤S101中: DNS日志分析装置在获取DNS日志后会对该DNS日志进行预处理,该预处理过程具 体可以包括但不限于:按照空格、标点、或特殊符号等将DNS日志中的有用信息提取出来,构 建成一条新的简化版的日志文档。该有用信息具体可以是源IP地址信息、域名信息、时间信 息等,本专利技术实施例对此不作具体限定。 需要说明的是,在经过预处理之后,DNS日志中的源IP地址、域名等信息已经可以 算是完整的词条,因此可以不需要再进一步进行分词,可以直接进行使用。 本专利技术实施例中,第一信息具体可以是源IP地址信息或域名信息等,本专利技术实施 例对此不作具体限定。 其中,源IP地址信息具体可以包括规定时间内查询总次数、查询域名数目、查询时 间间隔、以及查询重复次数等信息中的一个或多个的组合;域名信息具体可以包括规定时 间被查询总次数、查询IP数目、查询时间间隔和查询重复次数等信息中的一个或多个的组 合,本专利技术实施例对此不作具体限定。 具体的,本专利技术实施例步骤S102中: 由于LUCENE工具是一个灵活的信息检索工具库,可以方便地嵌入到各种应用中实 现全文索引索功能。因此,本专利技术实施例中,可以通过LUCENE工具将预处理后的日志文本中 的第一信息构建索引。比如,如表一所示,分别将源IP地址,访问时间,域名这三个信息建立 3个索引,这样可以对这些数据进行索引,方便查询本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105574539.html" title="一种DNS日志分析方法及装置原文来自X技术">DNS日志分析方法及装置</a>

【技术保护点】
一种域名系统DNS日志分析方法,其特征在于,所述方法包括:获取DNS日志并对所述DNS日志进行预处理,获得预处理后的日志文本,所述预处理后的日志文本中包含至少一条文本信息,每条文本信息包含该文本信息对应的第一信息;从所述预处理后的日志文本中提取所述每条文本信息包含的所述第一信息,构建所述第一信息的特征向量矩阵;根据所述第一信息的特征向量矩阵,确定对所述每条文本信息包含的所述第一信息进行K‑means聚类时对应的K值;根据所述K值对所述每条文本信息包含的所述第一信息进行K‑means聚类,获得聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘千仞周光涛孙莉
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1