System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及日志处理领域,尤其涉及一种基于硬管平台的日志标准化和处理方法、装置及存储介质。
技术介绍
1、硬管是指物理设备管理平台,当前的运维现状,对于物理设备主要监控其设备信息和告警信息。为了更多维度的了解设备运行情况掌握设备运行状态,运维人员做的最多的动作就是收集日志,那么如何高效、快速的收集日志、阅读日志、分析日志就成了运维和解决故障的关键。
2、以服务器为例,对于资源信息,运维平台主要收集其名称、序列号、cpu利用率、端口流量数据、内存利用率、硬盘规格信息等,以上信息均是文字型的指标信息,部分性能数据带有时间可以做成趋势图,但对于设备每个动作产生的实时syslog日志,平台缺乏对其处理分析能力,目前更多是简单的展示。基于标注和神经网络的日志分析是常用的日志分析手段。标注过程中,标注的准确性影响神经网络训练结果,从而影响标准化日志的分析结果,硬管提供的标准化日志数据无法直接提供给训练神经网络的服务器应用。且现有硬管仅支持日志类型一对一或者一对多上报解析,不支持多对多的格式解析上报协议支持单一标准化的格式单一。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术提供一种基于硬管平台的日志标准化和处理方法、装置及存储介质。
2、第一方面,本专利技术提供一种基于硬管平台的日志标准化和处理方法,包括:开启硬管平台的日志服务并指定端口接收日志源的异构日志,设置日志源将日志发送到硬管平台的指定端口;根据日志源传输协议进行多日志协议兼
3、更进一步地,所述日志模板包括设备模板、系统模板、特殊模板,所述日志模板支持用户根据需求进行自定义。
4、更进一步地,通过template函数构建日志模板,给日志模板命名,配置支持多线程并发及解析指定日志模板的文件格式;constant函数和property函数实现内容的标准化通过,其中,通过constant函数来获取日志数据中的指定内容,通过property函数来给指定内容定义相应的含义及格式。
5、更进一步地,基于硬管平台服务的udp和tcp解析能力实现对不同日志传输协议的支持。
6、更进一步地,通过标签标注标准化日志形成数据集,对标签中噪声进行清理得到清洁标准化日志数据集进行分析包括:对日志含噪标签的真实性进行交叉验证确定标准化日志样本的日志真实标签,清理日志含噪标签所标注样本中的非真实样本:
7、对标准化日志数据集进行交叉验证,并计算第i个标准化日志样本在第j个类别下的概率p(i|j);
8、计算每个类别下的平均概率作为置信度阈值;
9、对于样本i,计算在每个分类下的概率,并选出最大概率maxp(i|j),如果最大概率大于置信度阈值,则最大概率对应的分类为样本i的真实标签y*,对日志含噪标签非属于日志真实标签的部分进行清理。
10、更进一步地,根据日志含噪标签和日志真实标签统计m×m维度的计数矩阵,所述计数矩阵中记录日志含噪标签标注为i,日志真实标签标注为j的标准化日志样本数量;对技术矩阵中非对角线的标准化日志样本进行清理,标准化日志所属类别总数为m。
11、更进一步地,通过标签标注标准化日志形成数据集,对标签中噪声进行清理得到清洁标准化日志数据集进行分析包括:根据日志噪声标签和日志真实标签的联合分布对标注化日志样本进行清理:
12、求取日志噪声标签和日志真实标签的联合分布
13、对于日志噪声标签标注的每个类别的标准化日志,选取个进行清理,清理按照最低概率排序;
14、或对计数矩阵中非对角线的标准化日志样本,选取个进行清理,清理按照最大间隔py=j-py=i排序;其中,n为标准化日志样本总数。
15、更进一步地,求取日志噪声标签和日志真实标签的联合分布包括:对标准化日志数据集进行交叉验证,并计算第i个标准化日志样本在第j个类别下的概率p(i|j);计算每个类别下的平均概率作为置信度阈值;对于样本i,计算在每个分类下的概率,并选出最大概率maxp(i|j),如果最大概率大于置信度阈值,则最大概率对应的分类为样本i的真实标签y*;根据日志含噪标签和日志真实标签统计m×m维度的计数矩阵,所述计数矩阵中记录日志含噪标签标注为i,日志真实标签标注为j的标准化日志样本数量;标定计数矩阵并计算日志噪声标签和日志真实标签的联合分布;
16、标定计数矩阵的公式如下:
17、为日志含噪标签标注为i,日志真实标签标注为j的标准化日志样本数量,ni为i日志含噪标签数。
18、求日志噪声标签和日志真实标签的联合分布的公式如下:
19、
20、第二方面,本专利技术提供一种基于硬管平台的日志标准化和处理装置,包括:至少一处理单元,所述处理单元通过总线单元连接存储单元,所述存储单元存储计算机程序,所述计算机程序被所述处理单元执行时,实现所述的基于硬管平台的日志标准化和处理方法。
21、第三方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序被处理器执行时,实现所述的基于硬管平台的日志标准化和处理方法。
22、本专利技术实施例提供的上述技术方案与现有技术相比具有如下优点:
23、本专利技术开启硬管平台的日志服务并指定端口接收日志源的异构日志,设置日志源将日志发送到硬管平台的指定端口;根据日志源传输协议进行多日志协议兼容设置,监听指定端口收到的所有日志数据;对指定端口收到的日志数据通过ip和日志标记进行区分,分配相应的解析模板进行格式转化得到标准化日志;通过标签标注标准化日志形成数据集,对标签中噪声进行清理得到清洁标准化日志数据集。实现包括日志处理的多日志协议兼容、多日志格式兼容、多线程高并发反馈、输出内容统一和标准化日志标注的清理。支持给训练分析日志用神经网络模型的服务器提供保证模型准确性的标准化日志清洁数据。
本文档来自技高网...【技术保护点】
1.一种基于硬管平台的日志标准化和处理方法,其特征在于,包括:开启硬管平台的日志服务并指定端口接收日志源的异构日志,设置日志源将日志发送到硬管平台的指定端口;根据日志源传输协议进行多日志协议兼容设置,监听指定端口收到的所有日志数据;对指定端口收到的日志数据通过IP和日志标记进行区分,分配相应的解析模板进行格式转化得到标准化日志,其中将硬管平台所连接日志源的日志分类为设备日志、操作日志、系统日志和安全日志,并配置相应的日志标记以区别不同的日志分类;通过标签标注标准化日志形成数据集,对标签中噪声进行清理得到清洁标准化日志数据集并进行分析。
2.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,所述日志模板包括设备模板、系统模板、特殊模板,所述日志模板支持用户根据需求进行自定义。
3.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,通过template函数构建日志模板,给日志模板命名,配置支持多线程并发及解析指定日志模板的文件格式;constant函数和property函数实现内容的标准化通过,其中,通过constant函数
4.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,基于硬管平台服务的udp和tcp解析能力实现对不同日志传输协议的支持。
5.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,通过标签标注标准化日志形成数据集,对标签中噪声进行清理得到清洁标准化日志数据集进行分析包括:对日志含噪标签的真实性进行交叉验证确定标准化日志样本的日志真实标签,清理日志含噪标签所标注样本中的非真实样本:
6.根据权利要求5所述的基于硬管平台的日志标准化和处理方法,其特征在于,根据日志含噪标签和日志真实标签统计m×m维度的计数矩阵,所述计数矩阵中记录日志含噪标签标注为i,日志真实标签标注为j的标准化日志样本数量;对技术矩阵中非对角线的标准化日志样本进行清理,标准化日志所属类别总数为m。
7.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,通过标签标注标准化日志形成数据集,对标签中噪声进行清理得到清洁标准化日志数据集进行分析包括:根据日志噪声标签和日志真实标签的联合分布对标注化日志样本进行清理:
8.根据权利要求7所述的基于硬管平台的日志标准化和处理方法,其特征在于,求取日志噪声标签和日志真实标签的联合分布包括:对标准化日志数据集进行交叉验证,并计算第i个标准化日志样本在第j个类别下的概率P(i|j);计算每个类别下的平均概率作为置信度阈值;对于样本i,计算在每个分类下的概率,并选出最大概率maxP(i|j),如果最大概率大于置信度阈值,则最大概率对应的分类为样本i的真实标签y*;根据日志含噪标签和日志真实标签统计m×m维度的计数矩阵,所述计数矩阵中记录日志含噪标签标注为i,日志真实标签标注为j的标准化日志样本数量;标定计数矩阵并计算日志噪声标签和日志真实标签的联合分布;
9.一种基于硬管平台的日志标准化和处理装置,其特征在于,包括:至少一处理单元,所述处理单元通过总线单元连接存储单元,所述存储单元存储计算机程序,所述计算机程序被所述处理单元执行时,实现如权利要求1-8任一所述的基于硬管平台的日志标准化和处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8任一项所述的基于硬管平台的日志标准化和处理方法。
...【技术特征摘要】
1.一种基于硬管平台的日志标准化和处理方法,其特征在于,包括:开启硬管平台的日志服务并指定端口接收日志源的异构日志,设置日志源将日志发送到硬管平台的指定端口;根据日志源传输协议进行多日志协议兼容设置,监听指定端口收到的所有日志数据;对指定端口收到的日志数据通过ip和日志标记进行区分,分配相应的解析模板进行格式转化得到标准化日志,其中将硬管平台所连接日志源的日志分类为设备日志、操作日志、系统日志和安全日志,并配置相应的日志标记以区别不同的日志分类;通过标签标注标准化日志形成数据集,对标签中噪声进行清理得到清洁标准化日志数据集并进行分析。
2.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,所述日志模板包括设备模板、系统模板、特殊模板,所述日志模板支持用户根据需求进行自定义。
3.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,通过template函数构建日志模板,给日志模板命名,配置支持多线程并发及解析指定日志模板的文件格式;constant函数和property函数实现内容的标准化通过,其中,通过constant函数来获取日志数据中的指定内容,通过property函数来给指定内容定义相应的含义及格式。
4.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,基于硬管平台服务的udp和tcp解析能力实现对不同日志传输协议的支持。
5.根据权利要求1所述的基于硬管平台的日志标准化和处理方法,其特征在于,通过标签标注标准化日志形成数据集,对标签中噪声进行清理得到清洁标准化日志数据集进行分析包括:对日志含噪标签的真实性进行交叉验证确定标准化日志样本的日志真实标签,清理日志含噪标签所标注样本中的非真实样本:
6.根据权利要求5所述...
【专利技术属性】
技术研发人员:张源升,
申请(专利权)人:济南浪潮数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。