5G网络日志压缩方法、装置、终端设备及存储介质制造方法及图纸

技术编号:36790890 阅读:17 留言:0更新日期:2023-03-08 22:41
本发明专利技术公开的一种5G网络日志压缩方法、装置、终端设备及存储介质,通过对采集到的日志进行标准化,获取关键的产生日志的模块、日志消息体等关键的信息,将标准化后的日志在预设日志模板库进行模板匹配,若日志在模板库中匹配成功,则为日志标注对应的模板信息,输出并存储,提取日志对应的模板信输出到日志模板库,并对日志进行标注输出。因此,本发明专利技术实施例能够通过深度学习算法对日志进行初步清洗,且标注实际运维工作中关注的关键的日志内容,对未标注的日志内容再进行一次深度压缩,实现精简日志的目的,以解决日志压缩深度及信息量之间的矛盾。间的矛盾。间的矛盾。

【技术实现步骤摘要】
5G网络日志压缩方法、装置、终端设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种5G网络日志压缩方法、装置、终端设备及存储介质。

技术介绍

[0002]随着互联网的快速发展,传统的通信网络架构演变成基于NFV(网络功能虚拟化)的云化网络结构,即建立一个大型的计算机集群,将物理硬件虚拟化,形成的虚拟机平台,并在其上部署传统的CT业务和IT业务,从而实现软硬件解耦合。计算机系统的运行状态,通常都记录在计算机不同类型的日志中,因此这种网络架构的运维,对计算机的日志的解释和判读提出了更高的要求。一个大型的计算机集群,每小时产生数以亿计的日志数据,不同厂商的日志格式也不尽相同,如何从海量的日志数据中提取出关键的日志信息,成为了一个急需解决的问题。
[0003]目前常见的日志数据的压缩处理方法是进行日志模板提取,通过正则表达式或者机器学习的方法,提取日志的主干,然后通过聚类的方法,达到压缩日志的目的,通篇采用一个压缩的模板,并未基于日志的实际内容及运维的关注程度进行压缩,因此,存在压缩深度与信息量矛盾的问题。

技术实现思路

[0004]本专利技术提供一种5G网络日志压缩方法、装置、终端设备及存储介质,以解决现有技术中的日志压缩深度与信息量矛盾的技术问题,能够通过深度学习算法对日志进行初步清洗,且标注实际运维工作中关注的关键的日志内容,对未标注的日志内容再进行一次深度压缩,实现精简日志的目的。
[0005]为了实现上述目的,第一方面,本专利技术实施例提供了一种5G网络日志压缩方法,包括:
[0006]对目标日志进行标准化,获取所述目标日志的关键信息;其中所述关键信息包括:所述目标日志的时间戳、IP地址信息、日志类型,日志产生模块、消息体及产生所述目标日志的实体名称;
[0007]基于所述日志产生模块和消息体,标注所述目标日志在实际运维工作中关注的日志内容;
[0008]对所述目标日志中未标注的日志内容进行深度压缩。
[0009]作为上述方案的改进,所述基于所述日志产生模块和消息体,标注所述目标日志在实际运维工作中关注的日志内容,具体包括:
[0010]根据所述日志产生模块和消息体,判断在预设日志模板库是否存在与所述目标日志匹配的日志模板;
[0011]若是,则标注所述目标日志对应的模板信息;
[0012]若否,则生成所述目标日志对应的目标日志模板后输出到所述预设日志模板库
中,标注所述目标日志模板信息;
[0013]将标注后的目标日志进行输出存储。
[0014]作为上述方案的改进,所述若否,则生成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志模板信息,具体包括:
[0015]若否,则获取所述目标日志的日志主干;
[0016]判断所述日志主干与预设关键日志库能否匹配成功;
[0017]若能,则把所述日志主干正则化成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志对应的目标日志模板信息和关键日志标识;
[0018]若否,则提取所述日志主干的关键词正则化成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志模板信息。
[0019]作为上述方案的改进,所述若否,则获取所述目标日志的日志主干,具体包括:
[0020]通过RANK算法,对所述目标日志进行分词,得到所述目标日志的单词合集;
[0021]采用LSTM模型,根据词频及语义规则,把单词合集中的每一个单词划分为主干单词或变量单词;
[0022]删除所述变量单词,把所述主干单词组成所述目标日志的日志主干。
[0023]作为上述方案的改进,所述日志主干与预设关键日志库的匹配方法,具体包括:
[0024]将所述日志主干与所述预设关键日志库记录的预设日志主干进行比较;
[0025]采用Levenshtein距离计算所述日志主干与所述预设日志主干的相似度;所述相似度的计算公式如下:
[0026]SimValue=1

LD/Max(L1,L2),
[0027]其中,SimValue为所述日志主干与所述预设日志主干的相似度;LD为编辑距离;L1为所述日志主干的字符长度;L2为所述预设日志主干的字符长度。
[0028]作为上述方案的改进,所述日志主干的关键词提取方法,具体包括:
[0029]采用RANK算法,把停用词或没有语义信息的单词作为分隔符,将所述日志主干分为若干个短语,提取出所述若干个短语的第一关键词;
[0030]统计每个所述第一关键词在所述若干个短语的共现次数,构建单词共现矩阵;
[0031]根据如下公式计算所述若干个短语中每个短语的分数,得分最高的短语为所述日志主干的关键词;其中所述公式为:
[0032]WS=WordDeg/WordFreq,
[0033]式中,WS为所述每个短语的分数;WordDeg为所述单词共现矩阵的每一列的值;WordFreq为所述第一关键词在所述日志主干中出现的次数。
[0034]第二方面,本专利技术实施例提供了一种5G网络日志压缩装置,包括:
[0035]日志标准化模块,用于对目标日志进行标准化,获取所述目标日志的关键信息;其中所述关键信息包括:所述目标日志的时间戳、IP地址信息、日志类型,日志产生模块、消息体及产生所述目标日志的实体名称;
[0036]日志标注模块,用于基于所述日志产生模块和消息体,标注所述目标日志在实际运维工作中关注的日志内容;
[0037]日志压缩模块,用于对所述目标日志中未标注的日志内容进行深度压缩。
[0038]作为上述方案的改进,所述日志标注模块,包括:
[0039]模板匹配单元,用于根据所述日志产生模块和消息体,判断在预设日志模板库是否存在与所述目标日志匹配的日志模板;
[0040]第一标注单元,用于若是,则标注所述目标日志对应的模板信息;
[0041]第二标注单元,用于若否,则生成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志模板信息;
[0042]输出存储单元,用于将标注后的目标日志进行输出存储。
[0043]作为上述方案的改进,所述第二标注单元,具体用于:
[0044]若否,则获取所述目标日志的日志主干;
[0045]判断所述日志主干与预设关键日志库能否匹配成功;
[0046]若能,则把所述日志主干正则化成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志对应的目标日志模板信息和关键日志标识;
[0047]若否,则提取所述日志主干的关键词正则化成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志模板信息。
[0048]作为上述方案的改进,所述若否,则获取所述目标日志的日志主干,具体包括:...

【技术保护点】

【技术特征摘要】
1.一种5G网络日志压缩方法,其特征在于,包括:对目标日志进行标准化,获取所述目标日志的关键信息;其中所述关键信息包括:所述目标日志的时间戳、IP地址信息、日志类型,日志产生模块、消息体及产生所述目标日志的实体名称;基于所述日志产生模块和消息体,标注所述目标日志在实际运维工作中关注的日志内容;对所述目标日志中未标注的日志内容进行深度压缩。2.如权利要求1所述的5G网络日志压缩方法,其特征在于,所述基于所述日志产生模块和消息体,标注所述目标日志在实际运维工作中关注的日志内容,具体包括:根据所述日志产生模块和消息体,判断在预设日志模板库是否存在与所述目标日志匹配的日志模板;若是,则标注所述目标日志对应的模板信息;若否,则生成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志模板信息;将标注后的目标日志进行输出存储。3.如权利要求2所述的5G网络日志压缩方法,其特征在于,所述若否,则生成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志模板信息,具体包括:若否,则获取所述目标日志的日志主干;判断所述日志主干与预设关键日志库能否匹配成功;若能,则把所述日志主干正则化成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志对应的目标日志模板信息和关键日志标识;若否,则提取所述日志主干的关键词正则化成所述目标日志对应的目标日志模板后输出到所述预设日志模板库中,标注所述目标日志模板信息。4.如权利要求3所述的5G网络日志压缩方法,其特征在于,所述若否,则获取所述目标日志的日志主干,具体包括:通过RANK算法,对所述目标日志进行分词,得到所述目标日志的单词合集;采用LSTM模型,根据词频及语义规则,把单词合集中的每一个单词划分为主干单词或变量单词;删除所述变量单词,把所述主干单词组成所述目标日志的日志主干。5.如权利要求3所述的5G网络日志压缩方法,其特征在于,所述日志主干与预设关键日志库的匹配方法,具体包括:将所述日志主干与所述预设关键日志库记录的预设日志主干进行比较;采用Levenshtein距离计算所述日志主干与所述预设日志主干的相似度;所述相似度的计算公式如下:SimValue=1

LD/Max(L1,L2),其中,SimValue为所述日志主...

【专利技术属性】
技术研发人员:李妙杏黄滔黄桂泉杨盛辉
申请(专利权)人:广东宜通衡睿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1