本发明专利技术公开了一种日志脱敏方法、装置、电子设备及存储介质。方法包括:获取待处理日志信息,将待处理日志信息在日志模板库中进行匹配,确定匹配成功的日志模板;基于日志模板的敏感位置确定待处理日志信息中的敏感内容,以及根据日志模板的敏感类型确定敏感内容的敏感类型;对待处理日志信息中的敏感内容进行脱敏处理,得到脱敏日志信息。本发明专利技术方法包含离线训练阶段和实时检测阶段,离线训练阶段根据Drain聚类算法对训练日志聚类获得模板,通过正则表达式和自然语言处理算法进行变量敏感内容的敏感类型的识别,实时检测阶段根据模板中保存的变量敏感类型实现快速脱敏,实现了可重复使用日志模板达到日志信息脱敏的功能,提高了日志信息脱敏的效率。高了日志信息脱敏的效率。高了日志信息脱敏的效率。
【技术实现步骤摘要】
一种日志脱敏方法、装置、电子设备及存储介质
[0001]本专利技术涉及信息处理
,尤其涉及一种日志脱敏方法、装置、电子设备及存储介质。
技术介绍
[0002]金融行业的数据库中储存着大量用户的信息,这些敏感数据在银行、保险、证券等金融行业的众多业务场景中被加以使用,例如业务分析、开发测试、审计监管以及各类外包业务等。为保证用户信息需要对敏感信息进行脱敏处理。对于敏感信息的脱敏处理多采用添加注解或者是采用一些脱敏插件等方式。
[0003]基于上述采用的技术方案,容易产生该添加注解的地方没有添加注解,导致遍历的过程中查找不准确,从而使得漏敏感信息;另外,对于采用脱敏插件的方式,需要根据不同类型的敏感信息进行替换,降低了日志脱敏的效率。
技术实现思路
[0004]本专利技术提供了一种日志脱敏方法、装置、电子设备及存储介质,以解决对敏感信息进行脱敏的过程中产生的信息遗漏问题以及脱敏效率低的问题。
[0005]根据本专利技术的一方面,提供了一种日志脱敏方法,包括:
[0006]获取待处理日志信息,将待处理日志信息在日志模板库中进行匹配,确定匹配成功的日志模板;
[0007]基于日志模板的敏感位置确定待处理日志信息中的敏感内容,以及根据日志模板的敏感类型确定敏感内容的敏感类型;
[0008]对待处理日志信息中的敏感内容进行脱敏处理,得到脱敏日志信息。
[0009]可选的,日志模板库中包括多个日志模板,各日志模板分别对应设置有敏感位置和敏感类型。
[0010]可选的,日志模板库的构建过程包括:
[0011]获取多个训练日志信息,对训练日志信息进行聚类处理,得到各类日志信息集合;
[0012]对于任一类日志信息集合,确定日志信息集合对应的日志模板;
[0013]基于各类日志信息集合对应的日志模板,形成日志模板库。
[0014]可选的,日志模板库的构建过程包括:
[0015]获取训练日志信息,将训练日志信息在当前的日志模板库中进行匹配;
[0016]若匹配成功,则将训练日志信息的变量内容存储至匹配成功的日志模板对应的数据集;
[0017]若匹配失败,则将训练日志信息作为日志模板,更新到日志模板库中。
[0018]可选的,方法还包括:
[0019]识别日志模板库中各日志模板中敏感内容的敏感类型和敏感内容的敏感位置,其中,敏感内容的敏感类型的内容识别规则包括正则表达式、自然语言处理的词性标注一项
或多项。
[0020]可选的,对待处理日志信息中的敏感内容进行脱敏处理,得到脱敏日志信息,包括:
[0021]根据敏感内容的敏感类型,调用对应的脱敏规则,基于调用的脱敏规则对敏感内容进行脱敏处理。
[0022]可选的,方法还包括:
[0023]若待处理日志信息在日志模板库中匹配失败,则将待处理日志进行缓存,并生成日志模板库的更新提示信息;或者,基于待处理日志信息更新日志模板库。
[0024]根据本专利技术的另一方面,提供了一种日志脱敏装置,包括:
[0025]日志模板确定模块,用于获取待处理日志信息,将待处理日志信息在日志模板库中进行匹配,确定匹配成功的日志模板;
[0026]敏感类型确定模块,用于基于日志模板的敏感位置确定待处理日志信息中的敏感内容,以及根据日志模板的敏感类型确定敏感内容的敏感类型;
[0027]脱敏日志信息确定模块,用于对待处理日志信息中的敏感内容进行脱敏处理,得到脱敏日志信息。
[0028]根据本专利技术的另一方面,提供了一种电子设备,电子设备包括:
[0029]至少一个处理器;以及
[0030]与至少一个处理器通信连接的存储器;其中,
[0031]存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本专利技术任一实施例的日志脱敏方法。
[0032]根据本专利技术的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本专利技术任一实施例的日志脱敏方法。
[0033]本专利技术实施例的技术方案,包含离线训练阶段和实时检测阶段,离线训练阶段根据Drain聚类算法对训练日志聚类获得模板,并通过正则表达式和NLP(Natural Language Processing,自然语言处理)算法进行变量的敏感内容的敏感类型的识别,实时检测阶段根据模板中保存的变量敏感类型来实现快速脱敏,实现了可重复使用日志模板达到日志信息脱敏的功能,提高了日志信息脱敏的效率。
[0034]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0035]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术实施例一提供的一种日志脱敏方法的流程图;
[0037]图2是本专利技术实施例二提供的一种日志脱敏装置的结构示意图;
[0038]图3是实现本专利技术实施例的日志脱敏方法的电子设备的结构示意图。
具体实施方式
[0039]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0040]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0041]实施例一
[0042]图1是本专利技术实施例一提供的一种日志脱敏方法的流程图,本实施例可适用于日志存在敏感信息的情况,该方法可以由日志脱敏装置来执行,该日志脱敏装置可以采用硬件和/或软件的形式实现,该日志脱敏装置可配置于计算机等电子设备中。如图1所示,该方法包括:
[0043]S110、获取待处理日志信息,将待处理日志信息在日志模板库中进行匹配,确定匹配成功的日志模板。
[0044]其中,待处理的日志信息具体可本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种日志脱敏方法,其特征在于,包括:获取待处理日志信息,将所述待处理日志信息在日志模板库中进行匹配,确定匹配成功的日志模板;基于所述日志模板的敏感位置确定所述待处理日志信息中的敏感内容,以及根据所述日志模板的敏感类型确定所述敏感内容的敏感类型;对所述待处理日志信息中的敏感内容进行脱敏处理,得到脱敏日志信息。2.根据权利要求1所述的方法,其特征在于,所述日志模板库中包括多个日志模板,各所述日志模板分别对应设置有敏感位置和敏感类型。3.根据权利要求2所述的方法,其特征在于,所述日志模板库的构建过程包括:获取多个训练日志信息,对所述训练日志信息进行聚类处理,得到各类日志信息集合;对于任一类日志信息集合,确定所述日志信息集合对应的日志模板;基于各类日志信息集合对应的日志模板,形成日志模板库。4.根据权利要求2所述的方法,其特征在于,所述日志模板库的构建过程包括:获取训练日志信息,将所述训练日志信息在当前的日志模板库中进行匹配;若匹配成功,则将所述训练日志信息的变量内容存储至匹配成功的日志模板对应的数据集;若匹配失败,则将所述训练日志信息作为日志模板,更新到日志模板库中。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:所述识别日志模板库中各所述日志模板中敏感内容的敏感类型和所述敏感内容的敏感位置,其中,所述敏感内容的敏感类型的内容识别规则包括正则表达式、自然语言处理的词性标注一项或多项。6.根据权利要求1所述的方法,其特征在于,所述对所述待处...
【专利技术属性】
技术研发人员:公娟,杨辰,葛晓波,
申请(专利权)人:上海擎创信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。