本发明专利技术公开了一种数据预处理方法、装置、设备和计算机可读存储介质,包括:采集日志数据;所述日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;对所述日志数据进行拆解,得到结构化数据;所述结构化数据包含对象特征;根据预设关联信息库对所述对象特征进行筛选,得到审计数据。本发明专利技术通过对不同类型的日志数据进行数据采集,解决了现有数据预处理方法对数据采集不够全面的问题。以及通过将日志数据拆解为结构化数据,从中获取对象特征,通过对对象特征的筛选,保留了审计数据,剔除了无用数据,解决了无用数据堆积的技术问题。
【技术实现步骤摘要】
一种数据预处理方法、装置、设备和计算机可读存储介质
本专利技术涉及数据处理
,尤其涉及一种数据预处理方法、装置、设备和计算机可读存储介质。
技术介绍
目前,随着数据安全问题的日渐凸显和数据安全相关法律法规的接连出台,数据安全正成为企业安全体系中的关键一环,越来越得到企业决策层的高度重视。在保护企业数据安全过程中,数据安全审计则起到着重要的作用。数据安全审计通过收集企业运营过程中的重要数据和敏感数据的相关操作信息来对数据安全风险进行预警、研判和分析。但是现有阶段的数据安全审计系统在数据收集和处理上却存在如下不足:对数据采集不够全面,难以覆盖到重要数据和敏感数据的所有留存载体,包括:网络、终端、数据库和应用系统,存在采集盲区;对于采集到的数据一般都有进行数据清洗和数据转换等数据预处理操作,但是却没有对数据开展价值分析与预选操作,导致无用数据的堆积,给审计系统造成较大的数据处理压力。
技术实现思路
本专利技术提供了一种数据预处理方法、装置、设备和计算机可读存储介质,用于解决现有数据预处理方法对数据采集不够全面,没有对数据开展价值分析与预选操作,导致无用数据堆积的技术问题。本专利技术提供了一种数据预处理方法,包括:采集日志数据;所述日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;对所述日志数据进行拆解,得到结构化数据;所述结构化数据包含对象特征;根据预设关联信息库对所述对象特征进行筛选,得到审计数据。可选地,所述采集日志数据的步骤,包括:基于预设系统日志syslog协议接收预设网络安全设备发送的所述网络安全设备日志数据。可选地,所述采集日志数据的步骤,还包括:接收预设软件探针发送的所述数据库日志数据、所述操作系统日志数据和所述应用系统日志数据。可选地,所述对所述日志数据进行拆解,得到结构化数据的步骤,包括:对所述日志数据进行数据清洗,从所述日志数据中提取空值和无效值,并删除所述空值和无效值,得到已清洗日志数据;对所述已清洗日志数据进行拆解,得到结构化数据。本专利技术还提供了一种数据预处理装置,包括:日志数据采集模块,用于采集日志数据;所述日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;拆解模块,用于对所述日志数据进行拆解,得到结构化数据;所述结构化数据包含对象特征;筛选模块,用于根据预设关联信息库对所述对象特征进行筛选,得到审计数据。可选地,所述日志数据采集模块,包括:第一接收子模块,用于基于预设系统日志syslog协议接收预设网络安全设备发送的所述网络安全设备日志数据。可选地,所述日志数据采集模块,还包括:第二接收子模块,用于接收预设软件探针发送的所述数据库日志数据、所述操作系统日志数据和所述应用系统日志数据。可选地,所述拆解模块,包括:数据清洗子模块,用于对所述日志数据进行数据清洗,从所述日志数据中提取空值和无效值,并删除所述空值和无效值,得到已清洗日志数据;拆解子模块,用于对所述已清洗日志数据进行拆解,得到结构化数据。本专利技术还提供了一种数据预处理设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行如上任一项所述的数据预处理方法。本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的数据预处理方法。从以上技术方案可以看出,本专利技术具有以下优点:本专利技术通过采集日志数据,包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;并对日志数据进行拆解,得到结构化数据;从结构化数据中提取对象特征;根据预设关联信息库对对象特征进行筛选,得到审计数据。本专利技术通过对不同类型的日志数据进行数据采集,解决了现有数据预处理方法对数据采集不够全面的问题。以及通过将日志数据拆解为结构化数据,从中获取对象特征,通过对对象特征的筛选,保留了审计数据,剔除了无用数据,解决了无用数据堆积的技术问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的一种数据预处理方法的步骤流程图;图2为本专利技术另一实施例提供的一种数据预处理方法的步骤流程图;图3为本专利技术实施例提供的一种数据预处理装置的结构框图。具体实施方式本专利技术实施例提供了一种数据预处理方法、装置、设备和计算机可读存储介质,用于解决现有数据预处理方法对数据采集不够全面,没有对数据开展价值分析与预选才做,导致无用数据堆积的技术问题。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,图1为本专利技术实施例提供的一种数据预处理方法的步骤流程图。本专利技术提供的一种数据预处理方法,包括:步骤101,采集日志数据;日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;在本专利技术实施例中,可以从日志数据中获取所需要的审计数据,在一个示例中,采集日志数据的对象可以包括网络安全设备、数据库、应用系统和操作系统四类,覆盖重要数据和敏感数据的全部载体。步骤102,对日志数据进行拆解,得到结构化数据;结构化数据包含对象特征;步骤103,根据预设关联信息库对对象特征进行筛选,得到审计数据。在采集得到日志数据后,可以对日志数据进行数据价值分析,将其采集到的日志数据进行高低价值划分,并对高价值日志数据进行留存,对低价值日志数据进行丢弃。具体地,可以对采集到的数据运用“4W”(when、where、who、what)模型进行拆解分析,将一段日志数据结构化分解为带有时间特征、地点特征、相关对象特征和内容特征的结构化数据。一般而言,网络设备日志中的对象特征包括:源IP、目前IP和相关资产;数据库日志对象特征主要包含:数据库IP、数据库名称、数据表与数据字段;终端日志对象主要包含:资产IP、资产名称;应用系统日志对象特征主要包含:应用系统名称。因此,在数据预处理过程中,可以将相关信息库与对象特征相关联。根据信息库对对象特征进行筛选,得到审计数据。在一个示例中,以企业为例,可以将日志对象特征中涉及到部门中级及以上人员以及等保二本文档来自技高网...
【技术保护点】
1.一种数据预处理方法,其特征在于,包括:/n采集日志数据;所述日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;/n对所述日志数据进行拆解,得到结构化数据;所述结构化数据包含对象特征;/n根据预设关联信息库对所述对象特征进行筛选,得到审计数据。/n
【技术特征摘要】
1.一种数据预处理方法,其特征在于,包括:
采集日志数据;所述日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;
对所述日志数据进行拆解,得到结构化数据;所述结构化数据包含对象特征;
根据预设关联信息库对所述对象特征进行筛选,得到审计数据。
2.根据权利要求1所述的方法,其特征在于,所述采集日志数据的步骤,包括:
基于预设系统日志syslog协议接收预设网络安全设备发送的所述网络安全设备日志数据。
3.根据权利要求2所述的方法,其特征在于,所述采集日志数据的步骤,还包括:
接收预设软件探针发送的所述数据库日志数据、所述操作系统日志数据和所述应用系统日志数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述日志数据进行拆解,得到结构化数据的步骤,包括:
对所述日志数据进行数据清洗,从所述日志数据中提取空值和无效值,并删除所述空值和无效值,得到已清洗日志数据;
对所述已清洗日志数据进行拆解,得到结构化数据。
5.一种数据预处理装置,其特征在于,包括:
日志数据采集模块,用于采集日志数据;所述日志数据包括网络安全设备日志数据、数据库日志数据、操作系统日志数据和应用系统日志数据;
拆解模块,用于对所述日志数据进行拆解,得到结构化数据;所...
【专利技术属性】
技术研发人员:陈昊,丘惠军,孙强强,连耿雄,陈霖,许爱东,匡晓云,
申请(专利权)人:深圳供电局有限公司,南方电网科学研究院有限责任公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。