数据的处理方法及装置制造方法及图纸

技术编号:37546181 阅读:7 留言:0更新日期:2023-05-12 16:19
本说明书一个或多个实施例公开了一种数据的处理方法及装置。所述方法包括:获取指定时间段内产生的日志数据;针对每条所述日志数据,按照预设泛化方式对所述日志数据进行泛化处理,得到与所述日志数据对应的第一数据;所述第一数据与至少一条所述日志数据相对应;根据所述第一数据确定所述日志数据的第一索引数据,并将所述第一索引数据存储至第一存储区域;根据所述第一索引数据,对所述指定时间段内产生的日志数据进行分区处理,得到至少一个第一数据分区,并将所述第一索引数据和所述至少一个第一数据分区对应存储至第二存储区域;每个所述第一数据分区中的每条所述日志数据均与同一个所述第一索引数据相对应。均与同一个所述第一索引数据相对应。均与同一个所述第一索引数据相对应。

【技术实现步骤摘要】
数据的处理方法及装置


[0001]本说明书涉及计算机
,尤其涉及一种数据的处理方法及装置。

技术介绍

[0002]随着互联网科技的飞速发展,互联网产品在世界范围内得到了极大的普及。人们的使用伴随着海量日志数据的产生,而这些日志数据中通常包含用户的隐私数据。随着大家对自己的隐私数据越来越关注,用户数据的隐私保护也被越来越重视,基于此,高效地进行隐私数据溯源定位变得尤为重要。
[0003]目前,日志数据产生后,直接存储在互联网产品对应的数据池中,在这种情况下,若要对隐私数据进行溯源定位,一般采用正则或者匹配的方法,从存储有海量数据的数据池中检索出相应的日志数据,这种方式不仅检索成本高,而且检索效率低。

技术实现思路

[0004]一方面,本说明书一个或多个实施例提供一种数据的处理方法,包括:获取指定时间段内产生的日志数据。针对每条所述日志数据,按照预设泛化方式对所述日志数据进行泛化处理,得到与所述日志数据对应的第一数据,所述第一数据与至少一条所述日志数据相对应。根据所述第一数据确定所述日志数据的第一索引数据,并将所述第一索引数据存储至第一存储区域。根据所述第一索引数据,对所述指定时间段内产生的日志数据进行分区处理,得到至少一个第一数据分区,并将所述第一索引数据和所述至少一个第一数据分区对应存储至第二存储区域,每个所述第一数据分区中的每条所述日志数据均与同一个所述第一索引数据相对应。
[0005]另一方面,本说明书一个或多个实施例提供一种数据的处理装置,包括:第一获取模块,用于获取指定时间段内产生的日志数据。第一泛化处理模块,用于针对每条所述日志数据,按照预设泛化方式对所述日志数据进行泛化处理,得到与所述日志数据对应的第一数据,所述第一数据与至少一条所述日志数据相对应。确定及存储模块,用于根据所述第一数据确定所述日志数据的第一索引数据,并将所述第一索引数据存储至第一存储区域。分区处理及存储模块,用于根据所述第一索引数据,对所述指定时间段内产生的日志数据进行分区处理,得到至少一个第一数据分区,并将所述第一索引数据和所述至少一个第一数据分区对应存储至第二存储区域,每个所述第一数据分区中的每条所述日志数据均与同一个所述第一索引数据相对应。
[0006]再一方面,本说明书一个或多个实施例提供一种数据的处理设备,包括处理器;以及被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:获取指定时间段内产生的日志数据。针对每条所述日志数据,按照预设泛化方式对所述日志数据进行泛化处理,得到与所述日志数据对应的第一数据,所述第一数据与至少一条所述日志数据相对应。根据所述第一数据确定所述日志数据的第一索引数据,并将所述第一索引数据存储至第一存储区域。根据所述第一索引数据,对所述指定时间段内产生
的日志数据进行分区处理,得到至少一个第一数据分区,并将所述第一索引数据和所述至少一个第一数据分区对应存储至第二存储区域,每个所述第一数据分区中的每条所述日志数据均与同一个所述第一索引数据相对应。
[0007]再一方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:获取指定时间段内产生的日志数据。针对每条所述日志数据,按照预设泛化方式对所述日志数据进行泛化处理,得到与所述日志数据对应的第一数据,所述第一数据与至少一条所述日志数据相对应。根据所述第一数据确定所述日志数据的第一索引数据,并将所述第一索引数据存储至第一存储区域。根据所述第一索引数据,对所述指定时间段内产生的日志数据进行分区处理,得到至少一个第一数据分区,并将所述第一索引数据和所述至少一个第一数据分区对应存储至第二存储区域,每个所述第一数据分区中的每条所述日志数据均与同一个所述第一索引数据相对应。
附图说明
[0008]为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0009]图1是根据本说明书一实施例的一种数据的处理方法的示意性流程图;
[0010]图2是根据本说明书另一实施例的一种数据的处理方法的示意性流程图;
[0011]图3是根据本说明书另一实施例的一种数据的处理方法的示意性流程图;
[0012]图4是根据本说明书另一实施例的一种数据的处理方法的示意性流程图;
[0013]图5是根据本说明书一实施例的一种数据的处理装置的示意性框图;
[0014]图6是根据本说明书一实施例的一种数据的处理设备的示意性框图。
具体实施方式
[0015]本说明书一个或多个实施例提供一种数据的处理方法及装置,以解决目前在海量数据场景下,数据检索效率低的问题。
[0016]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书一个或多个实施例保护的范围。
[0017]图1是根据本说明书一实施例的一种数据的处理方法的示意性流程图,如图1所示,该方法可包括:
[0018]S102,获取指定时间段内产生的日志数据。
[0019]可选地,指定时间段可以为某一(几)小时、某一(几)天、某一(几)月等。例如,指定时间段为从过去到当前时刻180天。
[0020]S104,针对每条日志数据,按照预设泛化方式对日志数据进行泛化处理,得到与日志数据对应的第一数据,第一数据与至少一条日志数据相对应。
[0021]其中,第一数据与至少一条日志数据相对应说明经过泛化处理后,日志数据的部分数据特征发生改变,从而出现多条日志数据的泛化结果(即第一数据)一致的情况。
[0022]S106,根据第一数据确定日志数据的第一索引数据,并将第一索引数据存储至第一存储区域。
[0023]可选地,第一存储区域可以是关系型数据库或者前缀树。第一索引数据用于快速索引到对应的日志数据。
[0024]S108,根据第一索引数据,对指定时间段内产生的日志数据进行分区处理,得到至少一个第一数据分区,并将第一索引数据和至少一个第一数据分区对应存储至第二存储区域。每个第一数据分区中的每条日志数据均与同一个第一索引数据相对应。
[0025]可选地,第二存储区域可以是数据池。
[0026]采用本说明书一个或多个实施例的技术方案,通过获取指定时间段内产生的日志数据,针对每条日志数据,按照预设泛化方式对日志数据进行泛化处理,得到与日志数据对应的第一数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据的处理方法,包括:获取指定时间段内产生的日志数据;针对每条所述日志数据,按照预设泛化方式对所述日志数据进行泛化处理,得到与所述日志数据对应的第一数据;所述第一数据与至少一条所述日志数据相对应;根据所述第一数据确定所述日志数据的第一索引数据,并将所述第一索引数据存储至第一存储区域;根据所述第一索引数据,对所述指定时间段内产生的日志数据进行分区处理,得到至少一个第一数据分区,并将所述第一索引数据和所述至少一个第一数据分区对应存储至第二存储区域;每个所述第一数据分区中的每条所述日志数据均与同一个所述第一索引数据相对应。2.根据权利要求1所述的方法,所述获取指定时间段内产生的日志数据之后,所述方法还包括:按照预设时间间隔,对所述指定时间段内产生的日志数据进行分区处理,得到至少一个第二数据分区;每个所述第二数据分区中包括至少一条所述日志数据;所述根据所述第一索引数据,对所述指定时间段内产生的日志数据进行分区处理,得到至少一个第一数据分区,包括:根据所述第一索引数据,对所述至少一个第二数据分区中的所述日志数据进行分区处理,得到所述至少一个第一数据分区。3.根据权利要求1所述的方法,所述按照预设泛化方式对所述日志数据进行泛化处理,得到与所述日志数据对应的第一数据,包括:根据预设的数据特征与泛化特征之间的映射关系,将所述日志数据中的每个数据特征映射为对应的泛化特征,得到与所述日志数据对应的第一数据;所述第一数据包括至少一个所述泛化特征。4.根据权利要求1所述的方法,所述第一存储区域为关系型数据库;所述根据所述第一数据确定所述日志数据的第一索引数据,包括以下其中一项:将所述第一数据确定为所述日志数据的第一索引数据;生成与所述第一数据对应的哈希值,将所述哈希值确定为所述日志数据的第一索引数据;生成与所述第一数据对应的高维矩阵,将所述高维矩阵确定为所述日志数据的第一索引数据。5.根据权利要求4所述的方法,所述将所述第一索引数据存储至第一存储区域之后,所述方法还包括:按照预设排序维度,对所述第一存储区域中存储的第一索引数据进行排序处理,得到有序排列的所述第一索引数据。6.根据权利要求1所述的方法,所述第一存储区域为前缀树;所述根据所述第一数据确定所述日志数据的第一索引数据,包括:将所述第一数据转换成对应的二进制数据;将所述二进制数据确定为所述日志数据的第一索引数据。7.根据权利要求4或6所述的方法,所述方法还包括:
获取待检索数据;按照所述预设泛化方式对所述待检索数据进行泛化处理,得到与所述待检索数据对应的第二数据;根据所述第二数据确定所述待检索数据的第二索引数据;查询所述第一存储区域中是否存在与所述第二索引数据相匹配的第一索引数据;若是,则确定所述第二存储区域中存储有所述待检索数据。8.根据权利要求7所述的方法,所述确定所述第二存储区域中存储有所述待检索数据之后,所述方法还包括:根据与所述第二索引数据相匹配的第一索引数据,在所述第二存储区域中查询对应的第一数据分区;分别对查询到的所述第一数据分区中的每条所述日志数据与所述待检索数据进行匹配处理,并输出与所述待检索数据相匹配的日志数据。9.根据权利要求7所述的方...

【专利技术属性】
技术研发人员:郭飞刘焱刘威歆
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1