【技术实现步骤摘要】
本申请涉及网络数据处理领域,特别涉及一种多维度数据去重方法及系统。
技术介绍
网络日志文件可以是一种采用多维度数据记录用户访问网络事件的文件,其中,多维度数据由描述用户访问网络事件的各个属性构成。例如,某大型网站的多维度数据格式可以为{用户id,省,市,域名,浏览器类型},该多维度数据的属性分别为用户id、省、市、域名和浏览器类型,其维度等于5。其中,一维度数据可以为{用户id},二维度数据可以为{用户id,省},三维度数据可以为{用户id,省,市},四维度数据可以为{用户id,省,市,域名},五维度数据可以为{用户id,省,市,域名,浏览器类型}。然而,对于同一用户不同时间段的用户访问网络事件来说,网络日志文件中的多维度数据可能相同,因此,系统在分析网络日志文件记录的同一用户的多个多维度数据时,首先将网络日志文件中相同的多维度数据去重,以避免对相同的多维度数据重复分析。其中多维度数据去重是指删除网络日志文件中相同的多维度数据的重复记录,在网络日志文件中只保留相同的多个多维度数据的其中一个。相同的多维度数据是指由相同属性构成,且属性值也相同的多维度数据。目前现有 ...
【技术保护点】
一种多维度数据去重方法,其特征在于,该方法包括:依据网络日志文件中任一维度值的多维度数据的属性值确定划分值,其中,所述任一维度值小于所述网络日志文件中各个维度的多维度数据的最大维度;将所述网络日志文件中包含相同的所述划分值的不同多维度数据划分至一个子日志文件;对于所述子日志文件中的任一个多维度数据,判断是否存在与其属性及属性值都相同的多维度数据,如果是,则删除与所述任一个多维度数据相同的多维度数据。
【技术特征摘要】
1.一种多维度数据去重方法,其特征在于,该方法包括 依据网络日志文件中任一维度值的多维度数据的属性值确定划分值,其中,所述任一维度值小于所述网络日志文件中各个维度的多维度数据的最大维度; 将所述网络日志文件中包含相同的所述划分值的不同多维度数据划分至一个子日志文件; 对于所述子日志文件中的任一个多维度数据,判断是否存在与其属性及属性值都相同的多维度数据,如果是,则删除与所述任一个多维度数据相同的多维度数据。2.根据权利要求1所述的方法,其特征在于,所述依据网络日志文件中任一维度值的多维度数据的属性值确定划分值包括将网络日志文件中维度为I的一维度数据的属性值确定为划分值。3.根据权利要求1所述的方法,其特征在于,在所述任一维度值不为1,且维度小于任一维度值的多维度数据不包括所述划分值的情况下,所述方法还包括 选取所述网络日志文件中维度相同,且小于所述任一维度值的各个多维度数据; 运用Hash算法对所选取的各个多维度数据进行计算,得出所选取的各个多维度数据的关键字; 将具有完全相同的关键字的各个多维度数据划分至一个子日志文件。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述将所述网络日志文件中包含有相同的所述划分值的多维度数据划分至一个子日志文件包括 运用Hash算法对各个多维度数据包含的所述划分值进行计算,得出关键字; 将具有完全相同关键字的各个多维度数据划分至一个子日志文件。5.根据权利要求1至3任意一项所述的方法,其特征在于,所述将所述网络日志文件中包含相同的所述划分值的不同多维度数据划分至一个子日志文件包括 依据所述网络日志文件的大小,将所述网络日志文件拆分为多个初始子文件; 将所述多个初始子文件中包含相同划分值的多维度数据划分至一个目标子文件中,并将所述目标子文件作为子日志文件,其中所述目标子文件为所述多个初始子文件中的一个。6.根据权...
【专利技术属性】
技术研发人员:吕春建,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。