一种数据处理方法和装置制造方法及图纸

技术编号:9642631 阅读:105 留言:0更新日期:2014-02-07 01:28
本发明专利技术提供了一种数据处理方法和装置,该方法包括:获取待分析数据具有的属性参数;根据待分析数据具有的属性参数,确定待生成的二进制数的位数,其中,该二进制数的位数与待分析数据具有的属性参数的个数相同,且该二进制数的各位分别表示该待分析数据的一个属性参数;生成具有该位数的所有所述二进制数,并从生成的多个二进制数中,选取包含有预设数量位为第一指定数值的二进制数;对于每个选取出的二进制数,将二进制数中为第一指定数值的各位所表示的属性参数组成属性参数组合;基于得到的属性参数组合,对待分析数据进行预设数量维度的统计。该方法可以提高对数据分析统计的精度。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种数据处理方法和装置,该方法包括:获取待分析数据具有的属性参数;根据待分析数据具有的属性参数,确定待生成的二进制数的位数,其中,该二进制数的位数与待分析数据具有的属性参数的个数相同,且该二进制数的各位分别表示该待分析数据的一个属性参数;生成具有该位数的所有所述二进制数,并从生成的多个二进制数中,选取包含有预设数量位为第一指定数值的二进制数;对于每个选取出的二进制数,将二进制数中为第一指定数值的各位所表示的属性参数组成属性参数组合;基于得到的属性参数组合,对待分析数据进行预设数量维度的统计。该方法可以提高对数据分析统计的精度。【专利说明】一种数据处理方法和装置
本专利技术涉及数据处理
,更具体的说是涉及一种数据处理方法和装置。
技术介绍
在数据统计中,经常需要涉及到排重计算。所谓排重计算就是从待统计数据中统计出指定类型的数据记录,以排除不属于该指定类型的数据记录。例如,以待统计数据为某个超市的销售数据为例,则该销售数据包括多条数据记录,每条数据记录中具包含了已销售商品的商品名称、生产厂商、销售时间等属性信息,如果对本月销售的商品A进行排重计算后,则仅仅会统计出销售时间为本月,且商品名称为商品A的数据记录,而其他数据记录则会被排除。在实际应用中,待分析数据一般具有多个属性参数,可能需要分别基于多个不同的属性组合来进行多个维度的排重计算,这样,则需要人为根据所需统计的维度数,列举出可能的属性组合情况,然后再分别基于可能的属性参数组合进行排重计算。如仍以上面的例子进行介绍,该销售数据对应着商品名称、生产厂商、销售时间这个三个属性参数,这三个属性参数可以组合成8种不同的维度组合,即该8种可能的维度组合包含一个三维度组合、三个二维度组合、三个一维度组合和一个零维度组合。其中,该三维度的组合为由商品名称、生产厂商和销售时间这三个属性参数组合的三维组合;该三个两维度的组合分别为:商品名称和生产厂商的二维组合,商品名称和销售时间的二维组合,生产厂商和销售时间的二维组合;该三个一维度的组合则分别是商品名称、生产厂商和销售时间中任意一个属性参数为一个一维组合;零维度就是不考虑任意的属性参数组合。上面提到的对本月销售的商品A进行排重计算实际上是基于销售名称和销售时间这两个属性参数组合的一种二维度的排重计算。当数据具有的属性参数的数量为η时,基于不同维度的属性参数组合的总数量则为2的η次方。随着数据复杂性的增加,数据具有的属性参数的数量也相应增多。当数据具有的属性参数数量较大时,可能的也相应增多,这样,通过人为的方式列举可能的维度组合已经变得不可能,而且人为列举也经常会出现遗漏某些属性参数的组合,使得得到的维度组合不全面,影响到了排重计算,进而降低了数据统计分析的精度。
技术实现思路
,有鉴于此,本专利技术提供一种数据处理方法和装置,以提高利用待分析数据的属性参数确定维度组合的准确性,进而提高数据统计分析的精度。为实现上述目的,本专利技术提供如下技术方案:一种数据处理方法,包括:获取待分析数据具有的属性参数;根据所述待分析数据具有的属性参数,确定待生成的二进制数的位数,其中,所述二进制数的位数与所述待分析数据具有的属性参数的个数相同,且所述二进制数的各位分别表示所述待分析数据的一个属性参数;生成具有所述位数的所有所述二进制数,并从生成的所述多个二进制数中,选取包含有预设数量位为第一指定数值的二进制数,其中,所述第一指定数值为O或I ;对于每个选取出的所述二进制数,将所述二进制数中为所述第一指定数值的各位所表示的属性参数组成属性参数组合;基于得到的所述属性参数组合,对所述待分析数据进行所述预设数量个维度的统计。优选的,所述生成具有所述位数的所有所述二进制数,并从生成的所述多个二进制数中,选取包含有预设数量位为第一指定数值的二进制数,包括:A:生成具有所述位数,且每位均为所述第二指定数值的初始二进制数,将所述初始二进制数作为第一二进制数,其中,第二指定数值为O或I;B:根据预设规则和所述第一二进制数,生成第二二进制数,所述第二二进制数与所述第一二进制的差值的绝对值为I;C:如果所述第二二进制数中有预设数量位上的数值为第一指定数值,则选取出所述第二二进制数;C:判断所述第二二进制数的各位是否为均为第三指定数值,如果是,则执行生成所述属性参数组合的操作;如果否,则将当前的所述第二二进制数作为所述第一二进制数,并返回所述步骤B;其中,所述第三指定数值为O或1,且所述第三指定数值不同于所述第二指定数值。优选的,当所述第二指定数值为O时,所述生成具有所述位数,且每位均为所述第二指定数值的初始二进制数,包括:生成具有所述位数,且每位均为O的初始二进制数所述根据预设规则和所述第一二进制数,生成第二二进制数,所述第二二进制数与所述第一二进制的差值的绝对值为1,包括:将所述第一二进制数的最低位加一,得到第二二进制数。优选的,当所述第二指定数值为I时,所述生成具有所述位数,且每位均为所述第二指定数值的初始二进制数,包括:生成具有所述位数,且每位均为I的初始二进制;所述根据预设规则和所述第一二进制数,生成第二二进制数,所述第二二进制数与所述第一二进制的差值的绝对值为1,包括:将所述第一二进制数的最低位减一,得到第二二进制数。优选的,所述对于每个选取出的所述二进制数,将所述二进制数中为所述第一指定数值的各位所表示的属性参数组成属性参数组合,包括:对于每个选取出的所述二进制数,按照第一指定数值对应布尔数组中的真值的规贝U,将所述二进制数的各位的值依次转换为布尔数组中的元素值,以使得所述布尔数组中的每个元素值分别对应一个所述属性参数;提取出所述布尔数组中真值对应的属性参数,将提取出的属性参数组成属性参数组合。另一方面,本专利技术还提供了一种数据处理装置,包括:获取单元,用于获取待分析数据具有的属性参数;关系确定单元,用于根据所述待分析数据具有的属性参数,确定待生成的二进制数的位数,其中,所述二进制数的位数与所述待分析数据具有的属性参数的个数相同,且所述二进制数的各位分别表示所述待分析数据的一个属性参数;二进制数处理单元,用于根据所述关系确定单元确定出的位数,生成具有所述位数的所有所述二进制数,并从生成的所述多个二进制数中,选取包含有预设数量位为第一指定数值的二进制数,其中,所述第一指定数值为O或I ;属性参数组合单元,用于对于所述二进制数处理单元选取出的每个所述二进制数,将所述二进制数中为所述第一指定数值的各位所表示的属性参数组成属性参数组合;计算单元,用于基于所述属性参数组合单元得到的所述属性参数组合,对所述待分析数据进行所述预设数量个维度的统计。优选的,所述二进制数处理单元,包括:初始数生成单元,用于根据所述关系确定单元确定出的位数,生成具有所述位数,且每位均为所述第二指定数值的初始二进制数,将所述初始二进制数作为第一二进制数,其中,第二指定数值为O或I ;中间数生成单元,用于根据预设规则和所述第一二进制数,生成第二二进制数,所述第二二进制数与所述第一二进制的差值的绝对值为I ;二进制数选取单元,用于如果所述中间制数生成单元生成的所述第二二进制数中有预设数量位上的数值为所述第一指定数值,则选取出所述第二二进制数;本文档来自技高网
...

【技术保护点】
一种数据处理方法,其特征在于,包括:获取待分析数据具有的属性参数;根据所述待分析数据具有的属性参数,确定待生成的二进制数的位数,其中,所述二进制数的位数与所述待分析数据具有的属性参数的个数相同,且所述二进制数的各位分别表示所述待分析数据的一个属性参数;生成具有所述位数的所有所述二进制数,并从生成的所述多个二进制数中,选取包含有预设数量位为第一指定数值的二进制数,其中,所述第一指定数值为0或1;对于每个选取出的所述二进制数,将所述二进制数中为所述第一指定数值的各位所表示的属性参数组成属性参数组合;基于得到的所述属性参数组合,对所述待分析数据进行所述预设数量个维度的统计。

【技术特征摘要】

【专利技术属性】
技术研发人员:曹艳白
申请(专利权)人:北京搜房科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1