【技术实现步骤摘要】
一种数据处理方法、装置和用于数据处理的装置
[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
技术介绍
[0002]随着大数据时代的来临,大数据分析也应运而生。在大数据分析等场景下,经常需要对某类数据进行统计、对比、分析等操作。而数据在采集时可能存在随机误差、异常值、极端值等数值噪音,直接使用的话会影响算法的速度,另外,部分算法不支持连续变量,因此需要对数据进行预处理。
[0003]数据分箱是一种常用的数据预处理方法,“箱”实际上就是按照数据对应的某一属性的属性值划分的子区间,如按照年龄划分的子区间、按照身高划分的子区间等,如果一个数据的属性值处于某个子区间范围内,就把该数据划分到该子区间所代表的箱(bin)内。
[0004]然而,目前的数据分箱方法通常用于对明文数据进行分箱,对于密文数据,则无法根据数据的具体数值统计每个箱内的正负样本个数,导致数据分箱处理过程中需要暴露数据明文,难以保证数据的隐私安全。
技术实现思路
[0005]本申请实施例提供一种 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法用于基于数据的密文,确定每个箱中正负样本的个数,所述方法包括:获取待分箱数据的密文组成的数据数组、所述待分箱数据的正负样本标签的密文组成的标签数组,以及切分点的密文组成的切分点数组;分别将所述数据数组和所述标签数组按行复制n次后再进行转置,得到数据矩阵和标签矩阵,n为所述切分点的个数;将所述切分点数组按行复制m次,得到切分点矩阵,m为所述待分箱数据的个数;基于所述数据矩阵和所述切分点矩阵,确定数据结果数组,所述数据结果数组中的元素表示每个箱中的正样本和负样本的总数;根据所述数据矩阵和所述标签矩阵,确定负样本结果数组,所述负样本结果数组中的元素表示每个箱中的负样本个数;将所述数据结果数组与所述负样本结果数组按元素相减,得到正样本结果数组,所述正样本结果数组中的元素表示每个箱中的正样本个数。2.根据权利要求1所述的方法,其特征在于,所述切分点为基于所述待分箱数据的密文,依据预设的分箱模式所确定。3.根据权利要求1所述的方法,其特征在于,所述根据所述数据矩阵和所述标签矩阵,确定负样本结果数组,包括:根据所述数据矩阵和所述标签矩阵,确定负样本矩阵;基于所述负样本矩阵和所述切分点矩阵,确定负样本结果数组。4.根据权利要求3所述的方法,其特征在于,所述待分箱数据的正样本标签为0,负样本标签为1。5.根据权利要求4所述的方法,其特征在于,所述根据所述数据矩阵和所述标签矩阵,确定负样本矩阵,包括:对所述数据矩阵与所述标签矩阵基于密文按位相乘,得到负样本矩阵。6.根据权利要求5所述的方法,其特征在于,所述基于所述负样本矩阵和所述切分点矩阵,确定负样本结果数组,包括:对所述负样本矩阵和所述切分点矩阵基于密文按位比较大小,将每一位的比较结果用0或1的密文表示,得到由0或1的密文组成的负样本比较矩阵;对所述负样本比较矩阵从第一列开始到第n-1列依次执行如下更新操作:将当前列与后一列基于密文按位相减,并利用相减得到的结果更新当前列;对更新后的负样本比较矩阵基于密文按行求和,得到负样本结果数组。7.根据权利要求1所述的方法,其特征在于,所述基于所述数据矩阵和所述切分点矩阵,确定数据结果数组,包括:对所述数据矩阵和所述切分点矩阵基于密文按位比较大小,将每一位的比较结果用0或1的密文表示,得到由0或1的密文组成的数据比较矩阵;对所述数据比较矩阵从第一列开始到第n-1列依次执行如下更新操作:将当前列...
【专利技术属性】
技术研发人员:何旭,范晓昱,王国赛,
申请(专利权)人:华控清交信息科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。