The embodiment of the invention discloses a device and a data processing method, data processing method comprises the following steps: acquiring multiple standby, the data to be processed in a predetermined interval division, to determine the approximate range of data to be processed by the value of the approximation based on the determined quantile corresponding to the stay data processing. Using the application example, the approximate value is replaced by the value of the data to be processed in any interval, which can reduce the amount of data involved in the calculation process. Thus, the number of traversal can be reduced, and the I/O operation of database can be reduced, and the efficiency of computing quantile process can be improved to a certain extent.
【技术实现步骤摘要】
一种数据处理方法及装置
本申请涉及计算机
,尤其涉及一种数据处理方法及装置。
技术介绍
随着信息技术的发展及互联网技术的普及,业务提供方(如:网站、银行、电信运营商等)所需处理的数据量巨大。在实际应用时,业务提供方可能会根据业务需求(如:数据分析),针对某些数据执行分位数计算。其中,分位数可认为是将一组有序排列的数据划分成不同部分的分位点所对应的数据。具体例如:在一组有序排列的数据中,不同数据均对应着不同的取值,假设某一数据的取值为50,同时假设,在该组数据中,数值小于50的数据的数量所占的比例为70%,那么,取值为50的数据则可认为是该组数据的第70分位数。现有技术中,分位数计算的过程通常为:针对一组待计算数据进行逐一遍历的相互比对,完成对这一组待计算数据的排序,并基于排序后的数据序列,确定出相应的分位数。然而,在实际应用时,业务提供方所生成的数据通常存储在相应的存储设备(如:数据库、服务器本地的磁盘)中。那么,从上述的分位数计算过程可见,为了确定出相应的分位数,需要针对每一待处理数据与其他各待处理数据进行逐一比对并排序。该过程通常需要针对存储设备执行多次I/O(Input/Output)操作。特别是在待计算数据量较大时,就需要大量执行I/O操作,显然,大量的I/O将耗费一定的时间,从而影响计算的效率。
技术实现思路
本申请实施例提供一种数据处理方法,用以解决现有的分位数计算方式的效率较低的问题。本申请实施例提供的一种数据处理方法,所述方法包括:获取多个待处理数据;将各待处理数据划分在预设的多个区间内;确定各区间内的待处理数据的近似值;根据所述近似值, ...
【技术保护点】
一种数据处理方法,所述方法包括:获取多个待处理数据;将各待处理数据划分在预设的多个区间内;确定各区间内的待处理数据的近似值;根据所述近似值,确定对应于所述待处理数据的分位数。
【技术特征摘要】
1.一种数据处理方法,所述方法包括:获取多个待处理数据;将各待处理数据划分在预设的多个区间内;确定各区间内的待处理数据的近似值;根据所述近似值,确定对应于所述待处理数据的分位数。2.如权利要求1所述的方法,其特征在于,在将各待处理数据划分在预设的多个区间内之前,所述方法还包括:针对获取到的所述各待处理数据进行采样,生成多个样本数据;将各样本数据划分在预设的多个区间内;确定划分后的样本数据对应的信息熵,且该信息熵不大于设定阈值。3.如权利要求2所述的方法,针对获取到的所述各待处理数据进行采样,具体包括:按照预设采样比例,针对获取到的所述各待处理数据进行放回采样。4.如权利要求2所述的方法,将各样本数据划分在预设的多个区间内,具体包括:确定各样本数据对应的数值;根据所述各样本数据的数值,将所述各样本数据划分在预设的多个区间内。5.如权利要求2所述的方法,确定划分后的样本数据对应的信息熵,具体包括:针对每一区间,统计该区间中的样本数据在全部样本数据中的占比,作为该区间的信息概率;根据确定出的每一区间的信息概率,确定样本数据对应的信息熵。6.如权利要求1所述的方法,将各待处理数据划分在预设的多个区间内,具体包括:确定各待处理数据对应的数值;根据所述各待处理数据的数值,将所述各待处理数据划分在预设的多个区间内。7.如权利要求1所述的方法,确定各区间内的待处理数据的近似值,具体包括:针对任一区间,确定该区间的端点值,计算所述端点值的均值,并确定为划分在该区间内的待处理数据所对应的近似值;或针对任一区间,统计该区间内的各待处理数据的数值,计算各待处理数据的均值,并确定为划分在该区间内的待处理数据所对应的近似值。8.如权利要求1所述的方法,根据所述近似值,确定对应于所述待处理数据的分位数,具体包括:针对每一区间,确定划分在该区间中的待处理数据在所有待处理数据中的累计占比;确定所需计算的分位数所对应的分位点;确定所述分位点所匹配的累计占比,并确定该累计占比所对应的区...
【专利技术属性】
技术研发人员:周扬,杨树波,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。