一种中位数分析方法及装置制造方法及图纸

技术编号:20074864 阅读:21 留言:0更新日期:2019-01-15 00:34
本发明专利技术提供了一种中位数分析方法及装置,涉及大数据分析技术领域。所述中位数分析方法包括:将用户查询操作对应的任务数据集切割成多个子数据集,并将每个子数据集分别发送至对应的运算节点;每个运算节点采用中位数选择算法对每个子数据集进行计算后获得节点计算结果,合并所述节点计算结果获得中位数分析结果。该方法通过分节点运算和采用中位数选择算法进行中位数的具体计算,降低了中位数计算对计算资源的需求,提高了中位数计算的效率。

A Median Analysis Method and Device

The invention provides a median analysis method and device, which relates to the technical field of large data analysis. The median analysis method includes: dividing the task data corresponding to the user query operation into several sub-datasets and sending each sub-dataset to the corresponding operation nodes respectively; each operation node calculates each sub-dataset using the median selection algorithm to obtain the node calculation results, and merging the node calculation results to obtain the median analysis results. This method reduces the demand for computing resources and improves the efficiency of median calculation by means of sub-node operation and median selection algorithm.

【技术实现步骤摘要】
一种中位数分析方法及装置
本专利技术涉及大数据分析
,具体而言,涉及一种中位数分析方法及装置。
技术介绍
随着数据获取、管理、存储技术地蓬勃发展,数据逐渐呈现了海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等新型特征,数据也渗透到了当今社会的每一个行业和业务职能领域,并成为企业内部重要的生产因素。当前对于计算一个度量的平均值通常使用平均数的算法,但当数据不符合正态分布的情况下,由于受到极值的影响,平均数往往不能反映真实的平均水平(如房屋均价、个人收入等),所以中位数在数据分析中的作用也越来越受到重视。但由于中位数的计算和处理相较于平均数更为复杂,特别是在海量数据的情况下,如何更高效率地使用中位数进行数据分析是一个亟需解决的问题。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种中位数分析方法及装置,以解决现有技术中数据量巨大时中位数的计算和处理较为复杂、消耗时间和计算资源过多的问题。第一方面,本专利技术实施例提供了一种中位数分析方法,所述中位数分析方法包括:将用户查询操作对应的任务数据集切割成多个子数据集,并将每个子数据集分别发送至对应的运算节点;每个运算节点本文档来自技高网...

【技术保护点】
1.一种中位数分析方法,其特征在于,所述中位数查询方法包括:将用户查询操作对应的任务数据集切割成多个子数据集,并将每个子数据集分别发送至对应的运算节点;每个运算节点采用中位数选择算法对每个子数据集进行计算后获得节点计算结果,合并所述节点计算结果获得中位数分析结果。

【技术特征摘要】
1.一种中位数分析方法,其特征在于,所述中位数查询方法包括:将用户查询操作对应的任务数据集切割成多个子数据集,并将每个子数据集分别发送至对应的运算节点;每个运算节点采用中位数选择算法对每个子数据集进行计算后获得节点计算结果,合并所述节点计算结果获得中位数分析结果。2.根据权利要求1所述的中位数分析方法,其特征在于,在所述将用户查询操作对应的任务数据集切割成多个子数据集之前,还包括:将所述用户查询操作转换为结构化查询语言SQL脚本;基于所述SQL脚本确定所述用户查询操作对应的任务数据集;确定不存在单独运算节点能够对所述任务数据集进行快速排序。3.根据权利要求2所述的中位数分析方法,其特征在于,所述每个运算节点采用中位数选择算法对每个子数据集进行计算后获得节点计算结果,包括:每个运算节点将对应子数据集中的数字用二进制表示;每个运算节点将节点内的未对比最高数位为1的二进制数字对应的数据写入第一文件,将节点内的未对比最高数位为0的二进制数字对应的数据写入第二文件。4.根据权利要求3所述的中位数分析方法,其特征在于,所述合并所述节点计算结果获得中位数分析结果,包括:将所有运算节点生成的第一文件合并获得第一合并文件,将所有运算节点生成的第二文件合并获得第二合并文件;在所述第一合并文件的数据量大于所述第二合并文件的数据量时,将所述第一合并文件存入缓存表;在所述第一合并文件的数据量小于所述第二合并文件的数据量时,将所述第二合并文件存入所述缓存表;在所述第一合并文件的数据量等于所述第二合并文件的数据量时,将所述第一合并文件和所述第二合并文件存入所述缓存表;在所述缓存表中只有所述第一文件或所述第二文件时,将所述第一文件或所述第二文件切割成多个子数据集,并将每个切割获得的子数据集分别发送至对应的运算节点,重复所述“每个运算节点将对应子数据集中的数字用二进制表示”至“在所述第一合并文件的数据量大于所述第二合并文件的数据量时,将所述第一合并文件存入缓存表;在所述第一合并文件的数据量小于所述第二合并文件的数据量时,将所述第二合并文件存入所述缓存表;在所述第一合并文件的数据量等于所述第二合并文件的数据量时,将所述第一合并文件和所述第二合并文件存入所述缓存表”的步骤直至确定存在单独运算节点能够对所述第一文件或所述第二文件内的数据进行快速排序,对所述第一文件或所述第二文件内的数据进行快速排序并确定中位数,将所述中位数作为所述中位数分析结果;在所述缓存表中同时有所述第一文件和所述第二文件时,将所述第一文件中的最大值与所述第二文件中的最小值的平均值作为所述中位数分析结果。5.根据权利要求1所述的中位数分析方法,其特征在于,在所述合并所述节点计算结果获得中位数分析结果之后,所述中位数分析方法还包括:将所述中位数分析结果封装成数据集返回,并基于所述数据集在前端界面进行数据表以及可视化图标显示。6.一种中位数分析装置,其...

【专利技术属性】
技术研发人员:杨星赖文王建洪
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1