一种数据即时离散化及汇总的实现方法技术

技术编号:12653674 阅读:216 留言:0更新日期:2016-01-06 11:37
本发明专利技术针对当前大数据、商业智能领域中,连续变化的数值型数据的离散化不足,提供了一种数据离散化及汇总的实现方法。通过定义数值型数据的离散化方式、设定分档数目、即时分档、即时汇总数据等步骤、方法实现了数值型数据的即时分档并当作维度参与统计分析的目的。本发明专利技术一种数据离散化及汇总的实现方法,弥补了大数据、商业智能领域中连续变化的数值型数据的离散化功能不足,不需要在数据抽取、清洗、转换的过程中进行数据分档,也不需要存储分档标识,实现了按需即时分档,按给定数目分档,生成分档即刻进行数据汇总完成分档的利用,同时增加了分析维度,让分析更自由、更灵活。

【技术实现步骤摘要】

本专利技术属于计算机技术的大数据、商业智能领域,尤其涉及。
技术介绍
在计算机技术的大数据、商业智能领域中,连续变化的数值型数据通常都是统计分析的目标,即当作指标来使用的。数值型数据很少用做观察角度,并非没有这样的需求,而是因为数值型数据的离散化及调整困难,即使是需求强烈,通常也只有一种固定的离散化形式,无法满足不同场景下个性化统计分析的需要,而且还存在存储分档标签占用空间的问题。
技术实现思路
本专利技术针对当前大数据、商业智能领域中,连续变化的数值型数据的离散化不足,提供了。通过定义数值型数据的离散化方式、设定分档数目、即时分档、即时汇总数据等步骤、方法实现了数值型数据的即时分档并当作维度参与统计分析的目的。本专利技术,弥补了大数据、商业智能领域中连续变化的数值型数据的离散化功能不足,不需要在数据抽取、清洗、转换的过程中进行数据分档,也不需要存储分档标签,实现了按需即时分档,按给定数目分档,生成分档即刻进行数据汇总完成分档的利用,同时增加了分析维度,让分析更自由、更灵活。专利技术步骤、方法的确定离散化方式是首先选择“等距”或“等比”两种数值型数据离散方式中的一种。其中的等距分档是离散化步长固定不变,类似测量尺子的刻度不变,但分档中的数据量可能不同;等比分档是离散化各个分档中的数据量相同,即每个分档的数据量占比相同,但分档的步长可能不同,类似测量尺子的刻度不同。专利技术步骤、方法的设定分档数目是指定给定期望离散化后的分档数量,即最多生成多少个数据分片。设定的分档数越多则分档的步长越小、分档的占比越小,在分析的效果上是观察分析的刻度小,数据分片多,观察更细致。专利技术步骤、方法的即时分档是指在设定了离散化方式、分档数目后,立刻根据实际数据生成分档实例,分档实例包括多个分档的标签及与之对应的上边界值、下边界值。其中等距分档还需要实际数据的极大值和极小值数据,分档时极小值自动向下圆整到整十、百、千,极大值自动向上圆整到整十、百、千,划分出要求数量的分档,输出全部分档的标签;等比分档需要扫描待分档数据项的全部数据,将数据排序,根据分档数量切分并生成分档的标签。即时分档还需要说明的是:1、数据圆整时,实际数据的数值大小不同,圆整的结果不同。很小的数值圆整到十,很大的数值可能圆整到百、千甚至是万,但一个离散化是一个确定的圆整目标。2、自动生成的分档,不论是等距分档,还是等比分档都是半闭半开区间。举例如等距分档“50-100”表示包含数据范围是大于等于50且小于100的,分档“100-150”表示包含数据范围是大于等于100且小于150的。如有实际数据数值刚好是100则归入“100-150”的数据分档范畴内,从而保证数据的正交分割。专利技术步骤、方法的即时汇总是指根据数值型数据的分档标签将数据累加汇总,形成以数值型数据的离散化标签为观察角度的聚合数据集,实现数值型数据做为维度分析的目的。本专利技术也存在局限性,即不论是等距即时分档还是等比即时分档都需要在生成分档时访问实际的数据,如果数据存储在磁盘设备上即时分档可能迟滞系统的响应。【附图说明】图1为本专利技术之步骤方法示意。图2为本专利技术之等距分档过程图。图3为本专利技术之等比分档过程图。图4为本专利技术之实现截图。【具体实施方式】为使本专利技术之目的、技术方案和优点更加清楚,以下结合电信运营商通话时长这一连续变化的数值型实例来详细说明实现的方法和技术细节。借此对本专利技术如何应用技术手段解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。确定离散化方式在专利技术步骤、方法的确定离散化方式就是在界面上呈现一个离散方式的可选项,待选内容共两项,分别是“等距”和“等比”,其中“等距”为缺省选择;设置一个存储变量,记录缺省离散化方式。设定分档数目在专利技术步骤、方法的设定分档数目实施过程就是录入并记录一个数值用做分档,录入的数值需进行有效范围检查,小于5或大于100都没意义。另外分档数以限制选项几个比较有意义的数值更好。即时分档在专利技术步骤、方法的即时分档实施过程时已确定了离散化方式和分档数的前提下进行的,离散化方式不同需要分别进行分档的实施。即时等距分档实施步骤如图2所示,包括取极大值和极小值;向下圆整极小值;向上圆整极大值;根据圆整后极大值、极小值及分档数计算步长;圆整步长;统计实际的分档数;逐一生成并存储分档,包括分档标签、边界值。即时等比分档实施步骤如图3所示,包括取记录数η ;计算单个分档的记录数m,m=n/分档数;取实际数据并从大到小排列;遍历实际数据,遍历开始前记录第一个数据的值,记录数计数器清0,当记录数计数器等于m时,记录当前值及之前记录的值为分档的上下边界,根据边界生成分档的标签,存储分档标签及边界值完成一个分档,继续完成所有的分档。分档标签为便于理解,可以组织成“小端边界值-大端边界值”的形式。即时汇总数据在专利技术步骤、方法的即时汇总数据的实施过程就是遍历待统计汇总的数据源,根据待离散数据X查找并转换为分档标签1,查找汇总结果集中I所属记录,进行相应数据的累加。其中待离散数据X转换分档标签I的过程如下:1、在存储的分档信息中查找;2、如果存在某个分档k,满足X大于等于其小端边界,X小于其大端边界;3、返回分档k的标签。分档的边界值是有序的,因此在转换标签的过程中可以使用二分查找方法提高转换的速度。汇总结果的按标签数值次序顺序显示。【主权项】1.,其特征在于,包括: (1)在需要使用的一刻即时将数据离散化生成分档; (2)数据离散化后立即用于数据的统计汇总。2.如权利要求1所述方法,即时离散化由系统自动完成;自动生成的分档边界自动圆整到整十、百、千;系统提供等距分档、等比分档两种分档方式供选择使用。3.如权利要求2所述等比分档方法,利用数据排序后依次截取固定数量记录生成分档的方法。4.如权利要求1所述方法,即时离散化设置只需选择分档方式,设置分档数即可。5.如权利要求1所述方法,即时离散化设置生成分档的分档标签以“小端边界值-大端边界值”的形式表示分档的数据范围。6.如权利要求1所述方法,即时离散化标签表示的分档范围是大于等于小端边界值,且小于大端边界值的半闭半开区间。7.如权利要求1所述方法,数据即时离散化便立即用于数据的统计汇总;数据统计结果按标签数值次序顺序显示。【专利摘要】本专利技术针对当前大数据、商业智能领域中,连续变化的数值型数据的离散化不足,提供了一种数据离散化及汇总的实现方法。通过定义数值型数据的离散化方式、设定分档数目、即时分档、即时汇总数据等步骤、方法实现了数值型数据的即时分档并当作维度参与统计分析的目的。本专利技术一种数据离散化及汇总的实现方法,弥补了大数据、商业智能领域中连续变化的数值型数据的离散化功能不足,不需要在数据抽取、清洗、转换的过程中进行数据分档,也不需要存储分档标识,实现了按需即时分档,按给定数目分档,生成分档即刻进行数据汇总完成分档的利用,同时增加了分析维度,让分析更自由、更灵活。【IPC分类】G06F17/30【公开号】CN105224590【申请号】CN201510390742【专利技术人】冯昱川 【申请人】北京挺软科技有限公司【公开日】2016年1月6日【申请日】2015年7月7日本文档来自技高网...

【技术保护点】
一种数据即时离散化及汇总的实现方法,其特征在于,包括:(1)在需要使用的一刻即时将数据离散化生成分档;(2)数据离散化后立即用于数据的统计汇总。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯昱川
申请(专利权)人:北京挺软科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1