用于复杂分层数据的改进的处理和分析的方法和设备技术

技术编号:2823688 阅读:171 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及数据分析领域。在一种形式上,本发明专利技术涉及分析数据库中的数据分析。优选的是,本发明专利技术涉及复杂编码数据、特别是分层数据的分析。公开了本发明专利技术的多个方面,包括但是不限于分层数据的存储、分层数据的GUI表示、分层数据卷积和解卷积、复杂数据的交叉制表,包括分段方法、偏移方法、一层方法和分段匹配方法以及用于构造分层变量的网格结构生成器。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据分析领域。在一种形式上,本专利技术涉及分析数据库中的数据的分析。优选地,本专利技术涉及在调查响应中经常发现的复杂编码数据、特别是分层数据的分析,在下文中针对分层数据来描述本专利技术将是方便的,但是,应当明白,本专利技术不仅仅局限于此。
技术介绍
整个说明书中的讨论源自专利技术人的认识和/或某些现有技术问题的发现。专利技术人认识到,例如代表更真实的生活情景的数据会相对复杂。现有技术在分析更复杂的数据中存在困难。存在多种技术用于把数值代码分配到预定的类别,从而使得制表的处理可以减化为计数代码的数量。而且,在使用制表来作为分析工具当中使用过滤(filtering)和加权(weighting)。简单的数据比较好处理,但是处理复杂数据,如多响应、增量式和/或特别是分层数据,则相当困难。专利技术人已经认识到这种困难的一个原因是数据本身的性质。虽然已经使用了各种技术,但是它们不能解决数据的复杂性方面的基本问题。例如,将参照简单数据、多响应、增量式、分层来讨论数据复杂-->性。简单(simple)对于诸如性别和地区之类的数据,其中各类别是互斥的,对于交叉制表的处理要求相对简单。只要求对结合给定情况对每种性别代码(诸如1=女,2=男)和每个地区代码(诸如1=NE,2=NW,3=SE,4=SW)出现次数的计数。多响应(Multi-response)但是,有关天气事件的数据可以被编码为:c1=雨c2=冰雹c3=雪c4=风c5=高温某个城市可能没有这些情况,或者没有全部这些情况,因此一个城市的记录可能是空白的,而对于另一个城市,关于上述的代码,其可能是1;2;3;4。而在一天中有几次冰雹的另一个城市关于上述代码可能记录2;2;4;2。交叉制表多响应数据要求在所有的可能的成对组合上迭代。增量式(incremented)每个事件可能具有增量,或者具有与其相关联的值,诸如雨量、风速。可以使用上述的表1,记录成1*30;4*55,以表示30mm的降雨和55kph的风。当制表时,该代码的该实例的特定增量被加到总数上,而不是默认的增加1。分层(hierarchic)-->复杂数据集可能通常具有自然的层次。存在许多示例:●医生/病人/处方●部门/计算机/安装的软件●药物现场试验,实验室/试验编号/测试类型/结果●品牌属性评级的市场研究●等等这类数据众所周知地难于分析。很显然,相对于上述的示例,研究者可能要回答的问题种类如下:●每个医生开出多少处方?作为病人数量的百分比?多少病人有不只一个医生?在所有开出的处方中,多少比例是止痛剂、抗生素?●在计算机的数量和所安装的应用软件的数量之间的比率是多少?那些部门具有最多的电子数据表格?多少应用软件被安装在给定的OS上等。●哪些实验室一贯地通过特定的测试。哪些不?哪些测试最常被通过?一个试验的结果与其他试验实质不同或者非常不同?●对于给定的品牌产品集和属性集,每个品牌的评级如何?是对品牌的子集?所有品牌中,一个属性比其他属性更通用/更不通用?分层数据包含在几个层上的信息。记录在许多城市的天气事件的程度,涉及例如三个编码层。除了事件代码之外,城市可以被编码为1、2、3等,并且天气的程度可以被编码为1、2、3等。这个数据经常被显示为如在图1中图示的树或者一组树。可以推断,对于20个城市、5个事件和10种程度尺度,每天可能要记录1000个不同的数据项。而且,在分层结构每个层的数据本身可以是多响应的、增量式的和/或简单的未编码的量。要允许同一类型的多-->个事件,通常涉及可能性的大大增加——2000、3000、5000,在允许足够多的事件和不浪费数据存储的太多的空间之间产生压力(tension)。对于一种情况的分层数据,本质上是任何深度和复杂性的N节点树。很少有系统被认为能够经济地存储树。RDB(关系数据库)可以使用几个链接表,而卡图(card image)和其他平面形式必须对每个可能的分支组合提供空间,即使可能很少被使用。另一个困难是:虽然通常被称为“树”,但是实际需要的是“森林”——树的集合。对于调查数据,根节点经常是概念性的,包括变量本身。在市场研究中的一个常用示例是品牌/属性/评级。例如:问题12a:请在1-10的尺度上对每个品牌的每个下面的陈述评分,其中,“1”表示“不同意”,“10”表示“很同意”。TimTams Monte Carlo Salada是健康产品物有所值具有极好的名声在许多零售店可以买到表1对于单个被调查者,表格可能填写为:TimTams Monte Carlo Salada是健康产品2 1 4物有所值4 7 10具有极好的名声9 6 8在许多零售店可以买到10 8 7表2在图2中图示了树表示,包括概念性的根。存在许多用于读取这样-->树的构造精巧的算法,但是对于交叉制表,没有人认为完全满意。交叉制表(cross tabulation)由专利技术人发现的问题是处理如上所述的、特别是跨越整个分层的交叉指标算法被认为相对地慢、笨拙、效率低和通常不适当。对于交叉制表,遍历速度是重要的因素。不论是在盘上或者在RAM中,使用每个节点到子节点的地址指针的现有技术方法可能是CPU密集型的,并且使得为了诊断和验证目的的而在整个树人工追踪数据链变得麻烦和困难。特别是,如果对于所有可能,关系数据库(RDBM)很难计算可能百分比的完全集。根据调查处理惯例得出的系统一般在处理分层数据上在一定程度上略好,但是当与复杂数据相结合使用时仍然被认为引起严重的性能变差。在现有技术中,通常通过三种方法之一来解决用于通过交叉制表来分析的分层数据的准备:1.将所述数据划分为许多平行变量,其中,变量的总数等于在逻辑分层的每个层的类别数量的乘积。用这种技术的问题是可能有成百甚至上千的变量,其通常是稀疏分布的,每个变量需要独立的交叉制表,并且在所有数据上的查询的规范说明要求以某种方式来引用每个变量,这会在实际上难于可靠地实现。2.通过将所有可能的代码组合的每一个映射到新变量的唯一代码来平化(flatten)分层,其中,所需要的新的代码的数量是在逻辑分层中的每个层的类别数量的乘积。这被认为仅仅是将问题从需要大量的变量转移到需要大量的代码,而在空间或者时间上的浪费上没有改进。3.把分层的每个层存储为单个变量,以某种方式来界定,从而在交叉制表时代码可以适当地在整个分层上匹配。这被-->认为减少了空间和时间浪费,但是仍然需要不必要的重复(每个层必须复制其相邻层的结构),并且使得作为整体的逻辑部分的层不被链接。这要求用户方面的一些簿记工作,并且导致产生无效和无意义的并置(juxtaposition)。专利技术人发现的另一个问题是在整个分层上的分析输出需要很长时间来处理,不论是按本身权利的交叉制表还是相对于另外可容易和快速获得的变量,这要求很多的人工检查,难于指定(在RDBM世界中需要许多SQL页面),并且经常难于解释。分层数据的表示向用户表示传统的变量通常是在树显示中进行的,所述树显示把所述变量示为文件夹,并且把它的代码作为该文件夹下的子女。分层数据呈现了由专利技术人发现的另一个问题:没有用来呈现它们的传统方式。解开通过数据树的所有可能路径可能导致组合爆炸。分层数据卷积(convolution)和解卷积(devolu本文档来自技高网...

【技术保护点】
一种适于表示诸如来自调查响应的分层数据的数据格式,包括:标记的串,所述串包括树深度(层)的指示符。

【技术特征摘要】
【国外来华专利技术】AU 2005-10-17 2005222571;US 2005-10-21 11/255,554;1.一种适于表示诸如来自调查响应的分层数据的数据格式,包括:标记的串,所述串包括树深度(层)的指示符。2.如权利要求1的数据格式,其中对每个层提供所述指示符。3.如权利要求1或者2的数据格式,其中所述指示符通过不同的标记和/或标记格式来表示。4.如权利要求1的数据格式,还包括:通过定界符来表示多响应数据。5.如权利要求1的数据格式,还包括:通过定界符来表示增量式数据。6.如权利要求4或者5的数据格式,其中所述定界符通过不同的标记和/或标记格式来表示。7.如权利要求1-6的任意一项的数据格式,其中所述串是单个串。8.一种适合于根据按照权利要求1-7的任意一项格式化的数据来提供分析的分析工具。9.一种用于显示分层数据的GUI可表示数据格式,包括:至少一个第一文件夹,以及至少一个第二文件夹,所述第二文件夹被设置在所述第一文件夹内,每个第二文件夹包括与所述分层的对应层相关的代码。10.如权利要求9的数据格式,其中所述各文件夹的顺序表示分层结构。11.如权利要求9的数据格式,其中所述第一文件夹表示所述分层的根,诸如变量。12.如权利要求9的数据格式,其中所述至少一个第二文...

【专利技术属性】
技术研发人员:罗兰杰弗里塞德尔戴尔莫里丝常特
申请(专利权)人:米德玛赤控股有限公司
类型:发明
国别省市:AU[澳大利亚]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利