采用位置信息剖析数据制造技术

技术编号:11704455 阅读:95 留言:0更新日期:2015-07-09 03:54
剖析数据包括处理被访问的记录集合(203),包括:对在第一组一个或多个字段上出现的第一组特异值,产生相应的位置信息;对第一组字段,产生相应的条目列表(209),其从第一组特异值中识别一个特异值以及该特异值的位置信息;对第二组一个或多个字段,产生相应的条目列表(209),每个条目从出现在第二组字段的第二组特异值中识别一个特异值;和至少部分基于下述产生结果信息(240):采用出现在第一组字段的至少一个值的位置信息对集合中的至少一个记录进行定位,确定在该被定位记录的第二组字段中所出现的至少一个值。

【技术实现步骤摘要】
【国外来华专利技术】采用位置信息剖析数据相关申请的交叉引用本申请要求享有2013年8月2日提交的美国申请号No.13/958,057的优先权,其要求了2012年10月22日提交的美国申请号No.61/716,766的优先权。
技术介绍
本说明书涉及采用位置信息剖析(profile)数据。存储的数据集经常包括各种特性未知的数据。数据集中的数据可以被组织为具有用于不同字段也称为“属性”或“列”)的值的记录。字段内的值可以包括字符串、数字或根据该字段的相关数据格式信息而编码或格式化而成的任何数据(包括可能无效的值)。在一些情况下,用于字段的数据格式信息是已知的,但是在该字段中显现的真实值可能不是已知的。例如,数据集内记录间字段的值范围或典型值、数据集内记录的不同字段之间的关系、或不同字段中的值的依赖性(dependency)可能是未知的。数据剖析涉及检查数据集的来源,从而确定所述特性。
技术实现思路
在一个方案中,通常,对存储在至少一个数据存储系统中的数据进行剖析的方法包括:经与数据存储系统连接的接口上,访问存储在数据存储系统中的至少一个记录集合;对所述记录集合(collection)进行处理,以产生结果信息,所述结果本文档来自技高网...

【技术保护点】
一种对存储在至少一个数据存储系统中的数据进行剖析的方法,该方法包括:经与所述数据存储系统连接的接口,访问存储在所述数据存储系统中的至少一个记录集合;和对所述记录集合进行处理,以产生结果信息,所述结果信息表征在所述记录集合的第一组一个或多个字段中所出现的值,所述处理包括:对第二组两个或多个字段,接收相应的条目列表,每个条目识别:(1)在所述第二组两个或多个字段中出现的特异值组合,和(2)该特异值组合的剖析信息;和至少部分基于下述产生表征所述记录集合的所述第一组一个或多个字段中所出现的值的结果信息:将来自列表的具有第一特异值组合的第一条目的第一剖析信息和对于具有不同于第一特异值组合的至少一个值的至...

【技术特征摘要】
【国外来华专利技术】2012.10.22 US 61/716,766;2013.08.02 US 13/958,0571.一种对存储在至少一个数据存储系统中的数据进行剖析的方法,该方法包括:经与所述数据存储系统连接的接口,访问存储在所述数据存储系统中的至少一个记录集合;和基于一个或多个值的剖析信息对所述记录集合进行处理,以产生结果信息,所述结果信息表征在所述记录集合的第一组一个或多个字段中所出现的值,其中在正在被剖析的字段中出现的值的剖析信息对这样的记录集合进行概述,在该记录的集合中所述值出现在正在被剖析的字段中,所述处理包括:对所述记录集合的第二组两个或多个字段,接收相应的条目列表,每个条目识别:(1)在所述第二组两个或多个字段中出现的特异值组合,和(2)该特异值组合的剖析信息;和至少部分基于下述产生表征所述记录集合的所述第一组一个或多个字段中所出现的值的结果信息:将来自列表的具有第一特异值组合的第一条目的第一剖析信息和对于具有不同于第一特异值组合的至少一个值的至少一个字段的第二剖析信息组合起来,基于该组合的剖析信息,确定在该第一组一个或多个字段的至少一个字段中所出现的至少一个值的剖析信息;其中特异值组合的该剖析信息包括位置信息,该位置信息针对每个特异值组合识别所述集合中出现该特异值组合的所有每个记录。2.如权利要求1的方法,其中该列表包括用于出现在该第二组两个或多个字段中的所有每个特异值组合的条目。3.如权利要求2的方法,其中该第一组一个或多个字段不包括来自该第二组两个或多个字段中的任何字段。4.如权利要求3的方法,其中将来自列表的具有第一特异值组合的第一条目的该第一剖析信息和对于具有不同于第一特异值组合的至少一个值的至少一个字段的该第二剖析信息组合起来,包括:将来自列表的具有第一特异值组合的第一条目的该第一剖析信息和对于该第一组一个或多个字段中的至少一个字段的第二剖析信息组合起来。5.如权利要求4的方法,其中该来自列表的第一条目的剖析信息包括位置信息,该位置信息识别该第一特异值组合出现在该第二组两个或多个字段中的所述集合中的所有每个记录。6.如权利要求5的方法,其中该对于具有不同于第一特异值组合的至少一个值的至少一个字段的剖析信息包括位置信息,该位置信息用于识别该第一特异值组合出现在该第一组两个或多个字段中的所述集合中的所有每个记录。7.如权利要求4的方...

【专利技术属性】
技术研发人员:阿伦·安德森
申请(专利权)人:起元科技有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1