【技术实现步骤摘要】
【国外来华专利技术】用于高速搜索或过滤大数据集的系统、方法和数据结构优先权声明本申请要求专利技术人Roy.W.Ward于2016年8月10日提交的名称为“用于高速搜索或过滤大数据集的系统、方法和数据结构(Systems,methods,anddatastructuresforhigh-speedsearchingorfilteringoflargedatasets)”的美国非临时申请No.15/233,047的优先权,所述非临时申请通过引用如在本文中完全阐明的那样并入本文中。
本专利技术的领域涉及电子数据存储、搜索、过滤、列表、枚举或检索。具体地,本文中公开了用于高速搜索或过滤大数据集的系统、方法和数据结构。
技术介绍
本申请涉及以下申请中所公开的主题:(i)由RoyW.Ward于2011年12月15日提交的美国非临时申请No.13/326,326(现在专利号为9,002,859);(ii)由RoyW.Ward和DavidS.Alavi于2012年1月10日提交的美国非临时申请13/347,646(现在专利号为8,977,656,其被授予Ward);(iii)由RoyW.Ward于2013年1月4日提交的美国非临时申请No.13/733,890(现在专利号为9,171,054)。所述申请和专利中的每一个通过引用如在本文中完全阐明的那样并入本文中,并且所述申请和专利在下文中统称为“内联树专利”。存在着许多生成或采集大量数据(例如,104、106、108或更多条数据记录,每条数据记录包括几个、数十个或数百个或更多的数据字段)的情况。对于数据集中有任何实际用途的数据,根据所排列的数 ...
【技术保护点】
1.一种产品,包括被编码为存储数据集的电子标记的一个或多个有形的非暂时性计算机可读存储介质,所述电子标记包括内联树数据结构和一个或多个辅助数据结构,其中:(a)所述数据集包括多条数据记录,并且每条数据记录包括用于多个相应的定义数据字段的字段值字符串;(b)所述定义数据字段包括终端节点数据字段和第一级分支节点数据字段,并且所述第一级分支节点数据字段限定所述第一级分支节点数据字段的字段值字符串的子界中的分层树关系,其中,所述子界对应于所述数据集的所述数据记录的多个第一级分支节点子集;(c)每个第一级分支节点子集包括所述第一级分支节点数据字段的字段值字符串落在相应的子界内的数据记录;(d)所述内联树数据结构仅包括有序排列的终端节点二进制字符串,其中,(1)所述终端节点二进制字符串与所述数据集的所述数据记录之间存在一对一的对应关系;(2)所述终端节点二进制字符串彼此具有相同的长度;以及(3)每个终端节点二进制字符串包括指示符字符串,针对每个终端节点二进制字符串,所述指示符字符串指示以下:(i)有序排列的所述终端节点二进制字符串和紧邻的终端节点二进制字符串对应于在同一第一级分支节点子集中的相应的 ...
【技术特征摘要】
【国外来华专利技术】2016.08.10 US 15/233,0471.一种产品,包括被编码为存储数据集的电子标记的一个或多个有形的非暂时性计算机可读存储介质,所述电子标记包括内联树数据结构和一个或多个辅助数据结构,其中:(a)所述数据集包括多条数据记录,并且每条数据记录包括用于多个相应的定义数据字段的字段值字符串;(b)所述定义数据字段包括终端节点数据字段和第一级分支节点数据字段,并且所述第一级分支节点数据字段限定所述第一级分支节点数据字段的字段值字符串的子界中的分层树关系,其中,所述子界对应于所述数据集的所述数据记录的多个第一级分支节点子集;(c)每个第一级分支节点子集包括所述第一级分支节点数据字段的字段值字符串落在相应的子界内的数据记录;(d)所述内联树数据结构仅包括有序排列的终端节点二进制字符串,其中,(1)所述终端节点二进制字符串与所述数据集的所述数据记录之间存在一对一的对应关系;(2)所述终端节点二进制字符串彼此具有相同的长度;以及(3)每个终端节点二进制字符串包括指示符字符串,针对每个终端节点二进制字符串,所述指示符字符串指示以下:(i)有序排列的所述终端节点二进制字符串和紧邻的终端节点二进制字符串对应于在同一第一级分支节点子集中的相应的数据记录;(ii)所述相应的数据记录在彼此不同的第一级分支节点子集中;或者(iii)所述终端节点二进制字符串是所述内联树数据结构的最后一个终端节点二进制字符串;(e)对于每个第一级分支节点子集,所述相应的终端节点二进制字符串在所述内联树数据结构内形成单个连续的字符串序列;以及(f)所述一个或多个辅助数据结构包括所述数据集的所述数据记录的字段值字符串的电子标记,所述字段值字符串以与在所述内联树数据结构中的有序排列的终端节点二进制字符串相同的顺序被布置、被索引或可访问。2.一种计算机实现的方法,用于生成根据权利要求1所述的产品,所述方法包括:(A)在计算机系统处接收或从一个或多个计算机可读存储介质读取所述数据集的第一电子标记;(B)使用所述计算机系统的被编程并可操作地耦接到一个或多个存储介质的一个或多个电子处理器,生成所述数据集的第二电子标记,所述第二电子标记包括:(1)所述内联树数据结构;以及(2)所述一个或多个辅助数据结构;以及(C)将所述内联树数据结构和所述一个或多个辅助数据结构存储在可操作地耦接到所述计算机系统的一个或多个电子处理器的所述一个或多个有形的非暂时性计算机可读存储介质上。3.一种计算机实现的方法,用于询问在根据权利要求1所述的产品上编码的所述内联树数据结构和所述一个或多个辅助数据结构,其中,所述方法包括:(A)在计算机系统处接收对所述数据集的数据记录的搜索查询,对于在所述数据集的所述定义数据字段中的一个或多个选定的查询数据字段中的每一个,所述数据记录包括落入相应的查询字段值子界内的相应字段值;(B)利用被编程的计算机处理器按顺序自动询问所述内联树数据结构的有序排列的终端节点二进制字符串,以识别相应的指示符字符串;(C)作为在部分(B)中询问的每个终端节点二进制字符串,在一个或多个辅助数据结构中利用被编程的计算机处理器自动询问仅在所述相应的数据记录的选定的查询数据字段中的字段值字符串,以识别满足部分(A)的所述搜索查询的数据记录,其中,在部分(C)中针对每条数据记录询问的所述字段值字符串部分地由在部分(B)中所识别的所述相应的指示符字符串来确定;(D)对于不满足部分(A)的所述搜索查询的每个第一级分支节点字段值,省略部分(C)的对所述数据记录的相应的第一级分支节点子集的终端节点数据字段的询问;以及(E)使用被编程的计算机处理器自动生成在部分(C)中被识别为满足在部分(A)中所接收的所述搜索查询的数据记录的列表或枚举。4.根据权利要求1所述的产品,其中,对于每个终端节点二进制字符串,所述指示符字符串指示以下:(i)有序排列的所述终端节点二进制字符串和紧邻在后的终端节点二进制字符串对应于均在同一第一级分支节点子集中相应的数据记录;(ii)所述相应的数据记录在彼此不同的第一级分支节点子集中;或者(iii)所述终端节点二进制字符串是所述内联树数据结构的最后一个终端节点二进制字符串。5.根据权利要求1所述的产品,其中,对于每个终端节点二进制字符串,所述指示符字符串指示以下:(i)有序排列的所述终端节点二进制字符串和紧接在前的终端节点二进制字符串对应于均在相同的第一级分支节点子集中相应的数据记录;或(ii)所述相应的数据记录在彼此不同的第一级分支节点子集中,但是不在不同的更高级分支节点子集中。6.根据权利要求1所述的产品,其中,所述内联树数据结构的每个终端节点二进制字符串仅包括所述相应的指示符字符串,并且不包括对所述相应的数据记录的字段值进行编码的任何数据字符串。7.根据权利要求1所述的产品,其中,所述内联树数据结构的每个终端节点二进制字符串仅包括对所述相应的数据记录的一个或多个字段值进行编码的数据字符串。8.根据权利要求7所述的产品,其中,每个数据字符串包括通过字符串驻留编码的一个或多个数据字段值。9.根据权利要求1所述的产品,其中,所述一个或多个辅助数据结构包括通过字符串驻留编码的一个或多个数据字段值。10.根据权利要求1所述的产品,其中,所述一个或多辅助数据结构包括编码一组多个群集的数据字段值的一个或多个集群数据字段值。11.根据权利要求1所述的产品,其中,所述内联树数据结构被存储在计算机随机存取存储器或处理器高速缓存存储器中。12.根据权利要求1所述的产品,其中:(b’)所述定义数据字段进一步包括一个或多个级的更高级分支节点数据字段,...
【专利技术属性】
技术研发人员:罗伊·W·沃德,
申请(专利权)人:月影移动有限公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。