【技术实现步骤摘要】
【国外来华专利技术】基于列表的数据搜索用数据存储
[0001]本专利技术涉及一种处理存储数据以便搜索数据的方法和系统。
技术介绍
[0002]现有技术中公开了用于存储、管理和高效处理数据的各种数据库管理系统(DBMS)。DBMS的主要任务是高效一致地持久存储大量数据,按需采取不同的表示形式为用户和应用程序提供所需的子集。传统DBMS管理的数据库中,构建数据及其相互关系的基础是DBMS厂商指定的数据库模型。根据数据库模型,数据库模式必须适应某些结构化选项。当今采用的公知数据库模型包括层次模型、类网络模型、关系模型(呈表形式组织)、面向对象模型、面向文档模型以及上述模型的混合形式。此外,传统上针对有效答复许多简短查询(OLTP)或冗长评估(OLAP)而优化的DBMS加以区分。
[0003]就常规DBMS而言,当选择DBMS以及定义DBMS管理的数据库的内部结构(特别是数据库表的大小、数目和内部引用,选择创建索引的表列类型等),要求数据库开发人员处理待管理数据的内容(信息内容)和DBMS可能要处理的查询类型。
[0004]问题是这两方面都会随时间推移而发生改变,在建立数据库时通常未知或不完全已知。实践中,通常情况是证实存储于数据库中数据的其他或附加方面的相关性,必须制定新的查询,而最初建立数据库时却无法考虑这些问题。例如,如果数据库包含医学数据,建立数据库后获得新的医学知识,即几种症状组合可预测特定诊断,则数据库中的数据可能确实包含这些症状,但症状本身分布在不同的表中和/或采取查询效率不高的方式提供索引,即消耗大量内存、CPU ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种将数据(114、115、116)存储于数据存储器(104)的方法,所述方法包括:数据处理搜索系统(102)接收(202)原始数据(112)或原始数据访问地址,其中,所述原始数据具有不同的结构;多个不同的解析器解析(204)所述原始数据,以确定各有一个或多个数据值的数据对象和每个数据对象的对象ID,其中,至少一些数据值各赋语义概念;所述数据处理搜索系统自动导入(206)解析结果;所述数据处理搜索系统将全部解析结果呈无冗余数据值列表(114、115、116)形式自动存储(208)于所述数据存储器中,其中,所述无冗余列表包括:一个或多个概念列表(116),其中,每个概念列表代表各语义概念,无冗余列表选择性包含解析时赋予该概念列表中语义概念的导入数据值,其中,该概念列表中的每个数据值均赋全部包含该数据值的数据对象的对象ID,其中,所包含的数据值为该概念列表中语义概念的表示;无概念列表(115),其中,所述无概念列表选择性包含解析时未赋语义概念的导入数据值,其中,该无概念列表中的每个数据值均赋全部包含该数据值的数据对象的对象ID,其中,该数据对象所包含的数据值在解析时未能赋有语义概念;所述数据处理搜索系统提供(210)所述无冗余列表(114、115、116)来答复搜索查询和/或进行数据分析,特别是在不访问原始数据的情况下进行搜索查询和/或数据分析。2.根据权利要求1所述的方法,其中,至少一些原始数据呈多数据结构形式存在或接收,其中,所述多数据结构特别是属于如下两种以上数据结构的混合:
‑
XML文件;
‑
JSON文件;
‑
文本文件;
‑
CSV文件;
‑
数据库表;
‑
对象树;
‑
媒体文件,特别是视频文件、音频文件和/或图像文件;
‑
通过GUI接收的数据;
‑
流数据。3.根据上述权利要求中任一项所述的方法,其中,所述无冗余列表还包括:全局列表(114),其中,所述全局列表为全部导入数据值的无冗余列表,其中,所述全局列表中的每个数据值赋有一个或多个指针,其中,每个指针指向所述概念列表之一中的元素或所述无概念列表中的元素,该元素包含与该数据值相同的数据值;其中,所述数据处理搜索系统配置为至少对所述全局列表进行分析或查询搜索,其中,所述全局列表用于识别和/或针对概念处理不同数据对象中表示不同语义概念的数据值。4.根据上述权利要求中任一项所述方法,其中,至少一些数据值是从包含所述原始数据的数据结构的字段中提取,其中,所述字段由数据结构指定,其中,所述字段包括一个或多个概念相关字段和/或一个或多个概念无关字段,其中,概念相关字段为赋有字段标志符的字段,其中,所述字段标志符代表语义概念;且/或,所述概念无关字段为未赋语义含义的字段,且/或
其中,至少一些数据值是由语义解析器导入,所述语义解析器基于数据分析识别导入数据值和赋予该数据值的语义概念,其中,所述数据分析特别是图像分析、音频信号分析、统计分析、分类法、机器学习法和/或模式识别法,其中,例如,所述数据处理搜索系统将从所述概念相关字段中提取的数据值存储于代表该概念相关字段的字段标志符的语义概念的概念列表中;且/或其中,例如,如果所使用的解析器未识别数据值的语义概念,所述数据处理搜索系统将从所述概念无关字段中提取的数据值唯独存储于所述无概念列表(115)中。5.根据上述权利要求中任一项所述的方法,还包括:在导入并存储数据值之后,提供另外的解析器,所述另外的解析器配置为识别并导入赋予至少一个新语义概念的数据值,其中,所述新语义概念为当前所述数据存储器中所包含的任何概念列表未代表的概念;所述另外的解析器处理所述原始数据,其中,从所述原始数据中提取赋予至少一个新概念的一个或多个新数据值;所述数据处理搜索系统将所述另外的解析器所识别的至少一个新语义概念与所述数据存储器中的概念列表进行比较,并针对所述至少一个新语义概念中的每一个新语义概念,所述另外的解析器提取至少一个数据值,自动生成并存储新概念列表;将所述另外的解析器从所述原始数据中提取的数据值自动存储于所述至少一个新概念列表中代表所述另外的解析器为该数据值赋予新语义概念的那个新概念列表中。6.根据上述权利要求中任一项所述的方法,还包括:接收识别满足一个或多个概念相关搜索条件和/或一个或多个概念无关搜索条件的数据对象的搜索查询,其中,所述概念相关搜索条件为赋予语义概念标识符的搜索条件,其中,所述概念无关搜索条件为未赋语义概念的搜索条件;在所述无概念列表中搜索满足每个接收到的概念无关搜索条件的一个或多个数据值;且/或针对每个接收到的概念相关搜索条件,在代表该搜索条件的语义概念的概念列表中选择性搜索满足所述概念相关搜索条件的一个或多个数据值;返回赋予所述数据处理搜索系统响应于搜索查询来搜索所述全局列表和/或所述至少一个概念列表而确定的数据值的对象ID或这些对象ID的子集。7.根据上述权利要求中任一项所述方法,其中,使用所述无冗余列表(114、115、116)来进行查询搜索和/或数据分析包括:对赋予两个以上无冗余列表中数据值的对象ID集合进行集合运算,其中,所述集合运算特别是包括交集、并集、差集或对称差集运算。8.根据上述权利要求中任一项所述方法,其中,至少一些数据对象与其他数据对象相关;其中,在解析原始数据的过程中和/或稍后对原始数据和/或已存储的无冗余列表的数据值进行数据处理操作过程中,所述数据处理搜索系统提取这些数据对象与其他数据对象的对象关系;其中,一个数据对象、即第一数据对象与另一个数据对象、即第二数据对象的每个提取关系呈关系类型与所述第二数据对象的对象ID的组合形式来提取;
其中,每个所提取的组合存储为所述无概念列表和/或所述至少一个概念列表中的数据值之一,其中,所述无概念列表和/或所述至少一个概念列表中每个所提取的组合均赋有存在该组合中指定关系的第一数据对象的对象ID。9.根据权利要求8所述的方法,还包括:接收确定...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。