基于列表的数据搜索用数据存储制造技术

技术编号:38873717 阅读:7 留言:0更新日期:2023-09-22 14:08
本发明专利技术涉及一种将数据(114、115、116)存储于数据存储器(104)的方法,该方法包括:数据处理搜索DVS系统(102)接收(202)原始数据(112)或原始数据访问地址;多个不同的解析器解析(204)原始数据以确定各有一个或多个数据值的数据对象和每个数据对象的对象ID,至少一些数据值各赋语义概念;DVS系统自动导入(206)解析结果;DVS系统将全部解析结果呈无冗余数据值列表(114、115、116)形式自动存储(208)于数据存储器中,这些无冗余列表包括:一个或多个概念列表(116),每个概念列表代表各语义概念,无冗余列表选择性包括解析时赋予该概念列表中语义概念的导入数据值,无概念列表(115),该无概念列表选择性包含解析时未赋语义概念的导入数据值;DVS系统提供(210)无冗余列表(114、115、116)来答复搜索查询和/或进行数据分析。116)来答复搜索查询和/或进行数据分析。116)来答复搜索查询和/或进行数据分析。

【技术实现步骤摘要】
【国外来华专利技术】基于列表的数据搜索用数据存储


[0001]本专利技术涉及一种处理存储数据以便搜索数据的方法和系统。

技术介绍

[0002]现有技术中公开了用于存储、管理和高效处理数据的各种数据库管理系统(DBMS)。DBMS的主要任务是高效一致地持久存储大量数据,按需采取不同的表示形式为用户和应用程序提供所需的子集。传统DBMS管理的数据库中,构建数据及其相互关系的基础是DBMS厂商指定的数据库模型。根据数据库模型,数据库模式必须适应某些结构化选项。当今采用的公知数据库模型包括层次模型、类网络模型、关系模型(呈表形式组织)、面向对象模型、面向文档模型以及上述模型的混合形式。此外,传统上针对有效答复许多简短查询(OLTP)或冗长评估(OLAP)而优化的DBMS加以区分。
[0003]就常规DBMS而言,当选择DBMS以及定义DBMS管理的数据库的内部结构(特别是数据库表的大小、数目和内部引用,选择创建索引的表列类型等),要求数据库开发人员处理待管理数据的内容(信息内容)和DBMS可能要处理的查询类型。
[0004]问题是这两方面都会随时间推移而发生改变,在建立数据库时通常未知或不完全已知。实践中,通常情况是证实存储于数据库中数据的其他或附加方面的相关性,必须制定新的查询,而最初建立数据库时却无法考虑这些问题。例如,如果数据库包含医学数据,建立数据库后获得新的医学知识,即几种症状组合可预测特定诊断,则数据库中的数据可能确实包含这些症状,但症状本身分布在不同的表中和/或采取查询效率不高的方式提供索引,即消耗大量内存、CPU容量和时间。然而,由于数据库中的数据与客户端系统存在众多依赖性,后续调整已定义数据库的结构非常耗时,容易出错,常常毫无头绪。
[0005]此外,随着时间推移,经常出现这样的问题,即需要将更多的数据源整合到数据库中,但它们的内部结构与建立数据库时选择的数据模型又不匹配。例如,如果选择了具有关系数据模型的数据库并且要整合层次结构的其他数据,尽管其他数据可能在概念上与数据库中现有的数据相关联,也通常无法这样将其他数据保存在数据库中。即使可以将其他数据存储于本身不合适的数据模型中,也无法完成现有数据和其他数据的通用查询和语义整合,至少若不根本上重新设计数据库中数据组织则绝无可能。
[0006]借此,现有DBMS常有结构不灵活、扩展性不佳和/或性能差的特点,特别是处理涉及大量不同属性(键)和对应值的大量数据对象的复杂查询时。如果日后需将其他不同结构的数据存储于数据库中,通常无法采取合理、高性能、省资源的方式查询分析现有数据和新增数据。这一情况较为特殊,但不仅限于“物联网”背景下,因为各种对象和传感器用来记录内容和结构方面高度异构的数据,而数据组成和性质经常随时间变化。

技术实现思路

[0007]本专利技术目的是提出一种改进的方法和系统,采取可高效搜索数据的方式存储数据。
[0008]为了达成上述目的,本专利技术提出了独立权利要求的特征。本专利技术具体实施方案请参阅从属权利要求。下文提出的实施方案只要互不相斥即可自由互组。
[0009]一方面,本专利技术涉及一种将数据存储于数据存储器的方法。上述方法包括:
[0010]‑
数据处理搜索系统(DVS系统)接收原始数据或原始数据访问地址,原始数据具有不同的结构;
[0011]‑
多个不同的解析器解析原始数据,以确定各有一个或多个数据值的数据对象和每个数据对象的对象ID,至少一些数据值各赋语义概念;
[0012]‑
DVS系统自动导入解析结果;
[0013]‑
DVS系统将全部解析结果呈无冗余数据值列表形式自动存储于数据存储器中,无冗余列表包括:
[0014]·
一个或多个概念列表,每个概念列表代表各语义概念,无冗余列表选择性包含解析时赋予该概念列表中语义概念的导入数据值,该概念列表中的每个数据值均赋全部包含该数据值的数据对象的对象ID,所包含的数据值为该概念列表中语义概念的表示;
[0015]·
无概念列表,无概念列表选择性包含解析时未赋语义概念的导入数据值,该无概念列表中的每个数据值均赋全部包含该数据值的数据对象的对象ID,该数据对象所包含的数据值在解析时未能赋有语义概念;
[0016]‑
DVS系统提供无冗余列表来答复搜索查询和/或进行数据分析。
[0017]这会有利的是,可将结构和内容方面高度异构的原始数据转换为通用结构,允许快速高效地处理大量数据(来自多个列表中元素的对象ID的交集、并集、差集或对称差集),能够随时在内容(通过添加更多优选自动生成的概念列表)和支持的查询和分析过程方面进行扩展,而无需为此从根本上更改数据存储器内的数据结构。这些列表无冗余,因此每个数据值仅在列表中包含一次。如果它出现在原始数据的几个数据对象中,则这个仅在列表中出现一次的数据值以链接到这几个对象ID的方式保存。借此,即使是庞大的数据库也能快速高效地完成处理,即使是主内存和/或CPU容量不高的计算机系统也是如此。特别是原始数据多次包含某些数据值时(例如,在表示有限量现有字词特定组合的文本或者表示有限量氨基酸特定序列的蛋白质的情况下),这样的数据表示形式可能导致巨大的数据压缩效应。例如,对象ID可以各自代表数据集(例如,蛋白质序列ID、原始数据文件URL、自然语言文本或语句、Excel文件的行等),数据值为该数据集中出现的值(例如,字词、位串、数值等)。
[0018]将语义概念赋予数据值通常是解析过程的组成部分。
[0019]根据本专利技术实施方案,DVS系统根据赋予导入数据值的语义概念(前提是这可在解析时确定或以其他方式指定)将导入数据值存储于无冗余数据值列表中,其中数据值在列表中的存储和分布独立于数据值与数据对象的原始从属关系。
[0020]借此,本专利技术实施方案的优势在于,在整合大量结构和内容相关的异构数据方面具备巨大的灵活性,这在数据分析和搜索过程中表现出超高性能,因为将数据值导入数据存储器时在结构方面解决了将其初始赋予数据对象:又只能在对象ID中发现数据值与对象相关联,但对DVS系统管理的数据结构却无影响:无论提供原始数据是采取分层形式、表格形式还是XML文件形式,无论数据值是否已在原始数据中大量指定(例如,通过键值字段)或由解析器之一在分析过程中动态获取(例如,通过图像或音频数据的模式识别):数据值始
终链接到与包含数据值的对象ID一起保存的无冗余列表中。在此存储时,考虑数据值代表的语义概念,具体方式是将数据值选择性存储于确切代表该概念的概念列表中。如果该列表中已经存在该数据值,则仅相应地补充对象ID集合。如果解析原始数据时无法确定数据值背后的语义概念,则将该数据值存储于“无概念”列表中,或者如果这里已经存在该数据值,则仅就对象ID扩展相应的条目。
[0021]导入过程可指解析全部数据对象结构的过程,其中从原始数据的全部数据对象中提取的全部数据值基于为其赋予的语义概念而存储于无冗余数据值列表中。
[0022]例如,可以将诸本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种将数据(114、115、116)存储于数据存储器(104)的方法,所述方法包括:数据处理搜索系统(102)接收(202)原始数据(112)或原始数据访问地址,其中,所述原始数据具有不同的结构;多个不同的解析器解析(204)所述原始数据,以确定各有一个或多个数据值的数据对象和每个数据对象的对象ID,其中,至少一些数据值各赋语义概念;所述数据处理搜索系统自动导入(206)解析结果;所述数据处理搜索系统将全部解析结果呈无冗余数据值列表(114、115、116)形式自动存储(208)于所述数据存储器中,其中,所述无冗余列表包括:一个或多个概念列表(116),其中,每个概念列表代表各语义概念,无冗余列表选择性包含解析时赋予该概念列表中语义概念的导入数据值,其中,该概念列表中的每个数据值均赋全部包含该数据值的数据对象的对象ID,其中,所包含的数据值为该概念列表中语义概念的表示;无概念列表(115),其中,所述无概念列表选择性包含解析时未赋语义概念的导入数据值,其中,该无概念列表中的每个数据值均赋全部包含该数据值的数据对象的对象ID,其中,该数据对象所包含的数据值在解析时未能赋有语义概念;所述数据处理搜索系统提供(210)所述无冗余列表(114、115、116)来答复搜索查询和/或进行数据分析,特别是在不访问原始数据的情况下进行搜索查询和/或数据分析。2.根据权利要求1所述的方法,其中,至少一些原始数据呈多数据结构形式存在或接收,其中,所述多数据结构特别是属于如下两种以上数据结构的混合:

XML文件;

JSON文件;

文本文件;

CSV文件;

数据库表;

对象树;

媒体文件,特别是视频文件、音频文件和/或图像文件;

通过GUI接收的数据;

流数据。3.根据上述权利要求中任一项所述的方法,其中,所述无冗余列表还包括:全局列表(114),其中,所述全局列表为全部导入数据值的无冗余列表,其中,所述全局列表中的每个数据值赋有一个或多个指针,其中,每个指针指向所述概念列表之一中的元素或所述无概念列表中的元素,该元素包含与该数据值相同的数据值;其中,所述数据处理搜索系统配置为至少对所述全局列表进行分析或查询搜索,其中,所述全局列表用于识别和/或针对概念处理不同数据对象中表示不同语义概念的数据值。4.根据上述权利要求中任一项所述方法,其中,至少一些数据值是从包含所述原始数据的数据结构的字段中提取,其中,所述字段由数据结构指定,其中,所述字段包括一个或多个概念相关字段和/或一个或多个概念无关字段,其中,概念相关字段为赋有字段标志符的字段,其中,所述字段标志符代表语义概念;且/或,所述概念无关字段为未赋语义含义的字段,且/或
其中,至少一些数据值是由语义解析器导入,所述语义解析器基于数据分析识别导入数据值和赋予该数据值的语义概念,其中,所述数据分析特别是图像分析、音频信号分析、统计分析、分类法、机器学习法和/或模式识别法,其中,例如,所述数据处理搜索系统将从所述概念相关字段中提取的数据值存储于代表该概念相关字段的字段标志符的语义概念的概念列表中;且/或其中,例如,如果所使用的解析器未识别数据值的语义概念,所述数据处理搜索系统将从所述概念无关字段中提取的数据值唯独存储于所述无概念列表(115)中。5.根据上述权利要求中任一项所述的方法,还包括:在导入并存储数据值之后,提供另外的解析器,所述另外的解析器配置为识别并导入赋予至少一个新语义概念的数据值,其中,所述新语义概念为当前所述数据存储器中所包含的任何概念列表未代表的概念;所述另外的解析器处理所述原始数据,其中,从所述原始数据中提取赋予至少一个新概念的一个或多个新数据值;所述数据处理搜索系统将所述另外的解析器所识别的至少一个新语义概念与所述数据存储器中的概念列表进行比较,并针对所述至少一个新语义概念中的每一个新语义概念,所述另外的解析器提取至少一个数据值,自动生成并存储新概念列表;将所述另外的解析器从所述原始数据中提取的数据值自动存储于所述至少一个新概念列表中代表所述另外的解析器为该数据值赋予新语义概念的那个新概念列表中。6.根据上述权利要求中任一项所述的方法,还包括:接收识别满足一个或多个概念相关搜索条件和/或一个或多个概念无关搜索条件的数据对象的搜索查询,其中,所述概念相关搜索条件为赋予语义概念标识符的搜索条件,其中,所述概念无关搜索条件为未赋语义概念的搜索条件;在所述无概念列表中搜索满足每个接收到的概念无关搜索条件的一个或多个数据值;且/或针对每个接收到的概念相关搜索条件,在代表该搜索条件的语义概念的概念列表中选择性搜索满足所述概念相关搜索条件的一个或多个数据值;返回赋予所述数据处理搜索系统响应于搜索查询来搜索所述全局列表和/或所述至少一个概念列表而确定的数据值的对象ID或这些对象ID的子集。7.根据上述权利要求中任一项所述方法,其中,使用所述无冗余列表(114、115、116)来进行查询搜索和/或数据分析包括:对赋予两个以上无冗余列表中数据值的对象ID集合进行集合运算,其中,所述集合运算特别是包括交集、并集、差集或对称差集运算。8.根据上述权利要求中任一项所述方法,其中,至少一些数据对象与其他数据对象相关;其中,在解析原始数据的过程中和/或稍后对原始数据和/或已存储的无冗余列表的数据值进行数据处理操作过程中,所述数据处理搜索系统提取这些数据对象与其他数据对象的对象关系;其中,一个数据对象、即第一数据对象与另一个数据对象、即第二数据对象的每个提取关系呈关系类型与所述第二数据对象的对象ID的组合形式来提取;
其中,每个所提取的组合存储为所述无概念列表和/或所述至少一个概念列表中的数据值之一,其中,所述无概念列表和/或所述至少一个概念列表中每个所提取的组合均赋有存在该组合中指定关系的第一数据对象的对象ID。9.根据权利要求8所述的方法,还包括:接收确定...

【专利技术属性】
技术研发人员:彼得
申请(专利权)人:皮质创新有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1