数据存储方法及数据查询方法技术

技术编号:25479760 阅读:22 留言:0更新日期:2020-09-01 23:01
本发明专利技术公开了一种数据存储方法和数据查询方法。其中,数据存储方法包括步骤:判断待存储的数据是否属于预定数据类型;若该数据属于预定数据类型,则将该数据存储至第一存储区域并获取该数据的目录地址;提取该数据的特征向量;以及将数据的特征向量与目录地址关联存储至第二存储区域。本发明专利技术还公开了相应的数据管理系统及计算设备。

【技术实现步骤摘要】
数据存储方法及数据查询方法
本专利技术涉及数据处理
,尤其涉及数据存储方法和数据查询方法。
技术介绍
传统的应用于数据库管理系统中的查询语言(如,SQL),都是针对结构化数据,以实现数据的存取、查询、更新和管理。然而,传统的语义检索方法,一般都是基于数据本身,并不会去理解数据背后的含义。随着人工智能领域的飞速发展,音视频、图像、文本等非结构化数据得到越来越多的应用。对于这些非结构化数据,其本身的语义要通过识别才能得知。因此,对于这类数据的处理,常需要得到其背后的含义。在现有的一些数据库系统中,可以支持向量的存储和检索。这样,在用户使用该数据库查询非结构化数据时,以图像为例,需要在数据库外部,调用专门的服务将图像转换成向量,然后再将向量存入数据库,在后期查询/检索时,用户也通过向量来进行检索。这种处理方式,一方面过程比较繁杂,另一方面对用户要求过高,用户需要将图像转换成向量,并且向量对于用户来说,没有直观的含义,这就增加了用户成本。鉴于此,需要一种既能够支持结构化数据、又能够支持非结构化数据的数据管理方法,来实现对数据的存储、查询/检索等。
技术实现思路
为此,本专利技术提供了一种数据存储方法及数据查询方法,以力图解决或至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提供了一种数据存储方法,包括步骤:判断待存储的数据是否属于预定数据类型;若该数据属于预定数据类型,则将该数据存储至第一存储区域并获取该数据的目录地址;提取该数据的特征向量;以及将该数据的特征向量与目录地址关联存储至第二存储区域。可选地,根据本专利技术的数据存储方法还包括步骤:若经判断后确认待存储的数据不属于预定数据类型,则将该数据存储至第二存储区域。可选地,在根据本专利技术的数据存储方法中,提取该数据的特征向量的步骤包括:将该数据的目录地址输入特征提取模型,以输出该数据的特征向量。可选地,根据本专利技术的数据存储方法还包括步骤:获取数据的描述信息,并与该数据的目录地址关联存储,其中描述信息至少包括:用于提取特征向量的特征提取模型和用于计算特征相似度的度量方法。可选地,在根据本专利技术的数据存储方法中,提取数据的特征向量的步骤还包括:基于数据的描述信息和目录地址,提取出该数据对应的特征向量,更具体地,根据数据的描述信息,获取该数据对应的用于提取特征向量的特征提取模型;将该目录地址输入该特征提取模型,以输出该数据对应的特征向量。可选地,在根据本专利技术的数据存储方法中,预定数据类型包括以下数据类型中的一种或多种:文本、图片、XML、HTML、图像、音频、视频。根据本专利技术的另一个方面,提供了一种数据存储装置,包括:判断单元,适于判断待存储的数据是否属于预定数据类型;第一存储单元,适于在该数据属于预定数据类型时,存储该数据并生成该数据的目录地址;特征提取单元,适于提取该数据的特征向量;以及第二存储单元,适于关联存储数据的特征向量与目录地址。可选地,根据本专利技术的数据存储装置还包括:元数据存储单元,适于在待存储数据属于预定数据类型时,获取数据的描述信息,并与该数据的目录地址关联存储。根据本专利技术的再一个方面,提供了一种数据查询方法,包括步骤:生成至少一个待查询的特征向量;确定与待查询的特征向量相似的至少一个特征向量;获取与所确定的至少一个特征向量相关联的至少一个目录地址;以及确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。根据本专利技术的再一个方面,提供了一种数据查询方法,包括步骤:获取至少一个待查询的特征向量;确定与待查询的特征向量相似的至少一个特征向量;获取与所确定的至少一个特征向量相关联的至少一个目录地址;以及确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。根据本专利技术的又一个方面,提供了一种数据查询装置,包括:判断单元,适于判断查询信息中是否包含预定数据类型;特征计算单元,适于基于查询信息,生成至少一个待查询的特征向量,还适于确定与待查询的特征向量相似的至少一个特征向量;第一查询单元,适于从第二存储区域中获取与所确定的至少一个特征向量相关联的至少一个目录地址;第二查询单元,适于从第一存储区域中确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。根据本专利技术的又一个方面,提供了一种数据管理系统,包括:如上所述的数据存储装置和如上所述的数据查询装置。根据本专利技术的又一个方面,提供了一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行如上所述的数据存储方法和数据查询方法的指令。根据本专利技术的又一个方面,提供了一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得该计算设备执行如上所述的数据存储方法和数据查询方法。根据本专利技术的方案,将结构化数据与非结构化数据分别存储,如,在第一存储区域内存储非结构化数据,在第二存储区域内存储结构化数据;并通过内置的特征提取服务来生成非结构化数据的特征向量,将其与非结构化数据的存储地址(即目录地址)关联存储至第二存储区域。这样就可以直接支持各种非结构化数据的存储。同时,基于这种数据存储方式,除了能够支持结构化数据的查询外,还可以支持对各种非结构化数据基于语义的查询。此外,用户不需要深入了解相关的深度学习算法和特征提取模型,能够有效降低用户的理解和使用成本。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一个实施例的数据管理系统100的环境示意图;图2示出了根据本专利技术一个实施例的数据管理系统100的示意图;图3示出了根据本专利技术一个实施例的计算设备300的示意图;图4示出了根据本专利技术一个实施例的数据存储方法400的流程图;以及图5示出了根据本专利技术一个实施例的数据查询方法500的流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的数据管理系统100的环境示意图。如图1所示,数据管理系统100与客户端200之间通信连接。虽然在图1中仅仅示出了3个客户端200,但是应当理解,在本文档来自技高网...

【技术保护点】
1.一种数据存储方法,包括步骤:/n判断待存储的数据是否属于预定数据类型;/n若所述数据属于预定数据类型,则将所述数据存储至第一存储区域并获取所述数据的目录地址;/n提取所述数据的特征向量;以及/n将所述数据的特征向量与目录地址关联存储至第二存储区域。/n

【技术特征摘要】
1.一种数据存储方法,包括步骤:
判断待存储的数据是否属于预定数据类型;
若所述数据属于预定数据类型,则将所述数据存储至第一存储区域并获取所述数据的目录地址;
提取所述数据的特征向量;以及
将所述数据的特征向量与目录地址关联存储至第二存储区域。


2.如权利要求1所述的方法,还包括步骤:
若经判断后确认所述待存储的数据不属于预定数据类型,则将所述数据存储至第二存储区域。


3.如权利要求1或2所述的方法,其中,所述提取所述数据的特征向量的步骤包括:
将所述数据的目录地址输入特征提取模型,以输出该数据的特征向量。


4.如权利要求1或2所述的方法,其中,在所述提取所述数据的特征向量的步骤之前,还包括步骤:
获取所述数据的描述信息,并与该数据的目录地址关联存储。


5.如权利要求4所述的方法,其中,所述描述信息至少包括:用于提取特征向量的特征提取模型和用于计算特征相似度的度量方法。


6.如权利要求5所述的方法,其中,所述提取所述数据的特征向量的步骤还包括:
基于所述数据的描述信息和目录地址,提取出所述数据对应的特征向量。


7.如权利要求6所述的方法,其中,所述基于数据的描述信息和目录地址,提取出数据对应的特征向量的步骤还包括:
根据所述数据的描述信息,获取该数据对应的用于提取特征向量的特征提取模型;
将所述目录地址输入所述特征提取模型,以输出该数据对应的特征向量。


8.如权利要求1-7中任一项所述的方法,其中,所述预定数据类型包括以下数据类型中的一种或多种:文本、图片、XML、HTML、图像、音频、视频。


9.一种数据存储装置,包括:
判断单元,适于判断待存储的数据是否属于预定数据类型;
第一存储单元,适于在所述数据属于预定数据类型时,存储所述数据并生成所述数据的目录地址;
特征提取单元,适于提取所述数据的特征向量;以及
第二存储单元,适于关联存储所述数据的特征向量与目录地址。


10.如权利要求9所述的装置,其中,所述第二存储单元还适于在所述待存储的数据不属于预定数据类型时,存储该数据。


11.如权利要求9或10所述的装置,还包括:
元数据存储单元,适于在待存储数据属于预定数据类型时,获取所述数据的描述信息,并与该数据的目录地址关联存储。


12.一种数据查询方法,包括步骤:
生成至少一个待查询的特征向量;
确定与待查询的特征向量相似的至少一个特征向量;
获取与所确定的至少一个特征向量相关联的至少一个目录地址;以及
确定所获取的至少一个目录地址所指向的至少一个数据,作为目标数据。


13.如权利要求12所述的方法,其中,所述生成至少一个待查询的特征向量的步骤之前还包括:
响应于用户的查询信息,判断所述查询信息中是否包含预定数据类型;
若包含预定数据类型,则...

【专利技术属性】
技术研发人员:罗毅
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1