【技术实现步骤摘要】
数据存储方法、数据检索方法、装置、设备以及介质
[0001]本公开涉及云计算
,尤其涉及数据检索等
技术介绍
[0002]随着信息化技术的不断进步,人们正经历爆炸式的数据增长。非结构数据是数据结构不规则或不完整,或者没有预定义的数据模型,如图片、视频、语音和文字等。非结构数据比传统的结构化数据增长更快,数据量更大。之所以称其为非结构数据,是因为这些数据无法以传统方式进行处理与价值挖掘。如何从非结构数据中提取有价值的内容与信息,已经逐渐成为企业进一步挖掘数据价值的关键。
[0003]基于此,如何对非结构数据进行存储和检索是亟需解决的问题。
技术实现思路
[0004]本公开提供了一种数据存储方法、数据检索方法、装置、设备、存储介质以及程序产品。
[0005]根据本公开的一方面,提供了一种数据存储方法,包括:获取原始数据和数据库标识;对所述原始数据进行标签提取操作,得到至少一个第一标签;将所述至少一个第一标签存储至与所述数据库标识对应的标签存储位置;对所述原始数据进行特征提取操作,得到第一特征数据;根据所述第一特征数据,在与所述数据库标识对应的索引存储位置中创建第一索引数据;以及在与所述数据库标识对应的数据存储位置中存储所述原始数据,并记录所述第一标签与所述原始数据之间的第一对应关系,以及所述第一索引数据与所述原始数据之间的第二对应关系。
[0006]根据本公开的另一方面,提供了一种数据检索方法,包括:响应于获取到检索数据和数据库标识,确定与所述检索数据对应的第二标签 ...
【技术保护点】
【技术特征摘要】
1.一种数据存储方法,包括:获取原始数据和数据库标识;对所述原始数据进行标签提取操作,得到至少一个第一标签;将所述至少一个第一标签存储至与所述数据库标识对应的标签存储位置;对所述原始数据进行特征提取操作,得到第一特征数据;根据所述第一特征数据,在与所述数据库标识对应的索引存储位置中创建第一索引数据;以及在与所述数据库标识对应的数据存储位置中存储所述原始数据,并记录所述第一标签与所述原始数据之间的第一对应关系,以及所述第一索引数据与所述原始数据之间的第二对应关系。2.根据权利要求1所述的方法,应用于检索系统,其中,所述检索系统配置有核心引擎、多个通用处理模块和多个算法模块,所述多个通用处理模块与多个数据类型一一对应。3.根据权利要求2所述的方法,其中,所述对所述原始数据进行标签提取操作,得到至少一个第一标签,包括:确定所述原始数据的第一数据类型;利用所述核心引擎,加载所述多个通用处理模块中与所述第一数据类型对应的第一通用处理模块;以及利用所述第一通用处理模块,调用所述多个算法模块中与所述第一数据类型对应的至少一个第一算法模块,以对所述原始数据进行标签提取,得到所述至少一个第一标签。4.根据权利要求2所述的方法,其中,所述检索系统还配置有至少一个特征提取模块;所述对所述原始数据进行特征提取操作,得到第一特征数据,包括:利用所述核心引擎,加载所述至少一个特征提取模块中与所述数据库标识对应的第一特征提取模块;利用所述核心引擎,将所述原始数据发送至所述第一特征提取模块;以及利用所述第一特征提取模块,对所述原始数据进行特征提取,得到所述第一特征数据,并将所述第一特征数据发送至所述核心引擎。5.根据权利要求2所述的方法,其中,所述检索系统还配置有至少一个索引模块;所述根据所述第一特征数据,在与所述数据库标识对应的索引存储位置中创建第一索引数据,包括:利用所述核心引擎,加载所述至少一个索引模块中与所述数据库标识对应的第一索引模块;利用所述核心引擎,将所述第一特征数据和所述索引存储位置发送至所述第一索引模块;以及利用所述第一索引模块,生成与所述第一特征数据对应的第一索引数据,并将所述第一索引数据写入至所述索引存储位置。6.根据权利要求1所述的方法,其中,所述在与所述数据库标识对应的数据存储位置中存储所述原始数据,包括:将所述原始数据写入中间文件;确定所述中间文件的文件大小是否达到文件大小阈值;以及
在所述中间文件的文件大小达到文件大小阈值的情况下,将所述中间文件写入所述数据存储位置,并生成空白文件,作为新的中间文件。7.一种数据检索方法,包括:响应于获取到检索数据和数据库标识,确定与所述检索数据对应的第二标签;根据第一对应关系、所述第二标签和与所述数据库标识对应的标签存储位置进行检索,得到至少一个原始数据,作为第一检索结果,其中,所述第一对应关系包括原始数据与标签之间的对应关系;对所述检索数据进行特征提取操作,得到第二特征数据;根据第二对应关系、所述第二特征数据和与所述数据库标识对应的索引存储位置进行检索,得到至少一个原始数据,作为第二检索结果,其中,所述第二对应关系包括原始数据与特征数据之间的对应关系;以及根据所述第一检索结果和所述第二检索结果,确定目标检索结果。8.根据权利要求7所述的方法,应用于检索系统,其中,所述检索系统配置有核心引擎、多个通用处理模块和多个算法模块,所述多个所述通用处理模块与多个数据类型一一对应。9.根据权利要求8所述的方法,其中,所述确定与所述检索数据对应的第二标签,包括:确定所述检索数据的第二数据类型;利用所述核心引擎,加载所述多个通用处理模块中与所述第二数据类型对应的第二通用处理模块;以及利用所述第二通用处理模块,调用所述多个算法模块中与所述第二数据类型对应的至少一个第二算法模块,以对所述检索数据进行标签提取,得到所述第二标签。10...
【专利技术属性】
技术研发人员:杨咏臻,曹启云,叶翔,李灿,刘嘉裕,黄佳维,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。