【技术实现步骤摘要】
数据搜索方法、装置及电子设备
[0001]本专利技术涉及数据处理
,具体而言,涉及一种数据搜索方法
、
装置及电子设备
。
技术介绍
[0002]大宽表,是将业务主题相关的指标
、
维度
、
属性关联在一起的数据库表,在大数据仓库应用中,宽表模型以结构简单
、
模型容易理解
、
分布式数据存储
、
访问效率等优势被广泛使用
。
[0003]面对企业大量数据的搜索查询需求,通常采用分库分表或者大数据体系的
Hbase、Hive、Presto、Hudi
等数据仓库进行分布式计算查询
。
[0004]但是,由于在关系型数据库中针对大宽表的搜索查询性能较低,所以难以通过索引的方式优化搜索查询性能
。
技术实现思路
[0005]本专利技术的目的在于,针对上述现有技术中的不足,提供一种数据搜索方法
、
装置及电子设备,以便实现通过索引的方式优化在关系型数据库中针对大宽表的搜索查询性能
。
[0006]为实现上述目的,本申请实施例采用的技术方案如下:
[0007]第一方面,本申请实施例提供了一种数据搜索方法,所述方法包括:
[0008]获取数据搜索指令,所述数据搜索指令中包括:搜索条件;
[0009]获取预设数据库的多个索引字段,每个索引字段包括:索引内容,与所述索引内容相匹配的数据标识; >[0010]根据所述搜索条件,以及所述多个索引字段的索引内容,确定与所述搜索条件匹配的索引内容对应的索引字段为目标索引字段;
[0011]根据所述目标索引字段中的目标数据标识,从所述预设数据库中获取所述目标数据标识对应的目标数据
。
[0012]可选的,所述获取预设数据库的多个索引字段,包括:
[0013]根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容;
[0014]根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合;
[0015]根据所述多个索引内容以及所述多个索引内容对应的数据标识集合,分别生成所述多个索引字段
。
[0016]可选的,所述根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容,包括:
[0017]若所述业务字段的类型为枚举类型,对多个枚举业务内容进行数值化处理,得到至少一个第一索引数值;
[0018]所述根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合,包括:
[0019]根据每个第一索引数值对应的枚举业务内容的数据标识,确定所述每个第一索引数值对应的第一数据标识集合;
[0020]其中,所述每个第一索引数值对应的索引字段包括:所述每个第一索引数值和所述每个第一索引数值对应的第一数据标识集合
。
[0021]可选的,所述根据所述第一索引数值对应的枚举业务内容的数据标识,确定所述第一索引数值对应的第一数据标识集合,包括:
[0022]根据所述枚举类型的业务字段对应的枚举数量,对所述第一索引数值对应的所有枚举业务内容的数据标识进行哈希变换,确定所述第一数据标识集合
。
[0023]可选的,所述根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容,包括:
[0024]若所述业务字段的类型为数值类型,对多个数值业务内容进行数据块处理,得到多个第一索引数据块;
[0025]所述根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合,包括:
[0026]根据每个第一索引数据块对应的数值业务内容的数据标识,确定所述每个第一索引数据块对应的第二数据标识集合;
[0027]其中,所述多个第一索引数据块对应的索引字段包括:所述多个第一索引数据块和所述每个第一索引数据块对应的第二数据标识集合
。
[0028]可选的,所述根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容,包括:
[0029]若所述业务字段的类型为文本类型,对多个文本业务内容进行分词处理,得到多个索引词语;
[0030]所述根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合,包括:
[0031]根据每个索引词语对应的文本业务内容的数据标识,确定所述每个索引词语对应的第三数据标识集合;
[0032]其中,所述每个索引词语对应的索引字段包括:所述每个索引词语和所述每个索引词语对应的第三数据标识集合
。
[0033]可选的,所述根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容,包括:
[0034]若所述业务字段的类型为日期类型,对多个日期业务内容分别进行拆分;
[0035]对拆分后的日期业务内容分别进行数值化处理,得到至少一个第二索引数值;
[0036]所述根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合,包括:
[0037]根据每个第二索引数值对应的日期业务内容的数据标识,确定所述每个第二索引数值对应的第四数据标识集合;
[0038]其中,所述每个第二索引数值对应的索引字段包括:所述每个第二索引数值和所
述每个第二索引数值对应的第四数据标识集合
。
[0039]可选的,所述根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容,包括:
[0040]若所述业务字段的类型为日期类型,对多个日期业务内容进行数据块处理,得到多个第二索引数据块;
[0041]所述根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合,包括:
[0042]根据每个第二索引数据块对应的日期业务内容的数据标识,确定所述每个第二索引数据块对应的第五数据标识集合;
[0043]其中,所述多个第二索引数据块对应的索引字段包括:所述多个第二索引数据块和所述每个第二索引数据块对应的第五数据标识集合
。
[0044]第二方面,本申请实施例还提供一种数据搜索装置,所述装置包括:
[0045]搜索指令获取模块,用于获取数据搜索指令,所述数据搜索指令中包括:搜索条件;
[0046]索引字段获取模块,用于获取预设数据库的多个索引字段,每个索引字段包括:索引内容,与所述索引内容相匹配的数据标识;
[0047]索引字段匹配模块,用于根据所述搜索条件,以及所述多个索引字段的索引内容,确定与所述搜索条件匹本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种数据搜索方法,其特征在于,所述方法包括:获取数据搜索指令,所述数据搜索指令中包括:搜索条件;获取预设数据库的多个索引字段,每个索引字段包括:索引内容,与所述索引内容相匹配的数据标识;根据所述搜索条件,以及所述多个索引字段的索引内容,确定与所述搜索条件匹配的索引内容对应的索引字段为目标索引字段;根据所述目标索引字段中的目标数据标识,从所述预设数据库中获取所述目标数据标识对应的目标数据
。2.
如权利要求1所述的方法,其特征在于,所述获取预设数据库的多个索引字段,包括:根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容;根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合;根据所述多个索引内容以及所述多个索引内容对应的数据标识集合,分别生成所述多个索引字段
。3.
如权利要求2所述的方法,其特征在于,所述根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容,包括:若所述业务字段的类型为枚举类型,对多个枚举业务内容进行数值化处理,得到至少一个第一索引数值;所述根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合,包括:根据每个第一索引数值对应的枚举业务内容的数据标识,确定所述每个第一索引数值对应的第一数据标识集合;其中,所述每个第一索引数值对应的索引字段包括:所述每个第一索引数值和所述每个第一索引数值对应的第一数据标识集合
。4.
如权利要求3所述的方法,其特征在于,所述根据所述第一索引数值对应的枚举业务内容的数据标识,确定所述第一索引数值对应的第一数据标识集合,包括:根据所述枚举类型的业务字段对应的枚举数量,对所述第一索引数值对应的所有枚举业务内容的数据标识进行哈希变换,确定所述第一数据标识集合
。5.
如权利要求2所述的方法,其特征在于,所述根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到多个索引内容,包括:若所述业务字段的类型为数值类型,对多个数值业务内容进行数据块处理,得到多个第一索引数据块;所述根据相同索引内容对应的业务内容的数据标识,确定每个索引内容对应的数据标识集合,包括:根据每个第一索引数据块对应的数值业务内容的数据标识,确定所述每个第一索引数据块对应的第二数据标识集合;其中,所述多个第一索引数据块对应的索引字段包括:所述多个第一索引数据块和所述每个第一索引数据块对应的第二数据标识集合
。
6.
如权利要求2所述的方法,其特征在于,所述根据所述预设数据库的数据宽表中多个业务字段的类型,对每个业务字段对应的业务内容进行预处理,得到...
【专利技术属性】
技术研发人员:辛治运,鹿群,陈海雯,罗启斐,黎豪,徐秋石,
申请(专利权)人:广发证券股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。