System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 海量数据灵活查询方法及系统技术方案_技高网

海量数据灵活查询方法及系统技术方案

技术编号:40095198 阅读:10 留言:0更新日期:2024-01-23 16:49
本发明专利技术提供一种海量数据灵活查询方法及系统,方法包括:基于用户的数据查询请求,获取所述数据查询请求对应的索引配置信息;将用户数据查询请求输入拆分数据节点,并通过交互线程进行推送;基于所述拆分数据节点对应的处于健康状态的服务实例及交互线程推送的用户的数据查询请求,查询预先创建的Lucene索引文件,得到所述拆分数据节点对应的Lucene索引文件及索引配置信息;基于所述Lucene索引文件,得到数据文件、列存文件得到所述拆分数据节点对应的索引配置信息及所述数据文件、列存文件进行整合,得到查询结果。本发明专利技术以Lucene索引文件作为底层数据存储,查询效率高、资源消耗小,实现了海量数据的灵活、多维度、快速查询。

【技术实现步骤摘要】

本专利技术涉及数据查询,尤其涉及一种海量数据灵活查询方法及系统


技术介绍

1、目前,行业内海量数据查询通常是基于数据库查询,查询十几亿海量数据的速度较慢,查询十几亿海量数据的结果写入文件的速度较慢。

2、保险行业内保单的承保、理赔、应收、再保等数据分布在各个系统,如果进行保单情况查询,需要从多个系统查询相关数据。

3、另外,数据一般属于公司资产,在数据使用时需要对权限进行严格划分,在数据库查询时需要对权限进行划分,通过数据库查询时受权限的影响,查询结果会不全面不完整。

4、因各系统数据都是独立的数据源,无法让非研发岗位的业务人员直接使用,且各系统间映射关系复杂即使专业技术人员也要花费不少时间梳理关联关系、编写查询语句。


技术实现思路

1、本专利技术提供一种海量数据灵活查询方法及系统,用以解决现有技术通过数据库查询海量数据,由于权限及数据源本身的影响导致查询结果不完整不全面及耗时较长等问题,提高海量数据查询的适用性,并且提升了查询结果的准确度。

2、本专利技术提供一种海量数据灵活查询方法,包括:

3、基于用户的数据查询请求,获取所述数据查询请求对应的索引配置信息;所述索引配置信息包括数据拆分数量、数据拆分规则及拆分数据节点名称;

4、将用户数据查询请求输入拆分数据节点,并通过交互线程进行推送;所述交互线程是通过启动对应所述数据拆分数量的线程,并在每个线程内建立同所述拆分数据节点对应的相同数量的连接生成的;>

5、基于所述拆分数据节点对应的处于健康状态的服务实例及交互线程推送的用户的数据查询请求,查询预先创建的lucene索引文件,得到所述拆分数据节点对应的lucene索引文件及索引配置信息;基于所述拆分数据节点对应的lucene索引文件,得到所述拆分数据节点对应的lucene索引文件对应的数据文件及列存文件

6、将所述拆分数据节点对应的索引配置信息及所述数据文件、列存文件进行整合,得到查询结果。

7、根据本专利技术提供的海量数据灵活查询方法,所述基于用户的数据查询请求,获取所述数据查询请求对应的索引配置信息之前,还包括:

8、通过用户认证、权限认证等安全认证服务验证用户的数据查询请求是否是有效请求。

9、根据本专利技术提供的海量数据灵活查询方法,所述索引配置通过以下步骤建立:

10、s31、配置后台处理生成的数据表所在数据库的主机ip、端口号、数据库名称、用户、密码等访问该数据库所需信息,完成数据源配置;

11、s32、从s31配置的数据源中选择后台处理生成的数据表,并配置表字段对应的物理名称与中文名称,完成数据集配置;

12、s33、基于s32配置数据集初始化索引文件名称、字段清单,配置各字段数据在lucene中与数据存储、显示、查询相关的基础信息,完成索引基础信息配置;

13、s34、对索引数据进行拆分,得到数据分布到各数据节点的相关配置,完成索引分布配置。

14、根据本专利技术提供的海量数据灵活查询方法,所述后台处理生成的数据表包括个性化维度数据及公共维度数据。

15、根据本专利技术提供的海量数据灵活查询方法,所述s34完成后,还包括:

16、将索引配置结果保存在数据容器,所述数据容器包括:gbase、hbase,用于离线分析、批处理等场景;实时kafka:用于实时分析、在线处理等场景;近实时elasticsearch:分钟级延迟用于监管报送、运营监控等场景。

17、根据本专利技术提供的海量数据灵活查询方法,创建索引文件,包括:

18、s61、获取索引配置信息,所述索引配置信息包括索引名称、字段列表、拆分规则、拆分数据存储节点以及数据字典配置;

19、s62、根据s61获取的数据节点名称,从注册中心中获取每个数据节点对应的处于健康状态的服务实例;

20、s63、根据s61获取的数据拆分数量启动对应数量的线程,每个线程内初始化用于暂存分配到该节点数据的存储空间,建立同对应的数据节点的连接,将暂存数据有序地推送给其对应数据节点;

21、s64、根据s61获取的配置信息,判断当前索引是否启用了字典,若启用了字典将进入s65,若未启用字典,直接进入s66;

22、s65、从当前索引配置的数据源中查询到字典数据并保存为lucene索引文件,生成字典索引;

23、s66、根据配置的索引信息生成查询sql语句,从配置的数据源获取相关数据,按照配置好的数据分配规则分发给由s63创建的用于同各数据节点交互数据线程的存储空间,通过交互线程将数据推送给其对应的数据节点;

24、s67、启动各数据节点,从配置中心获取本节点写入lucene索引文件相关配置。

25、根据本专利技术提供的海量数据灵活查询方法,所述lucene索引文件相关配置,包括索引文件存储路径、数据压缩方式、缓存大小、合并策略。

26、根据本专利技术提供的海量数据灵活查询方法,所述s67,还包括:

27、接收交互线程推送的数据后,根据配置阶段预先配置的各字段类型写入对应的索引文件;

28、作为查询条件的数据写入lucene的倒排索引文件,作为查询结果的展示数据会写入lucene的数据文件,数值类型数据保存到按列存储的列存文件。

29、根据本专利技术提供的海量数据灵活查询方法,所述列存文件采用lucene的sortednumericdoc values。

30、根据本专利技术提供的海量数据灵活查询方法,所述s67,还包括:

31、从数据源中查询到的所有数据都正确的写入到lucene索引文件过程中,有任何一条数据写入出错,删除已写入的数据并重新启动创建索引处理。

32、根据本专利技术提供的海量数据灵活查询方法,所述数据字典配置,包括:

33、通过字典管理页面或利用sql语句查询外部数据源初始化字典内容,完成数据字典配置。

34、根据本专利技术提供的海量数据灵活查询方法,所述基于所述lucene索引文件,分别从所述lucene索引文件对应的数据文件、列存文件中获取查询结果之后,还包括:

35、将各个拆分数据节点返回的查询结果进行整合,并将整合后的数据返回前端查询页面。

36、本专利技术还提供了一种海量数据灵活查询系统,包括:

37、获取模块,用于基于用户的数据查询请求,获取所述数据查询请求对应的索引配置信息;所述索引配置信息包括数据拆分数量、数据拆分规则及拆分数据节点名称;

38、请求发送模块、用于将用户数据查询请求输入拆分数据节点,并通过交互线程进行推送;所述交互线程是通过启动对应所述数据拆分数量的线程,并在每个线程内建立同所述拆分数据节点对应的相同数量的连接生成的;

39、查询模块、用于基于所述拆分数据节点对应的处于健康状态的服务实例及交互线本文档来自技高网...

【技术保护点】

1.一种海量数据灵活查询方法,其特征在于,包括:

2.根据权利要求1所述的海量数据灵活查询方法,其特征在于,所述基于用户的数据查询请求,获取所述数据查询请求对应的索引配置信息之前,还包括:

3.根据权利要求1所述的海量数据灵活查询方法,其特征在于,所述索引配置通过以下步骤建立:

4.根据权利要求3所述的海量数据灵活查询方法,其特征在于,所述后台处理生成的数据表包括个性化维度数据及公共维度数据。

5.根据权利要求3所述的海量数据灵活查询方法,其特征在于,所述S34完成后,还包括:

6.根据权利要求1所述的海量数据灵活查询方法,其特征在于,创建索引文件,包括:

7.根据权利要求6所述的海量数据灵活查询方法,其特征在于,所述Lucene索引文件相关配置,包括索引文件存储路径、数据压缩方式、缓存大小、合并策略。

8.根据权利要求6所述的海量数据灵活查询方法,其特征在于,所述S67,还包括:

9.根据权利要求8所述的海量数据灵活查询方法,其特征在于,所述列存文件采用Lucene的Sorted NumericDoc Values。

10.根据权利要求6所述的海量数据灵活查询方法,其特征在于,所述S67,还包括:

11.根据权利要求6所述的海量数据灵活查询方法,其特征在于,所述数据字典配置,包括:

12.根据权利要求1所述的海量数据灵活查询方法,其特征在于,所述基于所述Lucene索引文件,分别从所述Lucene索引文件对应的数据文件、列存文件中获取查询结果之后,还包括:

13.一种海量数据灵活查询系统,其特征在于,包括:

14.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至12任一项海量数据灵活查询方法。

15.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至12任一项所述海量数据灵活查询方法。

...

【技术特征摘要】

1.一种海量数据灵活查询方法,其特征在于,包括:

2.根据权利要求1所述的海量数据灵活查询方法,其特征在于,所述基于用户的数据查询请求,获取所述数据查询请求对应的索引配置信息之前,还包括:

3.根据权利要求1所述的海量数据灵活查询方法,其特征在于,所述索引配置通过以下步骤建立:

4.根据权利要求3所述的海量数据灵活查询方法,其特征在于,所述后台处理生成的数据表包括个性化维度数据及公共维度数据。

5.根据权利要求3所述的海量数据灵活查询方法,其特征在于,所述s34完成后,还包括:

6.根据权利要求1所述的海量数据灵活查询方法,其特征在于,创建索引文件,包括:

7.根据权利要求6所述的海量数据灵活查询方法,其特征在于,所述lucene索引文件相关配置,包括索引文件存储路径、数据压缩方式、缓存大小、合并策略。

8.根据权利要求6所述的海量数据灵活查询方法,其特征在于,所述s67,还包括:

9.根据权利要求8所述的海量...

【专利技术属性】
技术研发人员:楚彦凌闫冰安敏侯鹏樊璠
申请(专利权)人:中国人民财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1