基于Elasticsearch的数据快速查询方法及系统技术方案

技术编号：40027476 阅读：4 留言：0更新日期：2024-01-16 17:43

本发明专利技术公开了基于Elasticsearch的数据快速查询方法及系统，属于数据查询技术领域，具体包括：搭建ES集群，配置n个ES节点，n≥3，所述ES节点包括数据节点和主节点，并访问任一节点，验证集群状态，指定若干主节点为不参与选举的仅投票节点；将ES集群集成到大数据平台中，对数据进行预处理，创建索引，将单个索引划分为若干个主分片和复制分片，对预处理后的数据写入到索引中，通过后端服务进行分布式搜索；当主节点宕机时，获取脑裂产生的新主节点的数量N，选取(N/2+1)个新主节点作为宕机主节点的候选节点，将宕机的主分片对应的复制分片提升为新的主分片；本发明专利技术实现对数据的快速查询。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据查询，具体涉及基于elasticsearch的数据快速查询方法及系统。

技术介绍

1、大数据平台确实面临存储、处理和分析海量数据的挑战，这需要采用高效的方法来应对这些挑战。传统的数据存储和搜索方法在处理大数据时往往无法满足实时性要求，并且在复杂查询和扩展性方面存在一些局限性。

2、存储挑战：海量数据的存储是一个重要的考虑因素。传统的存储系统，如关系数据库，可能在存储大规模数据时遇到瓶颈。这些系统通常存在存储容量有限、读写性能较差以及数据备份和恢复困难等问题。

3、处理挑战：大数据平台需要能够高效地处理和分析大量的数据。传统的数据处理方法，如批处理，往往不能满足实时性的要求。在处理海量数据时，需要采用分布式计算技术来将数据分割成小块并进行并行处理。然而，传统的分布式计算系统，如hadoop和mapreduce，对于复杂查询和实时性要求有一定的局限性。

4、分析挑战：大数据平台需要能够从海量数据中提取有价值的信息和洞察。传统的数据分析方法可能无法处理复杂的查询需求和分析任务，尤其是在需要进行跨多个数据源的联合分析时。这可能导致分析结果的准确性和及时性不足。

5、扩展性挑战：随着数据量的不断增长，大数据平台需要具备良好的扩展性，以应对未来的数据增长。传统的数据存储和处理系统可能无法轻松地适应和处理大规模数据，从而限制了平台的扩展性和性能。

6、为了克服这些挑战，大数据平台可以借助elasticsearch来解决存储、处理和分析海量数据的问题。elastics

技术实现思路

1、本专利技术的目的在于提供基于elasticsearch的数据快速查询方法及系统，解决以下技术问题：

2、传统的数据存储和搜索方法在处理大数据时往往无法满足实时性要求，并且在复杂查询和扩展性方面存在一些局限性。

3、本专利技术的目的可以通过以下技术方案实现：

4、基于elasticsearch的数据快速查询方法，包括以下步骤：

5、搭建elasticsearch集群，配置n个elasticsearch节点，n≥3，所述elasticsearch节点包括数据节点和主节点，并访问任一节点，验证集群状态，指定若干主节点为不参与选举的仅投票节点；

6、通过springboot集成java客户端库将elasticsearch集群集成到大数据平台中，对数据进行预处理，创建索引，将单个索引划分为若干个主分片和复制分片，对预处理后的数据写入到索引中，通过后端服务进行分布式搜索；

7、当主节点宕机时，获取脑裂产生的新主节点的数量n，选取(n/2+1)个新主节点作为宕机主节点的候选节点，将宕机的主分片对应的复制分片提升为新的主分片。

8、作为本专利技术进一步的方案：将主分片和复制分片分别存储在所有的节点中，单个节点中仅允许存在单个主分片或单个复制分片，当主分片对应的节点故障时。

9、作为本专利技术进一步的方案：在检索请求数量低于预设阈值的时间段进行数据的写入，并将复制分片完全删除，关闭segment的自动创建。

10、作为本专利技术进一步的方案：所述预处理的过程为：

11、将数据通过离线方式和实时方式导入到数据仓库hive中，使用调度框架dolphinscheduler来管理和调度数据处理任务，并通过hadoop集群和spark集群对数据进行清洗。

12、作为本专利技术进一步的方案：选取keyword作为数据写入中的字段类型，通过include和exclude对字段进行过滤，并对_all字段进行禁用，选取参加计算相关性评分的字段，并将该字段设为关闭。

13、作为本专利技术进一步的方案：选取在构建索引的过程中会被添加到倒排索引的文件，若存在非预选的文件，则将非预选的文件进行去除。

14、作为本专利技术进一步的方案：在对m个字段进行筛选时，m≥2，且m个字段均不进行相关性评分极端，则使用基于bitmap的filter对字段进行过滤，并将所有字段的doc_values设置为false，给所有字段加上ignore_above，所述ignore_above用于指定字符串字段的可索引长度，当一个字符串的长度超过ignore_above的指定长度时，则忽略该字段的内容，并将该字段倒排索引中去除。

15、作为本专利技术进一步的方案：限制检索后的单个分页条数为a，分页页数最大为b，当检索到a×b条后的数据时，提示用户重新输入检索条件，采用functioon_score指定基础查询match_all，定义两个预设函数x1和x2，每个预设函数都有一个过滤器和一个权重，函数x1包括一个match过滤器，用于预选特定字段的查询，并将函数x1的权重设置为2，函数x2具有一个term过滤器，用于剩余字段的查询，并将函数x2的权重设置为3，设置了score_mode为"sum"，设置boost_mode为"sum"，对所有函数的分数进行求和，计算所有的检索文档的评分，并根据评分对检索文档进行排序。

16、基于elasticsearch的数据快速查询系统，包括：

17、集群搭建模块，用于搭建elasticsearch集群，配置n个elasticsearch节点，n≥3，所述elasticsearch节点包括数据节点和主节点，并访问任一节点，验证集群状态，指定若干主节点为不参与选举的仅投票节点；

18、数据引入模块，用于通过springboot集成java客户端库将elasticsearch集群集成到大数据平台中，对数据进行预处理，创建索引，将单个索引划分为若干个主分片和复制分片，对预处理后的数据写入到索引中，通过后端服务进行分布式搜索；

19、故障处理模块，用于当主节点宕机时，获取脑裂产生的新主节点的数量n，选取(n/2+1)个新主节点作为宕机主节点的候选节点，将宕机的主分片对应的复制分片提升为新的主分片。

20、本专利技术的有益效果：

21、本专利技术通过利用elasticsearch技术在大数据平台中进行高效搜索，我们能够克服传统方法在存储、处理和分析海量数据方面的挑战，该技术方案具备实时搜索和分析能力，并具有高扩展性和灵活性，能够满足对数据的实时查询和分析需求，通过集成elasticsearch引擎到大数据平台中，构建一个分布式搜索系统，并利用其强大的搜索和聚合功能，实现数据的快速查询。

本文档来自技高网...

【技术保护点】

1.基于Elasticsearch的数据快速查询方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Elasticsearch的数据快速查询方法，其特征在于，将主分片和复制分片分别存储在所有的节点中，单个节点中仅允许存在单个主分片或单个复制分片，当主分片对应的节点故障时。

3.根据权利要求2所述的基于Elasticsearch的数据快速查询方法，其特征在于，在检索请求数量低于预设阈值的时间段进行数据的写入，并将复制分片完全删除，关闭segment的自动创建。

4.根据权利要求1所述的基于Elasticsearch的数据快速查询方法，其特征在于，所述预处理的过程为：

5.根据权利要求1所述的基于Elasticsearch的数据快速查询方法，其特征在于，选取keyword作为数据写入中的字段类型，通过include和exclude对字段进行过滤，并对_all字段进行禁用，选取参加计算相关性评分的字段，并将该字段设为关闭。

6.根据权利要求5所述的基于Elasticsearch的数据快速查询方法，其特征在于，选取在构

7.根据权利要求6所述的基于Elasticsearch的数据快速查询方法，其特征在于，在对m个字段进行筛选时，m≥2，且m个字段均不进行相关性评分极端，则使用基于bitmap的filter对字段进行过滤，并将所有字段的doc_values设置为false，给所有字段加上ignore_above，所述ignore_above用于指定字符串字段的可索引长度，当一个字符串的长度超过ignore_above的指定长度时，则忽略该字段的内容，并将该字段倒排索引中去除。

8.根据权利要求1所述的基于Elasticsearch的数据快速查询方法，其特征在于，限制检索后的单个分页条数为a，分页页数最大为b，当检索到a×b条后的数据时，提示用户重新输入检索条件，采用functioon_score指定基础查询match_all，定义两个预设函数x1和x2，每个预设函数都有一个过滤器和一个权重，函数x1包括一个match过滤器，用于预选特定字段的查询，并将函数x1的权重设置为2，函数x2具有一个term过滤器，用于剩余字段的查询，并将函数x2的权重设置为3，设置了score_mode为"sum"，设置boost_mode为"sum"，对所有函数的分数进行求和，计算所有的检索文档的评分，并根据评分对检索文档进行排序。

9.基于Elasticsearch的数据快速查询系统，其特征在于，包括：

...

【技术特征摘要】

1.基于elasticsearch的数据快速查询方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于elasticsearch的数据快速查询方法，其特征在于，将主分片和复制分片分别存储在所有的节点中，单个节点中仅允许存在单个主分片或单个复制分片，当主分片对应的节点故障时。

3.根据权利要求2所述的基于elasticsearch的数据快速查询方法，其特征在于，在检索请求数量低于预设阈值的时间段进行数据的写入，并将复制分片完全删除，关闭segment的自动创建。

4.根据权利要求1所述的基于elasticsearch的数据快速查询方法，其特征在于，所述预处理的过程为：

5.根据权利要求1所述的基于elasticsearch的数据快速查询方法，其特征在于，选取keyword作为数据写入中的字段类型，通过include和exclude对字段进行过滤，并对_all字段进行禁用，选取参加计算相关性评分的字段，并将该字段设为关闭。

6.根据权利要求5所述的基于elasticsearch的数据快速查询方法，其特征在于，选取在构建索引的过程中会被添加到倒排索引的文件，若存在非预选的文件，则将非预选的文件进行去除。

7.根据权利要求6所述的基于elasticsearch的数...

【专利技术属性】
技术研发人员：王士义，
申请(专利权)人：湖北省珍岛数字智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人