一种基于机器学习的分布式查询系统及其优化方法技术方案

技术编号:37851607 阅读:24 留言:0更新日期:2023-06-14 22:42
本发明专利技术涉及一种基于机器学习的分布式查询系统及其优化方法。所述聚类模块,用于将系统中新产生的数据进行分析,得到聚类结果;所述数据分片存储模块,用于将收到的分片键范围将数据存储到对应的数据分片中,保证相似的数据被分配在同一个或者几个数据分片中;所述回归模块,用于配合数据缓存模块进行主动的数据缓存,预测数据未来的使用率,将使用率高的数据主动缓存到高速读取设备上;所述数据缓存模块,用于将预测的数据的未来访问率做一个排序,得到高使用率的数据所对应的分片键,之后向数据分片存储模块读取所对应的数据,将这个数据传递给数据缓存模块,数据缓存模块将接收到的数据存储到高速读取设备上。用以解决数据以分布式方式存储在磁盘上,它们之间的连接松散,使得查询更加困难的问题。使得查询更加困难的问题。使得查询更加困难的问题。

【技术实现步骤摘要】
一种基于机器学习的分布式查询系统及其优化方法


[0001]本专利技术涉及分布式查询领域,具体是一种基于机器学习的分布式查询系统及其优化方法。

技术介绍

[0002]近年来,国内外对分布式查询系统的研究和开发呈上升趋势。由于系统数据量和复杂度的快速增长,分布式数据库系统已成为数据存储和处理的主流技术。国际上,分布式数据库的代表性技术包括Goo gle的Bigtable、Amazon的DynamoDB、Facebook的Cassandra等。国内方面,阿里巴巴的OceanBase、PolarDB、PingCAP的TiDB等分布式数据库系统也在不断地发展和完善。此外,随着云计算技术的不断成熟,云数据库也逐渐成为了新的发展趋势。这种趋势是由数据的快速增长和对实时处理大规模数据的需求不断增加所驱动的。为了满足这些需求,研究人员一直在开发新技术来提高分布式查询系统的性能、可扩展性和可靠性。例如,已经提出了新的算法和数据结构来降低通信成本并增加分布式查询的并行性。还开发了负载平衡和容错的新技术,以确保分布式查询系统的健壮性和可靠性。/>[0003]此外本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的分布式查询系统,其特征在于,所述分布式查询系统包括聚类模块、数据分片存储模块、回归模块和数据缓存模块;所述聚类模块,用于将系统中新产生的数据进行分析,得到聚类结果;所述数据分片存储模块,用于将收到的分片键范围将数据存储到对应的数据分片中,保证相似的数据被分配在同一个或者几个数据分片中;所述回归模块,用于配合数据缓存模块进行主动的数据缓存,预测数据未来的使用率,将使用率高的数据主动缓存到高速读取设备上;所述数据缓存模块,用于将预测的数据的未来访问率做一个排序,得到高使用率的数据所对应的分片键,之后向数据分片存储模块读取所对应的数据,将这个数据传递给数据缓存模块,数据缓存模块将接收到的数据存储到高速读取设备上。2.根据权利要求1所述一种基于机器学习的分布式查询系统,其特征在于,所述聚类模块包括数据收集模块、特征工程模块、模型训练模块和模型应用模块;所述数据收集模块,用于收集关于分布式查询的数据;所述特征工程模块,用于选择有效的特征,并对其进行处理和转换;所述模型训练模块,用于使用收集的数据训练聚类模型;所述模型应用模块,用于在分布式查询系统中使用训练好的模型,对查询进行优化。3.根据权利要求1所述一种基于机器学习的分布式查询系统,其特征在于,所述数据分片存储模块包括磁盘块和数据备份模块;所述磁盘块内包含若干个分片键,所述磁盘块内的分片键存储聚类模块产生的聚类结果,并按照数据特征相似的数据进行分片存储,用于区分数据所属的分片;所述数据备份模块,用于保证数据的高可用性,对于新数据还会将其备份到数据备份模块中不同的数据分片中。4.根据权利要求1所述一种基于机器学习的分布式查询系统,其特征在于,所述回归模块包括数据处理模块、数据接收模块、使用率预测模块和使用率排序模块;所述数据接收模块,用于接收数据分片存储模块的数据;所述数据处理模块,用于处理数据接收模块接收到的数据;所述使用率预测模块,用于将处理后的数据进行使用率预测并将结果发送给使用率排序模块;所述使用率排序模块,用于将访问率高的数据缓存到高速读取设备上,可以避免因为大量的数据读写操作导致的系统崩溃和故障,大量的读写操作集中在高速读取设备上,系统的运行压力减小。5.一种基于机器学习的分布式查询系统的优化方法,其特征在于,所述优化方法使用如权利要求1

5任一所述基于机器学习的分布式查询系统,所述优化方法包括以下步骤:步骤1、采用聚类模块收集用户的数据,并向数据分片存储模块传递的涉及新数据分片键值的信息;步骤2、数据分片存储模块向聚类模块提供聚类模型训练所需的数据;步骤3、回归模块利用数据分片存储模块内的数据训练出线性回归模型,预测出数据未来的使用率,将使用率高的数据从数据分片存储模块读取出来;步骤4、将步骤3使用率高的数据存储进数据缓存模块;

【专利技术属性】
技术研发人员:潘海为曾佑飞张可佳袁茂才李哲秦晓亮
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1