The invention discloses a distributed sorting system based on data distribution model. As shown in the drawings, it consists of three parts: central control unit (master), model unit (model) and computing unit cluster (slaves). Firstly, the central control unit receives the set of elements to be sorted and calls the model unit; secondly, it divides the set of elements and allocates them to each computing unit in the computing cluster. After the prediction and placement of elements, the computing unit returns all data to the central control unit; secondly, the central control unit merges the returned data of the computing unit to generate the final ordered sequence. After that, the central control unit returns the ordered sequence to the user. The core idea of the present invention is that elements are directly placed into arrays according to the basic data distribution model and a distributed sorting system is formed. Compared with the distributed sorting system deployed according to the traditional sorting algorithm, the running time is shorter.
【技术实现步骤摘要】
一种基于数据分布模型的分布式排序系统
本专利技术涉及排序算法/系统,具体涉及一种基于数据分布模型的排序系统。
技术介绍
排序算法作为经典算法在各类软件开发中都有非常高的使用频率,甚至是在今年来较为火热的聚类分析、机器学习、推荐算法等人工智能领域的基础算法之一。从排序问题提出至今,研究人员和工程人员对排序算法进行了全方位的改进,但是其理论时间复杂度一直停滞在O(NlogN)。随着大数据和机器学习的兴起,计算机需要处理的数据量也越来越大,已有的排序算法难以适应。目前来说对排序算法的优化仅停留在实际运行时间的减少,并没有对理论时间和最坏时间进行进一步优化。目前来说,快速排序和归并排序作为应用较为广泛的排序算法之一,在众多学者和工程师的研究和优化后可以使得大部分的排序过程的时间消耗略微低于理论时间复杂度O(NlogN),效果并不是很理想,没有达到质的改变。分布模型是由分布函数来表示的一种模型,分布函数既可以是基本函数也可以是不能用解析式表达的抽象函数。因此可以通过数学函数、机器学习模型等多种方式来对待排元素的数据分布模型进行描述。
技术实现思路
本专利技术所解决的技术问题是,提供一种新的分布式排序系统,将待排元素集分割成若干子集,利用数据分布模型对各个子集中的元素在整个有序数组中的位置进行预测,然后根据元素预测位置将元素放入有序数组从而完成排序操作。这种方法极大的提高了运行的时间效率,且稳定性很强。本专利技术的技术方案为:步骤1):由模型单元为中央处理单元提供数据的分布模型。模型单元既可以是单个计算机也可以是某个高性能集群。模型的提供方式既可以是直接的数学函数,也可以 ...
【技术保护点】
1.一种基于数据分布模型的分布式排序系统,包含中央控制单元(master)、模型单元(model)和计算集群(slaves),其特征在于,包括以下步骤:步骤1):中央控制单元获取到待排元素集后调度模型单元获取待排元素集对应的元素分布模型;步骤2):中央控制单元将待排元素集进行分割成若干子集,所有子集互不重叠且包含原待排元素集中所有元素;步骤3):中央控制单元通过一定调度将步骤1)中的模型和步骤2)中的集合传送给计算单元集群;步骤4):计算单元集群中的计算单元根据接收到的模型完成接收到的集合中所有元素的位置预测、放置,并处理在本计算单元内发生的冲突,最后将结果返回中央控制单元;步骤5):中央控制单元接收所有计算单元的返回结果,同时进行数据合并,最终整理出有序序列。
【技术特征摘要】
1.一种基于数据分布模型的分布式排序系统,包含中央控制单元(master)、模型单元(model)和计算集群(slaves),其特征在于,包括以下步骤:步骤1):中央控制单元获取到待排元素集后调度模型单元获取待排元素集对应的元素分布模型;步骤2):中央控制单元将待排元素集进行分割成若干子集,所有子集互不重叠且包含原待排元素集中所有元素;步骤3):中央控制单元通过一定调度将步骤1)中的模型和步骤2)中的集合传送给计算单元集群;步骤4):计算单元集群中的计算单元根据接收到的模型完成接收到的集合中所有元素的位置预测、放置,并处理在本计算单元内发生的冲突,最后将结果返回中央控制单元;步骤5):中央控制单元接收所有计算单元的返回结果,同时进行数据合并,最终整理出有序序列。2.根据权利要求1所述的方法,其特征在于,在步骤4)中,每个计算单元需要通过数据分布模型来对子集进行初步处理,包括以下步骤:步骤2.1):使用数据分布模型来预测待排元素子集中每一个元素在整...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。