一种数据API高效调用的处理方法技术

技术编号:20915479 阅读:22 留言:0更新日期:2019-04-20 09:29
本发明专利技术公开了一种数据API高效调用的处理方法,所述方法包括:S1、将云数据服务器集群中的所有数据对象组成一个数据集合,使用K‑means算法对数据集合进行聚类;S2、对于聚类后得到的两个数据集合,分别计算这两个数据集合中心点与最热数据对象间的欧式距离,距离小的数据集合即为热数据集合,在热数据集合中的数据称为热数据,反之,则为冷数据;S3、计算数据块热度;S4、计算集群中各服务器热度;S5、确定待迁移和目标服务器,实施数据迁移;S6、发起API并发调用,记录API调用响应时间。本发明专利技术通过基于冷热数据的数据均衡策略将热数据均衡分布到集群中各个服务器节点,从而有效降低了高并发数据API调用平均响应时间。

A Processing Method for Efficient Call of Data API

The invention discloses a processing method for efficient invocation of data API, which includes: S1, forming a data set of all data objects in cloud data server cluster, clustering the data set using K_means algorithm; S2, calculating the Euclidean distance between the two data set centers and the hottest data objects respectively for the two data sets after clustering. A data set with small distance is a hot data set, and the data in the hot data set is called hot data, whereas the data in the hot data set is cold data; S3, calculating the heat of data blocks; S4, calculating the heat of servers in the cluster; S5, determining the server to be migrated and the target server to implement data migration; S6, initiating concurrent API calls, recording the response time of API calls. The method distributes the hot data equally to each server node in the cluster by the data equalization strategy based on hot and cold data, thereby effectively reducing the average response time of high concurrent data API calls.

【技术实现步骤摘要】
一种数据API高效调用的处理方法
本专利技术属于大数据、云数据管理和数据服务领域,涉及云环境数据管理或数据开放共享平台中数据的API调用,更具体的说是一种集群数据管理环境下基于冷热数据均衡策略的数据API高效调用处理方法。
技术介绍
数据API调用是用户或应用程序通过API接口有条件(如时间、地理空间、关联等)精确从服务器或服务器集群中获取所需数据,调用方式灵活、响应快、安全可控、无需对数据进行额外加工处理即可直接使用,且能够非常方便的获取到有效数据,基于API数据调用也是数据开放平台的最关键技术之一。。近些年,随着互联网、大数据、人工智能的不断发展,越来越多基于大数据的智能应用和业务系统依赖数据API调用方式获取数据,以达到随时获取、快速响应、实时刷新等应用需求。为了达到快速响应的要求,在大数据环境下如何降低高并发API调用平均响应时间成为了一个重要问题。在云服务器集群环境中,随着数据量的不断增大,可以动态添加服务器节点,且集群的均衡器会通过数据迁移的方式将数据均衡分布到各个服务器中,从而保证集群的高扩展性和高伸缩性。如在MongoDB集群中,自动分片机制将集合分成更小的数据块,通过数据迁移策略把这些数据块分散到不同的服务器节点,每个服务器节点存储及负载集合的一部分,从而不必使用更强大的服务器来存储更多的数据,以及处理更大的负载。在HBase集群中,当表的数据量不断增加,系统会监控此表以确保数据量不会超过一个配置的阈值,如果系统发现表容量超过了限制,则表会自动分裂,且有可能进行数据迁移以保证集群中数据均衡。上述集群环境下数据均衡策略仅考虑了数据量均衡,并没有考虑每个服务器节点的数据热度均衡,可能会导致热数据集中存储在一个或少数几个服务器节点的情况。在高并发API调用时,可能会导致大量API调用集中访问一个服务器节点,而其他服务器节点没有或只有少量数据访问,从而导致API调用平均响应时间变慢。因此,如何提供一种新的数据服务均衡策略,使API并发调用时对集群的访问负载均衡分布到各个服务器节点,从而减少API调用平均响应时间,是本领域技术亟需解决的问题。
技术实现思路
本专利技术的主要目的在于提供一种集群环境下基于冷热数据均衡策略的数据API高效调用处理方法,可以有效将热数据均衡分布到各个服务器节点,避免API并发调用时访问负载集中在一台或少数几台服务器节点上,从而减少API调用平均响应时间。为了达到上述目的,本专利技术采用以下技术方案:一种数据API高效调用的处理方法,包括以下步骤:S1、将云数据服务器集群中的所有数据对象组成一个数据集合C,使用K-means算法对数据集合进行聚类;S2、对于聚类后得到的两个数据集合,分别计算这两个数据集合中心点与最热数据对象间的欧式距离,距离小的数据集合即为热数据集合,在热数据集合中的数据称为热数据,反之,则为冷数据;S3、计算集群中各个服务器中的数据块热度;所述数据块热度数计算方法为热数据个数除以总数据个数,即为该数据块热度;S4、计算集群中各服务器热度;服务器热度计算方法为该服务器所有数据块热度之和除以数据块总个数,即为该服务器热度;S5、确定待迁移服务器和目标服务器,实施数据迁移;S6、通过API进行并发数据的调用,记录API调用响应时间。作为优选的技术方案,步骤S1中,所述云数据服务器集群是多个虚拟机集群或物理服务器集群,用于管理数据开放共享平台或数据湖中的数据;所述数据集合C为一系列数据对象组成的集合。作为优选的技术方案,步骤S1中,所述数据对象可以用二维向量P描述,P=(w,h),其中w为数据读操作占总操作的比重,其中,R、U、I、D分别代表读操作、更新操作、插入操作、删除操作的次数,h表示与时间变化的数据活跃值,根据话题热度趋势预测模型可以得出h与时间t之间的关系,即其中t为数据从创建到现在的时间,t=tnow-tcreate,α、β和γ是模型参数。作为优选的技术方案,步骤S1中,使用K-means算法对数据集合进行聚类,具体包括如下步骤:S11、从数据集合C中任意选择两个数据对象作为C1、C2的初始中心点;所述C1、C2,表示聚类完成后得到的两个数据集合,初始时为空,即没有任何数据对象;S12、对集合中的每个数据对象,分别计算与这两个中心点的欧氏距离,将其分配到最相似的集合,即距离最近的集合;S13、重新计算C1、C2的中心点,计算C1、C2的集合变差,所述集合变差为集合中所有数据对象到中心点距离的平方之和;S14、若集合变差小于指定阈值,此时聚类完成,否则,使用新的中心点继续执行步骤S12。作为优选的技术方案,步骤S2中,所述中心点为数据集合中所有对象的w和h属性的均值组成的一个二维数据对象;所述最热数据对象为属性w和h均为最大值的数据对象。作为优选的技术方案,步骤S3中,所述的数据块为集群中各服务器之间数据迁移的最小单位,每个数据块中包含若干个数据对象,数据块通常由数据管理系统确定。作为优选的技术方案,步骤S5中,确定待迁移和目标服务器,具体实施包括如下步骤:S51、获取到当前集群中所有服务器,确定每个服务器热度值、存储空间、块数据个数等信息;S52、选取热度值最大和最小的服务器,计算热度差值,若差值大于触发数据迁移的阈值,则需要进行数据迁移,执行步骤S53,否则结束数据迁移;S53、确定待迁移服务器和目标服务器,选取热度值最大的服务器为待迁移服务器,从热度值最小的服务器开始,寻找一个有足够存储空间的服务器作为目标服务器;作为优选的技术方案,步骤S5中,实施的数据迁移,具体实施包括如下步骤:S54、确定需要迁移的数据块,选取待迁移服务器中的一个或多个数据块,使得数据块热度值之和接近两个服务器热度差值的二分之一;S55、将选定的数据块从待迁移服务器迁移到目标服务器;S56、重新计算每个服务器热度值、存储空间、块数据个数等信息,继续执行步骤S52。作为优选的技术方案,步骤S6中,对开放共享数据进行正常的并发读操作调用,并记录每次API调用时间,当API调用的平均时间超过所设的阈值或某数据调用超过最大允许值时,数据系统集群进行再次如上所示的优化处理,以确保数据API高效调用。本专利技术与现有技术相比,具有如下优点和有益效果:(1)本专利技术通过聚类算法对数据进行冷热属性判断,基于热数据的数据均衡策略,将热数据均衡迁移分布到集群中各个服务器节点。(2)本专利技术集群环境下大量用户进行数据API调用时,依赖热数据负载均衡分布的各个服务器节点,从而降低了API调用平均响应时间,实现高效的数据API调用。附图说明下面将结合附图及实例对本专利技术作进一步说明,附图中:图1是根据本专利技术一个实例的基于冷热数据的数据均衡策略流程图;图2是根据本专利技术一个实例的K-means聚类算法流程图;图3是根据本专利技术一个实例的数据迁移流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本专利技术,并不用于限定本专利技术。图1是根据本专利技术一个实例的基于冷热数据的数据均衡策略流程图,参照该图1,一种数据API高效调用的处理方法,该方法中基于冷热数据的数据均衡策略开始于步骤S1,具体包括下述步骤:在步骤S1中,本文档来自技高网
...

【技术保护点】
1.一种数据API高效调用的处理方法,其特征在于,包括以下步骤:S1、将云数据服务器集群中的所有数据对象组成一个数据集合C,使用K‑means算法对数据集合进行聚类;S2、对于聚类后得到的两个数据集合,分别计算这两个数据集合中心点与最热数据对象间的欧式距离,距离小的数据集合即为热数据集合,在热数据集合中的数据称为热数据,反之,则为冷数据;S3、计算集群中各个服务器中的数据块热度;所述数据块热度数计算方法为热数据个数除以总数据个数,即为该数据块热度;S4、计算集群中各服务器热度;服务器热度计算方法为该服务器所有数据块热度之和除以数据块总个数,即为该服务器热度;S5、确定待迁移服务器和目标服务器,实施数据迁移;S6、通过API进行并发数据的调用,记录API调用响应时间。

【技术特征摘要】
1.一种数据API高效调用的处理方法,其特征在于,包括以下步骤:S1、将云数据服务器集群中的所有数据对象组成一个数据集合C,使用K-means算法对数据集合进行聚类;S2、对于聚类后得到的两个数据集合,分别计算这两个数据集合中心点与最热数据对象间的欧式距离,距离小的数据集合即为热数据集合,在热数据集合中的数据称为热数据,反之,则为冷数据;S3、计算集群中各个服务器中的数据块热度;所述数据块热度数计算方法为热数据个数除以总数据个数,即为该数据块热度;S4、计算集群中各服务器热度;服务器热度计算方法为该服务器所有数据块热度之和除以数据块总个数,即为该服务器热度;S5、确定待迁移服务器和目标服务器,实施数据迁移;S6、通过API进行并发数据的调用,记录API调用响应时间。2.根据权利要求1所述的一种数据API高效调用的处理方法,其特征在于,步骤S1中,所述云数据服务器集群是多个虚拟机集群或物理服务器集群,用于管理数据开放共享平台或数据湖中的数据;所述数据集合C为一系列数据对象组成的集合。3.根据权利要求1所述的一种数据API高效调用的处理方法,其特征在于,步骤S1中,所述数据对象可以用二维向量P描述,P=(w,h),其中w为数据读操作占总操作的比重,其中,R、U、I、D分别代表读操作、更新操作、插入操作、删除操作的次数,h表示与时间变化的数据活跃值,根据话题热度趋势预测模型可以得出h与时间t之间的关系,即其中t为数据从创建到现在的时间,t=tnow-tcreate,α、β和γ是模型参数。4.根据权利要求1所述的一种数据API高效调用的处理方法,其特征在于,步骤S1中,使用K-means算法对数据集合进行聚类,具体包括如下步骤:S11、从数据集合C中任意选择两个数据对象作为C1、C2的初始中心点;所述C1、C2,表示聚类完成后得到的两个数据集合,初始时为空,即没有任何数据对象;S12、对集合中的每个数据对象,分别计算与这两个中心点的欧氏距离,将其分配到最相似的集合,即距离最近的集合;S13、重新计算C1、C...

【专利技术属性】
技术研发人员:范冰冰
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1