当前位置: 首页 > 专利查询>杜广香专利>正文

用于避免大数据存储系统进入访问失衡状态的方法及系统技术方案

技术编号:20160289 阅读:31 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种用于避免大数据存储系统进入访问失衡状态的方法及系统,其中方法包括:根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;计算大数据存储系统内低频存储设备的平衡系数;当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,从大数据存储系统内所有低频存储设备中确定选定组合的低频存储设备和多元组合的低频存储设备,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,或针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态。

【技术实现步骤摘要】
用于避免大数据存储系统进入访问失衡状态的方法及系统
本专利技术涉及大数据存储领域和云存储领域,并且更具体地,涉及一种用于避免大数据存储系统进入访问失衡状态的方法及系统。
技术介绍
目前,随着各种类型的信息设备的使用变得越来越频繁,数据量正以几何级数的方式进行爆炸式增加。为了从海量的数据中获取有用信息,必须对海量的数据进行有效存储。大数据存储系统能够满足对对海量数据进行有效存储的需求。然而,在目前的大数据存储系统中,由于每个数据项的被访问次数不同,会导致存储设备之间的数据被访问次数的失衡,进而导致大数据系统的数据平衡性出现访问失衡的问题。为此,现有技术中存在对避免大数据存储系统进入访问失衡状态的需求。
技术实现思路
根据本专利技术的一个方面,提供一种用于避免大数据存储系统进入访问失衡状态的方法,所述方法包括:基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>;对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,和根据大数据存储系统的系统记录设备中的设备描述信息大数据存储系统中所有存储设备的总数量,计算大数据存储系统内低频存储设备的平衡系数:其中α>0,β>0,χ>0并且α+β+χ=1其中,DLB是大数据存储系统内低频存储设备的平衡系数;LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi第i个低频存储设备的所有数据项的总被访问次数;Dtotal为大数据存储系统中所有存储设备的总数量;其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,确定每个低频存储设备中所有数据项的平均被访问次数Lavgi,计算每个低频存储设备的平均被访问次数Lavgi与低频次数阈值Lthreshod的比值Ri;其中LDN≥i≥1,将大数据存储系统内所有低频存储设备中Ri大于1.2的低频存储设备确定为选定组合的低频存储设备,将大数据存储系统内所有低频存储设备中Ri小于或等于1.2的低频存储设备确定为多元组合的低频存储设备,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,1.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度;1.2、将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中;1.3、从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项;1.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤1.5;如果不存在,则结束;1.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤1.1;针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有低频数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的低频数据项开始并且按照升序顺序从第二排序列表中选择Y个低频数据项,其中YMOD3=0,并且0≤Z-Y<3;按照低频数据项的被访问次数将所述Y个低频数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组所包括的低频数据项的数量均相同,并且第一预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第二预选数据项组中任意低频数据项的被访问次数,第二预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第三预选数据项组中任意低频数据项的被访问次数;2.1、从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个低频数据项,将所挑选的三个低频数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中;2.2、在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在步骤2.1中所挑选的一个低频数据项;2.3、确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括低频数据项?如果是,则进行步骤2.1;如果否,则结束。2、根据权利要求1所述的方法,还包括:当用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时,或当接收到在大数据存储系统内进行失衡预警检测的请求时,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至本文档来自技高网...

【技术保护点】
1.一种用于避免大数据存储系统进入访问失衡状态的方法,所述方法包括:基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组

【技术特征摘要】
1.一种用于避免大数据存储系统进入访问失衡状态的方法,所述方法包括:基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>;对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,和根据大数据存储系统的系统记录设备中的设备描述信息大数据存储系统中所有存储设备的总数量,计算大数据存储系统内低频存储设备的平衡系数:其中α>0,β>0,χ>0并且α+β+χ=1其中,DLB是大数据存储系统内低频存储设备的平衡系数;LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi第i个低频存储设备的所有数据项的总被访问次数;Dtotal为大数据存储系统中所有存储设备的总数量;其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,确定每个低频存储设备中所有数据项的平均被访问次数Lavgi,计算每个低频存储设备的平均被访问次数Lavgi与低频次数阈值Lthreshod的比值Ri;其中LDN≥i≥1,将大数据存储系统内所有低频存储设备中Ri大于1.2的低频存储设备确定为选定组合的低频存储设备,将大数据存储系统内所有低频存储设备中Ri小于或等于1.2的低频存储设备确定为多元组合的低频存储设备,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,1.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度;1.2、将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中;1.3、从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项;1.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤1.5;如果不存在,则结束;1.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤1.1;针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有低频数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的低频数据项开始并且按照升序顺序从第二排序列表中选择Y个低频数据项,其中YMOD3=0,并且0≤Z-Y<3;按照低频数据项的被访问次数将所述Y个低频数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组所包括的低频数据项的数量均相同,并且第一预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第二预选数据项组中任意低频数据项的被访问次数,第二预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第三预选数据项组中任意低频数据项的被访问次数;2.1、从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个低频数据项,将所挑选的三个低频数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中;2.2、在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在步骤2.1中所挑选的一个低频数据项;2.3、确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括低频数据项?如果是,则进行步骤2.1;如果否,则结束。2.根据权利要求1所述的方法,还包括:当用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时,或当接收到在大数据存储系统内进行失衡预警检测的请求时,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件。3.根据权利要求1-2中任意一项所述的方法,其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内进行失衡预警检测时,所述数据管理设备向所述大数据存储系统发送用于在大数据存储系统内进行失衡预警检测的请求;其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:以所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。4.根据权利要求1-3中任意一项所述的方法,其中在每个存储设备的系统数据区域中保存运行日志文件;其中当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;或者,当前的统计时间区间为用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;其中预定数量的自然日为10个自然日、20个自然日或30个自然日;其中循环计时器的计时周期为1200小时、1500小时或1800小时,并且每当循环计时器期满时,所述循环计时器开始下一次计时;其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。5.根据权利要求1-4中任意一项所述的方法,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数;将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸;根据每个存储设备的存储信息区域中的存储信息文件来确定每个数据项在存储设备中的存储起始时间。6.一种用于避免大数据存储系统进入访问失衡状态的系统,所述系...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:杜广香
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1