一种大数据自适应存储方法技术

技术编号:35498734 阅读:11 留言:0更新日期:2022-11-05 17:02
本发明专利技术涉及数据处理技术领域,具体涉及一种大数据自适应存储方法,该方法获取每条互联网应用日志大数据的结构化数据;对所有结构化数据进行周期划分,得到多个周期数据,根据访问对象对每个周期数据中的结构化数据进行聚类,得到A个数据类别,基于每个数据类别对应访问对象计算每个周期数据内每个访问对象的热度参数;基于热度参数计算每个访问对象下对应每条互联网应用日志大数据的重要程度,结合重要程度和存储服务器的负载情况进行大数据的自适应存储。本方案根据数据的重要程度结合不同服务器的负载情况对数据进行分布式存储,提高了存储服务器资源的利用率,使得数据的调用速度更快。速度更快。速度更快。

【技术实现步骤摘要】
一种大数据自适应存储方法


[0001]本专利技术涉及数据处理
,具体涉及一种大数据自适应存储方法。

技术介绍

[0002]随着科技的发展,大数据时代到来,大数据是指十分庞大的数据资料;例如一个互联网应用中的不同访问来源的日志数据,每天就可以达到一个十分巨大的数据量,但是其所携带的信息量对于人们来说又是十分需要的。所以对于大数据的管理和处理是十分必要的,例如大数据管理方式中最常应用到的大数据的存储。
[0003]常规的对于互联网应用中的不同访问来源的日志数据大数据采用的存储方式为基于日志产生的时序顺序而后水平切分进行分布式存储,这种存储方式对于后续数据的分析时进行数据的调用是十分麻烦的,具体表现在对于某些数据进行调用分析时,因为数据存储服务器的数据量的不同使得负载情况不同,而需要被调用的数据在负载较为严重的服务器中调用时,数据检索时间长过于麻烦,对于效率的影响极其严重。

技术实现思路

[0004]为了解决上述技术问题,本专利技术的目的在于提供一种大数据自适应存储方法,所采用的技术方案具体如下:对每一条互联网应用日志大数据进行结构化处理,得到对应的结构化数据,结构化数据包括开始访问时间、访问来源、访问对象、操作方式和结束访问时间;将设定时间内的所有结构化数据进行周期划分,得到多个周期数据;根据访问对象对每个周期数据中的结构化数据进行聚类,得到A个数据类别,一个数据类别对应一个访问对象,A为正整数;计算当前周期内每个访问来源对不同访问对象的贡献程度,统计当前周期数据内每个数据类别中结构化数据的总条数,以及每个数据类别中访问来源的总数量,结合贡献程度、总条数和总数量计算当前周期数据内每个访问对象的热度参数;基于每个周期数据内每个访问对象的热度参数,计算每个访问对象下对应每条互联网应用日志大数据的重要程度,结合重要程度和存储服务器的负载情况进行大数据的自适应存储。
[0005]进一步的,所述贡献程度的计算公式为:其中,为第个访问来源对于访问对象的贡献程度;为第个访问来源第i
次访问访问对象;为第个访问来源第次访问访问对象时所用的时间;为第个访问来源在当前周期数据内访问对象的最大次数;表示所有个访问对象中除第个访问对象外的剩余个访问对象中的第个访问对象;表示第个访问来源第次访问第个访问对象时所用的时间;表示第个访问来源在当前周期数据内第个访问对象的最大次数。
[0006]进一步的,所述热度参数的计算公式为:其中,表示第j个周期数据内访问对象的热度参数;表示第j个周期数据内数据类别下结构化数据的总条数;表示第j个周期数据内数据类别下访问来源的总数量;表示第个访问来源对于访问对象的贡献程度。
[0007]进一步的,所述重要程度的计算公式为:其中,表示访问对象下对应每条互联网应用日志大数据的重要程度;表示第个周期数据中访问对象的热度参数;表示第个周期数据中访问对象的热度参数;表示周期数据的数量。
[0008]本专利技术实施例至少具有如下有益效果:本专利技术根据互联网应用中日志数据大数据中进行分周期进行基于访问对象的聚类,而后对每个类别的数据根据其访问来源、访问时间以及访问频率等特征进行每个访问对象的热度参数计算,而后利用热度参数进行数据的重要程度计算,通过数据的重要程度结合不同服务器的负载情况对数据进行分布式存储,相较于现有的水平切分进行分布式存储而言,其独特的分配方式对于存储服务器资源的利用率更高,在进行数据调用的时候更加方便,调用速度更快。
附图说明
[0009]为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施
例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0010]图1为本专利技术一个实施例提供的一种大数据自适应存储方法的步骤流程图。
具体实施方式
[0011]为了更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种大数据自适应存储方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0012]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。
[0013]本专利技术所针对的情景为:在互联网应用中日志数据大数据的存储过程中,不同负载的服务器对用后续数据的调取影响程度较为严重,所以通过数据的重要程度结合不同服务器的负载情况对数据进行分布式存储来实现大数据的自适应存储。
[0014]下面结合附图具体的说明本专利技术所提供的一种大数据自适应存储方法的具体方案。
[0015]请参阅图1,其示出了本专利技术一个实施例提供的一种大数据自适应存储方法的步骤流程图,该方法包括以下步骤:步骤S001,对每一条互联网应用日志大数据进行结构化处理,得到对应的结构化数据,结构化数据包括开始访问时间、访问来源、访问对象、操作方式和结束访问时间。
[0016]具体的,因为互联网应用日志大数据的访问来源和访问对象不同以及操作方式不同,所以产生的日志数据为半结构化数据,对于本专利技术后续的处理计算量过大,需要多次重复检索数据进行有效信息的提取,所以对所有的互联网应用日志大数据进行结构化处理,即规定每一条互联网应用日志的结构,具体的结构化数据如下所示:开始访问时间+访问来源+访问对象+操作方式+结束访问时间利用上述结构对所有的互联网应用日志大数据进行结构化处理,可获得所有的互联网应用日志大数据的结构化数据。
[0017]步骤S002,将设定时间内的所有结构化数据进行周期划分,得到多个周期数据;根据访问对象对每个周期数据中的结构化数据进行聚类,得到A个数据类别,一个数据类别对应一个访问对象,A为正整数;计算当前周期内每个访问来源对不同访问对象的贡献程度,统计当前周期数据内每个数据类别中结构化数据的总条数,以及每个数据类别中访问来源的总数量,结合贡献程度、总条数和总数量计算当前周期数据内每个访问对象的热度参数。
[0018]具体的,步骤S001中对于所有的互联网应用访问日志大数据进行了结构化处理,但是此时的互联网应用访问日志大数据相对来说过于杂乱,具体表现在互联网应用访问日志大数据的记录是基于访问时序进行日志的生成记录,其由于对于不同的访问对象进行访问时,访问模式不同,访问来源不同,访问频率不同,访问时间的不同从而导致整体日志数
据散乱无章,不利于后续的数据的存储,所以需要对互联网应用访问日志大数据进行聚类,具体做法如下所示:首先对一定时间内的所有结构化数据进行周期的划分,即以一定的周期对进行等距时间划分,每个周期数据内都包含一定的结构化的数据,被周期划分后获得个周期数据,分别为:。
[0019]然后基于划分后的周期数据,统计每个周本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据自适应存储方法,其特征在于,该方法包括以下步骤:对每一条互联网应用日志大数据进行结构化处理,得到对应的结构化数据,结构化数据包括开始访问时间、访问来源、访问对象、操作方式和结束访问时间;将设定时间内的所有结构化数据进行周期划分,得到多个周期数据;根据访问对象对每个周期数据中的结构化数据进行聚类,得到A个数据类别,一个数据类别对应一个访问对象,A为正整数;计算当前周期内每个访问来源对不同访问对象的贡献程度,统计当前周期数据内每个数据类别中结构化数据的总条数,以及每个数据类别中访问来源的总数量,结合贡献程度、总条数和总数量计算当前周期数据内每个访问对象的热度参数;基于每个周期数据内每个访问对象的热度参数,计算每个访问对象下对应每条互联网应用日志大数据的重要程度,结合重要程度和存储服务器的负载情况进行大数据的自适应存储;所述贡献程度的计算公式为:其中,为第个访问来源对于访问对象的贡献程度;为第个访问来源第i...

【专利技术属性】
技术研发人员:崔明浩迟志超董超
申请(专利权)人:南通君合云起信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1