一种大数据自适应存储方法技术

技术编号：35498734 阅读：11 留言：0更新日期：2022-11-05 17:02

本发明专利技术涉及数据处理技术领域，具体涉及一种大数据自适应存储方法，该方法获取每条互联网应用日志大数据的结构化数据；对所有结构化数据进行周期划分，得到多个周期数据，根据访问对象对每个周期数据中的结构化数据进行聚类，得到A个数据类别，基于每个数据类别对应访问对象计算每个周期数据内每个访问对象的热度参数；基于热度参数计算每个访问对象下对应每条互联网应用日志大数据的重要程度，结合重要程度和存储服务器的负载情况进行大数据的自适应存储。本方案根据数据的重要程度结合不同服务器的负载情况对数据进行分布式存储，提高了存储服务器资源的利用率，使得数据的调用速度更快。速度更快。速度更快。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据自适应存储方法

[0001]本专利技术涉及数据处理
，具体涉及一种大数据自适应存储方法。

技术介绍

[0002]随着科技的发展，大数据时代到来，大数据是指十分庞大的数据资料；例如一个互联网应用中的不同访问来源的日志数据，每天就可以达到一个十分巨大的数据量，但是其所携带的信息量对于人们来说又是十分需要的。所以对于大数据的管理和处理是十分必要的，例如大数据管理方式中最常应用到的大数据的存储。
[0003]常规的对于互联网应用中的不同访问来源的日志数据大数据采用的存储方式为基于日志产生的时序顺序而后水平切分进行分布式存储，这种存储方式对于后续数据的分析时进行数据的调用是十分麻烦的，具体表现在对于某些数据进行调用分析时，因为数据存储服务器的数据量的不同使得负载情况不同，而需要被调用的数据在负载较为严重的服务器中调用时，数据检索时间长过于麻烦，对于效率的影响极其严重。

技术实现思路

[0004]为了解决上述技术问题，本专利技术的目的在于提供一种大数据自适应存储方法，所采用的技术方案具体如下：对每一条互联网应用日志大数据进行结构化处理，得到对应的结构化数据，结构化数据包括开始访问时间、访问来源、访问对象、操作方式和结束访问时间；将设定时间内的所有结构化数据进行周期划分，得到多个周期数据；根据访问对象对每个周期数据中的结构化数据进行聚类，得到A个数据类别，一个数据类别对应一个访问对象，A为正整数；计算当前周期内每个访问来源对不同访问对象的贡献程度，统计当前周期数据内每个数据类别中结构化数据的...

【技术保护点】

【技术特征摘要】
1.一种大数据自适应存储方法，其特征在于，该方法包括以下步骤：对每一条互联网应用日志大数据进行结构化处理，得到对应的结构化数据，结构化数据包括开始访问时间、访问来源、访问对象、操作方式和结束访问时间；将设定时间内的所有结构化数据进行周期划分，得到多个周期数据；根据访问对象对每个周期数据中的结构化数据进行聚类，得到A个数据类别，一个数据类别对应一个访问对象，A为正整数；计算当前周期内每个访问来源对不同访问对象的贡献程度，统计当前周期数据内每个数据类别中结构化数据的总条数，以及每个数据类别中访问来源的总数量，结合贡献程度、总条数和总数量计算当前周期数据内每个访问对象的热度参数；基于每个周期数据内每个访问对象的热度参数，计算每个访问对象下对应每条互联网应用日志大数据的重要程度，结合重要程度和存储服务器的负载情况进行大数据的自适应存储；所述贡献程度的计算公式为：其中，为第个访问来源对于访问对象的贡献程度；为第个访问来源第i...

【专利技术属性】
技术研发人员：崔明浩，迟志超，董超，
申请(专利权)人：南通君合云起信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人