基于实时模式的非结构化数据分布式存储方法和系统技术方案

技术编号:37089364 阅读:14 留言:0更新日期:2023-03-29 20:04
本发明专利技术提供基于实时模式的非结构化数据分布式存储方法和系统,在浏览过程中产生的所有浏览数据进行筛选,保留其中的有效浏览数据;以有效浏览数据的数据属性为基准,利用匹配的存储通道将有效浏览数据存储到合适的存储子空间,实现对有效浏览数据的分布式存储;还调整存储子空间的数据存储状态和进行存储数据合并处理,从而充分有效利用存储空间和准确快速地定位到相应的浏览数据。确快速地定位到相应的浏览数据。确快速地定位到相应的浏览数据。

【技术实现步骤摘要】
基于实时模式的非结构化数据分布式存储方法和系统


[0001]本专利技术涉及数据存储管理的
,特别涉及基于实时模式的非结构化数据分布式存储方法和系统。

技术介绍

[0002]用户在智能手机或者平板电脑上进行信息浏览时,会产生文档、图片、音频和视频等多种不同类型的数据,这些数据的结构并不是固定不变,因此被称为非结构化数据。为了对用户的信息浏览行为进行追踪,需要对信息浏览过程中产生的非结构化数据进行存储,便于后续有针对性查询每个信息浏览行为对应产生的非结构化数据。现有技术都是按照非结构化数据的产生时间对其进行存储,这种方式虽然能够减少存储的工作量,但是在后续查找所需非结构化数据时无法准确快速地定位到相应的数据,同时上述方式是在同一存储空间存储所有非结构化数据,无法实现对存储空间的有效充分利用。

技术实现思路

[0003]针对现有技术存在的缺陷,本专利技术提供基于实时模式的非结构化数据分布式存储方法和系统,其获取用户在浏览过程中发生的浏览事件对应产生的浏览数据,并从中筛选有效浏览数据;根据有效浏览数据的数据属性信息,确定在分布式存储空间对应的存储通道,并利用存储通道将有效浏览数据传输存储到相应的存储子空间;根据存储子空间的数据读取信息,调整其数据存储状态以及进行存储数据合并处理,其在浏览过程中产生的所有浏览数据进行筛选,保留其中的有效浏览数据;以有效浏览数据的数据属性为基准,利用匹配的存储通道将有效浏览数据存储到合适的存储子空间,实现对有效浏览数据的分布式存储;还调整存储子空间的数据存储状态和进行存储数据合并处理,从而充分有效利用存储空间和准确快速地定位到相应的浏览数据。
[0004]本专利技术提供基于实时模式的非结构化数据分布式存储方法,包括如下步骤:
[0005]步骤S1,对用户在终端上的信息浏览日志进行分析,确定用户在浏览过程中发生的浏览事件;根据所述浏览事件,获取用户在浏览过程中产生的浏览数据;对所有浏览数据进行识别处理,从中筛选得到有效浏览数据;
[0006]步骤S2,根据所述有效浏览数据的数据属性信息,确定每个有效浏览数据在分布式存储空间中对应的存储通道;将所述有效浏览数据进行预处理后,基于相应的存储通道,将所述有效浏览数据存储到相应的存储子空间;
[0007]步骤S3,根据所述存储子空间上的数据读取信息,调整所述存储子空间的数据存储状态;并且对经过数据存储状态调整的存储子空间进行存储数据合并处理。
[0008]进一步,在所述步骤S1中,对用户在终端上的信息浏览日志进行分析,确定用户在浏览过程中发生的浏览事件;根据所述浏览事件,获取用户在浏览过程中产生的浏览数据,包括:
[0009]根据用户的身份信息,在终端的信息浏览日志中选择相匹配的信息浏览历史记
录;
[0010]从所述信息浏览历史记录中提取得到用户在浏览过程中发生的满足预设条件的浏览事件;其中,所述预设条件包括浏览事件所对应的浏览目标类型;
[0011]根据所述浏览事件的发生时间,从终端对应的数据缓存空间中提取得到所述浏览事件对应产生的浏览数据。
[0012]进一步,在所述步骤S1中,对所有浏览数据进行识别处理,从中筛选得到有效浏览数据,包括:
[0013]从每个浏览数据中随机截取至少一个数据片段,对所述数据片段进行内容代码识别处理和病毒代码识别处理;
[0014]若所述数据片段存在内容乱码或存在病毒代码,则将对应的浏览数据确定为属于无效浏览数据;否则,将对应的浏览数据确定为属于有效浏览数据;
[0015]对每个有效浏览数据进行关于所述用户的身份信息的标识处理。
[0016]进一步,在所述步骤S2中,根据所述有效浏览数据的数据属性信息,确定每个有效浏览数据在分布式存储空间中对应的存储通道;将所述有效浏览数据进行预处理后,基于相应的存储通道,将所述有效浏览数据存储到相应的存储子空间,包括:
[0017]对所述有效浏览数据进行分析处理,确定所述有效浏览数据的数据类型信息,以此作为所述数据属性信息;
[0018]获取分布式存储空间中所有存储通道的历史数据传输信息,将所述历史数据传输信息与所述数据类型信息进行对比,确定每个有效浏览数据在分布式存储空间中对应的存储通道;
[0019]对所述有效浏览数据进行压缩打包处理,得到有效浏览数据包;
[0020]根据所述有效浏览数据对应的存储通道,确定所述存储通道在分布式存储空间中匹配的存储子空间,再将所述有效浏览数据包经过所述存储通道传输到所述存储子空间。
[0021]进一步,在所述步骤S3中,根据所述存储子空间上的数据读取信息,调整所述存储子空间的数据存储状态;并且对经过数据存储状态调整的存储子空间进行存储数据合并处理,包括:
[0022]获取所述存储子空间中每个有效浏览数据在预设时间长度内的被读取次数;若所述被读取次数小于预设次数阈值,则将对应的有效浏览数据从所述存储子空间删除;若所述被读取次数大于或等于预设次数阈值,则将对应的有效浏览数据继续保存在所述存储子空间;
[0023]获取经过数据存储状态调整的存储子空间当前的存储总数据量,若所述存储总数据量小于预设数据量阈值,则所述存储子空间当前存储的所有数据转移存储到分布式存储空间的其他存储子空间。
[0024]本专利技术还提供基于实时模式的非结构化数据分布式存储系统,包括:
[0025]浏览数据获取模块,用于对用户在终端上的信息浏览日志进行分析,确定用户在浏览过程中发生的浏览事件;根据所述浏览事件,获取用户在浏览过程中产生的浏览数据;
[0026]浏览数据筛选模块,用于对所有浏览数据进行识别处理,从中筛选得到有效浏览数据;
[0027]浏览数据分布式存储模块,用于根据所述有效浏览数据的数据属性信息,确定每
个有效浏览数据在分布式存储空间中对应的存储通道;将所述有效浏览数据进行预处理后,基于相应的存储通道,将所述有效浏览数据存储到相应的存储子空间;
[0028]数据存储调整模块,用于根据所述存储子空间上的数据读取信息,调整所述存储子空间的数据存储状态;并且对经过数据存储状态调整的存储子空间进行存储数据合并处理。
[0029]进一步,所述浏览数据获取模块用于对用户在终端上的信息浏览日志进行分析,确定用户在浏览过程中发生的浏览事件;根据所述浏览事件,获取用户在浏览过程中产生的浏览数据,包括:
[0030]根据用户的身份信息,在终端的信息浏览日志中选择相匹配的信息浏览历史记录;
[0031]从所述信息浏览历史记录中提取得到用户在浏览过程中发生的满足预设条件的浏览事件;其中,所述预设条件包括浏览事件所对应的浏览目标类型;
[0032]根据所述浏览事件的发生时间,从终端对应的数据缓存空间中提取得到所述浏览事件对应产生的浏览数据。
[0033]进一步,所述浏览数据筛选模块用于对所有浏览数据进行识别处理,从中筛选得到有效浏览数据,包括:
[0034]从每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于实时模式的非结构化数据分布式存储方法,其特征在于,包括如下步骤:步骤S1,对用户在终端上的信息浏览日志进行分析,确定用户在浏览过程中发生的浏览事件;根据所述浏览事件,获取用户在浏览过程中产生的浏览数据;对所有浏览数据进行识别处理,从中筛选得到有效浏览数据;步骤S2,根据所述有效浏览数据的数据属性信息,确定每个有效浏览数据在分布式存储空间中对应的存储通道;将所述有效浏览数据进行预处理后,基于相应的存储通道,将所述有效浏览数据存储到相应的存储子空间;步骤S3,根据所述存储子空间上的数据读取信息,调整所述存储子空间的数据存储状态;并且对经过数据存储状态调整的存储子空间进行存储数据合并处理。2.如权利要求1所述的基于实时模式的非结构化数据分布式存储方法,其特征在于:在所述步骤S1中,对用户在终端上的信息浏览日志进行分析,确定用户在浏览过程中发生的浏览事件;根据所述浏览事件,获取用户在浏览过程中产生的浏览数据,包括:根据用户的身份信息,在终端的信息浏览日志中选择相匹配的信息浏览历史记录;从所述信息浏览历史记录中提取得到用户在浏览过程中发生的满足预设条件的浏览事件;其中,所述预设条件包括浏览事件所对应的浏览目标类型;根据所述浏览事件的发生时间,从终端对应的数据缓存空间中提取得到所述浏览事件对应产生的浏览数据。3.如权利要求2所述的基于实时模式的非结构化数据分布式存储方法,其特征在于:在所述步骤S1中,对所有浏览数据进行识别处理,从中筛选得到有效浏览数据,包括:从每个浏览数据中随机截取至少一个数据片段,对所述数据片段进行内容代码识别处理和病毒代码识别处理;若所述数据片段存在内容乱码或存在病毒代码,则将对应的浏览数据确定为属于无效浏览数据;否则,将对应的浏览数据确定为属于有效浏览数据;对每个有效浏览数据进行关于所述用户的身份信息的标识处理。4.如权利要求1所述的基于实时模式的非结构化数据分布式存储方法,其特征在于:在所述步骤S2中,根据所述有效浏览数据的数据属性信息,确定每个有效浏览数据在分布式存储空间中对应的存储通道;将所述有效浏览数据进行预处理后,基于相应的存储通道,将所述有效浏览数据存储到相应的存储子空间,包括:对所述有效浏览数据进行分析处理,确定所述有效浏览数据的数据类型信息,以此作为所述数据属性信息;获取分布式存储空间中所有存储通道的历史数据传输信息,将所述历史数据传输信息与所述数据类型信息进行对比,确定每个有效浏览数据在分布式存储空间中对应的存储通道;对所述有效浏览数据进行压缩打包处理,得到有效浏览数据包;根据所述有效浏览数据对应的存储通道,确定所述存储通道在分布式存储空间中匹配的存储子空间,再将所述有效浏览数据包经过所述存储通道传输到所述存储子空间。5.如权利要求1所述的基于实时模式的非结构化数据分布式存储方法,其特征在于:在所述步骤S3中,根据所述存储子空间上的数据读取信息,调整所述存储子空间的数据存储状态;并且对经过数据存储状态调整的存储子空间进行存储数据合并处理,包括:
获取所述存储子空间中每个有效浏览数据在预设时间长度内的被读取次数;若所述被读取次数小于预设次数阈值,则将对应的有效浏览数据从所述存储子空间删除;若所述被读取次数大于或等于预设次数阈值,则将对应的有效浏览数据继续保存在所述存储子空间;获取经过数据存储状态调整的存储子空间当前的存储总数据量,若所述存储总数据量小于预设数据量阈值,则所述存储子空间当前存储的所有数据转移存储到分布式存储空间的其他存储子空间。6.基于实时模式的非...

【专利技术属性】
技术研发人员:余丹兰雨晴刘一凡贺江
申请(专利权)人:慧之安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1