System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据存储,具体是一种基于分布架构的大数据存储方法及系统。
技术介绍
1、用户的浏览数据是一类大数据,每个用户的数据都会存储于本地设备,一经删除,很难找回,而找回需求又是存在的,因此,数据提供方需要对用户的浏览数据进行短暂的集中存储,便于后续查找。
2、现有的很多云服务平台能够实际这一功能,比如wps软件,它可以将文档存储于云端,当用户想要找回数据时,可以直接查询,这一方案可以迁移运用至浏览数据的存储领域,但是,浏览数据的文件格式较为复杂,更新频率较高,采用现有的顺序存储架构,在后续数据应用过程中非常不便,比如检索,如何在成本一定的前提下,优化数据存储架构是本专利技术技术方案想要解决的技术问题。
技术实现思路
1、本专利技术的目的在于提供一种基于分布架构的大数据存储方法及系统,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:
3、一种基于分布架构的大数据存储方法,所述方法包括:
4、以动态表的数据结构实时统计每个用户的权限信息,基于统计的权限信息提取用户的浏览数据及其操作信息;其中,动态表用于表征每个用户的权限跳变信息;动态表中的每一行与每一个用户对应,每一列与时间对应;动态表中的各元素仅含有两种数值,表示两种跳变情况;
5、对用户的操作信息进行数据处理,确定浏览数据的个人热度;
6、实时统计所有用户的个人热度达到预先设定的热度阈值的浏览数据,构建全局热度表;
>7、基于全局热度表和浏览数据的个人热度对浏览数据进行分布式存储。
8、作为本专利技术进一步的方案:所述以动态表的数据结构实时统计每个用户的权限信息的步骤包括:
9、根据安装在用户端中的权限监测端口获取用户输入的权限调节信息;
10、当用户授予权限时,选取第一数值作为表格元素,当用户收回权限时,选取第二数值作为表格元素;其中,在生成表格元素时,记录时间;
11、建立动态表,根据动态表统计所有用户的表格元素;所述动态表的列数是时间增函数;
12、定时获取动态表中每一行的元素分布情况,根据所述元素分布情况更新每个用户的行数。
13、作为本专利技术进一步的方案:所述定时获取动态表中每一行的元素分布情况,根据所述元素分布情况更新每个用户的行数的步骤包括:
14、提取动态表中的行,遍历提取到的行,记录存在表格元素的列数,由列数确定时间;
15、根据时间构建方波曲线,对方波曲线进行加窗积分,根据积分结果确定每个用户的调节频率;
16、基于所述调节频率对行序进行重排;其中,调节频率越高,行数越小;
17、所述调节频率的确定规则为:式中,f为调节频率,为的增函数,x为方波曲线的因变量,[t1,t2]为时间窗。
18、作为本专利技术进一步的方案:所述对用户的操作信息进行数据处理,确定浏览数据的个人热度的步骤包括:
19、根据时间顺序排序浏览数据,获取浏览数据的数据格式;
20、根据数据格式确定浏览数据的内容提取方式,提取浏览数据的数据特征;
21、获取用户关于浏览数据的时长及操作,根据时长及操作确定每个数据特征的个人热度;
22、其中,所述个人热度的确定过程为:式中,h为个人热度,n为操作种类,oi为第i种操作对应的特征值,αi为第i种操作对应的权重,所述特征值和所述权重均为预先设定的值,t为用户关于浏览数据的时长。
23、作为本专利技术进一步的方案:所述根据数据格式确定浏览数据的内容提取方式,提取浏览数据的数据特征的步骤包括:
24、当数据格式为文本格式时,将浏览数据分割为词语,将词语转换为词向量并合并,得到向量簇,作为数据特征;
25、当数据格式为图像格式时,对浏览数据进行识物及文本提取,得到词语集,将词语集作为文本格式的浏览数据进行处理,得到向量簇,作为数据特征;
26、其中,合并规则为:根据任意两个词向量的相似度计算缩放比例,基于缩放比例对两个词向量中任一词向量进行缩放,得到合并后的向量;根据缩放比例对合并后的向量进行降序排列,得到向量簇。
27、作为本专利技术进一步的方案:所述实时统计所有用户的个人热度达到预先设定的热度阈值的浏览数据,构建全局热度表的步骤包括:
28、实时获取用户的每一浏览数据的个人热度,当所述个人热度达到预先设定的热度阈值时,读取对应的向量簇;
29、比对提取到的向量簇,对向量簇进行合并,同步计算每个向量簇的总热度;
30、根据所述总热度统计向量簇,构建全局热度表;
31、其中,对向量簇进行合并的过程为:
32、在两个待比对的向量簇中按顺序读取向量,比对向量,计算向量相似度;
33、根据预设的权重累加所述向量相似度,得到向量簇的相似度;
34、当向量簇的相似度达到预设的阈值时,计算顺序对应的两个向量的均值,得到合并后的向量簇;其中,当仅有一个向量时,保留该向量;权重的确定规则为:
35、式中,自变量为向量的次序,因变量为权重。
36、作为本专利技术进一步的方案:所述基于全局热度表和浏览数据的个人热度对浏览数据进行分布式存储的步骤包括:
37、基于全局热度表提取并存储每个用户的浏览数据;
38、对于剩余的浏览数据,根据个人热度确定存储顺序,存储浏览数据。
39、本专利技术技术方案还提供了一种基于分布架构的大数据存储系统,所述系统包括:
40、浏览数据提取模块,用于以动态表的数据结构实时统计每个用户的权限信息,基于统计的权限信息提取用户的浏览数据及其操作信息;其中,动态表用于表征每个用户的权限跳变信息;动态表中的每一行与每一个用户对应,每一列与时间对应;动态表中的各元素仅含有两种数值,表示两种跳变情况;
41、数据处理模块,用于对用户的操作信息进行数据处理,确定浏览数据的个人热度;
42、数据全局处理模块,用于实时统计所有用户的个人热度达到预先设定的热度阈值的浏览数据,构建全局热度表;
43、热度应用模块,用于基于全局热度表和浏览数据的个人热度对浏览数据进行分布式存储。
44、作为本专利技术进一步的方案:所述浏览数据提取模块包括:
45、权限获取单元,用于根据安装在用户端中的权限监测端口获取用户输入的权限调节信息;
46、表格元素构建单元,用于当用户授予权限时,选取第一数值作为表格元素,当用户收回权限时,选取第二数值作为表格元素;其中,在生成表格元素时,记录时间;
47、表格元素统计单元,用于建立动态表,根据动态表统计所有用户的表格元素;所述动态表的列数是时间增函数;
48、行数更新单元,用于定时获取动态表中每一行的元素分布情况,根据所述元素分布情况更新每个用户的行数。
本文档来自技高网...
【技术保护点】
1.一种基于分布架构的大数据存储方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于分布架构的大数据存储方法,其特征在于,所述以动态表的数据结构实时统计每个用户的权限信息的步骤包括:
3.根据权利要求2所述的基于分布架构的大数据存储方法,其特征在于,所述定时获取动态表中每一行的元素分布情况,根据所述元素分布情况更新每个用户的行数的步骤包括:
4.根据权利要求1所述的基于分布架构的大数据存储方法,其特征在于,所述对用户的操作信息进行数据处理,确定浏览数据的个人热度的步骤包括:
5.根据权利要求4所述的基于分布架构的大数据存储方法,其特征在于,所述根据数据格式确定浏览数据的内容提取方式,提取浏览数据的数据特征的步骤包括:
6.根据权利要求1所述的基于分布架构的大数据存储方法,其特征在于,所述实时统计所有用户的个人热度达到预先设定的热度阈值的浏览数据,构建全局热度表的步骤包括:
7.根据权利要求6所述的基于分布架构的大数据存储方法,其特征在于,所述基于全局热度表和浏览数据的个人热度对浏览数据进行分布式存储
8.一种基于分布架构的大数据存储系统,其特征在于,所述系统包括:
9.根据权利要求8所述的基于分布架构的大数据存储系统,其特征在于,所述浏览数据提取模块包括:
10.根据权利要求8所述的基于分布架构的大数据存储系统,其特征在于,所述数据处理模块包括:
...【技术特征摘要】
1.一种基于分布架构的大数据存储方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于分布架构的大数据存储方法,其特征在于,所述以动态表的数据结构实时统计每个用户的权限信息的步骤包括:
3.根据权利要求2所述的基于分布架构的大数据存储方法,其特征在于,所述定时获取动态表中每一行的元素分布情况,根据所述元素分布情况更新每个用户的行数的步骤包括:
4.根据权利要求1所述的基于分布架构的大数据存储方法,其特征在于,所述对用户的操作信息进行数据处理,确定浏览数据的个人热度的步骤包括:
5.根据权利要求4所述的基于分布架构的大数据存储方法,其特征在于,所述根据数据格式确定浏览数据的内容提取方式,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。