一种多领域数据归档方法、装置、介质及设备制造方法及图纸

技术编号:38758064 阅读:43 留言:0更新日期:2023-09-10 09:43
本发明专利技术公开了一种多领域数据归档方法、装置、介质及设备。其中,方法包括:接收需要存档的原始数据,并通过预先构建的数据分类模型对原始数据进行分类,确定原始数据的数据类别;根据原始数据以及原始数据的数据格式类型,确定原始数据的数据类型;根据数据类型以及预先设定的多约束目标确定原始数据的最优压缩算法,通过压缩算法对原始数据进行压缩,生成压缩数据;将压缩数据存放在数据类型对应的子数据库中,其中子数据库为树形数据库的一个节点,树形数据库为根据数据不同领域和类型构建的。的。的。

【技术实现步骤摘要】
一种多领域数据归档方法、装置、介质及设备


[0001]本专利技术涉及数据归档
,并且更具体地,涉及一种多领域数据归档方法、装置、介质及设备。

技术介绍

[0002]随着时代的发展,各行各业产生的数据正在急速的增长,人们对于数据存档的需求也在逐渐增加,现在的数据存档方案通过为用户建立账户实现数据存储,但是这种存储方式效率低,并且不便于查找,如何实现数据分类归档成为现在亟待解决的技术问题。

技术实现思路

[0003]针对现有技术的不足,本专利技术提供一种多领域数据归档方法、装置、介质及设备。
[0004]根据本专利技术的一个方面,提供了一种多领域数据归档方法,包括:
[0005]接收需要存档的原始数据,并通过预先构建的数据分类模型对原始数据进行分类,确定原始数据的数据类别;
[0006]根据原始数据以及原始数据的数据格式类型,确定原始数据的数据类型;
[0007]根据数据类型以及预先设定的多约束目标确定原始数据的最优压缩算法,通过压缩算法对原始数据进行压缩,生成压缩数据;r/>[0008]将本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多领域数据归档方法,其特征在于,包括:接收需要存档的原始数据,并通过预先构建的数据分类模型对所述原始数据进行分类,确定所述原始数据的数据类别;根据所述原始数据以及所述原始数据的数据格式类型,确定所述原始数据的数据类型;根据所述数据类型以及预先设定的多约束目标确定所述原始数据的最优压缩算法,通过所述压缩算法对所述原始数据进行压缩,生成压缩数据;将所述压缩数据存放在所述数据类型对应的子数据库中,其中所述子数据库为树形数据库的一个节点,所述树形数据库为根据数据不同领域和类型构建的。2.根据权利要求1所述的方法,其特征在于,还包括:通过预设的监测算法实时监测数据库的响应时间,通过所述数据库的响应时间判断所述数据库的存储状态;在所述响应时间超过预设的时间阈值的情况下,将所述数据库中的数据按照存储日期进行排序;将预定数量的存储日期在前的存储数据转移至预先设定的历史数据库中。3.根据权利要求1所述的方法,其特征在于,所述数据分类模型的构建步骤如下:收集各个数据类别领域内的文档数据,所述文档数据中包括用于标记该领域数据类别的标记数据;对所有的所述文档数据进行特征提取,确定每个标记数据的特征向量;将所有的特征向量划分为训练数据集和测试数据集;利用机器学习算法对所述训练数据集进行训练,确定初始数据分类模型;根据所述测试训练集对所述初始数据分类模型进行测试调整,确定优化后的所述数据分类模型。4.根据权利要求3所述的方法,其特征在于,所述机器学习算法为Adaboost分类算法,利用机器学习算法对所述训练数据集进行训练,确定初始数据分类模型,包括:1)初始化权重w
i
;2)在所述初始化权重下利用所述训练数据集训练Adaboost分类器f
m
(x);3)计算加权类概率估计:;4)根据加权类概率估计计算基分类器h
m
(x):;5)根据所述基分类器h(x)更新权重w
i
到:;6)归一化权重;
7)迭代训练直至每一类数据的概率估计均大于或等于预设阈值,确定所述初始数据分类模...

【专利技术属性】
技术研发人员:石龙刘刚何立娟
申请(专利权)人:北京谷器数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1