一种用于数字资源使用建设的数据分析方法技术

技术编号:33085685 阅读:14 留言:0更新日期:2022-04-15 10:48
本发明专利技术公开了一种用于数字资源使用建设的数据分析方法,包括以下步骤:A、对待用数据按照内容进行分类,然后对每类数据进行数据清洗;B、建立经过步骤A处理后的数据的索引表,并通过添加外键将索引表与资源库索引表进行整合;C、对整合后的资源库进行模拟运算,根据运算结果对步骤B整合后的资源库索引表进行更新。本发明专利技术能够改进现有技术的不足,提高数字资源库的数据更新速度。资源库的数据更新速度。资源库的数据更新速度。

【技术实现步骤摘要】
一种用于数字资源使用建设的数据分析方法


[0001]本专利技术涉及数据库
,尤其是一种用于数字资源使用建设的数据分析方法。

技术介绍

[0002]数字资源库是一种在各行业被广泛使用的数据库。为了保证数据资源的实时性,需要定期对数字资源库进行更新。由于每次更新过程的数据量较大,导致更新过程速度较慢,影响到了数字资源库的使用便利性。

技术实现思路

[0003]本专利技术要解决的技术问题是提供一种用于数字资源使用建设的数据分析方法,能够解决现有技术的不足,提高数字资源库的数据更新速度。
[0004]为解决上述技术问题,本专利技术所采取的技术方案如下。
[0005]一种用于数字资源使用建设的数据分析方法,包括以下步骤:
[0006]A、对待用数据按照内容进行分类,然后对每类数据进行数据清洗;
[0007]B、建立经过步骤A处理后的数据的索引表,并通过添加外键将索引表与资源库索引表进行整合;
[0008]C、对整合后的资源库进行模拟运算,根据运算结果对步骤B整合后的资源库索引表进行更新。
[0009]作为优选,步骤A中,进行数据清洗包括以下步骤,
[0010]A1、提取每类数据的敏感因子;
[0011]A2、以相似度对敏感因子进行聚类分组,然后根据每组敏感因子的数量对同组的敏感因子赋予一个相同的优先级;
[0012]A3、删除不包含敏感因子的数据;
[0013]A4、对于包含敏感因子的数据,根据其包含的最高优先级的敏感因子进行分组;
[0014]A5、对每组数据中的重复数据进行删除;
[0015]A6、对剩余数据进行一次模拟运算,然后对剩余数据中的非最高优先级敏感因子进行互换,再进行一次模拟运算,对比两次模拟运算结果,将敏感因子互换前后模拟运算结果偏差小于设定阈值的数据进行合并;
[0016]A7、重复步骤A6,直至没有符合合并条件的数据,结束。
[0017]作为优选,步骤A1中,提取每类数据的敏感因子包括以下步骤,
[0018]A11、对数据内容进行标记,一个数据的标记数量大于等于2个;
[0019]A12、对数据的标记位置内容进行随机替换,使用测试函数对替换前后的数据进行测试运算,计算两次运算结果的偏差度;
[0020]A13、重复步骤A12,每次执行步骤A12之前对数据的标记位置进行更换,直至偏差度超过预设阈值或重复次数达到预设次数,结束测试运算,选择偏差度最大的标记内容作
为敏感因子。
[0021]作为优选,步骤B中,建立经过步骤A处理后的数据的索引表包括以下步骤,
[0022]B11、建立每个数据所包含敏感因子的敏感因子集合,建立敏感因子集合与数据之间的关联函数;
[0023]B12、建立两级索引表,第一级索引表的对象为关联函数,采用分组方式存储,将关联函数根据相似度进行分组,第二级索引表的对象为敏感因子集合,采用队列方式存储;
[0024]B13、检索数据时,首先通过第二级索引表查找与目标数据的敏感因子集合相同和/或相似的敏感因子集合,然后通过第一级索引表查找与第二级索引表中敏感因子相关的关联函数,最后通过查找到的关联函数所在分组中的关联函数查找目标数据。
[0025]作为优选,步骤C中,对步骤B整合后的资源库索引表进行更新包括以下步骤,
[0026]C1、根据模拟运算结果更新敏感因子集合;
[0027]C2、根据更新后的敏感因子集合对第二级索引表进行更新。
[0028]采用上述技术方案所带来的有益效果在于:本专利技术通过提取敏感因子,使用敏感因子作为数据清洗的限制参数,有效降低了数据清洗过程对数据的检验运算量,同时提高了数据清洗的准确度。与此同时,在建立索引表的过程中,通过建立包含关联函数和敏感因子的两级索引结构,可以提高数据检索效率。另外,在每次对索引表进行更新时只需要对包含敏感因子集合的第二级索引表进行更新即可,更新运算量更低。
附图说明
[0029]图1是本专利技术一个具体实施方式的流程图。
具体实施方式
[0030]参照图1,本专利技术的一个具体实施方式包括以下步骤:
[0031]A、对待用数据按照内容进行分类,然后对每类数据进行数据清洗;
[0032]B、建立经过步骤A处理后的数据的索引表,并通过添加外键将索引表与资源库索引表进行整合;
[0033]C、对整合后的资源库进行模拟运算,根据运算结果对步骤B整合后的资源库索引表进行更新。
[0034]步骤A中,进行数据清洗包括以下步骤,
[0035]A1、提取每类数据的敏感因子;
[0036]A2、以相似度对敏感因子进行聚类分组,然后根据每组敏感因子的数量对同组的敏感因子赋予一个相同的优先级;
[0037]A3、删除不包含敏感因子的数据;
[0038]A4、对于包含敏感因子的数据,根据其包含的最高优先级的敏感因子进行分组;
[0039]A5、对每组数据中的重复数据进行删除;
[0040]A6、对剩余数据进行一次模拟运算,然后对剩余数据中的非最高优先级敏感因子进行互换,再进行一次模拟运算,对比两次模拟运算结果,将敏感因子互换前后模拟运算结果偏差小于设定阈值的数据进行合并;
[0041]A7、重复步骤A6,直至没有符合合并条件的数据,结束。
[0042]步骤A1中,提取每类数据的敏感因子包括以下步骤,
[0043]A11、对数据内容进行标记,一个数据的标记数量大于等于2个;
[0044]A12、对数据的标记位置内容进行随机替换,使用测试函数对替换前后的数据进行测试运算,计算两次运算结果的偏差度;
[0045]A13、重复步骤A12,每次执行步骤A12之前对数据的标记位置进行更换,直至偏差度超过预设阈值或重复次数达到预设次数,结束测试运算,选择偏差度最大的标记内容作为敏感因子。
[0046]步骤B中,建立经过步骤A处理后的数据的索引表包括以下步骤,
[0047]B11、建立每个数据所包含敏感因子的敏感因子集合,建立敏感因子集合与数据之间的关联函数;
[0048]B12、建立两级索引表,第一级索引表的对象为关联函数,采用分组方式存储,将关联函数根据相似度进行分组,第二级索引表的对象为敏感因子集合,采用队列方式存储;
[0049]B13、检索数据时,首先通过第二级索引表查找与目标数据的敏感因子集合相同和/或相似的敏感因子集合,然后通过第一级索引表查找与第二级索引表中敏感因子相关的关联函数,最后通过查找到的关联函数所在分组中的关联函数查找目标数据。
[0050]步骤C中,对步骤B整合后的资源库索引表进行更新包括以下步骤,C1、根据模拟运算结果更新敏感因子集合;
[0051]C2、根据更新后的敏感因子集合对第二级索引表进行更新。
[0052]本专利技术通过改进数据清洗的过程,有效提高了数字资源库的数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于数字资源使用建设的数据分析方法,其特征在于包括以下步骤:A、对待用数据按照内容进行分类,然后对每类数据进行数据清洗;B、建立经过步骤A处理后的数据的索引表,并通过添加外键将索引表与资源库索引表进行整合;C、对整合后的资源库进行模拟运算,根据运算结果对步骤B整合后的资源库索引表进行更新。2.根据权利要求1所述的用于数字资源使用建设的数据分析方法,其特征在于:步骤A中,进行数据清洗包括以下步骤,A1、提取每类数据的敏感因子;A2、以相似度对敏感因子进行聚类分组,然后根据每组敏感因子的数量对同组的敏感因子赋予一个相同的优先级;A3、删除不包含敏感因子的数据;A4、对于包含敏感因子的数据,根据其包含的最高优先级的敏感因子进行分组;A5、对每组数据中的重复数据进行删除;A6、对剩余数据进行一次模拟运算,然后对剩余数据中的非最高优先级敏感因子进行互换,再进行一次模拟运算,对比两次模拟运算结果,将敏感因子互换前后模拟运算结果偏差小于设定阈值的数据进行合并;A7、重复步骤A6,直至没有符合合并条件的数据,结束。3.根据权利要求2所述的用于数字资源使用建设的数据分析方法,其特征在于:步骤A1中,提取每类数据的敏感因子包括以下步骤,A11、对数据内容进行标记,一个数据的标记数量大于等于2个;A12...

【专利技术属性】
技术研发人员:刘金梅曲秋莳李军王小娟张荐
申请(专利权)人:北京交通运输职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1