【技术实现步骤摘要】
一种用于数字资源使用建设的数据分析方法
[0001]本专利技术涉及数据库
,尤其是一种用于数字资源使用建设的数据分析方法。
技术介绍
[0002]数字资源库是一种在各行业被广泛使用的数据库。为了保证数据资源的实时性,需要定期对数字资源库进行更新。由于每次更新过程的数据量较大,导致更新过程速度较慢,影响到了数字资源库的使用便利性。
技术实现思路
[0003]本专利技术要解决的技术问题是提供一种用于数字资源使用建设的数据分析方法,能够解决现有技术的不足,提高数字资源库的数据更新速度。
[0004]为解决上述技术问题,本专利技术所采取的技术方案如下。
[0005]一种用于数字资源使用建设的数据分析方法,包括以下步骤:
[0006]A、对待用数据按照内容进行分类,然后对每类数据进行数据清洗;
[0007]B、建立经过步骤A处理后的数据的索引表,并通过添加外键将索引表与资源库索引表进行整合;
[0008]C、对整合后的资源库进行模拟运算,根据运算结果对步骤B整合后的资源库索
【技术保护点】
【技术特征摘要】
1.一种用于数字资源使用建设的数据分析方法,其特征在于包括以下步骤:A、对待用数据按照内容进行分类,然后对每类数据进行数据清洗;B、建立经过步骤A处理后的数据的索引表,并通过添加外键将索引表与资源库索引表进行整合;C、对整合后的资源库进行模拟运算,根据运算结果对步骤B整合后的资源库索引表进行更新。2.根据权利要求1所述的用于数字资源使用建设的数据分析方法,其特征在于:步骤A中,进行数据清洗包括以下步骤,A1、提取每类数据的敏感因子;A2、以相似度对敏感因子进行聚类分组,然后根据每组敏感因子的数量对同组的敏感因子赋予一个相同的优先级;A3、删除不包含敏感因子的数据;A4、对于包含敏感因子的数据,根据其包含的最高优先级的敏感因子进行分组;A5、对每组数据中的重复数据进行删除;A6、对剩余数据进行一次模拟运算,然后对剩余数据中的非最高优先级敏感因子进行互换,再进行一次模拟运算,对比两次模拟运算结果,将敏感因子互换前后模拟运算结果偏差小于设定阈值的数据进行合并;A7、重复步骤A6,直至没有符合合并条件的数据,结束。3.根据权利要求2所述的用于数字资源使用建设的数据分析方法,其特征在于:步骤A1中,提取每类数据的敏感因子包括以下步骤,A11、对数据内容进行标记,一个数据的标记数量大于等于2个;A12...
【专利技术属性】
技术研发人员:刘金梅,曲秋莳,李军,王小娟,张荐,
申请(专利权)人:北京交通运输职业学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。