System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种全周期数据治理方法、系统及存储介质技术方案_技高网

一种全周期数据治理方法、系统及存储介质技术方案

技术编号:40754711 阅读:5 留言:0更新日期:2024-03-25 20:09
本发明专利技术属于数据管理技术领域,涉及到一种全周期数据治理方法、系统及存储介质,本发明专利技术基于各数据针对目标企业数据库的录入价值系数、访问价值系数和关联价值系数,计算各数据针对目标企业数据库的综合价值评分,筛选出低于预设综合价值评分的各数据,生成目标企业数据库的低价值数据序列并反馈至目标企业数据库的管理员终端,完善现有方法针对企业数据库定期审查数据价值方面缺乏细致性工作的缺陷,既能够及时清理未访问、陈旧或关联性弱的数据,以减少数据库存储空间的占用,优化数据检索的效率,并避免这些数据对整体数据质量造成不良影响,又有效保留企业数据库内高价值数据,以满足企业在业务决策和数据分析方面的需求。

【技术实现步骤摘要】

本专利技术属于数据管理,涉及到一种全周期数据治理方法、系统及存储介质


技术介绍

1、现代社会面临着海量数据的持续增长,同时这些数据呈现出多样化的特点,包括结构化数据、半结构化数据和非结构化数据等。面对如此庞大和多样化的数据,传统的数据管理方式已经无法满足企业的需求,因此全周期数据治理应运而生。

2、企业现有数据治理方式虽已规避传统数据治理方式效率低下和难以持续开展的缺点,但仍存在局限性,其具体表现在:现有企业数据治理方法针对企业数据库定期审查数据价值方面缺乏细致性工作,导致企业数据库中存在大量未访问、陈旧或关联性弱的数据,这些数据未得到及时清理,占据了企业数据库的大量空间,从而降低了高价值数据的存储容量,此外尽管部分企业数据治理方法具备数据价值审查功能,但该功能的分析深度不够,无法从多维度、多层次深入挖掘数据库内数据的综合价值,从而可能导致一些较高价值的数据被误删,给企业造成不必要的损失。


技术实现思路

1、鉴于此,为解决上述
技术介绍
中所提出的问题,现提出一种全周期数据治理方法、系统及存储介质。

2、本专利技术的目的可以通过以下技术方案实现:本专利技术第一方面提供一种全周期数据治理方法,包括:s1.数据价值审查指令下发:在定期数据价值审查时间点向目标企业数据库下发数据价值审查指令。

3、s2.数据录入价值评估:接收数据价值审查指令,通过目标企业数据库的录入端获取各数据的录入信息,分析各数据针对目标企业数据库的录入价值系数。

4、s3.数据访问价值评估:通过目标企业数据库的访问端获取各数据的访问信息,分析各数据针对目标企业数据库的访问价值系数。

5、s4.数据关联价值评估:根据目标企业数据库内各数据的录入信息和访问信息,分析各数据针对目标企业数据库的关联价值系数。

6、s5.数据综合价值评分计算:基于各数据针对目标企业数据库的录入价值系数、访问价值系数和关联价值系数,计算各数据针对目标企业数据库的综合价值评分,筛选出低于预设综合价值评分的各数据,生成目标企业数据库的低价值数据序列。

7、s6.低价值数据序列反馈:将生成的低价值数据序列反馈至目标企业数据库的管理员终端。

8、优选地,所述录入信息包括各次录入的用户身份权限等级、存储数据表及其编号、录入日期、各数据项的数据类型、格式和取值。

9、访问信息包括各次访问的终端ip地址、用户身份权限等级、访问路径、访问日期、访问时长、执行操作类型和执行数据项数量。

10、优选地,所述分析各数据针对目标企业数据库的录入价值系数,包括:设定各数据的录入信息中各次录入的用户身份权限等级对应的录入权限影响权重,并将其作为目标企业数据库内各数据各次录入的身份价值影响权重δij,其中i为目标企业数据库内各数据的编号,i=1,2,...,a,j为各次录入的编号,j=1,2,...,b。

11、根据各数据的录入信息中各次录入的存储数据表编号,结合web云端存储的目标企业各类数据业务对应的存储数据表编号,得到各数据各次录入的存储数据表编号对应目标企业的数据业务类型,进而设定目标企业数据库内各数据各次录入的业务价值影响权重μij。

12、由公式得到目标企业数据库内各数据的基础录入价值指数。

13、根据各数据的录入信息中各次录入的各数据项的数据类型、格式和取值,分析目标企业数据库内各数据的录入质量指数βi。

14、根据各数据的录入信息中各次录入的录入日期tij,将数据各次录入与其前一次录入的录入日期作差,获取各数据各次录入的间隔天数δtij,并筛选出各数据最近一次录入的录入日期t′i,结合当天日期t0,计算目标企业数据库内各数据的录入时效指数φi,其中e为自然常数,b为数据录入次数。

15、由公式得到各数据针对目标企业数据库的录入价值系数。

16、优选地,所述分析目标企业数据库内各数据的录入质量指数,包括:根据各数据的录入信息中各次录入的各数据项的数据类型、格式和取值,结合web云端存储的目标企业数据库各类数据项的标准录入格式、限定有效域以及缺失显示值,筛选出各数据各次录入的各格式错误数据项、各取值错误数据项和各缺失数据项,统计各数据各次录入的数据项数量mij、格式错误数据项数量m′ij、取值错误数据项数量m″ij和缺失数据项数量nij,由公式得到目标企业数据库各数据的录入质量评估指数。

17、优选地,所述分析各数据针对目标企业数据库的访问价值系数,包括:根据各数据的访问信息中各次访问的终端ip地址,将其与web云端存储的目标企业信任终端ip地址名单进行比对,若某数据某次访问的终端ip地址处于目标企业信任终端ip地址名单内,则设定该数据该次访问的地址可信度为σ,反之设定为ε,得到目标企业数据库内各数据各次访问的地址可信度diw,diw=σ或ε,σ>ε,其中w为各次访问的编号,w=1,2,…,c。

18、根据各数据的访问信息中各次访问的用户身份权限等级,获取目标企业数据库内各数据各次访问的身份价值影响权重δ′iw。

19、由公式得到目标企业数据库内各数据的基础访问价值指数。

20、根据各数据的访问信息中各次访问的访问日期筛选各数据最近一次访问的访问日期ti″w,计算目标企业数据库内各数据的访问时效指数其中为目标企业数据库内第i个数据第w+1次访问的访问日期,为预设的数据访问合理间隔天数阈值,c为数据访问次数。

21、根据各数据的访问信息中各次访问的访问时长δtiw、执行操作类型和执行数据项数量viw,根据web云端存储的各类数据执行操作对应的执行深度,获取各数据各次访问的执行深度θiw,计算目标企业数据库内各数据的访问程度指数ki,

22、计算各数据针对目标企业数据库的访问价值系数fwi,

23、优选地,所述分析各数据针对目标企业数据库的关联价值系数,包括:根据各数据的录入信息中各次录入的存储数据表,提取各数据最近一次录入的存储数据表,将其记为各数据的参照存储数据表。

24、针对某数据的参照存储数据表,统计该数据的参照存储数据表的已录入数据数量,将其与1的差值作为该数据的一阶存储关联数据密度,结合web云端存储的共享存储数据表中数据间的关联深度,计算该数据的一阶存储关联指数y。

25、进一步获取该数据的参照存储数据表对应的各外键数据表,统计各外键数据表的已录入数据数量并进行累加,将累加结果作为该数据的二阶存储关联数据密度,结合web云端存储的主外键存储数据表数据间的关联深度,计算该数据的二阶存储关联指数r。

26、进一步获取同该数据的参照存储数据表使用相同索引的各存储数据表,记为该数据参照存储数据表的各索引关联数据表,统计各索引关联数据表的已录入数据数量并进行累加,将累加结果作为该数据的三阶存储关联数据密度,结合web云端存储的相同索引存储数据表数据间的关联深度,计算该数据的三阶存储关联指数s。...

【技术保护点】

1.一种全周期数据治理方法,其特征在于,包括:

2.根据权利要求1所述的一种全周期数据治理方法,其特征在于:所述录入信息包括各次录入的用户身份权限等级、存储数据表及其编号、录入日期、各数据项的数据类型、格式和取值;

3.根据权利要求2所述的一种全周期数据治理方法,其特征在于:所述分析各数据针对目标企业数据库的录入价值系数,包括:设定各数据的录入信息中各次录入的用户身份权限等级对应的录入权限影响权重,并将其作为目标企业数据库内各数据各次录入的身份价值影响权重δij,其中i为目标企业数据库内各数据的编号,i=1,2,...,a,j为各次录入的编号,j=1,2,...,b;

4.根据权利要求3所述的一种全周期数据治理方法,其特征在于:所述分析目标企业数据库内各数据的录入质量指数,包括:根据各数据的录入信息中各次录入的各数据项的数据类型、格式和取值,结合WEB云端存储的目标企业数据库各类数据项的标准录入格式、限定有效域以及缺失显示值,筛选出各数据各次录入的各格式错误数据项、各取值错误数据项和各缺失数据项,统计各数据各次录入的数据″′项数量mij、格式错误数据项数量mij、取值错误数据项数量mij和缺失数据项数量nij,由公式得到目标企业数据库各数据的录入质量评估指数。

5.根据权利要求3所述的一种全周期数据治理方法,其特征在于:所述分析各数据针对目标企业数据库的访问价值系数,包括:根据各数据的访问信息中各次访问的终端IP地址,将其与WEB云端存储的目标企业信任终端IP地址名单进行比对,若某数据某次访问的终端IP地址处于目标企业信任终端IP地址名单内,则设定该数据该次访问的地址可信度为σ,反之设定为ε,得到目标企业数据库内各数据各次访问的地址可信度diw,diw=σ或ε,σ>ε,其中w为各次访问的编号,w=1,2,...,c;

6.根据权利要求5所述的一种全周期数据治理方法,其特征在于:所述分析各数据针对目标企业数据库的关联价值系数,包括:根据各数据的录入信息中各次录入的存储数据表,提取各数据最近一次录入的存储数据表,将其记为各数据的参照存储数据表;

7.根据权利要求6所述的一种全周期数据治理方法,其特征在于:所述分析各数据针对目标企业数据库的关联价值系数,还包括:提取各数据的访问信息中各次访问的访问路径,对各数据各次访问的访问路径进行汇总解析,统计各数据汇总访问路径中各涉及访问组件的出现次数,将某数据汇总访问路径中出现次数大于1的各涉及访问组件记为该数据的各常规访问组件,整合生成该数据的常规访问组件序列,进而获取各数据的常规访问组件序列并一一进行比对,获取各数据间的常规访问组件序列相似度,据此获取各数据的各访问关联数据及其对应访问关联深度ηil,l为各访问关联数据的编号,l=1,2,...,z,计算各数据的访问关联价值系数fi,其中z为访问关联数据数量;

8.根据权利要求7所述的一种全周期数据治理方法,其特征在于:所述各数据针对目标企业数据库的综合价值评分的计算公式为:π为180°。

9.一种全周期数据治理系统,其特征在于,包括:

10.一种存储介质,其特征在于:所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任意一项所述的全周期数据治理方法中的步骤。

...

【技术特征摘要】

1.一种全周期数据治理方法,其特征在于,包括:

2.根据权利要求1所述的一种全周期数据治理方法,其特征在于:所述录入信息包括各次录入的用户身份权限等级、存储数据表及其编号、录入日期、各数据项的数据类型、格式和取值;

3.根据权利要求2所述的一种全周期数据治理方法,其特征在于:所述分析各数据针对目标企业数据库的录入价值系数,包括:设定各数据的录入信息中各次录入的用户身份权限等级对应的录入权限影响权重,并将其作为目标企业数据库内各数据各次录入的身份价值影响权重δij,其中i为目标企业数据库内各数据的编号,i=1,2,...,a,j为各次录入的编号,j=1,2,...,b;

4.根据权利要求3所述的一种全周期数据治理方法,其特征在于:所述分析目标企业数据库内各数据的录入质量指数,包括:根据各数据的录入信息中各次录入的各数据项的数据类型、格式和取值,结合web云端存储的目标企业数据库各类数据项的标准录入格式、限定有效域以及缺失显示值,筛选出各数据各次录入的各格式错误数据项、各取值错误数据项和各缺失数据项,统计各数据各次录入的数据″′项数量mij、格式错误数据项数量mij、取值错误数据项数量mij和缺失数据项数量nij,由公式得到目标企业数据库各数据的录入质量评估指数。

5.根据权利要求3所述的一种全周期数据治理方法,其特征在于:所述分析各数据针对目标企业数据库的访问价值系数,包括:根据各数据的访问信息中各次访问的终端ip地址,将其与web云端存储的目标企业信任终端ip地址名单进行比对,若某数据某次访问的终端ip地址处于目标企业信任终端ip地址名单内,则设定该数据该次访...

【专利技术属性】
技术研发人员:黄瀛周勃刘红霖李嘉黄武庆罗迪石琼玉黄旷叶植添李文特
申请(专利权)人:云宝宝大数据产业发展有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1