System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,特别涉及一种数据标准化的方法与装置。
技术介绍
1、商业智能领域应用的核心就是通过数据提取、整理、分析,最终通过分析结果制定有关策略和规划,达到资源的合理配置,节约成本提高效。
2、在大数据时代,各种数据来源和格式多种多样,数据的标准化是实现数据集成、数据分析和数据共享的基础。然而,传统的数据标准化方法往往需要耗费大量时间和人力,且容易受限于数据的结构和格式。
技术实现思路
1、本专利技术提供一种数据标准化的方法与装置,用以解决
技术介绍
中提出的问题。
2、一种数据标准化的方法,包括:
3、s1:从原始数据源中抽取需要标准化的原始数据,并对原始数据进行预处理,得到统一数据;
4、s2:基于统一数据的数据特征和数据模式识别得到统一数据的类型,字段和结构,并基于类型,字段和结构对统一数据进行归纳和分类,得到类型数据;
5、s3:基于数据标准化要求,定义数据标准化规则,并确定数据标准化规则应用至类型数据的应用规则;
6、s4:基于数据标准化规则,结合应用规则对类型数据进行数据标准化操作,得到标准化数据。
7、优选的,s1中,从原始数据源中抽取需要标准化的原始数据,包括:
8、根据业务需求获取需要抽取数据的数据标识,基于数据标识生成数据抽取队列;
9、将数据抽取队列与历史数据抽取对照表进行一一匹配,对匹配成功的数据抽取队列中的数据抽取信息赋予对应的抽取关键信息,对
10、基于抽取关键信息,按照数据抽取队列从原始数据源中进行数据抽取,得到原始数据。
11、优选的,s1中,对原始数据进行预处理,得到统一数据,包括:
12、对原始数据进行数据降维,并对降维后的原始数据进行相关性分析和特征提取分析;
13、基于特征提取分析结果对原始数据进行数据去重,得到第一预处理数据,基于相关性分析结果对第一预处理数据进行数据清洗,得到第二预处理数据;
14、对第二预处理数据进行数据识别,对同一实体包含的第二预处理数据进行合并得到第三预处理数据;
15、按照数据标准化数据格式对第三预处理数据进行数据格式转化,得到统一数据。
16、优选的,s2中,基于统一数据的数据特征和数据模式识别得到统一数据的类型,字段和结构,包括:
17、对统一数据从各个维度进行特征分析,得到数据特征;
18、从数据特征中获取关于逻辑维度的数据逻辑特征,基于数据逻辑特征确定统一数据的数据表之间的关系和数据的操作方式,基于数据表之间的关系和数据的操作方式确定统一数据之间的数据逻辑模式;
19、从数据特征中获取关于存储维度的数据存储特征,基于数据存储特征确定统一数据的存储格式和存取方式,基于存储格式和存取方式确定统一数据之间的数据物理模式;
20、从数据特征中获取关于业务维度的数据业务特征,基于数据业务特征确定统一数据的数据组织和数据结构,基于数据组织和数据结构确定统一数据之间的数据概念模式;
21、基于数据逻辑模式,数据物理模式和数据概念模式,得到统一数据的类型,字段和结构。
22、优选的,基于数据逻辑模式,数据物理模式和数据概念模式,得到统一数据的类型,字段和结构,包括:
23、分别基于数据逻辑模式,数据物理模式和数据概念模式,得到统一数据在对应模式的类型,字段和结构;
24、根据所有对应模式的类型,字段和结构之间的关联情况来对所有对应模式的类型,字段和结构进行整合,得到统一数据的类型,字段和结构。
25、优选的,s2中,基于类型,字段和结构对统一数据进行归纳和分类,得到类型数据,包括:
26、按照类型对统一数据进行归纳和分类,得到第一数据,按照字段对统一数据进行归纳和分类,得到第二数据,按照结构对统一数据进行归纳和分类,得到第三数据;
27、对第一数据,第二数据和第三数据进行综合归纳和分类,得到类型数据。
28、优选的,s3中,基于数据标准化要求,定义数据标准化规则,包括:
29、对数据标准化要求进行分析,确定数据结构标准化要求和数据指标数值标准化要求;
30、从数据元库中获取满足数据结构标准化要求的标准数据元,并从标准化数据元中获取定义对象,定义特性和定义表示;
31、基于类型数据的类型数据特征,分别从定义对象,定义特征和定义表示对应的第一映射规则库,第二映射规则库和第三映射规则库中获取与类型数据特征匹配度最高的第一映射规则,第二映射规则和第三映射规则;
32、基于第一映射规则,第二映射规则和第三映射规则,得到数据结构标准化规则;
33、获取类型数据在数据结构标准化规则下标准结构特征对应的初始指标数值特征;
34、基于数据指标数值标准化要求确定标准化指标数值特征,基于初始指标数值特征和标准化指标数值特征的特征差异,从指标处理方法数据库中获取满足特征差异的指标统一策略,从数值处理方法数据库中获取满足特征差异的数值统一策略;
35、将指标统一策略的数据对象与数值统一策略的数据对象进行关联,根据关联结果将指标统一策略和数值统一策略进行整合,得到指标数值统一化策略;
36、基于数据结构标准化规则和指标数值统一化策略组成数据标准化规则。
37、优选的,s3中,确定数据标准化规则应用至类型数据的应用规则,包括:
38、确定需要进行数据标准化的类型数据的标准化平台,确定所述标准化平台的数据处理属性和平台配置属性;
39、基于数据处理属性,从数据标准化规则中获取进行数据标准化所需的标准化规则参数;
40、基于平台配置属性,从标准化平台的配置数据库中获取进行数据标准化所需的平台配置参数;
41、基于数据处理属性和平台配置属性之间关于类型数据的属性关联,对标准化规则参数和平台配置参数进行参数关联,得到参数关联关系;
42、基于参数关联关系,建立标准化规则参数和平台配置参数之间的参数调用规则;
43、所述标准化规则参数和平台配置参数及其参数调用规则整合得到数据标准化规则应用至类型数据的应用规则。
44、优选的,s4中,基于数据标准化规则,结合应用规则对类型数据进行数据标准化操作,得到标准化数据,包括:
45、基于数据标准化规则,确定对类型数据标准化的操作流程;
46、基于应用规则,为对类型数据标准化的操作流程匹配对应的操作执行参数;
47、按照操作流程利用操作执行参数对类型数据进行标准化操作,得到标准化数据。
48、一种数据标准化的装置,包括:
49、数据抽取与预处理模块,用于从原始数据源中抽取需要标准化的原始数据,并对原始数本文档来自技高网...
【技术保护点】
1.一种数据标准化的方法,其特征在于,包括:
2.根据权利要求1所述的一种数据标准化的方法,其特征在于,S1中,从原始数据源中抽取需要标准化的原始数据,包括:
3.根据权利要求1所述的一种数据标准化的方法,其特征在于,S1中,对原始数据进行预处理,得到统一数据,包括:
4.根据权利要求1所述的一种数据标准化的方法,其特征在于,S2中,基于统一数据的数据特征和数据模式识别得到统一数据的类型,字段和结构,包括:
5.根据权利要求4所述的一种数据标准化的方法,其特征在于,基于数据逻辑模式,数据物理模式和数据概念模式,得到统一数据的类型,字段和结构,包括:
6.根据权利要求1所述的一种数据标准化的方法,其特征在于,S2中,基于类型,字段和结构对统一数据进行归纳和分类,得到类型数据,包括:
7.根据权利要求1所述的一种数据标准化的方法,其特征在于,S3中,基于数据标准化要求,定义数据标准化规则,包括:
8.根据权利要求1所述的一种数据标准化的方法,其特征在于,S3中,确定数据标准化规则应用至类型数据的应用规
9.根据权利要求1所述的一种数据标准化的方法,其特征在于,S4中,基于数据标准化规则,结合应用规则对类型数据进行数据标准化操作,得到标准化数据,包括:
10.一种数据标准化的装置,其特征在于,包括:
...【技术特征摘要】
1.一种数据标准化的方法,其特征在于,包括:
2.根据权利要求1所述的一种数据标准化的方法,其特征在于,s1中,从原始数据源中抽取需要标准化的原始数据,包括:
3.根据权利要求1所述的一种数据标准化的方法,其特征在于,s1中,对原始数据进行预处理,得到统一数据,包括:
4.根据权利要求1所述的一种数据标准化的方法,其特征在于,s2中,基于统一数据的数据特征和数据模式识别得到统一数据的类型,字段和结构,包括:
5.根据权利要求4所述的一种数据标准化的方法,其特征在于,基于数据逻辑模式,数据物理模式和数据概念模式,得到统一数据的类型,字段和结构,包括:
【专利技术属性】
技术研发人员:冯祥格,王广武,吴毅君,
申请(专利权)人:深圳市马博士网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。