System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据融合方法与系统技术方案_技高网

一种数据融合方法与系统技术方案

技术编号:40388745 阅读:6 留言:0更新日期:2024-02-20 22:21
本发明专利技术公开了一种数据融合方法与系统,包括步骤接入数据源、数据表创建、数据抽取、数据处理、数据导入、数据融合;涉及数据融合技术领域,通过可以将业务系统中的数据提取并进行处理,最终生成对业务实际有用的数据;该流程具有高效、准确和可靠的特点,能够满足大数据量下的数据处理需求,通过在数据融合之前,提前进行数据切片,可以获取数据的子集,从而更方便地针对特定数据进行详细分析和处理,这有助于减少数据分析的工作量,提高效率,通过Spark数据实时处理框架和DataFrame API技术,将中心前置机的数据抽取到标准库中,并对数据进行预处理,不仅可以提高数据处理的效率,也可以提高数据分析的准确性。

【技术实现步骤摘要】

本专利技术涉及数据融合,具体涉及一种数据融合方法与系统


技术介绍

1、数据融合是一种将来自不同来源的数据整合在一起的技术和方法。它的目标是通过将多个数据源的信息进行整合和分析,提供更全面、准确和有用的信息。数据融合可以应用于各个领域,如商业智能、医疗保健、金融等。

2、在实际应用中,数据融合面临一些挑战和缺点。首先,由于涉及多个数据源和多种数据类型,数据融合的复杂性较高。不同数据源的数据质量可能存在差异,包括准确性、完整性和一致性等方面的问题。如果低质量的数据被融合到分析中,可能会导致不准确的结果和决策;其次,不同数据源中的数据可能使用不同的数据模型、格式和命名约定。这给数据融合带来了一致性问题,需要解决这些问题以建立一致的视图;另外,随着数据量的增加,数据融合系统可能会遇到可伸缩性问题。设计和实施能够处理大规模数据的解决方案是一个重要的考虑因素。

3、综上所述,数据融合技术需要在综合考虑数据质量、安全性、一致性、性能和成本等因素的基础上,采取适当的策略和措施来解决这些挑战。


技术实现思路

1、本专利技术的目的在于提供一种数据融合方法与系统,解决了
技术介绍
中所提出的技术问题。

2、本专利技术的目的可以通过以下技术方案实现:

3、一种数据融合方法,包括以下步骤:

4、第一步、接入数据源

5、将业务系统的数据源1、数据源2、数据源3、...数据源n接入中心前置机;

6、第二步、数据表创建

7、中心前置机依据数据源创建1:1的数据纳入表,同时将数据纳入表与各个数据源之间建立映射关系;

8、第三步、数据抽取

9、将各个数据源中对应的业务数据抽取至数据纳入表的对应位置,同时依据各个数据源中业务数据的生成和更新规律,将业务系统中新增的业务数据抽取到中心前置机的数据纳入表中;

10、第四步、数据处理

11、对数据纳入表中的业务数据进行标准化转换、检查修正以及缺失信息填充处理,接着将预处理后的业务数据抽取至标准库中;

12、其中,标准化转换为通过预训练标准转换字典将业务数据转换为标准的数据,检查修正通过dataframe api技术实现,缺失信息填充为依据预先指定的唯一识别码,提取缺失内容对应的信息并填入;

13、第五步、数据导入

14、将中心前置机中经过数据处理后的业务数据对应的数据纳入表储存至标准储存库;

15、第六步、数据融合

16、依据数据提取者的业务数据提取需求,从标准储存库中提取各个数据处理后的业务数据至融合库,并进行融合,随之生成数据融合提取表。

17、作为本专利技术进一步的方案:在第四步中,标准化转换的方式为:

18、首先数据纳入表中的各个字段预定义相应的标准转换字典,其中该标准转换字典包含了多个固定字典值作为相应字段的标准翻译;

19、接着遍历数据纳入表包含相应字段的内容,再通过使用字典的get()方法,获取每个字段的标准翻译。

20、作为本专利技术进一步的方案:在第四步中,检查修正的方式如下:

21、s41、利用dataframe api的na函数来检查相应字段中数据的空值,并选择删除或者填充空值,其中,空值表示缺失、未知或不适用的字段数据;

22、s42、利用dataframe api的dtypes函数来检查相应字段的数据类型,若数据类型不符合要求,则将对应业务数据转换为指定数据类型;

23、s43、利用dataframe api的from_unixtime函数来将时间戳转换为日期格式;

24、s44、利用dataframe api的between函数来检查相应字段数据的范围,若该数据超出范围,则选择删除或者填充数据。

25、作为本专利技术进一步的方案:在第四步中,缺失信息填充的方式如下:

26、在相应字段数据缺失时,通过身份证号作为唯一识别码,从其他经过确权的数据源中提取相应字段的内容,并填充至当前字段位置。

27、作为本专利技术进一步的方案:在第六步中,标准储存库内数据提取方式为通过sql语句或者编程语言对数据进行筛选、排序、分组操作,以获取所需的信息。

28、作为本专利技术进一步的方案:在数据融合时,还用于对所有数据纳入表进行切片处理,其切片处理方式如下:

29、步骤一、在多个数据纳入表中,选择区分性高的字段作为数据切片主字段,同时将其作为数据切片子集;

30、步骤二、将业务数据提取需求分别与多个数据切片子集进行匹配,依据匹配结果,获得相应的结果集:

31、步骤三、随后将所有对应的结果集存入数据融合库。

32、作为本专利技术进一步的方案:步骤二中的匹配方式如下:

33、选取一个数据切片子集;

34、若其匹配结果一致,则将业务数据提取需求对应的数值或区间与数据切片主字段对应的字典值进行映射;

35、当查询的数值或区间落在某一个切片内,则只加载该切片的数据,并将其作为结果集;

36、当查询的数值或区间落在两个或多个切片中,则加载这些切片的数据,并将其作为结果集;

37、当查询的数值或区间落在所有切片中,则加载所有切片的数据,即整张数据纳入表;同时表示本次切片失败;

38、当查询的数值或区间落在所有切片之外,则表示本次提取融合无效;

39、若其匹配结果不一致,则调换数据切片主字段。

40、本方法还用于在检查修正的过程中,对各个数据纳入表进行异常检测,其方式如下:

41、选取一个数据纳入表;

42、获取数据纳入表所有字段数量,通过dataframe api技术对各个字段先进行检查且不进行修正;

43、随后获取检查出各个异常结果的对应字段及其对应的数量;

44、其中,各个异常结果表示为对应字段中含有空值、不符合要求的数据类型、数据超出范围;

45、再将各个异常结果对应字段的数量标记为yi,i=1、2、……n,n表示异常结果的种类数;

46、接着通过,计算出该数据纳入表的字段异常分析值cz;

47、其中,βi表示各个异常结果对应预设的比例系数,i=1、2、……n;

48、随后将字段异常分析值cz与预设的异常阈值cy进行比较:

49、若cz≥cy,则表示该数据纳入表与对应数据源之间的数据映射状态异常,随后重新通过建立相应的数据纳入表,并将相应数据源中对应的业务数据抽取至数据纳入表的对应位置;

50、若cz<cy,则表示该数据纳入表与对应数据源之间的数据映射状态正常,随后通过dataframe api技术对各个字段进行修正;

51、一种数据融合系统,该系统用于实现所述的一种数据融合方法。

52、本专利技术的有益效果:

<本文档来自技高网...

【技术保护点】

1.一种数据融合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种数据融合方法,其特征在于,在第三步中,标准化转换的方式为:

3.根据权利要求1所述的一种数据融合方法,其特征在于,在第三步中,检查修正的方式如下:

4.根据权利要求1所述的一种数据融合方法,其特征在于,本方法还用于在检查修正的过程中,对各个数据纳入表进行异常检测,其方式如下:

5.根据权利要求1所述的一种数据融合方法,其特征在于,在第三步中,缺失信息填充的方式如下:

6.根据权利要求1所述的一种数据融合方法,其特征在于,在第四步中,标准储存库内数据提取方式为通过SQL语句或者编程语言对数据进行筛选、排序、分组操作,以获取所需的信息。

7.根据权利要求1所述的一种数据融合方法,其特征在于,在数据融合时,还用于对所有数据纳入表进行切片处理,其切片处理方式如下:

8.根据权利要求7所述的一种数据融合方法,其特征在于,步骤二中的匹配方式如下:

9.根据权利要求8所述的一种数据融合方法,其特征在于,若其匹配结果不一致,则调换数据切片主字段。

10.一种数据融合系统,其特征在于,该系统通过权利要求1-9任一项所述的一种数据融合方法实现。

...

【技术特征摘要】

1.一种数据融合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种数据融合方法,其特征在于,在第三步中,标准化转换的方式为:

3.根据权利要求1所述的一种数据融合方法,其特征在于,在第三步中,检查修正的方式如下:

4.根据权利要求1所述的一种数据融合方法,其特征在于,本方法还用于在检查修正的过程中,对各个数据纳入表进行异常检测,其方式如下:

5.根据权利要求1所述的一种数据融合方法,其特征在于,在第三步中,缺失信息填充的方式如下:

6.根据权利要求1所述的一种数据融合方法,其特征在于,...

【专利技术属性】
技术研发人员:叶士飞沈鸣飞何亮刘少梁蒋晓军
申请(专利权)人:苏州元澄科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1