System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种因果关系数据湖构建方法、系统、电子设备及介质技术方案_技高网
当前位置: 首页 > 专利查询>南湖实验室专利>正文

一种因果关系数据湖构建方法、系统、电子设备及介质技术方案

技术编号:41269745 阅读:3 留言:0更新日期:2024-05-11 09:24
本发明专利技术公开一种因果关系数据湖构建方法、系统、电子设备及介质,涉及数据湖、因果推断和数据管理的技术领域。所述方法包括:获取数据湖中各因果分析来源表;将各因果分析来源表按照共同项进行合并得到合成来源表并存储在数据湖中;在所述合成来源表中挑选所有要进行因果分析的属性并调用因果算法包对所有要进行因果分析的属性的值进行因果分析得到多条因果边;根据各所述因果边的ID和预设全局唯一因果关系ID构建因果关系表和来源信息表并将所述因果关系表和所述来源信息表存储在数据湖中,实现因果关系数据湖构建。本发明专利技术可解决现有因果分析方法数据来源分散、分析效率低下,以及数据湖本身不具备数据间因果关系的问题。

【技术实现步骤摘要】

本专利技术涉及数据湖、因果推断和数据管理的,特别是涉及一种因果关系数据湖构建方法、系统、电子设备及介质


技术介绍

1、在数据驱动的决策过程中,了解因果关系对于分析和预测具有重要意义,现有的分析工具和方法在处理因果关系分析时面临数据来源分散、分析效率低下等问题。


技术实现思路

1、本专利技术的目的是提供一种因果关系数据湖构建方法、系统、电子设备及介质,可解决现有因果分析方法数据来源分散、分析效率低下,以及数据湖本身不具备数据间因果关系的问题。

2、为实现上述目的,本专利技术提供了如下方案:

3、一种因果关系数据湖构建方法,包括:

4、获取数据湖中各因果分析来源表;所述因果分析来源表为要进行因果分析的表;

5、将获取的各因果分析来源表按照共同项进行合并得到合成来源表并存储在数据湖中;所述合成来源表中包括所有属性的值;对于列级分析,所述属性包括合成来源表中所有内容为数值型的列对应的属性;对于字段级分析,所述属性包括合成来源表中内容为string类型的列对应的属性、string类型的内容以及所有内容为数值型的列对应的属性;

6、在所述合成来源表中挑选所有要进行因果分析的属性,并调用因果算法包对所有要进行因果分析的属性的值进行因果分析得到多条因果边;

7、根据各所述因果边的id和预设全局唯一因果关系id得到因果关系表中的信息和来源关系表中的信息,并将因果关系表中的信息增添到构建的因果关系表中,将来源关系表中的信息增添到构建的来源信息表中,且将所述因果关系表和所述来源信息表存储在数据湖中,实现因果关系数据湖构建。

8、可选的,所述因果算法包具体为:cdt工具包。

9、可选的,根据各所述因果边的id和预设全局唯一因果关系id得到因果关系表中的信息和来源关系表中的信息,并将因果关系表中的信息增添到构建的因果关系表中,将来源关系表中的信息增添到构建的来源信息表中,且将所述因果关系表和所述来源信息表存储在数据湖中,实现因果关系数据湖构建,之后还包括:

10、对于任意一个预设全局唯一因果关系id,调用dowhy算法包对所述因果关系表、所述来源信息表以及所有要进行因果分析的属性的值进行分析得到所述预设全局唯一因果关系id的因果关系评估结果和所述预设全局唯一因果关系id对应的每个因果边的因果关系强度;

11、根据每个预设全局唯一因果关系id的因果关系评估结果和每个预设全局唯一因果关系id对应的各因果边的因果关系强度重新挑选所有要进行因果分析的属性并构建新的因果边,并根据构建的新的因果边对因果关系表和来源信息表进行更新。

12、一种因果关系数据湖构建系统,包括:

13、获取模块,用于获取数据湖中各因果分析来源表;所述因果分析来源表为要进行因果分析的表;

14、合并模块,用于将获取的各因果分析来源表按照共同项进行合并得到合成来源表并存储在数据湖中;所述合成来源表中包括所有属性的值;对于列级分析,所述属性包括合成来源表中所有内容为数值型的列对应的属性;对于字段级分析,所述属性包括合成来源表中内容为string类型的列对应的属性、string类型的内容以及所有内容为数值型的列对应的属性;

15、因果关系分析模块,用于在所述合成来源表中挑选所有要进行因果分析的属性,并调用因果算法包对所有要进行因果分析的属性的值进行因果分析得到多条因果边;

16、因果关系数据湖构建模块,用于根据各所述因果边的id和预设全局唯一因果关系id得到因果关系表中的信息和来源关系表中的信息,并将因果关系表中的信息增添到构建的因果关系表中,将来源关系表中的信息增添到构建的来源信息表中,且将所述因果关系表和所述来源信息表存储在数据湖中,实现因果关系数据湖构建。

17、可选的,所述因果算法包具体为:cdt工具包。

18、可选的,所述因果关系数据湖构建系统,还包括:

19、因果关系评估模块,用于对于任意一个预设全局唯一因果关系id,调用dowhy算法包对所述因果关系表、所述来源信息表以及所有要进行因果分析的属性的值进行分析得到所述预设全局唯一因果关系id的因果关系评估结果和所述预设全局唯一因果关系id对应的每个因果边的因果关系强度;

20、修改模块,用于根据每个预设全局唯一因果关系id的因果关系评估结果和每个预设全局唯一因果关系id对应的各因果边的因果关系强度重新挑选所有要进行因果分析的属性并构建新的因果边,并根据构建的新的因果边对因果关系表和来源信息表进行更新。

21、一种电子设备,包括:

22、存储器和处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据上述所述的因果关系数据湖构建方法。

23、一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的因果关系数据湖构建方法。

24、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:

25、本专利技术将数据湖与因果算法包整合起来,利用数据湖强大的对多源异构数据的集成能力以及因果算法包对因果关系强大的分析和评估能力实现因果关系数据湖的构建,解决现有因果分析方法数据来源分散、分析效率低下,以及数据湖本身不具备数据间因果关系的问题。

本文档来自技高网...

【技术保护点】

1.一种因果关系数据湖构建方法,其特征在于,包括:

2.根据权利要求1所述的因果关系数据湖构建方法,其特征在于,所述因果算法包具体为:CDT工具包。

3.根据权利要求1所述的因果关系数据湖构建方法,其特征在于,根据各所述因果边的ID和预设全局唯一因果关系ID得到因果关系表中的信息和来源关系表中的信息,并将因果关系表中的信息增添到构建的因果关系表中,将来源关系表中的信息增添到构建的来源信息表中,且将所述因果关系表和所述来源信息表存储在数据湖中,实现因果关系数据湖构建,之后还包括:

4.一种因果关系数据湖构建系统,其特征在于,包括:

5.根据权利要求4所述的因果关系数据湖构建系统,其特征在于,所述因果算法包具体为:CDT工具包。

6.根据权利要求4所述的因果关系数据湖构建系统,其特征在于,还包括:

7.一种电子设备,其特征在于,包括:

8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的因果关系数据湖构建方法。

【技术特征摘要】

1.一种因果关系数据湖构建方法,其特征在于,包括:

2.根据权利要求1所述的因果关系数据湖构建方法,其特征在于,所述因果算法包具体为:cdt工具包。

3.根据权利要求1所述的因果关系数据湖构建方法,其特征在于,根据各所述因果边的id和预设全局唯一因果关系id得到因果关系表中的信息和来源关系表中的信息,并将因果关系表中的信息增添到构建的因果关系表中,将来源关系表中的信息增添到构建的来源信息表中,且将所述因果关系表和所述来源信息表存储在数据湖中,实现因果关系数据...

【专利技术属性】
技术研发人员:王琪刘昊张涛陈巍刘荫隆郁晨熹王朋刘哲峰陈志凌
申请(专利权)人:南湖实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1