一种数据分析方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:38269389 阅读:10 留言:0更新日期:2023-07-27 10:24
本申请实施例提出了一种数据分析方法、装置、电子设备和计算机存储介质,该方法包括:从观测数据集中获取训练数据集,所述训练数据集包括内生变量的第一真实值和能够影响所述内生变量的控制变量的第一取值;所述观测数据集包括与商品相关的数据的集合;将所述训练数据集输入到预测模型中进行训练,得到训练完成的预测模型,利用所述训练完成的预测模型对所述内生变量进行预测,得到内生变量预测值;利用所述内生变量预测值,对所述内生变量的因果关系进行分析。系进行分析。系进行分析。

【技术实现步骤摘要】
一种数据分析方法、装置、设备和计算机存储介质


[0001]本申请涉及计算机应用
,尤其涉及一种数据分析方法、装置、电子设备和计算机存储介质。

技术介绍

[0002]因果关系的推断对于企业制定战略计划非常关键。当前互联网行业内最常用的研究因果关系的工具是随机实验。然而,随机对照实验的时间和商业成本都很高,并且在很多场景并不适用;因此,如何利用非实验数据进行因果分析因此非常重要。
[0003]利用非实验数据推断因果关系需要面对的最大挑战是内生性(endogeneity),也称为混杂偏倚。因为一些混杂因素的影响,非实验数据中观测到相关性往往不等于因果关系。当数据量大,维度高的时候,识别和控制混杂因素变得更加困难,因此加剧了内生性问题,这个问题在学术界被称作维数灾难。
[0004]相关技术中,在高维数据环境中解决内生性问题有两类常用方法;第一类方法利用机器学习等方法从数据中估算倾向评分(propensity score),然后依照倾向评分从对照组中选出一个具有相同特征的子集,以便与实验组进行对比。这一类方法的局限是只适用于估算二元变量的因果影响,例如投放广告vs不投放广告,对连续变量无能为力,例如商品价格;另一类方法利用工具变量可以估算连续变量的因果效应,但是工具变量的选择依赖于专家和专业领域知识,因此难以将整个流程自动化。

技术实现思路

[0005]本申请提供一种数据分析方法、装置、电子设备和计算机存储介质。
[0006]本申请的技术方案是这样实现的:
[0007]本申请实施例提供了一种数据分析方法,所述方法包括:
[0008]从观测数据集中获取训练数据集,所述训练数据集包括内生变量的第一真实值和能够影响所述内生变量的控制变量的第一取值;所述观测数据集包括与商品相关的数据的集合;
[0009]将所述训练数据集输入到预测模型中进行训练,得到训练完成的预测模型,利用所述训练完成的预测模型对所述内生变量进行预测,得到内生变量预测值;
[0010]利用所述内生变量预测值,对所述内生变量的因果关系进行分析。
[0011]在一些实施例中,所述控制变量的第一取值包括:能够影响所述内生变量的历史数据和当前数据。
[0012]在一些实施例中,所述利用所述训练完成的预测模型对所述内生变量进行预测,得到内生变量预测值,包括:
[0013]从观测数据集中获取估计数据集,所述估计数据集包括所述内生变量的第二真实值和能够影响所述内生变量的控制变量的第二取值;将所述控制变量的第二取值输入到训练完成的预测模型中进行预测,得到内生变量预测值;
[0014]所述利用所述内生变量预测值,对所述内生变量的因果关系进行分析,包括:
[0015]将所述内生变量的第二真实值和所述内生变量预测值的差值作为工具变量,利用所述工具变量对所述内生变量的因果关系进行分析。
[0016]在一些实施例中,所述将所述训练数据集输入到预测模型中进行训练,得到训练完成的预测模型,包括:
[0017]将所述训练数据集分别输入到多个预测模型中进行训练,得到多个训练完成的预测模型。
[0018]在一些实施例中,所述利用所述训练完成的预测模型对所述内生变量进行预测,包括:
[0019]从观测数据集中获取测试数据集,将所述测试数据集分别输入到多个训练完成的预测模型,得到多个预测模型的均方误差;
[0020]从所述多个预测模型中选择均方误差最小的预测模型对所述内生变量进行预测。
[0021]在一些实施例中,所述内生变量包括二元变量和连续变量中的任意一项。
[0022]本申请实施例还提出了一种数据分析装置,所述装置包括获取模块、得到模块和分析模块,其中,
[0023]获取模块,用于从观测数据集中获取训练数据集,所述训练数据集包括内生变量的第一真实值和能够影响所述内生变量的控制变量的第一取值;所述观测数据集包括与商品相关的数据的集合;
[0024]得到模块,用于将所述训练数据集输入到预测模型中进行训练,得到训练完成的预测模型,利用所述训练完成的预测模型对所述内生变量进行预测,得到内生变量预测值;
[0025]分析模块,用于利用所述内生变量预测值,对所述内生变量的因果关系进行分析。
[0026]本申请实施例提供一种电子设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述一个或多个技术方案提供的数据分析方法。
[0027]本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后能够实现前述一个或多个技术方案提供的数据分析方法。
[0028]本申请实施例提出了一种数据分析方法、装置、电子设备和计算机存储介质,所述方法包括:从观测数据集中获取训练数据集,所述训练数据集包括内生变量的第一真实值和能够影响所述内生变量的控制变量的第一取值;所述观测数据集包括与商品相关的数据的集合;将所述训练数据集输入到预测模型中进行训练,得到训练完成的预测模型,利用所述训练完成的预测模型对所述内生变量进行预测,得到内生变量预测值;利用所述内生变量预测值,对所述内生变量的因果关系进行分析。
[0029]可以看出,本申请实施例提出了一种可以利用观测数据集中的非实验数据对内生变量的因果关系进行分析的方法,该方法采用随机实验的方法相比,可以降低时间和商业成本,并且适用于很多场景。此外,观测数据集中包括的数据与商品相关,可以说明从观测数据集中获取的训练数据集中的内生变量可能是与商品相关的连续变量,也可能是与商品相关的二元变量,可见,本申请实施例能够用于估算二元变量以及连续变量的因果关系;并且在估算连续变量的因果关系时,无需依赖于人工选择合适的工具变量,因而,能够实现因果关系分析流程的自动化。
附图说明
[0030]图1A是本申请实施例中的一种数据分析方法的流程示意图;
[0031]图1B是本申请实施例中的另一种数据分析方法的流程示意图;
[0032]图1C是本申请实施例中的一种利用训练完成的预测模型进行预测的流程示意图;
[0033]图2是本申请实施例的数据分析装置的组成结构示意图;
[0034]图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0035]以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本申请,并不用于限定本申请。另外,以下所提供的实施例是用于实施本申请的部分实施例,而非提供实施本申请的全部实施例,在不冲突的情况下,本申请实施例记载的技术方案可以任意组合的方式实施。
[0036]需要说明的是,在本申请实施例中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其它要素,或者是还包括为实施方法或者装置所固有的要素。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法,其特征在于,所述方法包括:从观测数据集中获取训练数据集,所述训练数据集包括内生变量的第一真实值和能够影响所述内生变量的控制变量的第一取值;所述观测数据集包括与商品相关的数据的集合;将所述训练数据集输入到预测模型中进行训练,得到训练完成的预测模型,利用所述训练完成的预测模型对所述内生变量进行预测,得到内生变量预测值;利用所述内生变量预测值,对所述内生变量的因果关系进行分析。2.根据权利要求1所述的方法,其特征在于,所述控制变量的第一取值包括:能够影响所述内生变量的历史数据和当前数据。3.根据权利要求1所述的方法,其特征在于,所述利用所述训练完成的预测模型对所述内生变量进行预测,得到内生变量预测值,包括:从观测数据集中获取估计数据集,所述估计数据集包括所述内生变量的第二真实值和能够影响所述内生变量的控制变量的第二取值;将所述控制变量的第二取值输入到训练完成的预测模型中进行预测,得到内生变量预测值;所述利用所述内生变量预测值,对所述内生变量的因果关系进行分析,包括:将所述内生变量的第二真实值和所述内生变量预测值的差值作为工具变量,利用所述工具变量对所述内生变量的因果关系进行分析。4.根据权利要求1所述的方法,其特征在于,所述将所述训练数据集输入到预测模型中进行训练,得到训练完成的预测模型,包括:将所述训练数据集分别输入到多个预测模型中进行训练,得到多个训练完成的预测模型。5.根据权利要求4所述的方法,其特征在于,所述利用所述训练完成的预测模型对所述内生变量进行预测,包括:从观测数据集中获取测试数据集,将所述测试数据集分别输入到多个训练完成的预测模型,得到多个预测模型的均方误差;从所述多个...

【专利技术属性】
技术研发人员:王泽南黎玉壽卡洛斯
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1