一种数据分析方法、装置、设备和计算机存储介质制造方法及图纸

技术编号：38269389 阅读：10 留言：0更新日期：2023-07-27 10:24

本申请实施例提出了一种数据分析方法、装置、电子设备和计算机存储介质，该方法包括：从观测数据集中获取训练数据集，所述训练数据集包括内生变量的第一真实值和能够影响所述内生变量的控制变量的第一取值；所述观测数据集包括与商品相关的数据的集合；将所述训练数据集输入到预测模型中进行训练，得到训练完成的预测模型，利用所述训练完成的预测模型对所述内生变量进行预测，得到内生变量预测值；利用所述内生变量预测值，对所述内生变量的因果关系进行分析。系进行分析。系进行分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据分析方法、装置、设备和计算机存储介质

[0001]本申请涉及计算机应用
，尤其涉及一种数据分析方法、装置、电子设备和计算机存储介质。

技术介绍

[0002]因果关系的推断对于企业制定战略计划非常关键。当前互联网行业内最常用的研究因果关系的工具是随机实验。然而，随机对照实验的时间和商业成本都很高，并且在很多场景并不适用；因此，如何利用非实验数据进行因果分析因此非常重要。
[0003]利用非实验数据推断因果关系需要面对的最大挑战是内生性(endogeneity)，也称为混杂偏倚。因为一些混杂因素的影响，非实验数据中观测到相关性往往不等于因果关系。当数据量大，维度高的时候，识别和控制混杂因素变得更加困难，因此加剧了内生性问题，这个问题在学术界被称作维数灾难。
[0004]相关技术中，在高维数据环境中解决内生性问题有两类常用方法；第一类方法利用机器学习等方法从数据中估算倾向评分(propensity score)，然后依照倾向评分从对照组中选出一个具有相同特征的子集，以便与实验组进行对比。这一类方法的局限是只适用于估算二元变量的因果影响，例如投放广告vs不投放广告，对连续变量无能为力，例如商品价格；另一类方法利用工具变量可以估算连续变量的因果效应，但是工具变量的选择依赖于专家和专业领域知识，因此难以将整个流程自动化。

技术实现思路

[0005]本申请提供一种数据分析方法、装置、电子设备和计算机存储介质。
[0006]本申请的技术方案是这样实现的：
[0007]本申...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法，其特征在于，所述方法包括：从观测数据集中获取训练数据集，所述训练数据集包括内生变量的第一真实值和能够影响所述内生变量的控制变量的第一取值；所述观测数据集包括与商品相关的数据的集合；将所述训练数据集输入到预测模型中进行训练，得到训练完成的预测模型，利用所述训练完成的预测模型对所述内生变量进行预测，得到内生变量预测值；利用所述内生变量预测值，对所述内生变量的因果关系进行分析。2.根据权利要求1所述的方法，其特征在于，所述控制变量的第一取值包括：能够影响所述内生变量的历史数据和当前数据。3.根据权利要求1所述的方法，其特征在于，所述利用所述训练完成的预测模型对所述内生变量进行预测，得到内生变量预测值，包括：从观测数据集中获取估计数据集，所述估计数据集包括所述内生变量的第二真实值和能够影响所述内生变量的控制变量的第二取值；将所述控制变量的第二取值输入到训练完成的预测模型中进行预测，得到内生变量预测值；所述利用所述内生变量预测值，对所述内生变量的因果关系进行分析，包括：将所述内生变量的第二真实值和所述内生变量预测值的差值作为工具变量，利用所述工具变量对所述内生变量的因果关系进行分析。4.根据权利要求1所述的方法，其特征在于，所述将所述训练数据集输入到预测模型中进行训练，得到训练完成的预测模型，包括：将所述训练数据集分别输入到多个预测模型中进行训练，得到多个训练完成的预测模型。5.根据权利要求4所述的方法，其特征在于，所述利用所述训练完成的预测模型对所述内生变量进行预测，包括：从观测数据集中获取测试数据集，将所述测试数据集分别输入到多个训练完成的预测模型，得到多个预测模型的均方误差；从所述多个...

【专利技术属性】
技术研发人员：王泽南，黎玉壽，卡洛斯，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人