用于数据处理的方法、装置和介质制造方法及图纸

技术编号:26173770 阅读:36 留言:0更新日期:2020-10-31 13:58
本公开的实施例涉及用于数据处理的方法、设备和计算机可读存储介质。一种用于数据处理的方法包括获取关于多个因素的观测样本集合,该观测样本集合中的一个观测样本包括多个因素的相应观测值。该方法还包括针对多个因素中的每个因素,基于观测样本集合来估计该因素的观测值与估计值之间的差所服从的分布。该方法还包括至少基于估计的分布来确定表示多个因素间的因果关系的因果结构。本公开的实施例还提供了能够实现上述方法的设备和计算机可读存储介质。本公开的实施例能够在不对数据分布和因素间的关系进行任何假设的情况下准确且鲁棒地发现多个因素间的因果关系,并基于该因果关系来影响目标因素的观测值。

【技术实现步骤摘要】
用于数据处理的方法、装置和介质
本公开的实施例涉及机器学习领域,并且更具体地,涉及用于数据处理的方法、装置和计算机可读存储介质。
技术介绍
随着信息技术的飞速发展,数据规模迅速增长。在这样的背景和趋势下,机器学习受到越来越广泛的关注。其中,因果发现在现实生活中具有广泛的应用,例如在供应链、医疗健康和零售等领域。在此所述的因果发现是指从关于多个因素的样本数据中发现多个因素间存在的因果关系。例如,在零售领域,因果发现的结果能够被用来辅助制定各种销售策略;在医疗健康领域,因果发现的结果能够被用来辅助制定对患者的治疗方案等。
技术实现思路
本公开的实施例提供了用于数据处理的方法、装置和计算机可读存储介质。在本公开的第一方面,提供一种用于数据处理的方法。该方法包括:获取关于多个因素的观测样本集合,该观测样本集合中的一个观测样本包括多个因素的相应观测值;针对多个因素中的每个因素,基于观测样本集合来估计该因素的观测值与该因素的估计值之间的差所服从的分布,该估计值基于多个因素中的至少一个其他因素的观测值和至少一个其他因素对该因素的影本文档来自技高网...

【技术保护点】
1.一种用于数据处理的方法,包括:/n获取关于多个因素的观测样本集合,所述观测样本集合中的一个观测样本包括所述多个因素的相应观测值;/n针对所述多个因素中的每个因素,基于所述观测样本集合来估计所述因素的观测值与所述因素的估计值之间的差所服从的分布,所述估计值基于所述多个因素中的至少一个其他因素的观测值和所述至少一个其他因素对所述因素的影响来确定;以及/n至少基于估计的所述分布来确定表示所述多个因素间的因果关系的因果结构。/n

【技术特征摘要】
1.一种用于数据处理的方法,包括:
获取关于多个因素的观测样本集合,所述观测样本集合中的一个观测样本包括所述多个因素的相应观测值;
针对所述多个因素中的每个因素,基于所述观测样本集合来估计所述因素的观测值与所述因素的估计值之间的差所服从的分布,所述估计值基于所述多个因素中的至少一个其他因素的观测值和所述至少一个其他因素对所述因素的影响来确定;以及
至少基于估计的所述分布来确定表示所述多个因素间的因果关系的因果结构。


2.根据权利要求1所述的方法,其中所述多个因素包括目标因素,并且所述方法还包括:
基于确定的所述因果结构,从所述多个因素中确定作为所述目标因素的原因的至少一个因素;以及
通过改变所述至少一个因素的观测值来影响所述目标因素的观测值。


3.根据权利要求2所述的方法,还包括:
获取关于所述多个因素的经改变的观测样本集合,所述经改变的观测样本集合中的至少一个观测样本包括所述至少一个因素的经改变的观测值;以及
基于所述经改变的观测样本集合,优化所述因果结构。


4.根据权利要求1所述的方法,其中估计所述分布包括:
估计所述至少一个其他因素对所述因素的所述影响;以及
基于所述影响、所述观测样本集合中的所述因素的观测值和所述至少一个其他因素的观测值来估计所述分布。


5.根据权利要求4所述的方法,其中估计所述影响包括:
使用B样条回归算法来估计所述影响。


6.根据权利要求4所述的方法,其中估计所述分布包括:
使用核密度估计算法来估计所述分布。


7.根据权利要求1所述的方法,其中所述分布不同于高斯分布。


8.根据权利要求1所述的方法,其中确定所述因果结构包括:
基于所述分布,生成用于确定所述因果结构的目标函数,所述目标函数不包括惩罚项;以及
通过使所述目标函数最小化来确定所述因果结构。


9.根据权利要求1所述的方法,其中所述因果结构利用有向无环图来表示,所述有向无环图包括与所述多个因素相对应的多个节点,并且确定所述因果结构包括:
基于所述分布,确定与所述多个因素中的多个因素对相关联的多个因果关系得分,其中所述多个因素对中的第一因素对的因果关系得分指示所述第一因素对中的一个因素是另一因素的原因的似然度;以及
迭代地执行以下操作,直到迭代次数达到阈值数目:
通过比较所述多个因果关系得分来确定所述多个因素对中与最大似然度相关联的第二因素对,所述第二因素对指示所述第二因素对中的第一因素是所述第二因素对中的第二因素的原因;
向所述有向无环图添加从对应于所述第一因素的第一节点指向对应于所述第二因素的第二节点的边缘;以及
更新所述多个因果关系得分中与所述第二因素相关联的一个或多个因果关系得分。


10.根据权利要求9所述的方法,其中所述阈值数目基于所述多个因素对的数目来确定。


11.根据权利要求9所述的方法,还包括:
从所述多个因素中确定可能存在因果关系的两个因素,以作为所述多个因素对之一。


12.根据权利要求9所述的方法,还包括:
使用稀疏回归算法对所述有向无环图中的边缘进行优化。


13.一种用于数据处理的装置,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述装置...

【专利技术属性】
技术研发人员:冯璐崔绿叶卫文娟刘春辰
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1