【技术实现步骤摘要】
利用网格互信息快速计算提高化工大数据建模速度的方法
本专利技术属于信息学理论领域,涉及一种利用网格互信息快速计算提高化工大数据建模速度的方法。
技术介绍
互信息是一个来源于信息理论背景的概念。在信息论中,互信息是一种评估了两个变量间的相互依赖性的统计量,它考虑了变量之间的线性相关和非线性关系。因此,通常用于特征选择或衡量变量间的相关性。具体地,对于两个随机变量x1和x2,互信息定义为:其中P(x1,x2)为联合概率密度。P(x1)和P(x2)分别为x1和x2的边缘概率密度。由上述公式可知,互信息的计算首先应求取两个变量的边缘概率密度以及联合概率密度。而概率密度一般通过直方图来计算。常规互信息的计算通常使用固定宽度间隔的直方图来计算联合概率密度和边际概率密度。但直方图中的固定间隔可能会对某些分布类型的数据造成显著的计算负担,会花费大量的时间以及计算成本,尤其是在大数据或是数据分布极端不均情况下此种负担更为突出,甚至会出现超出计算机内存或卡顿现象。比如,当一部分数据的分布较密集点很远,此时为了计算这少部分 ...
【技术保护点】
1.一种利用网格互信息快速计算提高化工大数据建模速度的方法,其特征在于,内容包括以下步骤:/n在得到数据后,确定一个合适给定的网格宽度参数,利用以下公式确定间隔:/nN
【技术特征摘要】
1.一种利用网格互信息快速计算提高化工大数据建模速度的方法,其特征在于,内容包括以下步骤:
在得到数据后,确定一个合适给定的网格宽度参数,利用以下公式确定间隔:
Nm=N0(1-β)m,
其中N0是总体样本数,Nm是第m次迭代时的样本数,β是给定参数;它也可以用作停止迭代的阈值,当Nm小于N0β时迭代将停止;在每次迭代中,Nm样本中的最大欧几里德距离被用作间隔的宽度;
获得网格后可作直方图,以此来获得化工大数据的概率密度;
根据概率密度计算得到互信息;
利用互信息作为参数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。