一种双变量相关性度量方法技术

技术编号:10124383 阅读:225 留言:0更新日期:2014-06-12 14:59
本发明专利技术公开了一种双变量相关性度量方法。使用本发明专利技术能够在保持MIC方法两个重要特性的前提下,更加逼近于MIC的真实值,更能反映真实的两个变量之间的相关度。本发明专利技术对MIC方法进行改进,通过二次寻优的方法改变Y轴的划分方式,从均分Y轴的信息得到X轴最优化的信息,再去寻找Y轴优化的信息,在合理的时间内,找到比原方法更优的解,获得双变量相关度的更加精确的值,从而在信息判断时更精确,更贴合实际。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了。使用本专利技术能够在保持MIC方法两个重要特性的前提下,更加逼近于MIC的真实值,更能反映真实的两个变量之间的相关度。本专利技术对MIC方法进行改进,通过二次寻优的方法改变Y轴的划分方式,从均分Y轴的信息得到X轴最优化的信息,再去寻找Y轴优化的信息,在合理的时间内,找到比原方法更优的解,获得双变量相关度的更加精确的值,从而在信息判断时更精确,更贴合实际。【专利说明】
本专利技术涉及相关性度量方法,具体涉及。
技术介绍
在进行信息分析、信息推荐及信息预测时,由于数据量庞大,在一个大数据集中,如何有效地辨识变量之间的潜在关系显得尤为重要。例如在对世界健康组织的数据进行分析时,判断人的健康系数与什么变量的关系最紧密,是饮食习惯、睡眠规律还是其他因素?在互联网信息推荐时,如何根据一些用户的浏览记录、关注内容判断另一些用户感兴趣的信息?市场分析时,如何根据以往市场分析报告找出市场波动的影响因素,从而根据这些因素的现状预测下一阶段的市场动态?变量之间的相关度获取是否准确至关重要。2011年,David N.Reshef以及Yakir A.Reshef等人在《Science》杂志上发表了题为“DetectingNovel Associations in Large Data Sets”的文章,提出了一种双变量的相关性的度量方法——MIC,该方法使用类拟合的思想,使用网格包围双变量在平面直角坐标系中形成的离散点,即,如果两个变量之间存在某种关系,那么就可以在其散点图上构造某种网格划分,使得大多数的数据点集中在该网格的几个单元格中,这些包含数据点的网格可近似视为某种拟合曲线,从而达到刻画两变量的关系的目的。不同于曲线拟合方法无法应对非函数型关系,容易过拟合,以及计算量大,该方法对函数以及非函数关系均适用,计算量小,且可挖掘出变量间深层关系。该方法依赖于样本的大小,通过搜寻满足一定条件的所有网格划分直至搜寻到最优的网格划分方案,该方案即为其网格拟合方案,最可能揭示出其真实的潜在关系,该网格划分下的互信息的归一化值即为MIC值。MIC方法相对于其它的相关性度量方法而言,如Pearson相关系数、Spearman相关系数等,具有两个重要特性:通用性和均匀性。通用性指的是该方法可以评估广泛范围的关系模式,不局限于特定的函数关系或所有的函数关系,它可以发现非函数型的关系;均匀性指的是对于具有相似噪声水平的不同函数类型,即回归决定系数R2值相似的不同函数类型应具有相似的MIC值。该方法的提出对于生物学以及其它学科的研究有着极大的促进作用,但目前计算MIC的算法,因考虑到效率性,仅是在有效的时间内逼近MIC的实际值,因此该算法的精度仍然存在一定的缺陷。
技术实现思路
有鉴于此,本专利技术提供了,对MIC方法进行改进,能够在保持MIC方法两个重要特性的前提下,更加逼近于MIC的真实值,更能反映真实的两个变量之间的相关度。本专利技术的双变量相关性度量方法,包括如下步骤:步骤1,将双变量的数据点信息转换为平面坐标轴的数据点信息(X,Y),令Y轴为主变量轴,以主变量轴的值进行升序排序;步骤2,采用给定的均分行数I均分Y轴,使得均分区间中数据点的个数相等,其中,均分行数y=2,3,4,…,B/2,其中,B为设定的X,Y划分个数乘积的最大值;步骤3,当均分行数y=i时,i=2,3,4,…,B/2,根据给定的划分列数x对X轴进行划分,使得具有同样Y值的连续点划分在同一个区间中,其中,划分列数X分别为2,3,4...,B/y ;步骤4,计算均分行数y=1、均分列数x=j时的最大互信息值,记为bu,其中,i=2,3,4,…,B/2,j=2,3,4...,B/y ;将bu归一到后记为Bij ;选取y=i时的最大au对应的X轴划分列数为均分行数y=i时的X轴最优划分列数Xei ;步骤5,固定X轴划分列数为X=Xei,重新划分Y轴,计算y=i时的最大互信息值并进行归一化,获得屮/;步骤6,将aij替换为aj,获得矩阵Eaij];步骤7,变换数据点(X,Y)为(Y,X),令Y轴为主变量轴,以主变量的坐标轴的值进行升序排序;重复步骤2~6,获得矩阵 ’ ;步骤8,选取Laij]和Lai」]’中的元素最大的值为MIC值;步骤9,利用步骤8获得的MIC值进行度量。其中,可以设B=n°_6,其中,η为数据点的总个数。有益效果: 本专利技术对MIC方法进行改进,通过二次寻优的方法改变Y轴的划分方式,从均分Y轴的信息得到X轴最优化的信息,再去寻找Y轴优化的信息,在合理的时间内,找到比原方法更优的解,获得双变量相关度的更加精确的值,从而在信息判断时更精确,更贴合实际。【专利附图】【附图说明】图1为计算MIC的简要算法流程图。图2为特征矩阵生成模块的算法流程图。图3为本专利技术算法与传统算法的结果对比图。【具体实施方式】下面结合附图并举实施例,对本专利技术进行详细描述。本专利技术提供了,具体包括如下步骤:步骤1,将双变量的数据点信息转换为平面坐标轴的数据点信息(X,Y),并令Y轴为主变量轴,数据点信息(X,Y)以主变量轴的值(即Y值)进行升序排序。步骤2,给定均分行数y均分Y轴,使得均分区间中数据点的个数相等,其中,均分行数y分别为2、3、4、…、B/2,其中,B表示为了减少计算量,人为设定的X,Y划分个数乘积的最大值,Β=η°_6,η为数据点的总个数,0.6为Reshef论文提供的经验数值。步骤3,在Y轴的每一种均分情况下(均分行数y分别为2、3、4、…、B/2的情况下),划分X轴,将具有同样Y值的连续点(即Y值相同,X值连续)划分在同一个区间中。步骤4,对应于每一个Y轴均分情况,如均分行数y=2,计算X轴的划分列数X分别为2、3、4、…、B/y时的最大互信息值,记最大互信息值为bij;其中,i表示均分行数y=i,1=2,3,4,…,B/2,j 表示划分列数 x=j,j=2,3,4?",B/y。对 bu 进行归一化,归一到,得到au。选取均分行数y=i时最大au对应的X轴划分列数为y=i时的X轴最优划分列数XeiO这种划分方法尽力使X轴每个划分区间中的数据点集中在X、Y划分构成的一个网格内,从而最大可能地揭示两变量的潜在关系。特征矩阵归一化子模块将互信息值的范围投影到O到I之间,确保不同维度的网格划分的公平比较。步骤5,固定X轴划分为最优划分列数x=xei,重新划分Y轴,计算y=i时的最大互信息值并进行归一化,获得a^。步骤6,将步骤4中的Bij替换为aj,获得矩阵EaiJ]。步骤7,变换数据点(X,Y)为(Y,X),令Y轴为主变量轴,以主变量轴的值(即X值)进行升序排序;重复步骤2~6,获得矩阵 ’。 步骤8,取变换数据点前后(即以Y为主变量和以X为主变量的两次计算)获得的最优化网格划分方案(即不同主变量方案中互信息值较大的方案)作为最终的特征矩阵输出。其中,au为均分行数y=i,划分列数x=j时的归一化的最大互信息值。选取和’中元素最大的值为MIC值。步骤9,利用步骤8获得的MIC值进行度量。MIC值表明了两变量之间的相关度,MIC值越接近I表明相关度越高,MIC值越接近O表明相关度越低。在传统方法中,仅仅是均分Y轴后优化X轴,然后变换坐标轴取得最大值作为本文档来自技高网
...

【技术保护点】
一种双变量相关性度量方法,其特征在于,包括如下步骤:步骤1,将双变量的数据点信息转换为平面坐标轴的数据点信息(X,Y),令Y轴为主变量轴,以主变量轴的值进行升序排序;步骤2,采用给定的均分行数y均分Y轴,使得均分区间中数据点的个数相等,其中,均分行数y=2,3,4,…,B/2,其中,B为设定的X,Y划分个数乘积的最大值;步骤3,当均分行数y=i时,i=2,3,4,…,B/2,根据给定的划分列数x对X轴进行划分,使得具有同样Y值的连续点划分在同一个区间中,其中,划分列数x分别为2,3,4…,B/y;步骤4,计算均分行数y=i、均分列数x=j时的最大互信息值,记为bij,其中,i=2,3,4,…,B/2,j=2,3,4…,B/y;将bij归一到[0,1]后记为aij;选取y=i时的最大aij对应的X轴划分列数为均分行数y=i时的X轴最优划分列数xei;步骤5,固定X轴划分列数为x=xei,重新划分Y轴,计算y=i时的最大互信息值并进行归一化,获得aij*;步骤6,将aij替换为aij*,获得矩阵[aij];步骤7,变换数据点(X,Y)为(Y,X),令Y轴为主变量轴,以主变量的坐标轴的值进行升序排序;重复步骤2~6,获得矩阵[aij]’;步骤8,选取[aij]和[aij]’中的元素最大的值为MIC值;步骤9,利用步骤8获得的MIC值进行度量。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王树良赵一萍舒悦
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1