事件型变量关联性计算方法技术

技术编号:18289503 阅读:48 留言:0更新日期:2018-06-24 04:13
一种事件型变量关联性计算方法,将事件型变量的逻辑自变量按数值不同划分为两个集合a和b,每个集合中的自变量数值相同;确定a和b中元素个数较少的集合b,以及b中元素个数nb,从a中随机抽取nb个元素,与b中所有元素共同组成自变量样本集合xi,将自变量样本集合对应的因变量数值组成一个因变量样本集合yi,重复本步骤k次,生成k个自变量样本集合,和k个因变量样本集合;对每个自变量样本集合,计算其与对应的因变量样本集合的关联性,生成k维关联性向量,再计算事件型变量的关联性。该方法采用配对性样本分类器,将两个事件性数据项间的关联性计算转换为多个平衡样本的关联性计算,最终提升事件型变量关联性计算准确度。

【技术实现步骤摘要】
事件型变量关联性计算方法
本专利技术涉及数据挖掘领域,具体地说,涉及一种事件型变量关联性计算方法。
技术介绍
在数据挖掘和统计领域,数据分析决策者经常需要评价两个数据项的关联性,这就往往需要对事件型变量,进行关联性计算,然而,事件型变量的不均匀对其关联性计算会带来的偏差影响,会给相应的数据挖掘和统计,带来结果的偏差,从而影响最终的数据挖掘和统计结果,导致数据分析决策者不能精确的评价两个数据项的关联性。考虑到现有技术的上述特点与存在的不足,亟需一种能够提升事件型变量关联性计算准确度的方法。
技术实现思路
为解决上述问题,本专利技术提供了一种事件型变量关联性计算方法,在一个示例性实施例中,本专利技术提供的事件型变量关联性计算方法,包括:步骤1,将待计算关联性的事件型变量的逻辑自变量按数值不同划分为两个集合a和b,每个集合中的逻辑自变量数值相同;步骤2,确定a和b中元素个数较少的集合b,以及b中元素个数nb,从a中以平均分布为基础,随机抽取nb个元素,与b集合中所有元素共同组成逻辑自变量样本集合xi,将自变量样本集合对应的因变量数值组成一个因变量样本集合yi,重复本步骤k次,生成k个逻辑自变量样本集合,和k个因变量样本集合;步骤3,对步骤2中得到的每个自变量样本集合,计算其与对应的因变量样本集合的关联性,生成k维关联性向量;步骤4,根据步骤3中的k维关联性向量,计算事件型变量的关联性。在一些示例中,所述步骤4中,事件型变量关联性,通过如下公式计算:其中,Corrfinal表示事件型变量的最终关联性数值。Corri表示k维关联性向量中的第i个元素。在一些示例中,所述k通过如下公式计算:在一些示例中,所述步骤3中,样本集合的关联性计算方法,包括:皮尔逊积矩相关系数模型、Kendall相关系数模型或Spearman相关系数模型。本专利技术采用的事件型变量关联性计算方法,该方法采用配对性样本分类器,将两个事件性数据项间的关联性计算转换为多个平衡样本的关联性计算,最终提升事件型变量关联性计算准确度,辅助数据分析决策者精确评价两个数据项之间的关联性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1显示了根据本专利技术的一个实施例的事件型变量关联性计算方法流程图;图2显示了根据本专利技术的另一个实施例的事件型变量关联性计算方法流程图。具体实施方式以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本专利技术中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本专利技术实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本专利技术可以不用这里的具体细节或者所描述的特定方式来实施。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本专利技术面向事件型样本不均匀对关联性计算带来的偏差影响,提出一种具有抗样本量偏差效应的事件型变量关联性计算方法。该方法采用配对性样本分类器,将两个事件性数据项间的关联性计算转换为多个平衡样本的关联性计算,最终提升事件型变量关联性计算准确度,辅助数据分析决策者精确评价两个数据项之间的关联性。如图1所示,本专利技术提供了一种事件型变量关联性计算方法,所述方法包括:S101、将待计算关联性的事件型变量的逻辑自变量按数值不同划分为两个集合a和b,每个集合中的逻辑自变量数值相同;S102、确定a和b中元素个数较少的集合b,以及b中元素个数nb,从a中以平均分布为基础,随机抽取nb个元素,与b集合中所有元素共同组成逻辑自变量样本集合xi,将自变量样本集合对应的因变量数值组成一个因变量样本集合yi,重复本步骤k次,生成k个逻辑自变量样本集合,和k个因变量样本集合;S103、对S102中得到的每个自变量样本集合,计算其与对应的因变量样本集合的关联性,生成k维关联性向量;S104、根据S103中的k维关联性向量,计算事件型变量的关联性。本专利技术采用的事件型变量关联性计算方法,该方法采用配对性样本分类器,将两个事件性数据项间的关联性计算转换为多个平衡样本的关联性计算,最终提升事件型变量关联性计算准确度,辅助数据分析决策者精确评价两个数据项之间的关联性。在一些示例中,所述步骤4中,事件型变量关联性,通过如下公式计算:其中,Corrfinal表示事件型变量的最终关联性数值。Corri表示k维关联性向量中的第i个元素。本领域技术人员也可以采用其他方式进行事件型变量的最终关联性数值计算,本专利技术不限于此。在一些示例中,所述k通过如下公式计算:本领域技术人员也可以采用其他方式确定k值,本专利技术不限于此。在一些示例中,S103中,样本集合的关联性计算方法,可以包括:皮尔逊积矩相关系数模型、Kendall(肯德尔)相关系数模型或Spearman(斯伯曼)相关系数模型。本领域技术人员也可以采用其他方式计算S103中样本集合的关联性,本专利技术不限于此。如图2所示,本专利技术还提供了事件型变脸关联性计算方法的另一实施例。事件型变量的关联性计算中一般包含两个变量,其中一个是逻辑自变量(如图2中X,值域只包含两个值,例如0或者1),表示某个事件是否发生;另一个是因变量(如图2中Y)。方法第一步:统计逻辑自变量取值情况统计逻辑自变量中两个数值,将一种数值的集合记为a,另一种数值的集合记为b。a和b中,必定存在一个集合中元素的个数大于等于另一个集合中元素的个数。假设a集合中元素较多(b较多时可与a进行名称互换)。方法第二步:逻辑自变量筛选配对本步骤以b集合元素个数(nb)为目标,从a中以平均分布为基础随机抽取nb个元素,与b集合中所有元素共同组成一个自变量样本集合xi(元素个数为2*nb)。与该自变量样本对应的因变量数值同样组成一个因变量样本集合yi。重复上述步骤k次,生成k个变量样本集合,以及k个因变量样本集合。典型的k值计算如公式(1)所示。方法第三步:批量关联性计算以第二步形成的所有变量样本集合和对应的因变量样本集合为基础,以每个变量样本集合以及对应的因变量样本集合计算关联性,一共可生成k个关联性数值,构成k维的关联性向量。典型的关联性计算方法包括皮尔逊积矩相关系数模型、Kendall相关系数模型、Spearman相关系数模型等。方法第四步:总体关联性计算以第三部构成的k维关联性向量为基础,利用公式(2)计算X和Y之间的关联性。公式(2)中,Corrfinal表示X和Y之间的最终关联性数值。Corri表示k维关联性向量中的第i个元素。本实施例中事件型样本变量关联性计算方法的有效性,可以通过如下方式进行验证:事件发生使用逻辑变量(01变量)进行表述本文档来自技高网...
事件型变量关联性计算方法

【技术保护点】
1.一种事件型变量关联性计算方法,其特征在于,所述方法包括:步骤1,将待计算关联性的事件型变量的逻辑自变量按数值不同划分为两个集合a和b,每个集合中的逻辑自变量数值相同;步骤2,确定a和b中元素个数较少的集合b,以及b中元素个数nb,从a中以平均分布为基础,随机抽取nb个元素,与b集合中所有元素共同组成逻辑自变量样本集合xi,将自变量样本集合对应的因变量数值组成一个因变量样本集合yi,重复本步骤k次,生成k个逻辑自变量样本集合,和k个因变量样本集合;步骤3,对步骤2中得到的每个自变量样本集合,计算其与对应的因变量样本集合的关联性,生成k维关联性向量;步骤4,根据步骤3中的k维关联性向量,计算事件型变量的关联性。

【技术特征摘要】
1.一种事件型变量关联性计算方法,其特征在于,所述方法包括:步骤1,将待计算关联性的事件型变量的逻辑自变量按数值不同划分为两个集合a和b,每个集合中的逻辑自变量数值相同;步骤2,确定a和b中元素个数较少的集合b,以及b中元素个数nb,从a中以平均分布为基础,随机抽取nb个元素,与b集合中所有元素共同组成逻辑自变量样本集合xi,将自变量样本集合对应的因变量数值组成一个因变量样本集合yi,重复本步骤k次,生成k个逻辑自变量样本集合,和k个因变量样本集合;步骤3,对步骤2中得到的每个自变量样本集合,计算其与对应的因变量样本集合的关联性,生成k维关联性向...

【专利技术属性】
技术研发人员:王智敏王广辉李伟阳郑厚清贾德香柳占杰于灏陈光陈睿欣王玓刘素蔚施永益钱仲文黄建平陈浩张建松沈思琪董知周苏安龙周小明张佳鑫周兵兵寸馨黄柏富晏梦璇许方园施明泰李浩松许中平李金康泰峰
申请(专利权)人:国网能源研究院有限公司国网浙江省电力有限公司国网辽宁省电力有限公司北京国网信通埃森哲信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1