数据相关性的识别方法及装置制造方法及图纸

技术编号:15650072 阅读:79 留言:0更新日期:2017-06-17 03:00
本发明专利技术公开了一种数据相关性的识别方法及装置,方法包括:读取csv格式的数据文件并输入数据;csv格式的数据文件包含影响变量和目标变量,影响变量分为连续型的影响变量和离散型的影响变量;采取众数的方法对输入的数据进行缺失值补全;采用卡方分裂算法对连续型的影响变量做离散化处理,得到离散型的影响变量;计算出每个离散型的影响变量中各个属性的信息熵;依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度;按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。本发明专利技术能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。

【技术实现步骤摘要】
数据相关性的识别方法及装置
本专利技术涉及数据相关性识别领域,特别涉及一种数据相关性的识别方法及装置。
技术介绍
在衡量影响变量对目标变量的相关密切程度时,传统的方法是根据影响变量与目标变量之间的相关性分析,从而衡量影响变量对目标变量的相关密切程度。由于数据类型又分为连续型和离散型,传统方法中主要是针对影响变量和目标变量都为连续型数据的情形,而对于离散型数据很难计算它们之间的相关密切程度,由于不能计算离散型数据之间的相关密切程度,造成传统的相关性的识别方法使用受限。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间的数据相关性的识别方法及装置。本专利技术解决其技术问题所采用的技术方案是:构造一种数据相关性的识别方法,包括如下步骤:A)读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;B)采取众数的方法对输入的所述数据进行缺失值补全;C)采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;D)计算出每个所述离散型的影响变量中各个属性的信息熵;E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;F)按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。在本专利技术所述的数据相关性的识别方法中,所述步骤A)进一步包括:A1)读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,执行步骤A2);否则,退出;A2)校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。在本专利技术所述的数据相关性的识别方法中,所述步骤E)中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。在本专利技术所述的数据相关性的识别方法中,所述csv格式的数据文件的最后一列为所述目标变量。在本专利技术所述的数据相关性的识别方法中,每个所述离散型的影响变量中属性的个数小于或等于6。本专利技术还涉及一种实现上述数据相关性的识别方法的装置,其特征在于,包括:文件读取单元:用于读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;缺失值补全单元:用于采取众数的方法对输入的所述数据进行缺失值补全;离散化处理单元:用于采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;信息熵计算单元:用于计算出每个所述离散型的影响变量中各个属性的信息熵;相关程度计算单元:用于依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;排列输出单元:用于按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。在本专利技术所述的装置中,所述文件读取单元进一步包括:读取判断模块:用于读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,进入校验模块;否则,退出;校验模块:用于校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,进入所述缺失值补全单元;否则,报错后返回所述读取判断模块。在本专利技术所述的装置中,所述相关程度计算单元中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。在本专利技术所述的装置中,所述csv格式的数据文件的最后一列为所述目标变量。在本专利技术所述的装置中,每个所述离散型的影响变量中属性的个数小于或等于6。实施本专利技术的数据相关性的识别方法及装置,具有以下有益效果:由于采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;然后计算出每个离散型的影响变量中各个属性的信息熵;依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度;其能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术数据相关性的识别方法及装置一个实施例中方法的流程图;图2为所述实施例中读取csv格式的数据文件并输入数据的具体流程图;图3为所述实施例中装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术数据相关性的识别方法及装置实施例中,其数据相关性的识别方法的流程图如图1所示。图1中,该数据相关性的识别方法包括如下步骤:步骤S01读取csv格式的数据文件并输入数据:本步骤中,读取csv格式的数据文件,并输入数据。该csv格式的数据文件包含影响变量和目标变量,影响变量分为连续型的影响变量和离散型的影响变量。值得一提的是,可以将该csv格式的数据文件的最后一列作为目标变量,也就是固定csv格式的数据文件的最后一列为目标变量(y),当y为0时表示坏样本,当y为1时表示好样本。当然,在本实施例的另外一些情况下,也可以将csv格式的数据文件的其他列作为目标变量。步骤S02采取众数的方法对输入的数据进行缺失值补全:本步骤主要是进行数据预处理,具体的,本步骤中,采取众数的方法对输入的数据进行缺失值补全。步骤S03采用卡方分裂算法对连续型的影响变量做离散化处理,得到离散型的影响变量:本步骤中,采用卡方分裂算法对连续型的影响变量做离散化处理,这样就得到离散型的影响变量。步骤S04计算出每个离散型的影响变量中各个属性的信息熵:本步骤中,计算出每个离散型的影响变量中各个属性的信息熵,比如:离散型的影响变量是性别,属性就包括男和女。值得一提的是,本实施例中,每个离散型的影响变量划分的变量不超过6个,也相当于每个离散型的影响变量中属性的个数小于或等于6,比如将性别划分为2个:男和女;将年龄划分为6个,分别是:0-18、19-24、25-30、31-40、40-60、60以上。本步骤中实际就是计算每个离散型的影响变量中各个区间的信息熵。步骤S05依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度:本步骤中,依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度。优选的,该步骤中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0本文档来自技高网...
数据相关性的识别方法及装置

【技术保护点】
一种数据相关性的识别方法,其特征在于,包括如下步骤:A)读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;B)采取众数的方法对输入的所述数据进行缺失值补全;C)采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;D)计算出每个所述离散型的影响变量中各个属性的信息熵;E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;F)按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。

【技术特征摘要】
1.一种数据相关性的识别方法,其特征在于,包括如下步骤:A)读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;B)采取众数的方法对输入的所述数据进行缺失值补全;C)采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;D)计算出每个所述离散型的影响变量中各个属性的信息熵;E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;F)按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。2.根据权利要求1所述的数据相关性的识别方法,其特征在于,所述步骤A)进一步包括:A1)读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,执行步骤A2);否则,退出;A2)校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。3.根据权利要求1或2所述的数据相关性的识别方法,其特征在于,所述步骤E)中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。4.根据权利要求1或2所述的数据相关性的识别方法,其特征在于,所述csv格式的数据文件的最后一列为所述目标变量。5.根据权利要求1所述的数据相关性的识别方法,其特征在于,每个所述离散型的影响变量中属性的个数小于或等于6。6.一种实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,包括:文件读取单元:用于读取csv格式的数据文件并输入数据;所述c...

【专利技术属性】
技术研发人员:江颖黄仕玲吴国斌张馨钟山
申请(专利权)人:广州帷策智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1