数据相关性的识别方法及装置制造方法及图纸

技术编号：15650072 阅读：79 留言：0更新日期：2017-06-17 03:00

本发明专利技术公开了一种数据相关性的识别方法及装置，方法包括：读取csv格式的数据文件并输入数据；csv格式的数据文件包含影响变量和目标变量，影响变量分为连续型的影响变量和离散型的影响变量；采取众数的方法对输入的数据进行缺失值补全；采用卡方分裂算法对连续型的影响变量做离散化处理，得到离散型的影响变量；计算出每个离散型的影响变量中各个属性的信息熵；依据目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个离散型的影响变量对于目标变量的相关程度；按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表。本发明专利技术能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。

全部详细技术资料下载

【技术实现步骤摘要】
数据相关性的识别方法及装置
本专利技术涉及数据相关性识别领域，特别涉及一种数据相关性的识别方法及装置。
技术介绍
在衡量影响变量对目标变量的相关密切程度时，传统的方法是根据影响变量与目标变量之间的相关性分析，从而衡量影响变量对目标变量的相关密切程度。由于数据类型又分为连续型和离散型，传统方法中主要是针对影响变量和目标变量都为连续型数据的情形，而对于离散型数据很难计算它们之间的相关密切程度，由于不能计算离散型数据之间的相关密切程度，造成传统的相关性的识别方法使用受限。
技术实现思路
本专利技术要解决的技术问题在于，针对现有技术的上述缺陷，提供一种能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间的数据相关性的识别方法及装置。本专利技术解决其技术问题所采用的技术方案是：构造一种数据相关性的识别方法，包括如下步骤：A)读取csv格式的数据文件并输入数据；所述csv格式的数据文件包含影响变量和目标变量，所述影响变量分为连续型的影响变量和离散型的影响变量；B)采取众数的方法对输入的所述数据进行缺失值补全；C)采用卡方分裂算法对所述连续型的影响变量做离散化处理，得到离散型的影响变量；D)计算出每个所述离散型的影响变量中各个属性的信息熵；E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个所述离散型的影响变量对于所述目标变量的相关程度；F)按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表。在本专利技术所述的数据相关性的识别方法中，所述步骤A)进一步包括：A1)读取所述csv格式的数据文件，并判断是否找到所述cs...
数据相关性的识别方法及装置

【技术保护点】
一种数据相关性的识别方法，其特征在于，包括如下步骤：A)读取csv格式的数据文件并输入数据；所述csv格式的数据文件包含影响变量和目标变量，所述影响变量分为连续型的影响变量和离散型的影响变量；B)采取众数的方法对输入的所述数据进行缺失值补全；C)采用卡方分裂算法对所述连续型的影响变量做离散化处理，得到离散型的影响变量；D)计算出每个所述离散型的影响变量中各个属性的信息熵；E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个所述离散型的影响变量对于所述目标变量的相关程度；F)按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表。

【技术特征摘要】
1.一种数据相关性的识别方法，其特征在于，包括如下步骤：A)读取csv格式的数据文件并输入数据；所述csv格式的数据文件包含影响变量和目标变量，所述影响变量分为连续型的影响变量和离散型的影响变量；B)采取众数的方法对输入的所述数据进行缺失值补全；C)采用卡方分裂算法对所述连续型的影响变量做离散化处理，得到离散型的影响变量；D)计算出每个所述离散型的影响变量中各个属性的信息熵；E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个所述离散型的影响变量对于所述目标变量的相关程度；F)按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表。2.根据权利要求1所述的数据相关性的识别方法，其特征在于，所述步骤A)进一步包括：A1)读取所述csv格式的数据文件，并判断是否找到所述csv格式的数据文件，如是，执行步骤A2)；否则，退出；A2)校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量，如是，执行步骤B)；否则，报错后返回步骤A1)。3.根据权利要求1或2所述的数据相关性的识别方法，其特征在于，所述步骤E)中相关程度的计算公式为iv＝(ln(p1/p0))×(p1-p0)，其中，iv为离散型的影响变量对于目标变量的相关程度，p1为坏样本占总体的比例，p0为好样本占总体的比例。4.根据权利要求1或2所述的数据相关性的识别方法，其特征在于，所述csv格式的数据文件的最后一列为所述目标变量。5.根据权利要求1所述的数据相关性的识别方法，其特征在于，每个所述离散型的影响变量中属性的个数小于或等于6。6.一种实现如权利要求1所述的数据相关性的识别方法的装置，其特征在于，包括：文件读取单元：用于读取csv格式的数据文件并输入数据；所述c...

【专利技术属性】
技术研发人员：江颖，黄仕玲，吴国斌，张馨，钟山，
申请(专利权)人：广州帷策智能科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人