基于EM算法和KNN算法的数据预处理方法技术

技术编号:23892443 阅读:69 留言:0更新日期:2020-04-22 07:01
本发明专利技术公开了一种基于EM算法和KNN算法的数据预处理方法,包括以下步骤:S1、将原始数据集按照属性值是否缺失分为完备数据子集和不完备数据子集,将完备数据子集作为EM算法的训练样本,使用EM算法进行聚类;S2、使用KNN算法在聚类结果上进行缺失值填补。本发明专利技术在使用KNN进行缺失值填补之前,先使用EM算法对原始数据集进行聚类分析,然后再在得到的聚类结果之上使用KNN来进行缺失值填补,操作简单、填充准确率高。

Data preprocessing method based on EM algorithm and KNN algorithm

【技术实现步骤摘要】
基于EM算法和KNN算法的数据预处理方法
本专利技术属于数据挖掘
,特别涉及一种基于EM算法和KNN算法的数据预处理方法。
技术介绍
财务报表分析是对企业财务报表所提供的数据进行加工、分析、比较、评价和解释。如果说,记帐、编表属于会计的反映功能,那么,财务报表分析则隶于解释和评价功能。财务报表分析的目的在于,判断企业的财务状况和诊察企业经营管理的得失。通过分析,可以判断企业财务状况是否良好,企业的经营管理是否健全,企业业务前景是否光明,同时,还可以通过分析,找出企业经营管理的症结,提出解决问题的办法。财务报表分析的方法,主要有趋势分析法和比率分析法两种。趋势分析法是指根据连续几期的财务报表,比较各个项目前后期的增减方向和倾度,从而揭示财务和经营上的变化和趋向。数据挖掘需要大量的数据资源,在实际应用中,来自不同原始数据库的数据,由于数据库初始的定义或结构的不同,存在大量的不完备数据、噪声数据、异构数据、错误数据等,然而大部分的数据挖掘算法通常都是基于干净、完备的数据集。因此,实际系统中的数据常常无法直接应用于数据分析,增加了数据挖掘本文档来自技高网...

【技术保护点】
1.基于EM算法和KNN算法的数据预处理方法,其特征在于,包括以下步骤:/nS1、采集财务系统数据,将采集到的数据按照属性值是否缺失分为完备数据子集和不完备数据子集,将完备数据子集作为EM算法的训练样本,使用EM算法进行聚类;/nS2、使用KNN算法在聚类结果上进行缺失值填补。/n

【技术特征摘要】
1.基于EM算法和KNN算法的数据预处理方法,其特征在于,包括以下步骤:
S1、采集财务系统数据,将采集到的数据按照属性值是否缺失分为完备数据子集和不完备数据子集,将完备数据子集作为EM算法的训练样本,使用EM算法进行聚类;
S2、使用KNN算法在聚类结果上进行缺失值填补。


2.根据权利要求1所述的基于EM算法和KNN算法的数据预处理方法,其特征在于,所述步骤S1包括以下子步骤:
S11、将完备数据子集数据记为(x1,x2,...,xn),样本x1,x2,...,xn之间互相独立,每个样本对应的类别zi未知;聚类算法的目的是确定样本所属类别,使得样本与所属类别的联合分布p(xi;zi)最大化,p(xi;zi)的似然函数为:



对上式取对数,得到:



其中,n为样本数据条数,θ为EM算法模型参数,p(xi,zi;θ)为模型参数为θ时的样本xi与类别zi间的联合分布;
S12、定义类别变量zi满足某一分布Qi,并且该分布函数Qi(zi)满足以下条件:



利用詹森不等式对步骤S1中l(θ)的求解公式进行变形,得到:



由于是的期望,所以由詹森不等式得到:



即期望的概率f(E[x])大于或等于函数的期望E[f(X)];
由詹森不等式知,当且仅当X为常量时,不等式取等号,于是有:



其中,C是常量,对于一系列不同的...

【专利技术属性】
技术研发人员:唐雪飞黄永鑫蒲高飞胡茂秋
申请(专利权)人:成都康赛信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1