一种用户资料预测方法和系统技术方案

技术编号:18399587 阅读:37 留言:0更新日期:2018-07-08 19:51
本发明专利技术涉及一种用户资料预测方法和系统。该方法可以包括:对数据集合进行筛选,获取训练数据。根据训练数据的属性信息,确定数据向量。在数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及至少一个训练数据与待预测数据的距离值。根据至少一个训练数据和距离值,获取待预测数据的缺失值。该预测方法解决了对分类型数据和数值型数据的缺失值填充问题,提升了填充缺失值的准确率,且增强了结果的可解释性。

【技术实现步骤摘要】
一种用户资料预测方法和系统
本专利技术涉及数据分析
,尤其涉及一种用户资料预测方法和系统。
技术介绍
数据缺失是数据分析与处理应用领域必须面对的一个重要问题,它直接影响挖掘模式的正确性和准确性。缺失填充能够为后续处理提供更多信息,在应用中发挥重要作用,成为一种最有效的缺失数据处理方法。缺失填充就是根据观测数据推断或估计缺失数据的过程,传统的方法可以包括回归技术、最近邻方法和均值填充等。在数据挖掘领域,常用的缺失填充方法是k最近邻填充(k-NN,k-nearestneighbor)。k-NN算法属于非线性方法,具有简单、易于实现和填充准确率高等特点。该算法在预测分类型数据和数值型数据时,分别使用了众数和均值的计算方式,但这两种方式忽略了距离对目标预测值的影响,即距离近的训练样本对未知样本的影响要大于距离远的样本。
技术实现思路
本专利技术提供了一种用户资料预测方法和系统。该预测方法解决了对分类型数据和数值型数据的缺失值填充问题,提升了填充缺失值的准确率,且增强了结果的可解释性。第一方面,提供了一种用户资料预测方法,该方法可以包括:对数据集合进行筛选,获取训练数据。根据训练数据的属性信本文档来自技高网...

【技术保护点】
1.一种用户资料预测方法,其特征在于,包括以下步骤:对数据集合进行筛选,获取训练数据;根据所述训练数据的属性信息,确定数据向量;在所述数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及所述至少一个训练数据与所述待预测数据的距离值;根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值。

【技术特征摘要】
1.一种用户资料预测方法,其特征在于,包括以下步骤:对数据集合进行筛选,获取训练数据;根据所述训练数据的属性信息,确定数据向量;在所述数据向量中,选取与待预测数据距离最近的至少一个训练数据,以及所述至少一个训练数据与所述待预测数据的距离值;根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值。2.根据权利要求1所述的方法,其特征在于,所述训练数据为所述数据集合中样本数据的属性信息与所述样本数据的取值匹配的数据。3.根据权利要求1所述的方法,其特征在于,当所述待预测数据为分类型数据时,所述根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值,具体包括:根据所述至少一个训练数据和所述距离值,获取所述至少一个训练数据的类别权重值;选取所述类别权重值中最大的类别权重值所对应的类别为待预测值。4.根据权利要求3所述的方法,其特征在于,当所述待预测数据为分类型数据时,所述类别权重值的表达式为:预测值表达式为:其中,m为k个最近样本数据中类别为cj的样本数量,wcj表示类别cj的权重值,di表示拥有cj标签的第i个数据与所述待预测数据的距离,为权重集合W中的最大值,cm为最大对应的类别标签,ct为待预测样本的缺失值。5.根据权利要求1所述的方法,其特征在于,当所述待预测数据为数值型数据时,所述根据所述至少一个训练数据和所述距离值,获取所述待预测数据的缺失值,具体包括:根据至少一个训练数据和距离值,获取待预测数据的预测值。6.根据权利要求5所述的方法,其特征在于,所述预测值的表达式为:其中,xt为数据t的待预测值,为k个近邻数据对应数值的平均数,xi表示第i个数据对应的数...

【专利技术属性】
技术研发人员:赵岩
申请(专利权)人:北京酷我科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1