基于神经网络的k-NN算法中k值预测方法及装置制造方法及图纸

技术编号:24036636 阅读:36 留言:0更新日期:2020-05-07 02:05
本发明专利技术公开了一种基于神经网络的k‑NN算法中k值预测方法及装置,所述方法包括:利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。

K-value prediction method and device in k-NN algorithm based on Neural Network

【技术实现步骤摘要】
基于神经网络的k-NN算法中k值预测方法及装置
本专利技术涉及分类算法
,尤其涉及一种基于神经网络的k-NN算法中k值预测方法及装置。
技术介绍
在现有技术中,k-最近邻方法是一种基于实例学习的分类算法,通过将待分类样本与其相似的训练样本进行比较来学习,该方法理论简单,有效,易于理解,已被广泛应用于文本文类、市场营销、生物学及模式识别等领域。当对未知样本进行分类时,k-NN分类算法首先从训练集中找出距离该样本最近的k个近邻,然后根据k最近邻的类别,投票确定未知样本的类别。如果k值太小,那么k-NN分类算法容易受到噪声的影响,从而导致过度拟合;相反,如果k值太大,增加计算开销的同时,异常点的引入将会降低k-NN算法的分类精度。为待分类问题推荐一个合适的k值,对于k最近邻分类算法的分类性能至关重要。目前关于k-NN分类算法优化的研究工作主要集中于:(1)加权k-NN,试图为k个最近邻分配适当的权重,以便提高k-NN算法的分类精度;(2)压缩或编辑k-NN,删除训练集中的某些样本,以改善k-NN算法的分类精度及分类效率。在使用k-NN进本文档来自技高网...

【技术保护点】
1.一种基于神经网络的k-NN算法中k值预测方法,其特征在于,包括:/n利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;/n当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。/n

【技术特征摘要】
1.一种基于神经网络的k-NN算法中k值预测方法,其特征在于,包括:
利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;
当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。


2.如权利要求1所述的方法,其特征在于,利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型具体包括:
从每个历史数据集中,抽取可用的数据集特征度量,同时采用交叉验证方法确定每个数据集上的最优k值,建立数据集特征与最优k值的关系数据库;
基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型。


3.如权利要求2所述的方法,其特征在于,所述数据集特征度量具体包括:传统特征度量、问题复杂度量、Landmarking度量、基于模型的度量以及结构信息度量。


4.如权利要求2所述的方法,其特征在于,基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型具体包括:
每一个数据集特征对应一个后向传播算法BP的输入层的单元,输出层为最优k值,后向传播算法BP迭代地处理训练样本数据集,通过比较每个样本的预测k值与实际最优k值进行学习;对于每一个训练样本,修改其权重使其预测值和实际值之间的均方差最小,权重最终收敛,学习过程停止。


5.如权利要求2所述的方法,其特征在于,基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型之前,所述方法进一步包括:
预先使用wrapper方法从数据集特征度量中进行属性选择,在不损失模型预测性能的情况下,过滤掉不相关的或是无用的属性;
将经Wrapper筛选出的数据集特征度量子集作为后向传播算法BP...

【专利技术属性】
技术研发人员:程静张博张雪莹杨云祥郭静李瑞贤
申请(专利权)人:中国电子科技集团公司电子科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1