基于神经网络的k-NN算法中k值预测方法及装置制造方法及图纸

技术编号：24036636 阅读：36 留言：0更新日期：2020-05-07 02:05

本发明专利技术公开了一种基于神经网络的k‑NN算法中k值预测方法及装置，所述方法包括：利用机器学习方法分析历史数据集的特征和最优k值间的内在关系，并根据所述内在关系构建相应的k值预测模型；当新数据集到来时，抽取其特征度量作为k值预测模型的输入进行k值预测，获取从所述k值预测模型中输出的待分类问题上的最优k值。

K-value prediction method and device in k-NN algorithm based on Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的k-NN算法中k值预测方法及装置
本专利技术涉及分类算法
，尤其涉及一种基于神经网络的k-NN算法中k值预测方法及装置。
技术介绍
在现有技术中，k-最近邻方法是一种基于实例学习的分类算法，通过将待分类样本与其相似的训练样本进行比较来学习，该方法理论简单，有效，易于理解，已被广泛应用于文本文类、市场营销、生物学及模式识别等领域。当对未知样本进行分类时，k-NN分类算法首先从训练集中找出距离该样本最近的k个近邻，然后根据k最近邻的类别，投票确定未知样本的类别。如果k值太小，那么k-NN分类算法容易受到噪声的影响，从而导致过度拟合；相反，如果k值太大，增加计算开销的同时，异常点的引入将会降低k-NN算法的分类精度。为待分类问题推荐一个合适的k值，对于k最近邻分类算法的分类性能至关重要。目前关于k-NN分类算法优化的研究工作主要集中于：(1)加权k-NN，试图为k个最近邻分配适当的权重，以便提高k-NN算法的分类精度；(2)压缩或编辑k-NN，删除训练集中的某些样本，以改善k-NN算法的分类精度及分类效...

【技术保护点】
1.一种基于神经网络的k-NN算法中k值预测方法，其特征在于，包括：/n利用机器学习方法分析历史数据集的特征和最优k值间的内在关系，并根据所述内在关系构建相应的k值预测模型；/n当新数据集到来时，抽取其特征度量作为k值预测模型的输入进行k值预测，获取从所述k值预测模型中输出的待分类问题上的最优k值。/n

【技术特征摘要】
1.一种基于神经网络的k-NN算法中k值预测方法，其特征在于，包括：
利用机器学习方法分析历史数据集的特征和最优k值间的内在关系，并根据所述内在关系构建相应的k值预测模型；
当新数据集到来时，抽取其特征度量作为k值预测模型的输入进行k值预测，获取从所述k值预测模型中输出的待分类问题上的最优k值。

2.如权利要求1所述的方法，其特征在于，利用机器学习方法分析历史数据集的特征和最优k值间的内在关系，并根据所述内在关系构建相应的k值预测模型具体包括：
从每个历史数据集中，抽取可用的数据集特征度量，同时采用交叉验证方法确定每个数据集上的最优k值，建立数据集特征与最优k值的关系数据库；
基于所述关系数据库，采用后向传播算法BP，构建数据集特征与最优k值之间的关系模型，即k值预测模型。

3.如权利要求2所述的方法，其特征在于，所述数据集特征度量具体包括：传统特征度量、问题复杂度量、Landmarking度量、基于模型的度量以及结构信息度量。

4.如权利要求2所述的方法，其特征在于，基于所述关系数据库，采用后向传播算法BP，构建数据集特征与最优k值之间的关系模型，即k值预测模型具体包括：
每一个数据集特征对应一个后向传播算法BP的输入层的单元，输出层为最优k值，后向传播算法BP迭代地处理训练样本数据集，通过比较每个样本的预测k值与实际最优k值进行学习；对于每一个训练样本，修改其权重使其预测值和实际值之间的均方差最小，权重最终收敛，学习过程停止。

5.如权利要求2所述的方法，其特征在于，基于所述关系数据库，采用后向传播算法BP，构建数据集特征与最优k值之间的关系模型，即k值预测模型之前，所述方法进一步包括：
预先使用wrapper方法从数据集特征度量中进行属性选择，在不损失模型预测性能的情况下，过滤掉不相关的或是无用的属性；
将经Wrapper筛选出的数据集特征度量子集作为后向传播算法BP...

【专利技术属性】
技术研发人员：程静，张博，张雪莹，杨云祥，郭静，李瑞贤，
申请(专利权)人：中国电子科技集团公司电子科学研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人