基于神经网络的k-NN算法中k值预测方法及装置制造方法及图纸

技术编号:24036636 阅读:17 留言:0更新日期:2020-05-07 02:05
本发明专利技术公开了一种基于神经网络的k‑NN算法中k值预测方法及装置,所述方法包括:利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。

K-value prediction method and device in k-NN algorithm based on Neural Network

【技术实现步骤摘要】
基于神经网络的k-NN算法中k值预测方法及装置
本专利技术涉及分类算法
,尤其涉及一种基于神经网络的k-NN算法中k值预测方法及装置。
技术介绍
在现有技术中,k-最近邻方法是一种基于实例学习的分类算法,通过将待分类样本与其相似的训练样本进行比较来学习,该方法理论简单,有效,易于理解,已被广泛应用于文本文类、市场营销、生物学及模式识别等领域。当对未知样本进行分类时,k-NN分类算法首先从训练集中找出距离该样本最近的k个近邻,然后根据k最近邻的类别,投票确定未知样本的类别。如果k值太小,那么k-NN分类算法容易受到噪声的影响,从而导致过度拟合;相反,如果k值太大,增加计算开销的同时,异常点的引入将会降低k-NN算法的分类精度。为待分类问题推荐一个合适的k值,对于k最近邻分类算法的分类性能至关重要。目前关于k-NN分类算法优化的研究工作主要集中于:(1)加权k-NN,试图为k个最近邻分配适当的权重,以便提高k-NN算法的分类精度;(2)压缩或编辑k-NN,删除训练集中的某些样本,以改善k-NN算法的分类精度及分类效率。在使用k-NN进行分类时,无论加权还是压缩编辑训练集,仍须预先设定一个合适的k值,才能保证k-NN分类算法的性能。然而,关于最近邻个数k值的确定及优化的研究工作并不多。在现有技术中,关于最近邻个数k值的确定及优化的研究工作中,已有方法可分为以下四大类:(1)k=1(1-NN),找出离未知样本最近的一个训练样本,将未知样本分派给最近样本所属的类别。1-NN算法虽简单、快捷,但极易受噪声数据的影响。依据“Nofreelunch”原则,并不存在单一的方法能够解决所有问题。同理,单一k值对应的k-NN分类算法并不适用于解决所有的分类问题;(2)交叉验证法(“留一法”和n折交叉验证),预先设定最近邻个数k的取值范围。从k=1开始,重复地进行交叉验证,评估k-NN算法的分类精度,将最高分类精度对应的k值作为最优k值。交叉验证法是最常用的参数优化方法,可以确定不同分类问题上的最优k值,但其计算开销大,难以广泛地用于解决实际分类问题;(3)启发式方法,依据训练集中样本数量或类分布,为未知数据集指定一个适当的k值。Okamoto和Yugami发现训练集样本数量越多时,最优k值越大,但并没有给出具体的k值预测模型,从而无法指导实际应用;(4)遗传算法(GAk-NN),基于生物进化“适者生存”理论,预先设定一个初始k值,经不断地交叉变异,最终收敛得到一个最优k值。遗传优化算法的进化过程随机性大,迭代次数多,易于陷入局部最优。当数据集规模较大时,遗传算法的收敛过程缓慢,难以获得相应的实验结果。大多数的k值选择方法致力于通过反复实验,寻找最优k值,并没有全面地分析数据集本身的特征与最近邻个数k值之间的关系,也没有给出统一的预测模型。
技术实现思路
本专利技术实施例提供一种基于神经网络的k-NN算法中k值预测方法及装置,用以解决现有技术中的上述问题。本专利技术实施例提供一种基于神经网络的k-NN算法中k值预测方法,包括:利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。优选地,利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型具体包括:从每个历史数据集中,抽取可用的数据集特征度量,同时采用交叉验证方法确定每个数据集上的最优k值,建立数据集特征与最优k值的关系数据库;基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型。优选地,所述数据集特征度量具体包括:传统特征度量、问题复杂度量、Landmarking度量、基于模型的度量以及结构信息度量。优选地,基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型具体包括:每一个数据集特征对应一个后向传播算法BP的输入层的单元,输出层为最优k值,后向传播算法BP迭代地处理训练样本数据集,通过比较每个样本的预测k值与实际最优k值进行学习;对于每一个训练样本,修改其权重使其预测值和实际值之间的均方差最小,权重最终收敛,学习过程停止。优选地,基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型之前,所述方法进一步包括:预先使用wrapper方法从数据集特征度量中进行属性选择,在不损失模型预测性能的情况下,过滤掉不相关的或是无用的属性;将经Wrapper筛选出的数据集特征度量子集作为后向传播算法BP的输入。优选地,选出的数据集特征度量子集具体包括:属性数量F、信噪比NSR、类熵H(C)和变量的平均熵优选地,后向传播算法BP迭代地处理训练样本数据集,通过比较每个样本的预测k值与实际最优k值进行学习具体包括:依据训练集中样本数量,将最优k值的搜索区间设为[1,numTrain],采用了5×10折交叉验证方法,评估不同k值对应的k-NN算法的分类性能;将k值的上限kmax设为训练集的大小,首先将每一个数据集分割成相等的10折,其中一折作为测试集,其余折一起作为训练集,用以构建分类模型,重复5次,每次随机数不同,通过5×10折交叉验证,获得所有k值对应的k-NN算法的分类精度;依据最高分类精度及置信边界ω,计算每个数据集上可用k值对应的k-NN算法的分类精度边界[Acc-ω·AM,Acc],从而确定可用k值集合,其中,Acc为最优分类精度,NT为测试集中样本数量,ω决定可用区间的范围,ω越大,置信度越高,则最优k值对应的k-NN分类算法落入区间内的可能性越高;将所述可用k值集合中的最优最小的k值用于构建k值预测模型,其他可用的k值用于评估k值预测模型的性能;给定待分类数据集,如果k值预测算法推荐的k值属于可用k值集合,那么预测的k值则被认为是最优k值,否则,预测的k值不是最优k。优选地,k值预测模型具体包括:由数据集特征度量子集F、H(C)、和NSR组成的输入层,隐藏层及预测k值对应的输出层,其中,输入层、隐藏层和输出层之间设置有相应的权重系数。本专利技术实施例还提供一种基于神经网络的k-NN算法中k值预测装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述方法的步骤。采用本专利技术实施例,利用神经网络分析数据集特征与最优k值之间的内在关系,构建相应的k值预测模型,以期为待分类问题推荐一个最优k值,进而提升k-NN分类算法性能。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的k-NN算法中k值预测方法,其特征在于,包括:/n利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;/n当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。/n

【技术特征摘要】
1.一种基于神经网络的k-NN算法中k值预测方法,其特征在于,包括:
利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;
当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。


2.如权利要求1所述的方法,其特征在于,利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型具体包括:
从每个历史数据集中,抽取可用的数据集特征度量,同时采用交叉验证方法确定每个数据集上的最优k值,建立数据集特征与最优k值的关系数据库;
基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型。


3.如权利要求2所述的方法,其特征在于,所述数据集特征度量具体包括:传统特征度量、问题复杂度量、Landmarking度量、基于模型的度量以及结构信息度量。


4.如权利要求2所述的方法,其特征在于,基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型具体包括:
每一个数据集特征对应一个后向传播算法BP的输入层的单元,输出层为最优k值,后向传播算法BP迭代地处理训练样本数据集,通过比较每个样本的预测k值与实际最优k值进行学习;对于每一个训练样本,修改其权重使其预测值和实际值之间的均方差最小,权重最终收敛,学习过程停止。


5.如权利要求2所述的方法,其特征在于,基于所述关系数据库,采用后向传播算法BP,构建数据集特征与最优k值之间的关系模型,即k值预测模型之前,所述方法进一步包括:
预先使用wrapper方法从数据集特征度量中进行属性选择,在不损失模型预测性能的情况下,过滤掉不相关的或是无用的属性;
将经Wrapper筛选出的数据集特征度量子集作为后向传播算法BP...

【专利技术属性】
技术研发人员:程静张博张雪莹杨云祥郭静李瑞贤
申请(专利权)人:中国电子科技集团公司电子科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1