一种类别确定方法及装置制造方法及图纸

技术编号:25088064 阅读:29 留言:0更新日期:2020-07-31 23:32
本申请提供了类别确定方法及装置,获取待分类样本和训练样本集,其中,训练样本集中包括历史样本及该每个历史样本所属的类别。从训练样本集中选取与待分类样本之间的距离最近的k个近邻样本。然后利用待分类样本与k个近邻样本之间的距离获得k个近邻样本所属各个类别的权重。依据各个类别的权重,从各个类别中选取待分类样本所属的目标类别。其中,距离待分类样本越近的历史样本对待分类样本的类别确定的影响越大,该历史样本对应的类别权重越大。因此,利用该方案确定出的类别结果准确率更高,而且,降低了k的取值对类别结果的影响。

【技术实现步骤摘要】
一种类别确定方法及装置
本专利技术属于分类
,尤其涉及一种类别确定方法及装置。
技术介绍
分类的目的是确定一个样本的类别,具体的类别是已知的,常用的算法是k近邻算法(k-nearestneighbor,KNN),KNN算法是一种有监督学习算法,其基本方法是:给定测试数据,基于距离度量找出训练样本集中与测试数据最近的k个数据点(即,k个近邻样本),然后,基于这k个近邻样本确定测试数据所属的类别。但是目前的KNN算法的分类结果准确率较低,无法适应于准确率较高的场景。
技术实现思路
有鉴于此,本申请的目的在于提供一种类别确定方法及装置,以确定样本所属的类别,其具体的技术方案如下:本申请提供了一种类别确定方法,包括:获取待分类数据和训练样本集,所述训练样本集包括历史样本和该历史样本所属的类别;从所述训练样本集中选取与所述待分类样本之间的距离最近的k个近邻样本;利用所述待分类样本分别与所述k个近邻样本之间的距离,计算所述k个近邻样本所属的各个类别的权重;依据所述各个类别的权重,确定所述待分类样本所属的目标类别。本申请提供的类别确定方法,获取待分类样本和训练样本集,其中,训练样本集中包括历史样本及该每个历史样本所属的类别。从训练样本集中选取与待分类样本之间的距离最近的k个近邻样本。然后利用待分类样本与k个近邻样本之间的距离获得k个近邻样本所属各个类别的权重。依据各个类别的权重,从各个类别中选取待分类样本所属的目标类别。该方案依据待分类样本的k个近邻样本与待分类样本之间的距离计算得到k个近邻样本所属类别的权重。距离待分类样本越近的历史样本对待分类样本的类别确定的影响越大,因此该历史样本对应的类别权重越大。因此,利用该方案确定出的类别结果准确率更高,而且,降低了k的取值对类别结果的影响。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种类别确定方法的流程图;图2是本申请实施例提供的另一种类别确定方法的流程图;图3是本申请实施例提供的一种类别确定装置的结构示意图;图4是本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。KNN算法是懒惰学习的著名代表,此类学习算法在训练阶段仅仅是把样本保存起来,训练时间开销为零,待拿到测试样本后再处理。KNN算法也存在一些缺点:对于随机分布的训练样本集分类效果较差,还有k的取值不同导致分类结果也不同。如果直接使用KNN算法确定类别,将导致最终的分类结果准确率较低。因此,本申请提供了一种类别确定方法,获取待分类样本和训练样本集,从训练样本集中选取与待分类样本之间的距离最近的k个近邻样本。然后利用待分类样本与k个近邻样本之间的距离计算各个类别的权重。再依据各个类别的权重,从各个类别中选取待分类样本所属的目标类别。该方案依据待分类样本的k个近邻样本与待分类样本之间的距离计算得到各个类别的权重,而且,距离待分类样本越近表明这个近邻样本对确定待分类样本的类别的影响大于其它距离远的近邻样本,因此,距离待分类样本越近,对应的权重就越大。该方案对近邻样本与待分类样本之间距离做进一步挖掘得到可能是待分类样本对应的类别的权重,进一步依据权重确定出待分类样本的类别,因此,利用该方案提高了分类结果的准确率。请参见图1,示出了本申请实施例提供的一种类别确定方法的流程图,该方法应用于电子设备中,如PC机、服务器等。如图1所示,该方法可以包括以下步骤:S110,获取待分类样本和训练样本集。以出行样本为例,训练样本集包括历史样本和该历史样本所属的类别,其中,类别包括差旅和非差旅;本申请的训练样本集中的差旅数据和非差旅数据比较均衡,例如,均为1000条。S120,从训练样本集中选取与所述待分类样本距离最近的k个近邻样本。分别计算待分类样本与训练样本集中的各个样本之间的距离(如,欧式距离),然后,按照距离由小到大的顺序,依次选取该待分类样本的k个近邻样本。测试数据是指用来测试算法模型的准确率的数据,测试数据也包括历史样本和各个历史样本所属的类别。例如,测试数据与训练样本集的比例是0.2。S130,利用k个最近的距离,计算各个类的权重。从训练样本集中找到k个近邻样本后,对k个近邻样本与待分类样本之间的距离进一步挖掘,距离待分类样本越近表明这个近邻样本对待分类样本的类别的影响大于其它距离远的近邻样本,因此,距离待分类样本越近,对应的权重越大。基于这一原则,可以利用距离的倒数作为权重。S140,利用各个类的权重,选取权重最大的类别,即待分类样本的分类结果。在本申请的一个实施例中,计算得到k个近邻样本所属的各个类别的权重之后,选取权重最大的类别作为待分类样本的分类结果。例如,出行类别包括差旅和非差旅,其中,按照上述方法计算得到差旅类别的权重是0.6,非差旅类别的权重是0.4,0.6>0.4,故待分类样本的类别是差旅。本实施例提供的类别确定方法,获取待分类样本和训练样本集,其中,训练样本集中包括历史样本及每个历史样本所属的类别。从训练样本集中选取与待分类样本之间的距离最近的k个样本,即k个近邻样本。然后,利用待分类样本与k个近邻样本之间的距离获得各个类别的权重。依据各个类别的权重,从各个类别中选取权重最大的类别,即待分类样本的分类结果。该方案依据待分类样本的k个近邻样本与待分类样本之间的距离计算得到各类别的权重。距离待分类样本越近的历史样本对分类结果的影响越大,因此该历史样本所属类别的权重越大。因此,利用该方案确定出的类别结果准确率更高,而且,降低了k取值对类别结果的影响。请参见图2,示出了本申请实施例提供的另一种类别确定方法的流程图,本实施例将着重介绍计算类别的权重的过程,如图2所示,该方法包括以下步骤:S210,获取待分类样本和训练样本集。在一个实施例中,训练样本集为D={(x1,y1),(x2,y2),……,(xN,yN)},其中,xi为第i个训练样本,yi为第i个训练样本对应的类别。例如,在一种应用场景中,出行样本的类别包括差旅类别和非差旅类别,因此,yi的取值只有两个,即y1和y2。S220,获取待分类样本,以及训练本文档来自技高网...

【技术保护点】
1.一种类别确定方法,其特征在于,包括:/n获取待分类数据和训练样本集,所述训练样本集包括历史样本和该历史样本所属的类别;/n从所述训练样本集中选取与所述待分类样本之间的距离最近的k个近邻样本;/n利用所述待分类样本分别与所述k个近邻样本之间的距离,计算所述k个近邻样本所属的各个类别的权重;/n依据所述各个类别的权重,确定所述待分类样本所属的目标类别。/n

【技术特征摘要】
1.一种类别确定方法,其特征在于,包括:
获取待分类数据和训练样本集,所述训练样本集包括历史样本和该历史样本所属的类别;
从所述训练样本集中选取与所述待分类样本之间的距离最近的k个近邻样本;
利用所述待分类样本分别与所述k个近邻样本之间的距离,计算所述k个近邻样本所属的各个类别的权重;
依据所述各个类别的权重,确定所述待分类样本所属的目标类别。


2.根据权利要求1所述的方法,其特征在于,所述从训练样本集中选取与所述待分类出行特征向量距离最近的k个近邻样本,包括:
获取所述待分类样本,以及所述训练样本集中各个历史样本;
分别计算所述待分类样本与各个历史样本之间的距离;
按照所述距离由小到大的顺序,依次选取k个历史样本确定为所述待分类样本的k个近邻样本。


3.根据权利要求1所述的方法,其特征在于,所述利用所述待分类样本分别与所述k个近邻样本之间的距离,计算所述k个近邻样本所属的各个类别的权重,包括:
计算属于同一类别的各个近邻样本与所述待分类样本之间的距离的倒数之和,得到该类别对应的权重。


4.根据权利要求1所述的方法,其特征在于,依据所述各个类别的权重,从所述k个近邻样本所属的各个类别中选取所述待分类样本所属的目标类别,包括:
从所述k个近邻样本所属的各个类别中,选取权重最大的类别确定为所述待分类样本的目标类别。


5.根据权利要求2所述的方法,其特征在于,待分类样本为出行样本,
获取样本的过程,包括:
从出行样本中获取表征旅客出行意图的旅客出行信息,所述旅客出行信息包括旅客性别、旅客年龄、旅客团体或非团体标识、出行日期是否节假日、出发城市、目的城市、出发城市和目的城市是否旅游城市;
将所述旅客出行信息转换为向量得到所述样本。


6.根据权利要求5所述的方法,其特征在于,所述从出行样本中获取表征旅客出行意图的旅客出行信息,包括:
从所述出行样本中获取旅客性别;
从所述出行样本中获...

【专利技术属性】
技术研发人员:孟雷张劼李永江
申请(专利权)人:中国民航信息网络股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1