当前位置: 首页 > 专利查询>长安大学专利>正文

一种回溯式迭代车辆性能极度不平衡数据分类方法技术

技术编号:30827412 阅读:22 留言:0更新日期:2021-11-18 12:30
本发明专利技术一种回溯式迭代车辆性能极度不平衡数据分类方法,包括:从车辆性能测评数据获取多个训练样本,初始化所有训练样本的权重;每次迭代中,根据所属迭代次数对应的训练样本权重构建与迭代次数对应的弱分类器,采用弱分类器对训练样本进行分类,根据弱分类器的分类结果更新训练样本的权重,再基于综合相似度和KNN分类算法回溯更新所有训练样本的权重;其中,所述综合相似度是指根据相似度理论和欧几里得距离综合判断的相似度;组合所述得到的所有弱分类器,获得强分类器;采用强分类器对待分类的测试样本进行分类。本发明专利技术在车辆性能测评数据集标签分类任务上,不仅误差更小,且能在较少的迭代次数下达到较好分类的结果。在较少的迭代次数下达到较好分类的结果。

【技术实现步骤摘要】
一种回溯式迭代车辆性能极度不平衡数据分类方法


[0001]本专利技术涉及车辆性能分类技术,具体为一种回溯式迭代车辆性能极度不平衡数据分类方法。

技术介绍

[0002]现代社会快节奏生活成为常态,车辆已成为城市生活中不可或缺的重要交通工具。然而车辆在为人类社会造福的同时,也带来了许多负面的影响,如安全隐患、大气污染和噪声超标等一系列亟待解决的问题。针对于车辆自身的复杂电子机械结构,必须提供人们出行时的生命安全保障需求,及时并有效地对车辆性能进行测评是目前该领域研究的当务之急。然而,依据道路交通中传感器采集的车辆测评数据集,其标签自然呈现极度不均衡状态,绝大多数车辆性能标记为优秀、良好或正常,仅有极少数汽车可标记为差,这对传统分类算法的预测结果提出严峻的挑战。分类方法广泛应用于视频、语音和文字预测分类各应用领域,其中数据不平衡也是其他分类任务面临的一个典型困难。一般而言,如果类别不平衡比例超过4:1,那么其分类器会因为数据不平衡性而完全无法满足分类的基本精度要求。简而言之,无论是从分类算法理论创新角度,还是从车辆性能极度不平衡数据分类任务角度,考虑现实中大量多类别不均衡识别和回归问题,在构建分类模型之前,必须对分类不平衡性问题进行处理。
[0003]目前为止,对于不平衡分类问题的解决策略主要包括数据层面、算法层面以及混合方法。数据层面旨在对数据重新分布采样,降低数据之间的不平衡性,主要有过采样方法、欠采样方法。算法层面具体在模型训练过程中,更加关注较少类别样本的识别,目前很多研究在传统分类算法基础上进行改进,适当地修改算法使之适应不平衡分类问题,其改进策略包括分类器集成、代价敏感学习和特征选择方法等。混合方法主要结合数据层面和算法层面,提高分类器性能。
[0004]在算法层面上,虽然K

Adaboost作为一种新的改进算法,首次将KNN与Adaboost算法相结合,可以较好地解决数据的不平衡问题,但是在实际问题中,数据的表现形式更为多样且特征分布呈现更为复杂的非线性,加之该类型算法并没有考虑到数据特征的相关性和权重更新的逻辑性,因此分类效果尚无法达到工业应用要求。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术提供一种回溯式迭代车辆性能极度不平衡数据分类方法,在车辆性能测评数据集标签分类任务上,不仅误差更小,且能在较少的迭代次数下达到较好分类的结果。
[0006]本专利技术是通过以下技术方案来实现:
[0007]一种回溯式迭代车辆性能极度不平衡数据分类方法,包括以下步骤:
[0008]步骤1,从车辆性能测评数据获取多个训练样本,初始化所有训练样本的权重;
[0009]步骤2,通过回溯式迭代更新所有训练样本的权重:每次迭代中,根据所属迭代次
数对应的训练样本权重构建与迭代次数对应的弱分类器,采用弱分类器对训练样本进行分类,根据弱分类器所得的分类结果更新所有训练样本的权重,再基于综合相似度和KNN分类算法回溯更新所有训练样本的权重,回溯更新完成后,进行下一次迭代;其中,所述综合相似度是指根据相似度理论和欧几里得距离综合判断的相似度;
[0010]步骤3,组合步骤2)中得到的所有弱分类器,获得强分类器;
[0011]步骤4,采用强分类器对待分类的测试样本进行分类。
[0012]优选的,基于综合相似度和KNN分类算法回溯更新所有样本的权重,具体是:通过KNN分类算法从所有训练样本中选取与被错分为正样本的负样本综合相似度最大的K个正样本,并从K个正样本中提取正确分类的正样本来动态调整K值,以最大程度地降低综合相似度较大且被正确分类的正样本权重,最小程度地降低综合相似度较低且被正确分类的正样本的权重。
[0013]优选的,步骤1中,所有训练样本组成数据集为S={(x1,y1),(x2,y2),

,(x
N
,y
N
)},每一个训练样本x
i
=(x
i1
,

x
im
,

,x
iM
)∈R
M
,R
M
为训练样本中特征向量的集合,样本标签y
i
∈Y={

1,+1},其中,i=1,2,

,N,m=1,2,

,M;N为训练样本的数量,M为每个训练样本的特征数目;初始化数据集中所有训练样本的权重W1:
[0014]。
[0015]进一步的,步骤2中,根据弱分类器所得的分类结果更新所有训练样本的权重,具体为:根据弱分类器所得的分类结果计算分类误差,根据分类误差计算学习率,根据学习率来更新所有训练样本的权重。
[0016]进一步的,步骤2中,根据弱分类器所得的分类结果更新所有训练样本的权重,具体过程如下:
[0017]步骤2.1.1,对迭代次数t,根据权重W
t
构建与迭代次数对应弱分类器G
t
(x):
[0018]G
t
(x)={

1,+1}
[0019]步骤2.1.2,计算分类误差e
t

[0020][0021]其中,P为加权概率,函数
[0022]步骤2.1.3,计算学习率α
t

[0023][0024]步骤2.1.4,更新权重W
t

[0025][0026]W
t
=(w
t,1
,

,w
t,i
,

,w
t,N
)。
[0027][0028]进一步的,步骤2中,再基于综合相似度和KNN分类算法回溯更新所有训练样本的权重的具体过程如下:
[0029]步骤2.2.1,设置阈值ρ,令被错分为正样本且权重大于阈值ρ的负样本的索引,构成第一个初始化样本索引集合L:
[0030][0031]其中,i=1,2,

,n1,n1≤N;
[0032]将数据集S中所有的正样本的索引,构成第二个初始化样本索引集合LL:
[0033][0034]其中,j=1,2,

,n2,n2≤N;
[0035]步骤2.2.2,基于KNN分类算法,在第二个初始化样本索引集合中选择与第一个初始化样本索引集合中索引对应的负样本综合相似度最大的K个正样本的索引,构成初始化样本索引集合LLL:
[0036][0037]其中,i=1,2,

,n1;
[0038]步骤2.2.3,根据初始化样本索引集合LLL中索引对应的所有被分类正确的正样本,重新动态选取KNN分类算法中的K值,令K值为count,并初始化count为0,根据以下公式更新训练样本的权重W
t

[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,包括以下步骤:步骤1,从车辆性能测评数据获取多个训练样本,初始化所有训练样本的权重;步骤2,通过回溯式迭代更新所有训练样本的权重:每次迭代中,根据所属迭代次数对应的训练样本权重构建与迭代次数对应的弱分类器,采用弱分类器对训练样本进行分类,根据弱分类器所得的分类结果更新所有训练样本的权重,再基于综合相似度和KNN分类算法回溯更新所有训练样本的权重,回溯更新完成后,进行下一次迭代;其中,所述综合相似度是指根据相似度理论和欧几里得距离综合判断的相似度;步骤3,组合步骤2)中得到的所有弱分类器,获得强分类器;步骤4,采用强分类器对待分类的测试样本进行分类。2.根据权利要求1所述的回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,基于综合相似度和KNN分类算法回溯更新所有样本的权重,具体是:通过KNN分类算法从所有训练样本中选取与被错分为正样本的负样本综合相似度最大的K个正样本,并从K个正样本中提取正确分类的正样本来动态调整K值,以最大程度地降低综合相似度较大且被正确分类的正样本权重,最小程度地降低综合相似度较低且被正确分类的正样本的权重。3.根据权利要求1所述的回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,步骤1中,所有训练样本组成数据集为S={(x1,y1),(x2,y2),

,(x
N
,y
N
)},每一个训练样本x
i
=(x
i1
,

x
im
,

,x
iM
)∈R
M
,R
M
为训练样本中特征向量的集合,样本标签y
i
∈Y={

1,+1},其中,i=1,2,

,N,m=1,2,

,M;N为训练样本的数量,M为每个训练样本的特征数目;初始化数据集中所有训练样本的权重W1:。4.根据权利要求3所述的回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,步骤2中,根据弱分类器所得的分类结果更新所有训练样本的权重,具体为:根据弱分类器所得的分类结果计算分类误差,根据分类误差计算学习率,根据学习率来更新所有训练样本的权重。5.根据权利要求4所述的回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,步骤2中,根据弱分类器所得的分类结果更新所有训练样本的权重,具体过程如下:步骤2.1.1,对...

【专利技术属性】
技术研发人员:杨云左鹏飞倪园园刘晨段宗涛康军
申请(专利权)人:长安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1