【技术实现步骤摘要】
一种回溯式迭代车辆性能极度不平衡数据分类方法
[0001]本专利技术涉及车辆性能分类技术,具体为一种回溯式迭代车辆性能极度不平衡数据分类方法。
技术介绍
[0002]现代社会快节奏生活成为常态,车辆已成为城市生活中不可或缺的重要交通工具。然而车辆在为人类社会造福的同时,也带来了许多负面的影响,如安全隐患、大气污染和噪声超标等一系列亟待解决的问题。针对于车辆自身的复杂电子机械结构,必须提供人们出行时的生命安全保障需求,及时并有效地对车辆性能进行测评是目前该领域研究的当务之急。然而,依据道路交通中传感器采集的车辆测评数据集,其标签自然呈现极度不均衡状态,绝大多数车辆性能标记为优秀、良好或正常,仅有极少数汽车可标记为差,这对传统分类算法的预测结果提出严峻的挑战。分类方法广泛应用于视频、语音和文字预测分类各应用领域,其中数据不平衡也是其他分类任务面临的一个典型困难。一般而言,如果类别不平衡比例超过4:1,那么其分类器会因为数据不平衡性而完全无法满足分类的基本精度要求。简而言之,无论是从分类算法理论创新角度,还是从车辆性能极度不平衡数据分类任务角度,考虑现实中大量多类别不均衡识别和回归问题,在构建分类模型之前,必须对分类不平衡性问题进行处理。
[0003]目前为止,对于不平衡分类问题的解决策略主要包括数据层面、算法层面以及混合方法。数据层面旨在对数据重新分布采样,降低数据之间的不平衡性,主要有过采样方法、欠采样方法。算法层面具体在模型训练过程中,更加关注较少类别样本的识别,目前很多研究在传统分类算法基础上进行改进,适当 ...
【技术保护点】
【技术特征摘要】
1.一种回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,包括以下步骤:步骤1,从车辆性能测评数据获取多个训练样本,初始化所有训练样本的权重;步骤2,通过回溯式迭代更新所有训练样本的权重:每次迭代中,根据所属迭代次数对应的训练样本权重构建与迭代次数对应的弱分类器,采用弱分类器对训练样本进行分类,根据弱分类器所得的分类结果更新所有训练样本的权重,再基于综合相似度和KNN分类算法回溯更新所有训练样本的权重,回溯更新完成后,进行下一次迭代;其中,所述综合相似度是指根据相似度理论和欧几里得距离综合判断的相似度;步骤3,组合步骤2)中得到的所有弱分类器,获得强分类器;步骤4,采用强分类器对待分类的测试样本进行分类。2.根据权利要求1所述的回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,基于综合相似度和KNN分类算法回溯更新所有样本的权重,具体是:通过KNN分类算法从所有训练样本中选取与被错分为正样本的负样本综合相似度最大的K个正样本,并从K个正样本中提取正确分类的正样本来动态调整K值,以最大程度地降低综合相似度较大且被正确分类的正样本权重,最小程度地降低综合相似度较低且被正确分类的正样本的权重。3.根据权利要求1所述的回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,步骤1中,所有训练样本组成数据集为S={(x1,y1),(x2,y2),
…
,(x
N
,y
N
)},每一个训练样本x
i
=(x
i1
,
…
x
im
,
…
,x
iM
)∈R
M
,R
M
为训练样本中特征向量的集合,样本标签y
i
∈Y={
‑
1,+1},其中,i=1,2,
…
,N,m=1,2,
…
,M;N为训练样本的数量,M为每个训练样本的特征数目;初始化数据集中所有训练样本的权重W1:。4.根据权利要求3所述的回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,步骤2中,根据弱分类器所得的分类结果更新所有训练样本的权重,具体为:根据弱分类器所得的分类结果计算分类误差,根据分类误差计算学习率,根据学习率来更新所有训练样本的权重。5.根据权利要求4所述的回溯式迭代车辆性能极度不平衡数据分类方法,其特征在于,步骤2中,根据弱分类器所得的分类结果更新所有训练样本的权重,具体过程如下:步骤2.1.1,对...
【专利技术属性】
技术研发人员:杨云,左鹏飞,倪园园,刘晨,段宗涛,康军,
申请(专利权)人:长安大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。