一种驾驶场景数据挖掘方法技术

技术编号:33444737 阅读:25 留言:0更新日期:2022-05-19 00:30
本发明专利技术涉及一种驾驶场景数据挖掘方法,包括步骤:S10.获取初始模型和待筛选数据池,对待筛选数据池做前向预测;S20.对预测结果进行数据挖掘,得到每个样本对应的价值得分;S30.根据价值得分对待筛选数据池中的价值样本做排序得到价值样本集;S40.从价值样本集中挑选部分价值样本作为本轮迭代新增数据集,训练得到本轮迭代模型;S50.将价值样本集中剩余价值样本作为迭代待筛选数据池,对迭代待筛选数据池做前向预测;S60.返回步骤S20,直至迭代待筛选数据池中只剩下无价值样本或价值很小样本,得到最终迭代模型以及最终迭代数据集。本发明专利技术的数据挖掘过程使用主动学习方式进行模型迭代和数据集扩增,加快了模型迭代速度,在相同数据量下,模型可达更高精度。模型可达更高精度。模型可达更高精度。

【技术实现步骤摘要】
一种驾驶场景数据挖掘方法


[0001]本专利技术涉及数据挖掘
,特别是涉及一种驾驶场景数据挖掘方法。

技术介绍

[0002]近年来,随着各种统计报表显示大数据时代的到来,数据获取及传输新技术的发展,带来了数据指数级增速,而相关研究表明,数据可以加速模型迭代,模型的量产及落地部署,均依赖于大数据集。
[0003]模型对大数据集的依赖,同时带来了对标签的挑战,为了加速模型迭代速度,满足项目的经费及时间预算,对标签的质和量均提出了较高需求,而某些类型的数据及标签获取时间及预算成本高,比如:
[0004](1)数据很难获取的特殊工况场景,如:车祸发生时刻数据;
[0005](2)数据获取成本或传感器成本高,如:雷达点云;
[0006](3)标签获取耗时高,如:全景语义分割。
[0007]传统算法基于被动学习来做迭代,每次待标定数据集均是随机采样得到的;相关研究表明,相比于主动学习每次根据数据价值做数据挖掘的方式,传统算法在达到和主动学习相同精度时,需要多使用40%~50%的样本。
>[0008]而主动本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种驾驶场景数据挖掘方法,其特征在于,包括步骤:S10.获取初始模型和待筛选数据池,采用初始模型对待筛选数据池做前向预测;S20.采用数据挖掘算法对预测结果进行数据挖掘,得到每个样本对应的价值得分;S30.根据价值得分对待筛选数据池中的价值样本做排序得到价值样本集;S40.从价值样本集中挑选部分价值样本作为本轮迭代新增数据集,训练得到本轮迭代模型;S50.将价值样本集中剩余价值样本作为迭代待筛选数据池,采用本轮迭代模型对迭代待筛选数据池做前向预测;S60.返回步骤S20,直至迭代待筛选数据池中只剩下无价值样本或价值很小样本,得到最终迭代模型以及最终迭代数据集。2.根据权利要求1所述的一种驾驶场景数据挖掘方法,其特征在于,步骤S10具体包括:S101.获取原始图像序列,采用图像去重算法对其进行去重得到去重数据集;S102.从去重数据集中挑选部分样本作为初始数据集,训练得到初始模型;S103.将去重数据集中剩余样本作为待筛选数据池,采用初始模型对待筛选数据池做前向预测。3.根据权利要求2所述的一种驾驶场景数据挖掘方法,其特征在于,步骤S101具体包括:S1011.对原始图像序列中的每张图片样本提取其特征向量;S1012.根据特征向量计算任意一张图片样本与所有图片样本之间的相似度;S1013.判断相似度得分是否超过预设阈值,若是,删除相似度超过预设阈值的图片样本,得到去重数据集。4.根据权利要求3所述的一种驾驶场景数据挖掘方法,其特征在于,所述图像去重算法基于神经网络,步骤S101具体为:采用CNN网络对原始数据集中的每张图片样本提取其1024维特征向量。5.根据权利要求3所述的一种驾驶场景数据挖掘方法,其特征在于,所述相似度的度量指标为两个特征向量之间的归一化内积值;所述相似度通过以下公式计算:K(X,Y)=(X,Y)/(||X||*||Y||);其中,K表示相似度得分,X、Y表示1024维特征向量,(X,Y)表示向量内积,||X||、||Y||表示向量模。6.根据权利要求1所述的一种驾驶场景数据挖掘方法,其特征在于,所述数据挖掘算法基于多模型对比数据挖掘,即,所述数据挖掘算法至少基于计算规模或者模型结构设计不同的第一模型和第二模型,步骤S20具体为:S201.将预测结果分别输入到第一模型和第二模型,得到相对应的第一检测结果和第二检测结果;S202.对第一检测结果和第二...

【专利技术属性】
技术研发人员:徐倩贾楠杨鑫
申请(专利权)人:惠州市德赛西威汽车电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1