The invention provides a traffic participant accident risk prediction method based on ensemble learning, obtains traffic violation data and accident data samples by optimized sampling method, trains personnel traffic accident risk prediction model by ensemble learning algorithm, realizes automatic identification of high-risk personnel, obtains traffic participant accident risk prediction index, and can be applied to active traffic safety prevention and control. In the management work, we should improve the pertinence of traffic safety management and enhance the efficiency of daily traffic safety management.
【技术实现步骤摘要】
基于集成学习的交通参与者事故风险预测方法
本专利技术涉及一种基于集成学习的交通参与者事故风险预测方法。
技术介绍
交通参与者是影响道路交通安全的关键,但传统的研究和管理应用都受制于信息采集和感知手段的限制,难以对人员属性与交通安全的关联性进行挖掘,从而很难实施具有针对性的交通安全治理。目前我国的交通安全与规范治理工作主要以违法查处为主,积累有大量的车辆及人员的交通违法数据资源。交通违法与交通安全具有显著的相关性,因此对交通违法数据进行数据挖掘,能够提取出必要的交通参与者安全特性信息。在数据挖掘方法中,集成学习(EnsembleLearning)具有优异的性能,这种方法将几种机器学习技术组合成一个预测模型的元算法(meta-algorithm),以减小方差(bagging),偏差(boosting),或者改进预测(stacking),通过联合几个模型来帮助提高机器学习结果。与单一模型相比,这种方法可以很好地提升模型的预测性能。本专利技术以集成学习算法构建交通参与者的交通事故风险预测模型,主要以交通违法数据进行模型拟合,通过优化抽样方法,减轻不对称数据集对模型性能的影 ...
【技术保护点】
1.一种基于集成学习的交通参与者事故风险预测方法,其特征在于:包括以下步骤,S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集;S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U;S3、根据数据集N样本量设定抽样区间S以及循环步长k;S4、样本量nm=s0+(m‑1)·k,s0为抽样区间下限值,m为循环次数,初值为1;从数据集N中随机抽取样本量为nm的样本Nm;S5、将数据集D与Nm合集Gm拆分为训练集和测试集;S6、对训练集进行 ...
【技术特征摘要】
1.一种基于集成学习的交通参与者事故风险预测方法,其特征在于:包括以下步骤,S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集;S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U;S3、根据数据集N样本量设定抽样区间S以及循环步长k;S4、样本量nm=s0+(m-1)·k,s0为抽样区间下限值,m为循环次数,初值为1;从数据集N中随机抽取样本量为nm的样本Nm;S5、将数据集D与Nm合集Gm拆分为训练集和测试集;S6、对训练集进行SMOTE抽样,设置高危人员数据子集D扩样比例ai;其中,当i=1时,ai=1,当i>1时,ai=ai-1+1,i初值为1,i设有设定的取值上限;S7、对于高危人员扩样比例ai,设置一般人员Nm数据子集缩样比例bj;其中,当j=1时,bj=1,当j>1时,bj=bj-1+1,j初值为1,j设有设定的取值上限;对于SMOTE抽样比例ai:bj,进行训练集内两类标签样本的扩样、缩样处理,作为分类器的训练样本集;S8、运用集成学习算法进行高危人员分类器的训练,确定模型参数,实现交通参与者交通事故风险预测模型的拟合,模型能够输出标记值以及风险概率;S9、以测试集数据进行模型评估,获得不同覆盖率的模型精确度S10、将一般人员数据子集N中的抽样样本Nm补集Nm’内数据根据违法次数分类,并按类别输入模型对不同覆盖率下模型输出的人员标签误判率进行统计绘制分类别的模型误判率曲线;S11、j是否达到取值上限;若是,判断i是否达到取值上限,若是,则进入S12,否则i=i+1,转入S6;否则,j=j+1,转到S7;S12、检测nm是否达到抽样区...
【专利技术属性】
技术研发人员:刘林,陈凝,吕伟韬,李璐,
申请(专利权)人:江苏智通交通科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。