一种交通事故预测模型建立方法及模型特征分析方法技术

技术编号:36539078 阅读:14 留言:0更新日期:2023-02-01 16:32
本发明专利技术涉及一种交通事故预测模型建立方法及模型特征分析方法,对原始交通事故数据进行预处理,使用随机森林算法填充特征的缺失值;使用SMOTEENN算法对训练集进行累不平衡处理;基于XGBoost建立道路交通事故预测模型,对交通事故的严重等级进行预测,并使用精确率,召回率,F1分数和AUC评价模型的分类性能;基于SHAP对整体预测模型、单个样本和单个特征分别进行解释,找出了对整体预测模型影响较大的特征、对一起交通事故的发生影响较大的特征,以及单个特征的不同取值对道路交通事故的影响。本发明专利技术方法不仅有较高的预测准确率,还提升了模型的可解释性,找出了对交通事故影响较大的因素,可以为交通管理部门制定更加科学可靠的决策提供依据。决策提供依据。决策提供依据。

【技术实现步骤摘要】
一种交通事故预测模型建立方法及模型特征分析方法


[0001]本专利技术涉及一种交通安全技术,特别涉及一种交通事故预测模型建立方法及模型特征分析方法。

技术介绍

[0002]道路交通事故预测是提升道路交通安全水平的方式之一,是保障人民群众生命和财产安全的基础。近年来,随着汽车保有量的增加,道路交通事故的数量也在不断增加。如何科学准确地对交通事故进行预测并找出导致事故发生的主要因素是一个亟待解决的现实问题,在交通安全领域受到越来越多的关注。
[0003]对道路交通事故进行预测是减少交交通事故发生、提升交通出行安全水平的重要手段。但由于交通事故发生的时间、地点等因素不可控,导致一些道路交通事故的相关数据未能及时记录,道路交通事故数据集中会存在一些确实值;此外,在日常出行中发生的较多是轻微的交通事故,会造成道路交通事故数据集中存在类不平衡的现象;最后,现有的交通事故预测模型几乎是一个黑盒模型,例如集成学习模型或深度学习模型,即使是专家也难以对模型进行准确的解释。因此,亟待提出一种可解释性的预测模型道路交通事故进行预测和可解释性分析。
[0004]极端梯度提升算法(eXtreme Gradient Boosting,XGBoost)属于机器学习算法中的集成学习算法,属于Boosting算法的一种。Boosting算法的原理就是组合多个基学习器,以获得更好的效果,使组合后的模型具有更强的泛化能力。XGBoost本质上就是多个CART树,是一种决策树,既能做分类任务也能做回归任务,分类树输出是样本的类别,回归树输出的是一个实数,XGBoost在传统Boosting算法的基础上,引入正则化项的逻辑回归和线性回归,对损失函数做了二阶泰勒展开,能自动学习子树分裂的方向且支持列抽样,防止过拟合。
[0005]SHAP(SHapley Additive exPlanation)是一个结合作博弈论和局部解释用于解释复杂模型的包,可以解释任何机器学习模型的输出。SHAP将所有的特征都视为“贡献者”,对于数据集中的每个预测样本,模型都产生一个预测值,SHAP value就是该样本中每个特征所分配到的数值。SHAP value起源于合作博弈论,用于描述一起合作的各方对于合作结果的“贡献”大小。

技术实现思路

[0006]针对道路交通事故预测问题,提出了一种交通事故预测模型建立方法及模型特征分析方法,基于XGBoost对道路交通事故进行预测,根据交通事故发生的时间、地点、天气和路况等条件对一起交通事故的严重等级进行预测,然后基于SHAP对预测模型进行可解释行分析,可以明确预测模型为什么得到这样的预测结果。此外,还可以基于SHAP对单起交通事故和单个特征条件进行解释性分析,有利于发现导致事故发生的重要因素,为交通管理部门制定更加科学可靠的决策提供依据。
[0007]本专利技术的技术方案为:一种交通事故预测模型建立方法,具体包括如下步骤:
[0008]1)选取历史交通事故数据作为原始交通事故数据集,对原始交通事故数据集的缺失值进行填充;
[0009]针对原始道路交通事故数据集中缺失值较多的问题,使用无缺失的特征作为样本,基于随机森林算法去预测有缺失的特征值,对数据集中的缺失值进行填充;3)把已经填充完缺失值的数据集划分为测试集和训练集,使用SOMTEENN算法对训练集进行类不平衡处理;
[0010]对处理后训练集和测试集数据集中连续类型的特征进行归一化,离散类型的特征转化为独热码的形式;
[0011]3)基于XGBoost建立道路交通事故预测模型,使用步骤2)处理后训练集对道路交通事故预测模型进行训练,使用网格搜索法对道路交通事故预测型的参数进行调整以获得最优的交通事故预测模型;
[0012]4)使用步骤2)测试集对训练后交通事故预测模型进行验证,使用精确率、召回率、F1分数和AUC对训练后交通事故预测模型的性能进行评估;
[0013]5)基于SHAP对训练后交通事故预测模型、单个样本和单个特征进行解释性分析,找出对整体预测模型影响大的特征、对一起交通事故的发生影响大的特征,以及单个特征的不同取值对道路交通事故的影响,用于对预测模型预测结果进行可解释性分析。
[0014]进一步,所述步骤2)使用SOMTEENN算法对训练集进行类不平衡处理:首先使用SMOTE对训练集样本进行过采样,然后使用ENN删除类别与其最近的三个紧邻样本中两个或以上类别不同的样本,通过对数据集进行负采样与过采样结合的处理,实现数据集中正样本和负样本中比例均衡的目标样本。
[0015]进一步,所述步骤3)XGBoost工具包定义模型基学习器的个数、分类树生成参数和树的最大深度参数,构建XGBoost预测模型,并采用网格搜索法在各个参数范围内找寻最优解。
[0016]进一步,所述步骤4)通过训练后的交通事故预测模型对测试集的分类,得到一起交通事故的预测结果和模型的分类准确性,并计算出模型的Precision精确率、Recall召回率、F1‑
Score和AUC对预测模型的分类性能进行评估:
[0017][0018][0019][0020]其中,TP代表样本为正预测结果为正的个数,FP代表样本为负,预测结果为正的个数,FN代表样本为正,预测结果为负的个数;
[0021]AUC曲线下面积是二分类问题中比较常用的评估指标之一,ROC曲线描述的是模型的TPR真正率和FPR假正率之间的变化关系,其中TPR为模型分类正确的正样本个数占总正样本个数的比例,FPR为模型分类错误的负样本个数占总负样本个数的比例。
[0022]进一步,所述步骤5)基于SHAP对训练后交通事故预测模型、单个样本和单个特征进行解释性分析:使用SHAP对整体模型进行解释性分析得到各个特征对预测模型有正向影响还是有负向影响,以及各个特征对模型影响的大小;使用SHAP对单个样本进行解释性分析,可以得到各个特征对此次交通事故发生的“贡献值”。
[0023]一种基于SHAP算法的对交通事故预测模型进行解释性分析的方法,所述SHAP中SHAP value反映出样本中每一个特征的影响力,以及该特征对模型影响的正负性;
[0024]SHAP的summary_plot图为每个样本绘制每个特征的SHAP value,通过summary_plot图,获得每个特征对模型预测结果的影响;
[0025]SHAP的force_plot图解释单个样本,通过对特定的道路交通事故进行解释,获得在一起交通事故中对致死性有正向影响或负向影响的特征;
[0026]SHAP的dependence_plot图解释单个样本。
[0027]本专利技术的有益效果在于:本专利技术交通事故预测模型建立方法及模型特征分析方法,基于XGBoost算法,利用其运算速度快预测精度高,泛化能力强等优点,建立了道路交通事故预测模型。对道路交通事故的严重等级进行预测,分为致死交通事故和非致死交通事故。实验结果表明,与逻辑回归(Logistic Regre本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交通事故预测模型建立方法,其特征在于,具体包括如下步骤:1)选取历史交通事故数据作为原始交通事故数据集,对原始交通事故数据集的缺失值进行填充;针对原始道路交通事故数据集中缺失值较多的问题,使用无缺失的特征作为样本,基于随机森林算法去预测有缺失的特征值,对数据集中的缺失值进行填充;2)把已经填充完缺失值的数据集划分为测试集和训练集,使用SOMTEENN算法对训练集进行类不平衡处理;对处理后训练集和测试集数据集中连续类型的特征进行归一化,离散类型的特征转化为独热码的形式;3)基于XGBoost建立道路交通事故预测模型,使用步骤2)处理后训练集对道路交通事故预测模型进行训练,使用网格搜索法对道路交通事故预测型的参数进行调整以获得最优的交通事故预测模型;4)使用步骤2)测试集对训练后交通事故预测模型进行验证,使用精确率、召回率、F1分数和AUC对训练后交通事故预测模型的性能进行评估;5)基于SHAP对训练后交通事故预测模型、单个样本和单个特征进行解释性分析,找出对整体预测模型影响大的特征、对一起交通事故的发生影响大的特征,以及单个特征的不同取值对道路交通事故的影响,用于对预测模型预测结果进行可解释性分析。2.根据权利要求1所述交通事故预测模型建立方法,其特征在于,所述步骤2)使用SOMTEENN算法对训练集进行类不平衡处理:首先使用SMOTE对训练集样本进行过采样,然后使用ENN删除类别与其最近的三个紧邻样本中两个或以上类别不同的样本,通过对数据集进行负采样与过采样结合的处理,实现数据集中正样本和负样本中比例均衡的目标样本。3.根据权利要求1或2所述交通事故预测模型建立方法,其特征在于,所述步骤3)XGBoost工具包定义模型基学习器的个数、分类树生成参数和树的最大深度参数,构建XGBoost预测模型,并采用网格搜索法在各个参数范围内...

【专利技术属性】
技术研发人员:陈丽琼汤镇西
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1