一种应用于区域路网的交通事故严重度预测方法技术

技术编号:22565743 阅读:24 留言:0更新日期:2019-11-16 12:18
本发明专利技术公开了一种应用于区域路网的交通事故严重度预测方法,其步骤包括:1、区域路网交通事故数据的采集与预处理;2、基于区域路网交通事故数据,建立潜在类别分析模型;3、根据潜在类别分析结果,对各子类别分别建立CART决策树模型;4、对各子类别分别建立基于二元logistic回归的事故严重度模型(考虑自变量和交互作用项),并将敏感度与特异性曲线交点作为模型预测分类阈值。本发明专利技术能降低事故数据异质性对分析结果的不利影响,克服传统交通事故严重度预测模型忽略交互作用项和非平衡数据综合预测效果差的问题,提高事故严重度模型的预测精度和拟合优度。

A prediction method of traffic accident severity applied to regional road network

The invention discloses a traffic accident severity prediction method applied to regional road network, the steps of which include: 1. Collection and preprocessing of traffic accident data of regional road network; 2. Establishment of potential category analysis model based on traffic accident data of regional road network; 3. Establishment of cart decision tree model based on potential category analysis results for each subcategory; 4. Establishment of each subcategory An accident severity model based on binary logistic regression (considering independent variables and interaction items) was established, and the intersection of sensitivity and specificity curve was used as the model prediction threshold. The invention can reduce the adverse effect of the accident data heterogeneity on the analysis result, overcome the problem that the traditional traffic accident severity prediction model ignores the interaction item and the poor comprehensive prediction effect of the unbalanced data, and improve the prediction accuracy and the goodness of fit of the accident severity model.

【技术实现步骤摘要】
一种应用于区域路网的交通事故严重度预测方法
本专利技术涉及一种应用于区域路网的交通事故严重度预测方法,属于道路交通安全分析

技术介绍
据全球道路安全状况报告,道路交通事故是全球第八大死亡原因,造成每年超过135万人死亡,道路交通安全逐渐成为全球都在关注的重大焦点问题。依靠交通事故数据分析来确定影响事故严重度的因素和提出降低死亡事故风险的对策,是目前最实际的交通安全改善措施之一。然而,道路交通事故是涉及各种驾驶员对外部环境反应,以及车辆、道路状况、交通因素和环境因素之间相互作用的复杂事件,可能存在未观测到的事故影响因素,这使得交通事故数据具有高度异质性,而且事故严重度可能受到各因素之间交互作用的影响。在事故严重度(死亡和非死亡事故)分析方法方面,二元logistic回归模型应用最为广泛。然而,该方法忽略了事故数据的异质性和各自变量之间的交互作用对分析结果的影响,可能会导致不准确的参数估计或忽略重要的隐藏的关系。余荣杰等人利用潜在类别分析将事故数据划分为若干同质潜在类别降低事故数据异质性对分析结果的影响(YuR,WangX,Abdel-AtyM.AHybridLatentClassAnalysisModelingApproachtoAnalyzeUrbanExpresswayCrashRisk[J].AccidentAnalysisandPrevention,2017,101:37-43.)。Rusli等人利用决策树筛选自变量间的高阶交互作用,并将高阶交互项和主效应相结合纳入事故严重度模型,定量分析自变量的交互作用对事故严重度的影响,而该方法仅考虑了自变量间的高阶交互作用忽略了自变量间存在的各阶交互作用(RusdiRusli,Md.MazharulHaque,MohammadSaifuzzaman,MarkKing.CrashseverityalongruralmountainoushighwaysinMalaysia:Anapplicationofacombineddecisiontreeandlogisticregressionmodel[J].TrafficInjuryPrevention,2018,19(7):741-748.)。此外,传统的二元logistic回归模型仅考虑模型的整体预测精度,选取0.5作为模型分类阈值。然而,交通事故数据中死亡事故往往占比较少(即该数据为非平衡数据),采用0.5作为分类阈值虽然使模型能够获得较高的整体预测精度,但会使敏感度过低,使其失去预测意义。
技术实现思路
本专利技术为克服现有技术的不足之处,提出一种应用于区域路网的交通事故严重度预测方法,以期能降低事故数据异质性对分析结果的不利影响、识别自变量的交互作用项和调整预测模型分类阈值,从而能克服传统交通事故严重度预测模型忽略交互作用项和非平衡数据综合预测效果差的问题,提高事故严重度模型的预测精度和拟合优度。为达到上述目的,本专利技术采用如下技术方案:本专利技术一种应用于区域路网的交通事故严重度预测方法的特点是按如下步骤进行:步骤一、区域路网道路交通事故数据的采集与预处理;从道路交通事故数据库中获取N起事故数据作为事故数据集D,并从任意第i起事故数据中选取K个分类变量组成集合X={x1,x2,…,xk,…,xK}来表征第i起事故,其中,xk表示第k个分类变量,且第k个分类变量xk包含Ck种类别,第k个分类变量xk在Ck种类别中的取值记为sk,令sik表示第i起事故的第k个分类变量的取值,则第i起事故中所有K个分类变量的取值所组成的分类变量取值集合记为Si={si1,si2,...,sik,...,siK};令表示第i起事故的K个分类变量的所有可能取值中的任意一种取值集合;k=1,2,3,...,K;i=1,2,3,...,N;将第i起事故的严重度作为预测变量,记为yi,且yi的取值为“0”或“1”分别表示非死亡事故和死亡事故;步骤二、根据区域路网道路交通事故数据,建立潜在类别分析模型;步骤2.1、定义所述潜在类别分析模型中存在一个潜在类别变量V,V包含T种类别,且任意一种类别记为t,t=1,2,...,T;令第i起事故中潜在类别变量V的取值记为Vi;步骤2.1.1、定义外循环次数为τ、最大外循环迭代次数为τmax;令第τ次所设置的类别数目为Tτ;初始化τ=1;步骤2.1.2、初始化t=1;步骤2.1.3、初利用式(1)得到第i起事故Vi取值为t,即属于第t种潜在类别时,第i起事故在K个分类变量上的取值集合为的条件概率式(1)中,P(sik=sk|Vi=t)表示第i起事故属于第t个潜在类别时,第k个分类变量上取值为sk的条件概率;步骤2.1.4、利用式(2)得到第i起事故中K个分类变量取值集合为的非条件概率即潜在类别分析模型的联合概率式(2)中,P(Vi=t)是第i起事故属于第t个潜在类别的概率,潜在类别t占总体的比率;步骤2.2、采用极大似然法进行模型参数估计,得到潜在类别概率和分类变量条件概率的估计值以及潜在类别分析模型的第τ次极大似然函数值Lτ;步骤2.3、利用式(3)计算第i起事故被分类到第t个潜在类别的后验概率步骤2.4、令t+1赋值给t,并判断t>Tτ是否成立,若成立,则执行步骤2.5;否则,返回步骤2.1.3执行;步骤2.5、利用式(4)、式(5)、式(6)和式(7)得到模型拟合评价指标,包括:第τ次信息评价指标AICτ、第τ次贝叶斯信息准则BICτ、第τ次样本校正的贝叶斯信息准则aBICτ、第τ次熵值AICτ=-2ln(Lτ)+2M(4)BICτ=-2ln(Lτ)+ln(N)×M(5)aBICτ=-2ln(Lτ)+ln(n*)×M(6)式(4)、式(5)、式(6)和式(7)中,M为潜在类别分析模型中未知参数的个数;n*是调整后的样本量,且n*=(N+2)/24;步骤2.6、将τ+1赋值给后τ,判断τ>τmax是否成立,若成立,则返回步骤2.7;否则,执行步骤2.1.3;步骤2.7、从τmax次信息评价指标AIC、贝叶斯信息准则BIC、样本校正的贝叶斯信息准则aBIC和熵值R2中选出各个模型拟合评价指标均取到最优值时所对应的潜在类别个数,记为T*;将所述事故数据集D划分为T*个事故子类别,记为表示第t*个事故子类别中的事故数据,t*=1,2,…,T*;步骤三、根据潜在类别分析模型结果,对T*个子类别分别建立CART决策树模型;步骤3.1、令所述第t*个事故子类别中的事故数据作为训练样本集,令K个分类变量所组成的集合X为所述CART决策树模型中的特征集;令结点样本阈值为σ、特征值切分点为α、Gini指数阈值为ε;步骤3.2、初始化t*=1;步骤3.3、将所述训练样本集特征集X、定义结点样本阈值σ和Gini指数阈值ε输入所述CART决策树模型;步骤3.4、令t*+1赋值给t*,并判本文档来自技高网
...

【技术保护点】
1.一种应用于区域路网的交通事故严重度预测方法,其特征是按如下步骤进行:/n步骤一、区域路网道路交通事故数据的采集与预处理;/n从道路交通事故数据库中获取N起事故数据作为事故数据集D,并从任意第i起事故数据中选取K个分类变量组成集合X={x

【技术特征摘要】
1.一种应用于区域路网的交通事故严重度预测方法,其特征是按如下步骤进行:
步骤一、区域路网道路交通事故数据的采集与预处理;
从道路交通事故数据库中获取N起事故数据作为事故数据集D,并从任意第i起事故数据中选取K个分类变量组成集合X={x1,x2,…,xk,…,xK}来表征第i起事故,其中,xk表示第k个分类变量,且第k个分类变量xk包含Ck种类别,第k个分类变量xk在Ck种类别中的取值记为sk,令sik表示第i起事故的第k个分类变量的取值,则第i起事故中所有K个分类变量的取值所组成的分类变量取值集合记为Si={si1,si2,...,sik,...,siK};令表示第i起事故的K个分类变量的所有可能取值中的任意一种取值集合;k=1,2,3,...,K;i=1,2,3,...,N;
将第i起事故的严重度作为预测变量,记为yi,且yi的取值为“0”或“1”分别表示非死亡事故和死亡事故;
步骤二、根据区域路网道路交通事故数据,建立潜在类别分析模型;
步骤2.1、定义所述潜在类别分析模型中存在一个潜在类别变量V,V包含T种类别,且任意一种类别记为t,t=1,2,...,T;令第i起事故中潜在类别变量V的取值记为Vi;
步骤2.1.1、定义外循环次数为τ、最大外循环迭代次数为τmax;令第τ次所设置的类别数目为Tτ;初始化τ=1;
步骤2.1.2、初始化t=1;
步骤2.1.3、初利用式(1)得到第i起事故Vi取值为t,即属于第t种潜在类别时,第i起事故在K个分类变量上的取值集合为的条件概率



式(1)中,P(sik=sk|Vi=t)表示第i起事故属于第t个潜在类别时,第k个分类变量上取值为sk的条件概率;
步骤2.1.4、利用式(2)得到第i起事故中K个分类变量取值集合为的非条件概率即潜在类别分析模型的联合概率



式(2)中,P(Vi=t)是第i起事故属于第t个潜在类别的概率,潜在类别t占总体的比率;
步骤2.2、采用极大似然法进行模型参数估计,得到潜在类别概率和分类变量条件概率的估计值以及潜在类别分析模型的第τ次极大似然函数值Lτ;
步骤2.3、利用式(3)计算第i起事故被分类到第t个潜在类别的后验概率



步骤2.4、令t+1赋值给t,并判断t>Tτ是否成立,若成立,则执行步骤2.5;否则,返回步骤2.1.3执行;
步骤2.5、利用式(4)、式(5)、式(6)和式(7)得到模型拟合评价指标,包括:第τ次信息评价指标AICτ、第τ次贝叶斯信息准则BICτ、第τ次样本校正的贝叶斯信息准则aBICτ、第τ次熵值
AICτ=-2ln(Lτ)+2M(4)
BICτ=-2ln(Lτ)+ln(N)×M(5)
aBICτ=-2ln(Lτ)+ln(n*)×M(6)



式(4)、式(5)、式(6)和式(7)中,M为潜在类别分析模型中未知参数的个数;n*是调整后的样本量,且n*=(N+2)/24;
步骤2.6、将τ+1赋值给后τ,判断τ>τmax是否成立,若成立,则返回步骤2.7;否则,执行步骤2.1.3;
步骤2.7、从τmax次信息评价指标AIC、贝叶斯信息准则BIC、样本校正的贝叶斯信息准则aBIC和熵值R2中选出各个模型拟合评价指标均取到最优值时所对应的潜在类别个数,记为T*;将所述事故数据集D划分为T*个事故子类别,记为表示第t*个事故子类别中的事故数据,t*=1,2,…,T*;
步骤三、根据潜在类别分析模型结果,对T*个子类别分别建立CART决策树模型;
步骤3.1、令所述第t*个事故子类别中的事故数据作为训练样本集,令K个分类变量所组成的集合X为所述CART决策树模型中的特征集;令结点样本阈值为σ、特征值切分点为α、Gini指数阈值为ε;
步骤3.2、初始化t*=1;
步骤3.3、将所述训练样本集特征集X、定义结点样本阈值σ和Gini指数阈值ε输入所述CART决策树模型;
步骤3.4、令t*+1赋值给t*,并判断t*>T*是否成立,若成立,则表示得到T*个决策树,并执行步骤3.5;否则,返回步骤3.3执行;
步骤3.5、根据所述T*个二叉决策树的树形图,确定分类变量间的交互作用项,其中,第t*个事故子类别对应的二叉决策树所确定的交互作用项;
步骤四、对T*个子类别分别建立基于二元logistic回归的事故严重度模型;
步骤4.1、将所述第t*个子类别中的事故数据作为事故严重度模型的拟合数据,以K个分类变量所组成集合X和第t*个子类别的交互作用项共同作为所述事故严重度模型的自变量X*;定义第t*个事故子类别包含J个事故数据,J的值为第j起事故的预测变量记为yj;
步骤4....

【专利技术属性】
技术研发人员:石琴杨慧敏陈一锴骆仁佳于淑君董满生
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1