当前位置: 首页 > 专利查询>东南大学专利>正文

一种多源数据结构下优化交通事故数据的方法技术

技术编号:31484090 阅读:16 留言:0更新日期:2021-12-18 12:18
本发明专利技术公开了一种多源数据结构下优化交通事故数据的方法,包括如下步骤:(1)多源交通数据采集;(2)构建符合多源数据形态分布的生成模型;(3)平衡交通事故数据结构;(4)优化数据的验证与评价。本发明专利技术首先对多源交通事故数据进行采集与汇总,分别确定每一种交通数据类型的分布形态,其次基于数据分布形态构建事故数据生成模型,最后基于道路安全分析模型对优化后的数据集进行验证与评价。本发明专利技术方法能够大幅度减少不平衡交通事故数据结构对安全分析模型的影响,获得准确可靠的交通安全评价结果。果。果。

【技术实现步骤摘要】
一种多源数据结构下优化交通事故数据的方法


[0001]本专利技术涉及一种多源数据结构下优化交通事故数据的方法,属于交通数据结构


技术介绍

[0002]近几年构建道路安全事故分析模型成为了交通安全领域的研究热点,然而模型的表现很大程度上依赖于交通事故数据结构的有效性。交通事故作为一种小概率事件,特别是严重性事故,经常会导致事故数据结构不平衡,即事故数据样本远远小于零事故样本(即零过多现象)。目前在科研领域与专利应用领域,大多数的研究都是基于传统的统计分析模型,如零膨胀泊松回归模型、自举重采样等。随着先进的数据挖掘技术发展,上采样与下采样技术开始用于数据结构平衡优化,如合成少数类过采样技术、生成式对抗网络等。
[0003]然而上述方法在生成新的数据集时往往赋予所有变量共同的似然函数,忽略了不同变量之间的异质性,从而影响了模型的拟合效果和安全因素的识别。因此,为保证数据生成的有效性,保证准确可靠的安全评估结果的获取,需要针对不同变量数据分别构建符合各自形态分布的似然函数,生成新的数据集,使得事故数据结构平衡。

技术实现思路

[0004]本专利技术所要解决的技术问题是:提供一种多源数据结构下优化交通事故数据的方法,能够大幅度减少不平衡交通事故数据结构对安全分析模型的影响,获得准确可靠的交通安全评价结果。
[0005]本专利技术为解决上述技术问题采用以下技术方案:
[0006]一种多源数据结构下优化交通事故数据的方法,包括如下步骤:
[0007]步骤1,采集多源交通数据,即获取多源交通安全影响因素数据;
[0008]步骤2,构建符合多源交通数据形态分布的生成模型,即为步骤1获取的各个影响因素构建分布形态函数;
[0009]步骤3,基于步骤2构建的生成模型对步骤1采集的多源交通数据进行增生优化处理,使得处理后的多源交通数据中事故样本的数量与零事故样本的数量比例为1:4。
[0010]作为本专利技术的进一步方案,所述优化交通事故数据的方法还包括步骤4,构建交通安全分析模型,并根据模型的拟合指标对增生优化结果进行验证。
[0011]作为本专利技术的优选方案,步骤1所述多源交通安全影响因素包括:路段年交通事故总数量N、路段长度L、路段日平均交通量Q、路段平均车速V、路段的交通节点密度S、道路等级A、道路路幅宽度W、道路车道数K以及有无公交车道B。
[0012]作为本专利技术的优选方案,所述步骤2的具体过程如下:
[0013]将多源交通安全影响因素划分为计数变量、实值变量、分类变量和有序变量;
[0014]所述计数变量包括路段年交通事故总数量N,构建路段年交通事故总数量的分布形态函数如式(1):
[0015][0016]其中,p(N=G)表示路段产生G起事故的概率,λ表示单位时间或者单位面积内事故发生的平均次数,G为自然数;
[0017]所述实值变量包括路段长度L、路段日平均交通量Q、路段的交通节点密度S以及道路路幅宽度W,构建实值变量的分布形态函数如式(2):
[0018]J为连续自然数
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0019]其中,Z表示实值变量,p(Z=J)表示实值变量取值J的概率,表示正态分布函数,μ(I)、σ(I)2分别为高斯分布的均值与方差,I表示实值变量的实际观测值;
[0020]所述分类变量包括道路等级A、道路车道数K以及有无公交车道B,构建分类变量的分布形态函数如式(3):
[0021][0022]其中,H表示分类变量,p(H=C)表示分类变量取值C的概率,π
C
(F)、π
q
(F)表示多项式Logit模型的参数,F表示分类变量的实际观测值,U为自然数;
[0023]所述有序变量包括路段平均车速V,构建路段平均车速的分布形态函数如式(4)和(5):
[0024]p(V=R)=p(V≤R)

p(V≤R

1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0025][0026]其中,p(V=R)表示平均车速取值R的概率,p(V≤R)表示平均车速取值小于等于R的概率,p(V≤R

1)表示平均车速取值小于等于R

1的概率,R为自然数,ω
R
(E)表示平均值取值R所对应的分段阈值,ψ
V
(E)为模型参数,E为有序变量实际观测值。
[0027]作为本专利技术的优选方案,所述交通安全分析模型如式(6)和(7):
[0028]Ln(N)=θ+θ1L+θ2Q+θ3V+θ4S+θ5A+θ6W+θ7K+θ8B
ꢀꢀꢀꢀꢀꢀꢀ
(6)
[0029]AIC=

2 ln(Y)+2T,BIC=ln(n)T

21n(Y)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0030]其中,N表示路段年交通事故总数量,L表示路段长度,Q表示路段日平均交通量,V表示路段平均车速,S表示路段的交通节点密度,A表示道路等级,W表示道路路幅宽度,K表示道路车道数,B表示有无公交车道,θ、θ1、θ2、θ3、θ4、θ5、θ6、θ7、θ8为交通安全分析模型的系数,AIC表示赤池信息量准则,BIC表示贝叶斯信息准则,Y表示最大似然值,T表示影响因素数量,n为观测样本数量。
[0031]本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:
[0032]1、本专利技术提出一种多源数据结构下优化交通事故数据的方法,分别确定每一种交通数据类型的分布形态,基于数据分布形态构建事故数据生成模型,并基于道路安全分析模型对优化后的数据集进行验证与评价,大幅度减少了不平衡交通事故数据结构对安全分析模型的影响,使得交通安全评价结果更加准确可靠。
[0033]2、本专利技术针对不同变量数据,构建符合各自分布的似然函数,从而保证了数据生成的有效性,保证了准确可靠的安全评估结果的获取。
附图说明
[0034]图1是本专利技术一种多源数据结构下优化交通事故数据的方法的流程图。
具体实施方式
[0035]下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。
[0036]如图1所示,本专利技术提出的一种多源数据结构下优化交通事故数据的方法,包括以下步骤:
[0037]步骤1、多源交通数据采集,通过实地调查与相关部交通部门的调研,分别获取以下多源交通安全影响因素:路段年交通事故总数量N、路段长度L、路段日平均交通量Q、路段平均车速V、路段的交通节点密度S、道路等级A、道路路幅宽度W、道路车道数K以及有无公交车道B;
[0038]步骤2、构建符合多源数据形态分布的生成模型,分别为步骤1中的各因素构建适合的分布形态函数具体如下:
[0039]计数变量(年交本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源数据结构下优化交通事故数据的方法,其特征在于,包括如下步骤:步骤1,采集多源交通数据,即获取多源交通安全影响因素数据;步骤2,构建符合多源交通数据形态分布的生成模型,即为步骤1获取的各个影响因素构建分布形态函数;步骤3,基于步骤2构建的生成模型对步骤1采集的多源交通数据进行增生优化处理,使得处理后的多源交通数据中事故样本的数量与零事故样本的数量比例为1:4。2.根据权利要求1所述多源数据结构下优化交通事故数据的方法,其特征在于,所述优化交通事故数据的方法还包括步骤4,构建交通安全分析模型,并根据模型的拟合指标对增生优化结果进行验证。3.根据权利要求1所述多源数据结构下优化交通事故数据的方法,其特征在于,步骤1所述多源交通安全影响因素包括:路段年交通事故总数量N、路段长度L、路段日平均交通量Q、路段平均车速V、路段的交通节点密度S、道路等级A、道路路幅宽度W、道路车道数K以及有无公交车道B。4.根据权利要求3所述多源数据结构下优化交通事故数据的方法,其特征在于,所述步骤2的具体过程如下:将多源交通安全影响因素划分为计数变量、实值变量、分类变量和有序变量;所述计数变量包括路段年交通事故总数量N,构建路段年交通事故总数量的分布形态函数如式(1):其中,p(N=G)表示路段产生G起事故的概率,λ表示单位时间或者单位面积内事故发生的平均次数,G为自然数;所述实值变量包括路段长度L、路段日平均交通量Q、路段的交通节点密度S以及道路路幅宽度W,构建实值变量的分布形态函数如式(2):其中,Z表示实值变量,p(Z=J)表示实值变量取值J的概率,表示正态分布函数,μ(I)、σ(I)2分别为高斯分布的均值与方差,I表示实值变量的实际观测值;所述分类变量包括道路等级A、道路车道数K以及有无公交车道B,构建分类变量的分布形态函数如式(3):其中,H表示分类变量,p(...

【专利技术属性】
技术研发人员:郭延永刘攀丁红亮马景峰李清韵
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1