一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统技术方案

技术编号:14458953 阅读:204 留言:0更新日期:2017-01-19 16:09
本发明专利技术涉及一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统,包括:数据预处理模块、在线变分贝叶斯支持向量回归模型构建模块、在线变分贝叶斯支持向量回归模型训练模块、在线变分贝叶斯支持向量回归模型预测模块。该方法有效解决了传统支持向量回归模型预测交通事故率的速度慢、预测结果不准、难以在线进行的问题,在实际中有一定的应用价值。

【技术实现步骤摘要】

本专利技术涉及一种基于在线变分贝叶斯支持向量回归的高效预测交通事故率系统,属于机器学习在交通方面的应用领域。
技术介绍
交通事故率预测问题本质上是一个回归问题。解决这一问题一个经典的方式是采用传统的支持向量回归模型,此模型通过对经验损失和模型复杂度进行折衷,具有比较好的泛化能力。虽然应用广泛,但其主要变种都是基于MAP准则,对模型的每个参数估计一个值,因此较容易受噪声和异常点的干扰。更糟糕的是,此模型需要用户提前指定正则化参数,但是在很多机器学习问题的应用中,最优的正则参数很难提前决定,不合理的参数指定会严重影响模型的预测能力。虽然可以通过交叉验证求得相对合适的参数,但也很容易在少量数据上过拟合,且非常耗时。近年来,也出现了基于贝叶斯的可用于交通事故率预测的支持向量回归模型。Law等人将Mackay的贝叶斯支持向量机模型应用到回归场景。不久后,Gao等人基于Sollich关于分类的模型推导了基于似然和错误样条的回归模型。然而,这两个工作都缺乏对∈-不敏感损失的平滑,由于直接使用不可微的损失函数,很难对模型的参数给出精确的解,因此采取了折衷的方式,限制了模型的预测能力。特别是由于交通事故率的特征比较少,模型的预测能力更加有限。此后,Ning等人提出了基于最小化平方损失的鲁棒贝叶斯支持向量回归模型被,将不等约束转化为等式约束来处理异常点,但这一损失函数是可微的,而不是∈-不敏感损失,因此在保证模型的稀疏性方面略有不足。这样会导致模型更加趋于记忆而不是学习,当与事故率有关的特征组合未在训练数据中出现时很难给出合理预测。另一方面,交通事故率预测问题是一个流式数据的问题。如果不考虑实际环境,只根据历史数据学习特定的模型,而无法实时将新的数据融入此模型,那么这样的模型是没有意义的,无法投入实际应用中。然而,很多现存的在线支持向量回归模型是基于点估计的,没有考虑模型的不确定性。这样就导致了其预测性能很容易受不合理正则化参数估计、噪声和异常点的影响。Ma等人提出了一个精确的在线支持向量回归模型,然而,这一做法在更新模型时需不确定次数的操作,非常耗时,因此不适用于实时环境。然后,Kivinen等人提出了基于随机梯度下降的方法在有限的时间内给出近似解,但是模型的预测性能与随机梯度下降的初始化与学习率有关,因此也无法保证模型的预测能力。Brugger通过对原始优化问题精度和效率的权衡来学习模型,但通常问题既需要保证预测精度,又需要消耗的时间尽量少,而Brugger解析求解的方式很难同时达到这两个目标。以上方法均不够高效,本专利技术提出的方法可以在保证准确率的同时尽快地训练好模型,给出预测结果,同时又回避了人工指定参数不当对预测结果产生的影响。
技术实现思路
本专利技术技术解决问题:克服上述现有技术的不足,提供一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统,避免了人工指定正则化参数不合理的情况下模型预测效果很差的后果,同时采用基于变分推断的贝叶斯技术,又可使收敛速度很快,因此比传统的交叉验证节省大量时间,解决了传统基于点估计模型求解方法易过拟合、易受噪声影响的缺点,解决了传统方法难以扩展到在线学习场景的问题。本专利技术所采用的技术方案是:一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统,包括:数据预处理模块、在线变分贝叶斯支持向量回归模型构建模块、在线变分贝叶斯支持向量回归模型训练模块、在线变分贝叶斯支持向量回归模型预测模块;其中:数据预处理模块:将实际中关于交通事故率的数据进行预处理,所述预处理为先进行特征提取,在关于交通事故率的数据中提取一些与发生交通事故相关的信息作为特征,然后再对这些特征进行特征离散化;在特征提取及离散化的同时,计算交通事故率,然后对交通事故率进行数据清洗和划分,最后将得到划分好交通事故率的数据写入两个不同的文件,文件A和文件B;在线变分贝叶斯支持向量回归模型构建模块:进行在线变分贝叶斯支持向量回归模型的构建,首先假设进行先验概率分布,同时要构造基于数据扩充思想的伪似然,然后基于先验概率分布及数据扩充的伪似然进行后验概率近似推断,在后验概率近似推断的基础上进行增量变分贝叶斯支持向量回归模型的构建,最终得到增量变分贝叶斯支持向量回归模型;在线变分贝叶斯支持向量回归模型训练模块:用于将数据预处理模块得到的文件A中的数据输入在线变分贝叶斯支持向量回归模型构建模块得到的模型进行参数的迭代更新,将迭代更新结束后的得到的模型参数作为最优参数,记录到文件中;在线变分贝叶斯支持向量回归模型预测模块:用于读入在线变分贝叶斯支持向量回归模型训练模块得到的最优参数,并对数据预处理模块得到的文件B中的数据做出预测。所述数据预处理模块实现过程:(1)特征提取:获得的关于交通事故率的数据中包含当天日期、天气状况、汽车尾号限号情况、发生的交通事故的次数及地点、总的汽车数目;(2)特征离散化:根据当天日期将日期特征离散化为工作日、普通双休、小长假、大长假,根据天气状况将天气特征离散化为晴、阴、雨、雪、雾霾,汽车尾号限号情况本身为离散特征,无需再次进行离散;(3)事故率计算:根据发生交通事故的次数及总的汽车数目计算事故率,即:(4)数据清洗:所使用的数据中有一些比较异常的情况,将数据中事故率最大的前5%进行分析去除;(5)数据划分:步骤(4)最终得到的数据包含连续两年的交通事故率相关的数据,根据年份将其划分为两份,第一年的数据存到文件A,第二年的数据存到文件B。所述在线变分贝叶斯支持向量回归模型构建模块实现过程:(1)假设先验概率分布将在线变分贝叶斯支持向量回归参数的先验概率分布假设为高斯分布,用η表示模型参数,即数据预处理模块得到的数据特征的权重,并为其添加伽马分布的先验,用v表示先验分布的随机变量,根据高斯分布及伽马分布的定义,得到在线变分贝叶斯支持向量回归模型的先验概率分布如下:p0(v)=Γ(v|av,bv)(3)其中表示多元高斯分布,Γ()表示伽马分布,0表示0向量,I表示单位矩阵,D为η的长度,av,bv为伽马分布的超参数;(2)构造基于数据扩充思想的伪似然伪似然表达为数据在在线变分贝叶斯支持向量回归模型上的∈-不敏感损失:l(yn,xn;η)=max(|yn-ηrxn|-∈,0)(4)其中xn,yn分别表示数据预处理模块得到的数据特征及事故率,η表示数据预处理模块得到的数据特征的权重,l(yn,xn;η)表示数据在在线变分贝叶斯支持向量回归模型上的损失,max()为max函数,∈为辅助变量;根据数据扩充的思想将公式(4)中的max函数化为2个关于辅助变量的正态分布的积分的乘积,得到最终的伪似然表达式为:p(D,λ,θ|Θ)=Πn=1Nexp{1-2λn(λn-ηTxn+yn-∈)2本文档来自技高网
...

【技术保护点】
一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统,其特征在于:包括数据预处理模块、在线变分贝叶斯支持向量回归模型构建模块、在线变分贝叶斯支持向量回归模型训练模块、在线变分贝叶斯支持向量回归模型预测模块;其中:数据预处理模块:将实际中关于交通事故率的数据进行预处理,所述预处理为先进行特征提取,在关于交通事故率的数据中提取一些与发生交通事故相关的信息作为特征,然后再对这些特征进行特征离散化;在特征提取及离散化的同时,计算交通事故率,然后对交通事故率进行数据清洗和划分,最后将得到划分好交通事故率的数据写入两个不同的文件,文件A和文件B;在线变分贝叶斯支持向量回归模型构建模块:进行在线变分贝叶斯支持向量回归模型的构建,首先进行先验概率分布假设,同时要构造基于数据扩充思想的伪似然,然后基于先验概率分布及数据扩充的伪似然进行后验概率近似推断,在后验概率近似推断的基础上进行增量变分贝叶斯支持向量回归模型的构建,最终得到增量变分贝叶斯支持向量回归模型;在线变分贝叶斯支持向量回归模型训练模块:用于将数据预处理模块得到的文件A中的数据输入在线变分贝叶斯支持向量回归模型构建模块得到的模型进行参数的迭代更新,将迭代更新结束后的得到的模型参数作为最优参数,记录到文件中;在线变分贝叶斯支持向量回归模型预测模块:用于读入在线变分贝叶斯支持向量回归模型训练模块得到的最优参数,并对数据预处理模块得到的文件B中的数据做出预测。...

【技术特征摘要】
1.一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统,其特征在于:包括数据预处理模块、在线变分贝叶斯支持向量回归模型构建模块、在线变分贝叶斯支持向量回归模型训练模块、在线变分贝叶斯支持向量回归模型预测模块;其中:数据预处理模块:将实际中关于交通事故率的数据进行预处理,所述预处理为先进行特征提取,在关于交通事故率的数据中提取一些与发生交通事故相关的信息作为特征,然后再对这些特征进行特征离散化;在特征提取及离散化的同时,计算交通事故率,然后对交通事故率进行数据清洗和划分,最后将得到划分好交通事故率的数据写入两个不同的文件,文件A和文件B;在线变分贝叶斯支持向量回归模型构建模块:进行在线变分贝叶斯支持向量回归模型的构建,首先进行先验概率分布假设,同时要构造基于数据扩充思想的伪似然,然后基于先验概率分布及数据扩充的伪似然进行后验概率近似推断,在后验概率近似推断的基础上进行增量变分贝叶斯支持向量回归模型的构建,最终得到增量变分贝叶斯支持向量回归模型;在线变分贝叶斯支持向量回归模型训练模块:用于将数据预处理模块得到的文件A中的数据输入在线变分贝叶斯支持向量回归模型构建模块得到的模型进行参数的迭代更新,将迭代更新结束后的得到的模型参数作为最优参数,记录到文件中;在线变分贝叶斯支持向量回归模型预测模块:用于读入在线变分贝叶斯支持向量回归模型训练模块得到的最优参数,并对数据预处理模块得到的文件B中的数据做出预测。2.根据权利要求1所述的一种基于在线变分贝叶斯支持向量回归的交通事故率预测系统,其特征在于:所述数据预处理模块实现过程:(1)特征提取:获得的关于交通事故率的数据中包含当天日期、天气状况、汽车尾号限号情况、发生的交通事故的次数及地点、总的汽车数目;(2)特征离散化:根据当天日期将日期特征离散化为工作日、普通双休、小长假、大长假,根据天气状况将天气特征离散化为晴、阴、雨、雪、雾霾,...

【专利技术属性】
技术研发人员:邓嗣琦杜长营马文静龙国平
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1