基于机器学习的车联网通信的流量预测方法技术

技术编号:22172735 阅读:126 留言:0更新日期:2019-09-21 13:27
本发明专利技术公开了一种基于机器学习的车联网通信的流量预测方法,利用交通数据平台发布的流量速度数据库,选取八类数据指标,通过优化参数后的随机森林算法完成全天候的车流量预测;利用openstreetmap导出某地城市道路车辆交通场景,获取交通数据,再配置通信仿真文件,获取通信数据,两种数据混合,分析车流量与通信流量二者关系;利用openstreetmap导出在交通数据平台所选的路段,配置通信仿真文件,获取通信数据,从交通数据平台发布的流量速度数据数据与通信数据中选取九类相关指标,通过Bagging模型进行通信流量预测。本发明专利技术的方法泛化性能好,准确度较高,能为后期利用经济高效的数据分发提供可靠的车载通信分析方法,增强车辆用户驾驶的安全性。

Traffic Forecasting Method for Vehicle Networking Communication Based on Machine Learning

【技术实现步骤摘要】
基于机器学习的车联网通信的流量预测方法
本专利技术涉及城市道路车辆交通场景下车辆的流量预测
,具体是一种利用机器学习算法对现有的交通数据进行预测,并结合通信仿真完成车联网通信流量预测的方法。
技术介绍
车载自组织网络是依托计算机网络、现代无线通信和云计算等新一代信息技术的革命性发展,它的开发是为了通过经济高效的数据分发提供可靠的车载通信。车辆通信可用于减少交通事故,交通拥堵,行驶时间,燃料消耗等。车载通信允许道路使用者通过交换一些信息,了解可能发生在他们身上的危急和危险情况时的周围环境。因此对车联网通信流量的研究能进一步促进交通智能化,能有效地提升交通的效率、减少甚至避免交通事故的发生。在预测交通流量和网络流量的非机器学习方法中,大部分都只能针对特定区域的短时交通流进行预测。如两步优化选择法是对时间序列进行预测的统计方法,但它只能基于单条时间序列进行检测和统计,而对多条时间序列曲线则相对困难些。另一种结合波动理论分析和频谱分析的组合方法,是根据频谱分析将流量数据分成三类成分,而不同的流量成分采用相应的模型预测,但它在处理庞大的交通流量和网络通信流量数据时,不仅耗时耗力,而且数据指标的分布特征都没有很好地得到展示。而近年来陆续被使用在交通流量和网络流量的机器学习方法,都能综合地考虑到交通场景中的时空性数据,且应对海量的流量数据时,能高效率地统计交通流量分布规律,预测未来流量情况。
技术实现思路
本专利技术的目的在于提供一种基于机器学习的车联网通信的流量预测方法,提高预测模型的泛化性能和全天候流量预测的准确性。。实现本专利技术目的的技术解决方案为:一种基于机器学习的车联网通信的流量预测方法,步骤如下:步骤1、车流量预测:利用交通数据平台发布的流量速度数据,选取8类指标进行数据处理,完成全天候的车流量预测;步骤2、分析两种流量关系:利用openstreetmap导出某地城市道路车辆交通场景,配置车流探测文件,获取交通数据,再配置车辆通信仿真文件,获取通信数据,两类数据混合,分析车流量与通信流量二者关系;步骤3、通信流量预测:在交通数据平台选择某些路段,利用openstreetmap导出这些路段的城市道路车辆交通场景后,配置车辆通信仿真文件,获取通信数据,依据已得的两种流量关系,从交通数据平台发布的流量速度数据和获取的仿真车辆通信数据中,选取9类指标进行数据处理,完成车载网络的通信流量预测。本专利技术与现有技术相比,其显著优点:1)本专利技术采用机器学习算法,将海量经验数据加载给学习算法训练出模型,泛化性能好,能直观看出各指标下高低流量分布情况,针对城市道路车辆交通场景下的数据都有很好的预测性能;2)不局限于其他只针对仿真场景下的车流量短时预测的研究,本专利技术有效地对真实城市车辆交通场景的未来全天候车流量进行了很好的预测;3)本专利技术更进一步研究了车流量等交通信息与车联网联实时的通信质量之间的关系,为车联网的技术发展甚至智能交通的构建提供较大的便利。附图说明图1是本专利技术据实测数据预测车流量的方案流程图。图2是本专利技术对关联度大且多值指标的处理流程图。图3是本专利技术据车联网仿真预测通信流量的方案流程图。图4是本专利技术预测通信流量预测的方案流程图。具体实施方式下面结合说明书附图和实施例对本专利技术作进一步说明。本专利技术基于机器学习的车联网通信的流量预测,包括如下步骤:步骤1、车流量预测:利用交通数据平台发布的流量速度数据,选取8类指标进行数据处理,如图1所示完成全天候的车流量预测的具体方法为:获取交通数据平台发布的某些路段一周全天候的数据,利用这些数据,预测这些路段未来某周某天全天候的车流量,即形成7天的训练数据集train.csv,1天的测试数据集test.csv;8类数据集指标包括6类数字型指标和2类类目型指标,数字型指标:车流量Flow、时间Time、速度Speed、交通量Volume、交通指数Index、路段Place,类目型指标:即星期Week、天气Weather;利用isna函数判断各指标是否有缺失值,并用len函数对训练集数据train.csv进行统计,包括:各数字型指标的数量count、均值mean、标准差std、最小值min、最大值max;为了直观看出各指标下高低车流量分布情况,以车流量的均值mean作为高低流量的分界点,用sns.kdeplot函数画内核密度图查看车流量的分布状况:1)类目型指标week、weather上的高流量与低流量分布与量化,2)Week各天的高流量与低流量分布情况,3)交通指数Index上高流量与低流量分布情况,4)Time全天的高流量与低流量分布情况,5)各位置Place的高流量与低流量分布情况,6)volume、speed上的高流量与低流量分布情况;利用sns.heatmap画图展示各指标间的关联度,关联度值的绝对值越大,两指标间的相互影响关系越深,用groupby函数得到车流量Flow与其它指标的关联度排序。关联度排序在最后的两种指标,对最终预测结果的准确性程度贡献小,为了提高运算效率,课将这两种指标合并为新指标;关联度排序在前三的三种数值连续性指标,依次设定指标数值分成8、6、4段取值范围,利用pd.cut函数自动寻找各段交界点,以各范围边界点来划分数值连续性指标,获得类目型指标;再使用get_dummies对类目型指标进行数据因子化,将指标平展开后,取值均为0、1,即当某展开指标的取值为1时,它会确定Flow的一个模糊的取值范围,再结合其它指标的贡献,逐渐收敛,一步步将Flow的取值范围缩小,最后确定预测值。由于特征值的取值只有0和1,这会大大加快机器学习运算效率。对关联度大的指标进行取值范围划分,对处理海量的机器学习算法来说,不仅大大提高了运算效率,还在数据收敛方向上,提供了机器学习算法自动划分的的分界点与聚集中心;如果连续性数据指标取值范围太大,将对逻辑回归的收敛性造成不利影响,利用preprocessing.StandardScaler()函数,对取值超过100种的多样性数据指标进行数据标准化,将数据指标分布调整成标准正太分布,使得其均值为0,方差为1;将处理后的训练数据集train.csv,输入scikit-learn工具包下的六种常用经典机器学习算法进行模型训练:随机森林模型RandomForest、逻辑回归模型LogisticRegression、K近邻模型KNN、支持向量机模型SupportVectorMachines、朴素贝叶斯模型NaiveBayes、决策树模型DecisionTree等。由于scikit-learn工具包为模型对象提供predict()接口,经过训练的模型,可以用这个接口来进行预测,同时也提供了score()接口来评价一个模型的好坏,根据置信度得分越高则模型预测性能越好,来进行预测模型的选择和验证。根据给出的置信度得分排序,初步选择置信度得分排在前两位的随机森林模型和决策树模型,对置信度得分最高的随机森林模型和决策树模型进行优化:利用不同的机器学习算法的可调参数以及它们对机器学习算法的性能以及准确率的影响,通过GridSearchCV()、StratifiedKFold()和StratifiedShuffleSplit()函数,寻找最优参数下的本文档来自技高网...

【技术保护点】
1.一种基于机器学习的车联网通信的流量预测方法,其特征在于步骤如下:步骤1、车流量预测:利用交通数据平台发布的流量速度数据,选取8类指标进行数据处理,完成全天候的车流量预测;步骤2、分析两种流量关系:利用openstreetmap导出某地城市道路车辆交通场景,配置车流探测文件,获取交通数据,再配置车辆通信仿真文件,获取通信数据,两类数据混合,分析车流量与通信流量二者关系;步骤3、通信流量预测:在交通数据平台选择某些路段,利用openstreetmap导出这些路段的城市道路车辆交通场景后,配置车辆通信仿真文件,获取通信数据,依据已得的两种流量关系,从交通数据平台发布的流量速度数据和获取的仿真车辆通信数据中,选取9类指标进行数据处理,完成车载网络的通信流量预测。

【技术特征摘要】
1.一种基于机器学习的车联网通信的流量预测方法,其特征在于步骤如下:步骤1、车流量预测:利用交通数据平台发布的流量速度数据,选取8类指标进行数据处理,完成全天候的车流量预测;步骤2、分析两种流量关系:利用openstreetmap导出某地城市道路车辆交通场景,配置车流探测文件,获取交通数据,再配置车辆通信仿真文件,获取通信数据,两类数据混合,分析车流量与通信流量二者关系;步骤3、通信流量预测:在交通数据平台选择某些路段,利用openstreetmap导出这些路段的城市道路车辆交通场景后,配置车辆通信仿真文件,获取通信数据,依据已得的两种流量关系,从交通数据平台发布的流量速度数据和获取的仿真车辆通信数据中,选取9类指标进行数据处理,完成车载网络的通信流量预测。2.根据权利要求1所述的基于机器学习的车联网通信的流量预测方法,其特征在于,步骤1所述选取8类指标进行数据处理,完成全天候的车流量预测的方法为:1.1获取交通数据平台发布的某些路段一周全天候的数据,利用这些数据,预测这些路段未来某周某天全天候的车流量,即形成7天的训练数据集train.csv,1天的测试数据集test.csv;8类数据集指标包括6类数字型指标和2类类目型指标,数字型指标:车流量Flow、时间Time、速度Speed、交通量Volume、交通指数Index、路段Place,类目型指标:星期Week、天气Weather;1.2利用isna函数判断各指标是否有缺失值,并用len函数对训练集数据train.csv进行统计,包括:各数字型指标的数量count、均值mean、标准差std、最小值min、最大值max;1.3以车流量的均值mean作为高低流量的分界点,用sns.kdeplot函数画内核密度图查看车流量的分布状况:1)类目型指标week、weather上的高流量与低流量分布与量化,2)Week各天的高流量与低流量分布情况,3)交通指数Index上高流量与低流量分布情况,4)Time全天的高流量与低流量分布情况,5)各位置Place上的高流量与低流量分布情况,6)volume、speed上的高流量与低流量分布情况;1.4利用sns.heatmap画图展示各指标间的关联度,用groupby函数得到车流量Flow与其它指标的关联度排序;1.5将关联度排序在最后的两种指标,合并为新指标;对关联度排序在前三的三种数值连续性指标,依次设定指标数值分成8、6、4段取值范围,利用pd.cut函数自动寻找各段交界点,以各范围边界点来划分数值连续性指标,获得类目型指标;再使用get_dummies对类目型指标进行数据因子化,将指标平展开;1.6利用preprocessing.StandardScaler()函数,对取值超过100种的多样性数据指标进行数据标准化,将数据指标分布调整成标准正太分布,使得其均值为0,方差为1;1.7利用scikit-learn工具包下的经典机器学习算法随机森林模型,对处理后的8类指标进行训练和预测,并给出置信度得分;再通过随机森林模型的可调参数对模型进行优化:通过GridSearchCV()、StratifiedKFold()和StratifiedShuffleSplit()函数寻找最优参数下模型;最后对测试集test.csv进行预测,并提交结果fianl_submission1.csv;1.8利用优化参数后的随机森林模型画学习曲线:横坐标为训练集train.csv所训练样本的个数,纵坐标为训练集train.csv拟合的准确性得分和交叉验证集预测的准确性得分,画出学习曲线。3.根据权利要求1所述的基于机器学习的车联网通信的流量预测方法,其特征在于,步骤2分析两种流量关系的方法为:2.1基于开源平台openstreetmap导出某实地城市道路路口,作为实验城市道路车辆交通场景进行建模:配置车流文件rou.xml、道路文件net.xml、探测器loopsDetectors文件;然后用交通仿真软件SUMO进行交通仿真,获取交通数据:交通量nVehContrib即采集周期内完整通过传感器的车辆数量、车流量Flow即每小时通过传感器的车辆数量、时间占有率occupancy即车辆通过的累计值与时间周期的比值、平均速度speed即采集周期内的平均车速、通过探测器的车辆平均长度length、接触到传感器车辆的数量nVehEntered;2.2基于ubuntu16.04操作系统,完成通信仿真软件NS-3与交通仿真软件SUMO的连接,使NS-3能够遵循SUMO实验城市道路车辆交通场景模式输出通信数据,方法为:将车流文件.rou.xml和道路文件.net.xml合并转化为.sumo.tr文件;随后利用java-jar命令下的traceExporter.jar,将道路文件.net.xml和.sumo.tr文件合并转化为NS-3需要的.mobility.tcl文件,最后通过ns2-mobility-tra...

【专利技术属性】
技术研发人员:代俊韩涛王静赵惠昌
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1