一种基于大数据的多源数据融合算法制造技术

技术编号:37723970 阅读:13 留言:0更新日期:2023-06-02 00:26
本发明专利技术公开了一种基于大数据的多源数据融合算法,涉及数据融合技术领域,包括:输入多个数据源的交通初始数据集,并将数据集的编码统一设置为GBK编码;对交通初始数据集进行预处理;所述预处理表现为剔除交通初始数据集中的不合格信息;对预处理后的交通数据信息进行特征提取,以得到交通特征数据;对待融合交通特征数据进行观测系数GF分析,根据观测系数GF分配对应数量的数据融合终端对待融合交通特征数据进行融合;数据融合终端采集若干个交通特征数据进行融合,输出交通评估数据信息;在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,判断是否需要重新分配所述数据融合终端的算力资源,提高数据融合效率。提高数据融合效率。提高数据融合效率。

【技术实现步骤摘要】
一种基于大数据的多源数据融合算法


[0001]本专利技术涉及数据融合
,具体是一种基于大数据的多源数据融合算法。

技术介绍

[0002]近年来智能交通系统引发了大量研究人员的关注。智能交通系统作为一项综合应用产品,其涉及技术包括了信息技术、通信技术、控制技术、计算机技术、感知技术等等。另一方面,科技进步带来的是交通数据种类的增加,城市道路中出现的交通流检测设备也日趋多样。然而,数据驱动的智能交通系统受限于已有城市道路交通数据的数据质量,质量参差不齐的多源交通数据可能将会对后期交通信号管控产生灾难性的影响。
[0003]作为大数据背景下实现交通精确管控的一个必要前提,城市交通大数据中,数据融合方法设计的好坏将极大程度影响着后期决策算法的输入数据质量。因此设计高效的数据融合系统是提高数据质量,精简交通数据的重点。然而,大多数据融合方法的融合数据源种类是单一的,在交通领域中各交通检测设备经常受环境因素等影响不可避免地会出现异常情况,因此会影响最终数据融合的精度。为此,本专利技术提出一种基于大数据的多源数据融合算法。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种基于大数据的多源数据融合算法。
[0005]为实现上述目的,根据本专利技术的第一方面的实施例提出一种基于大数据的多源数据融合算法,包括如下步骤:
[0006]步骤一:输入多个数据源的交通初始数据集,并将数据集的编码统一设置为GBK编码,在文件的第一列采用ID属性进行标识不同行的数据;
[0007]步骤二:对交通初始数据集进行预处理;所述预处理表现为剔除交通初始数据集中的不合格信息;
[0008]步骤三:对预处理后的交通数据信息进行特征提取,以得到交通特征数据;具体为:首先获取任意时间段或任意路段内的不同数据源中的不同数据;再根据获取的不同数据以得到交通特征数据;
[0009]步骤四:对待融合交通特征数据进行观测系数GF分析,根据观测系数GF分配对应数量的数据融合终端对待融合交通特征数据进行融合;其中融合基于HFCM聚类算法;
[0010]步骤五:数据融合终端采集若干个交通特征数据进行融合,生成交通融合数据;将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处理并分析评估,输出交通评估数据信息;
[0011]步骤六:在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,计算得到算力饱和系数KY;判断是否需要重新分配所述数据融合终端的算力资源。
[0012]进一步地,对待融合交通特征数据进行观测系数GF分析,具体为:
[0013]获取待融合交通特征数据对应的时间断面,调取对应时间断面的研究吸引值为YG;统计待融合交通特征数据的数据大小为D1;
[0014]利用公式GF=YG
×
g1+D1
×
g2计算得到待融合交通特征数据的观测系数GF;其中g1、g2为系数因子。
[0015]进一步地,根据观测系数GF确定数据融合终端的分配数量为L1;具体为:获得预先构建的观测系数范围与终端数量阈值的映射关系表;所述观测系数范围与终端数量阈值的映射关系表基于数据融合终端响应用户进行的第一配置操作生成;基于观测系数GF和观测系数范围与终端数量阈值的映射关系表,确定观测系数GF对应的终端数量阈值为L1。
[0016]进一步地,还包括:对交通评估数据信息进行访问监测,并根据访问记录进行研究吸引值分析,具体分析步骤为:
[0017]在预设时间内,获取交通评估数据信息的访问记录;所述访问记录包括访问开始时刻和访问结束时刻;获取交通评估数据信息对应的时间断面;
[0018]针对同一时间断面,统计该时间断面的访问次数为C1;将每次访问的访问时长进行累加得到访问总时长ZT;利用公式YG=C1
×
a1+ZT
×
a2计算得到该时间断面的研究吸引值YG,其中a1、a2为系数因子。
[0019]进一步地,对数据融合终端的算力占用情况进行监测分析,具体为:
[0020]从初始时刻起,按照预设间隔采集数据融合终端的算力占用率并标记为Nc,建立算力占用率Nc随时间变化的曲线图;
[0021]当曲线图处于上升阶段时,对曲线图进行求导获取占用率变化速率曲线图;将数据融合终端的实时算力占用率变化速率标记为Vt;
[0022]将Vt与预设速率阈值相比较;若Vt>预设速率阈值,则表示数据融合终端忙于数据融合,在对应的曲线图中截取对应的曲线段进行标注;
[0023]在预设时间内,统计标注曲线段的数量为R1,将所有的标注曲线段对时间进行积分得到标注参考能量WE,利用公式WR=R1
×
d1+WE
×
d2计算得到所述数据融合终端的运算热度值WR,其中d1、d2均为系数因子;
[0024]获取数据融合终端的当前算力占用率为Nt,利用公式KY=Nt
×
d3+WR
×
d4计算得到核心节点的算力饱和系数KY,其中d3、d4均为系数因子;
[0025]将算力饱和系数KY与预设饱和阈值相比较;若KY>预设饱和阈值,则判定所述数据融合终端的算力资源不足,生成算力扩充信号;以提醒管理人员扩充所述数据融合终端的算力资源。
[0026]进一步地,其中,多个数据源包括从手机GPS中获取的手机实时移动速度信息、路况摄像头获取的所在路段的车辆速度信息以及从浮动车辆GPS中获取的实时车辆位置和行驶速度信息。
[0027]进一步地,所述不合格信息包括车辆瞬时速度大于合理值的交通数据信息、视频采样时间和存储时间不同的交通数据信息以及GPS定位中车辆经纬度超过合理范围的交通数据信息。
[0028]进一步地,交通融合数据包括任一时间且任一路段上所有手机、路况摄像头获取的所在路段的车辆和浮动车辆的平均速度信息;集中处理具体为将各区域的路段车流量信息和交通融合信息进行汇总,即具体地将每个路段对应的交通融合信息进行一一汇总,从
而进行评估所在区域的交通数据信息。
[0029]与现有技术相比,本专利技术的有益效果是:
[0030]1、本专利技术中输入多个数据源的交通初始数据集,并将这些数据集的编码统一设置为GBK编码,在文件的第一列采用ID属性来标识和区别不同行的数据;对交通初始数据集进行预处理,剔除不合格信息;对预处理后的交通数据信息进行特征提取,以得到交通特征数据;对待融合交通特征数据进行观测系数GF分析,根据观测系数GF分配对应数量的数据融合终端对待融合交通特征数据进行融合;提高数据融合效率;其中融合基于HFCM聚类算法;用于挖掘多源异构数据价值,实现多源异构数据的互联互通、交换共享;
[0031]2、本专利技术中数据融合终端采集若干个交通特征数据进行融合,生成交通融合数据,再将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的多源数据融合算法,其特征在于,包括如下步骤:步骤一:输入多个数据源的交通初始数据集,并将数据集的编码统一设置为GBK编码,在文件的第一列采用ID属性来标识和区别不同行的数据;步骤二:对交通初始数据集进行预处理;所述预处理表现为剔除交通初始数据集中的不合格信息;步骤三:对预处理后的交通数据信息进行特征提取,以得到交通特征数据;具体为:首先获取任意时间段或任意路段内的不同数据源中的不同数据;再根据获取的不同数据以得到交通特征数据;步骤四:对待融合交通特征数据进行观测系数GF分析,根据观测系数GF分配对应数量的数据融合终端对待融合交通特征数据进行融合;其中融合基于HFCM聚类算法;步骤五:数据融合终端采集若干个交通特征数据进行融合,生成交通融合数据;将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处理并分析评估,输出交通评估数据信息;步骤六:在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,计算得到算力饱和系数KY;判断是否需要重新分配所述数据融合终端的算力资源。2.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,对待融合交通特征数据进行观测系数GF分析,具体分析步骤为:获取待融合交通特征数据对应的时间断面,调取对应时间断面的研究吸引值为YG;统计待融合交通特征数据的数据大小为D1;利用公式GF=YG
×
g1+D1
×
g2计算得到待融合交通特征数据的观测系数GF;其中g1、g2为系数因子。3.根据权利要求2所述的一种基于大数据的多源数据融合算法,其特征在于,根据观测系数GF确定数据融合终端的分配数量为L1;具体为:获得预先构建的观测系数范围与终端数量阈值的映射关系表;所述观测系数范围与终端数量阈值的映射关系表基于数据融合终端响应用户进行的第一配置操作生成;基于观测系数GF和观测系数范围与终端数量阈值的映射关系表,确定观测系数GF对应的终端数量阈值为L1。4.根据权利要求2所述的一种基于大数据的多源数据融合算法,其特征在于,还包括:对交通评估数据信息进行访问监测,并根据访问记录进行研究吸引值分析,具体分析步骤为:在预设时间内,获取交通评估数据信息的访问记录;所述访问记录包括访问开始时刻和访问结束时刻;获取交通评估数据信息对应的时间断面;针对同一时间断面,统计该时间断面的访问次数为C1;将每次访问的访问时长进...

【专利技术属性】
技术研发人员:冯嘉荣梁峻铭
申请(专利权)人:佛山市众合科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1