一种基于张量的车联网数据缺失多重估计新方法技术

技术编号:21952701 阅读:45 留言:0更新日期:2019-08-24 17:48
本发明专利技术针对车联网数据缺失问题提出了一种基于张量的车辆网数据缺失多重估计新方法,集成贝叶斯张量分解(Integrated Bayesian tensor decomposition,IBTD),属于车联网领域。本算法在数据模型构建阶段,利用随机采样原理,将缺失数据随机抽取生成数据子集,并用优化后的贝叶斯张量分解算法进行插补。引入集成思想,将多个插补后的误差结果进行分析排序,考虑时空复杂度,择优平均得到最优结果。通过平均绝对百分比误差(MAPE)和均方根误差(RMSE)对提出模型的性能进行评估。实验结果表明,提出的新方法能够有效的对不同缺失量的交通数据集进行插补,并能得到很好的插补结果。

A Tensor-based Multiple Estimation Method for Data Loss in Vehicle Networking

【技术实现步骤摘要】
一种基于张量的车联网数据缺失多重估计新方法
本专利技术属于车联网领域,具体涉及一种基于张量的车联网数据缺失估计新方法。
技术介绍
车联网实际是要构建一个智能交通网络。随着现代传感技术、通信技术、计算机技术与信息技术的快速发展,智能交通系统(IntelligentTransportSystem,简称ITS)逐步推广,交通信息采集系统是ITS的重要组成部分,通过获取全面的、丰富的、实时的交通信息可以把握城市道路交通状况与变化规律,为城市交通规划和决策提供科学依据。车联网在应用中所需数据应具有高空间和时间分辨率,才能达到建模、交通管理、预测和路线引导等目的,然而现实中往往出现大量的缺失数据和低质量数据。缺失数据通常会产生非常广泛的影响,如果数据库中收集到的是不完整的缺失数据,不仅会造成实际获取与预先估计数据量之间的差异,还会使最终计算的准确性降低;有些数据是不完整的,存在缺失的,但系统将其看成是完整数据,就将形成数据处理误差;更有一些算法或者系统是在理想的非缺失数据集的基础上进行操作计算的,此时若发现数据集不完整,将造成计算过程直接停止。对于缺失数据的处理,国内外学者通常选择采取最典型的两种方法:一种是将数据集中有缺失的部分数据直接整段删除,只利用现有收集完整的整段数据用作交通流预测应用;另一种方法是采用算法将不完整数据补全成完整数据。以上两种方法各有利弊,第一种方法毫无疑问是最直接有效的方法,但是不能充分利用所有的数据信息,特别是在所删除的数据发生的时空节点能体现重要数据信息的时候,将此类数据信息删除后会大大降低预测交通流信息等应用的精确度。相比之下,第二种方法逐渐得到该领域的广泛重视与研究,基于向量、矩阵与张量的数据修复方法陆续被提出,学者们从多个角度,多个方面针对所提出的的方法做出优化和比较。当存在严重的数据缺失时,此类方法往往能够稳定的表示出优于第一种方法的适用性,但同时也存在一些弊端问题,诸如修复时产生的数据误差也会降低整体性能。针对上述问题,我们提出了一种基于张量的车联网数据缺失估计新方法——集成贝叶斯张量分解(IBTD)。
技术实现思路
与传统缺失数据插补方法有所不同的是,IBTD算法,结合了能够更好表示数据时空关联性的张量模型、利用随机抽取生成数据子集并集成两大优势,并在修复算法贝叶斯张量算法中也做出了创新。传统的贝叶斯张量算法,只设置一个超参数并只有一个共轭先验,本算法设置两个超参数并放置两个共轭先验,通过不断更新参数使模型快速收敛。基于张量的车联网数据缺失估计新方法——集成贝叶斯张量分解(IBTD)能够在基于高时空关联性的张量模型下,有效的修复缺失的交通数据,与传统方法相比表现出更好的插补性能。一种基于张量的车联网数据缺失多重估计新方法,其特征在于该方法主要包括如下步骤:第1、模型构建,包括张量模型基本思想,贝叶斯张量分解基本原理,采样新策略,择优排序机制;第2、基于张量的车联网数据缺失估计算法,包括算法设计和复杂度理论分析;第3、做实验测试和对比分析。其中基于张量的车联网数据缺失估计算法包括:第2.1、将交通数据按路段*天*日流量的形式生成三阶张量数据模型,用于评估算法性能;第2.2、将生成好的缺失张量数据用随机采样算法得到与原始缺失张量数据不同的不完整随机张量数据集,此处调用采样新策略算法;第2.3、将生成后的不完整随机张量数据集通过贝叶斯张量分解算法进行插补,此处调用贝叶斯张量分解算法;第2.4、将所有插补结果的误差参数进行冒泡排序,择优,将择优后的插补数据进行算数平均处理,得到更贴近原始数据的修复数据,此处调用冒泡排序机制算法。进一步的,实验测试和对比分析包括:第3.1、将采集数据张量表示;第3.2、然后根据数据缺失情况进行修复,通过分析得出新算法对比旧算法的优势。本专利技术的优点和积极效果:与传统缺失数据插补方法有所不同的是,提出的IBTD算法,结合了能够更好表示数据时空关联性的张量模型、利用随机抽取生成数据子集并集成两大优势,并在基修复算法贝叶斯张量算法中也做出了创新。传统的贝叶斯张量算法,只设置一个超参数并只有一个共轭先验,本算法设置两个超参数并放置两个共轭先验,通过不断更新参数使模型快速收敛。提出的基于张量的车联网数据缺失估计新方法——集成贝叶斯张量分解(IBTD)能够在基于高时空关联性的张量模型下,有效的修复缺失的交通数据,与传统方法相比表现出更好的插补性能。附图说明图1是交通数据3阶张量模型;图2是三阶张量cp分解模型;图3是贝叶斯张量分解概率图模型;图4是Bagging随机采样原理图;图5是集成次数与消耗时间和RMSE误差关系;图6是择优数量与RMSE的关系;图7是某地局部路网图;图8是某地局部路网结构图;图9是不同路段9月22日流量趋势图;图10是路段1不同日期流量趋势图;图11是数据缺失类型;图12是随机缺失条件下的数据修复均方根误差;图13是随机缺失条件下的数据修复平均绝对百分比误差;图14是结构性缺失条件下的数据修复均方根误差。图15是结构性缺失条件下的数据修复平均绝对百分比误差。图16是修复后数据与缺失数据对比。图17是修复后数据与实际数据对比。具体实施方式步骤一,模型构建:张量模型的基本思想:图2给出了三阶张量cp分解模型,CP分解的主要思想是:一个高阶的张量可以看做是由若干个一维的因子矩阵构成的,那么就可以利用分解后的因子矩阵做计算。建立一个k阶张量其中nl代表沿第l个方向的维度(l∈{1,2,...,k})。对于所建张量T,元素的索引通过表示。根据CP分解的基本思想,可将构建张量近似用低秩结构表示,如下所示:其中是第l个分解因子矩阵的第j列向量,符号ο表示向量外积,r为张量T的CP秩。如果从每个元素的角度分析,公式(1)又等同于其中是第m个因子矩阵am中的(im,j)(行im,列j)的值。贝叶斯张量分解的基本原理:图3给出了贝叶斯张量分解概率图模型,考虑到交通数据的特点,高阶张量虽然会一定程度上增加准确度,但与增加的复杂度相比,可行性不高,因此主要以三阶张量为例。这里我们用Ω表示那些观察到的元素的索引集,然后为数据生成过程引入完全贝叶斯模型。首先,我们假设每个观察到的元素(i∈Ω)的噪声项都遵循独立的高斯分布其中N(·)表示多元高斯分布,τ是精度,它是所有元素的通用参数。为了通过贝叶斯推断估计出因子矩阵,需要进一步设置共轭先验,此时共轭先验也为多元高斯分布。由于高斯分布的两个参数都为未知,为了对张量数据进行适当的建模,需在因子矩阵组ak和精度τ上放置了敏捷的先验分布。对于因子矩阵,假设其行向量的先验分布为多元高斯,具体表现形式如公式(4):为了增强模型的稳健性,与传统贝叶斯设置不同,我们放置两个共轭先验超参数和ηl和Σl(l=1,2,...,k)服从Gaussian-Wishart分布:(ηl,Σl)~GW(η0,β0,W0,v0)(5)ηl和Σl(l=1,2,...,k)的超前验分布如公式(6)所示:p(ηl,Σl|η0,β0,W0,v0)=N(ηl|η0,(β0Σl)-1)×W(Λl|W0,v0)(6)上述分布中,W(·)为Wishart分布,其自由度为v0,w0为r×r的比例矩阵:其中方形矩阵的tr(·)(迹函数)是其主对角线上所有元素的总和本文档来自技高网
...

【技术保护点】
1.一种基于张量的车联网数据缺失多重估计新方法,其特征在于该方法主要包括如下步骤:第1、模型构建,包括张量模型基本思想,贝叶斯张量分解基本原理,采样新策略,择优排序机制;第2、基于张量的车联网数据缺失估计算法,包括算法设计和复杂度理论分析;第3、做实验测试和对比分析;其中基于张量的车联网数据缺失估计算法包括:第2.1、将交通数据按路段*天*日流量的形式生成三阶张量数据模型,用于评估算法性能;第2.2、将生成好的缺失张量数据用随机采样算法得到与原始缺失张量数据不同的不完整随机张量数据集,此处调用采样新策略算法;第2.3、将生成后的不完整随机张量数据集通过贝叶斯张量分解算法进行插补,此处调用贝叶斯张量分解算法;第2.4、将所有插补结果的误差参数进行冒泡排序,择优,将择优后的插补数据进行算数平均处理,得到更贴近原始数据的修复数据,此处调用冒泡排序机制算法。

【技术特征摘要】
1.一种基于张量的车联网数据缺失多重估计新方法,其特征在于该方法主要包括如下步骤:第1、模型构建,包括张量模型基本思想,贝叶斯张量分解基本原理,采样新策略,择优排序机制;第2、基于张量的车联网数据缺失估计算法,包括算法设计和复杂度理论分析;第3、做实验测试和对比分析;其中基于张量的车联网数据缺失估计算法包括:第2.1、将交通数据按路段*天*日流量的形式生成三阶张量数据模型,用于评估算法性能;第2.2、将生成好的缺失张量数据用随机采样算法得到与原始缺失张量数据不同的不完整随机张量数据集,此处调用采样新策略算法;第2.3、将生成后的不完整随机张量数据集通过贝叶斯张量分解算法进行插补,此处调用贝叶斯张量分解算法;第2.4、将所有插补结果的误差参数进行冒泡排序,择优,将择优后的插补数据进行算数平均处理,得到更贴近原始数据的修复数据,此处调用冒泡排序机制算法。2.根据权利要求1所述的基于张量的车联网数据缺失多重估计新方法,其特征在于:步骤2.2采样新策略算法为:算法描述:输入为样本T={(x1,y1),(x2,y2),...,(xm,ym)},基修复器贝叶斯张量算法,基修复器迭代次数t;输出为最终的修复器f(x);1)对于q=1,2...,t:a)对训练集进行第t次随机采样,共采集m次,得到包含m个样本的采样集Tt,...

【专利技术属性】
技术研发人员:张德干张婷吴昊高瑾馨颜浩然
申请(专利权)人:天津理工大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1