一种对时间序列进行建模并识别的方法技术

技术编号：14362826 阅读：48 留言：0更新日期：2017-01-09 10:17

本发明专利技术涉及一种对时间序列进行建模并识别的方法，属于机器学习领域。该方法包括将传感器采集的数据按采集时间先后顺序排列而成的动态数据构成L条时间序列，随机选择L条时间序列中的60％‑80％的N条时间序列作为训练集，剩下的时间序列作为测试集；对训练集中的每一条时间序列采用线性动态系统模型进行建模，并训练集每一条时间序列的特征表示；随机从训练集中抽取J条时间序列作为字典组成字典集，从得到的训练集每一条训练时间序列的特征表示，学习出字典集的每一条时间序列的最优特征表示，同时计算每一条训练时间序列在字典集下的编码系数；用训练集的编码系数训练支持向量机模型，实现对时间序列的识别。本方法大幅降低了数据表示的复杂度，同时显著提高识别精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种对时间序列进行建模并识别的方法，属于机器学习领域。
技术介绍
近年来，随着摄像机和力传感器等不同传感器感知技术的发展，数据产生和采集的速度越来越快，数据存储量也越来越大，且大部分数据是以时间序列的形态进行传输和存储。所谓时间序列，是指传感器采集的数据按采集时间先后顺序排列而成的动态数据。面对海量的时间序列数据，单纯的人力已经不能有效对其进行分析并提取有用的特征信息。因此，如何设计高效的数据分析算法，对不同传感器采集到的时间序列进行有机提炼，得到富含信息量的有效表征，以及利用有效表征实现目标识别任务，成为大数据环境下开展动态数据挖掘的关键问题。一方面，传统的目标识别任务大多数是基于静态数据，如通过分析单张图片识别或者检测图片中的目标、基于单个时间节点的触觉力分布来识别机器人所抓取的物体。然而，通常情况下，传感器采集到的是具有特定时间长度的数据流。这需要通过分析一段视频(而不是单张图片)来识别视觉目标、通过分析整个抓取过程的触觉力的变化过程(而不是单个时间节点的力)来识别机器人的抓取目标。另一方面，针对动态数据，当前主流的方法是把输入数据截取(或采样)为时间维度等长的数据块，把这些数据块按时空展开作为高维的静态数据，然后采用传统基于静态数据的方法进行建模和识别。然而，该类方法存在两个主要的问题。首先，不同的识别目标对应于不同的物理过程，其动态数据的自然时间长度通常是不相等的，把所有数据进行等长处理会导致某些数据失真；其次，如果截取的时间长度过短，会丢失大量有用的信息，如果截取的时间长度过长，则导致数据块的维度过大，大幅降低后期识别算法的运行...

【技术保护点】
一种对时间序列进行建模并识别的方法，其特征在于，该方法包括以下步骤：1)将传感器采集的数据按采集时间先后顺序排列而成的动态数据构成L条时间序列，随机选择L条时间序列中的60％‑80％的N条时间序列作为训练集，剩下的时间序列作为测试集；2)对训练集中的每一条时间序列采用线性动态系统模型进行建模：x(t+1)=Ax(t)+v(t)y(t)=Cx(t)+w(t)---(1)]]>其中，已知变量为：时间序列Y＝(y(0),y(1),…,y(t),…,y(τ))(τ为正整数，表示时间序列的时间长度)；未知变量是：序列状态X＝(x(0),x(1),…,x(t),…,x(τ))，描述空间纹理的测量矩阵C，描述动态变化的转移矩阵A，模型的噪声项v(t)和w(t)；根据已知变量Y求解未知变量X，C，A，得到训练集每一条时间序列的特征表示；3)随机从训练集中抽取J条时间序列作为字典组成字典集，由步骤2)得到的训练集每一条训练时间序列的特征表示，学习出字典集的每一条时间序列的最优特征表示，同时计算得到每一条训练时间序列在字典集下的编码系数；4)用步骤3)得到的训练集的编码系数α1,α2,…,αN训练支持向量...

【技术特征摘要】
1.一种对时间序列进行建模并识别的方法，其特征在于，该方法包括以下步骤：1)将传感器采集的数据按采集时间先后顺序排列而成的动态数据构成L条时间序列，随机选择L条时间序列中的60％-80％的N条时间序列作为训练集，剩下的时间序列作为测试集；2)对训练集中的每一条时间序列采用线性动态系统模型进行建模：x(t+1)=Ax(t)+v(t)y(t)=Cx(t)+w(t)---(1)]]>其中，已知变量为：时间序列Y＝(y(0),y(1),…,y(t),…,y(τ))(τ为正整数，表示时间序列的时间长度)；未知变量是：序列状态X＝(x(0),x(1),…,x(t),…,x(τ))，描述空间纹理的测量矩阵C，描述动态变化的转移矩阵A，模型的噪声项v(t)和w(t)；根据已知变量Y求解未知变量X，C，A，得到训练集每一条时间序列的特征表示；3)随机从训练集中抽取J条时间序列作为字典组成字典集，由步骤2)得到的训练集每一条训练时间序列的特征表示，学习出字典集的每一条时间序列的最优特征表示，同时计算得到每一条训练时间序列在字典集下的编码系数；4)用步骤3)得到的训练集的编码系数α1,α2,…,αN训练支持向量机模型，实现对时间序列的识别。2.如权利要求1所述方法，其特征在于，所述步骤2)计算训练集所有时间序列的特征表示R1,R2,…,RN，其中每一个特征表示的具体计算过程包括：2-1)对时间序列Y进行矩阵分解，求解Y＝USVT，即对Y进行奇异值分解，U为左奇异方向矩阵，S为奇异值矩阵，V为右奇异方向矩阵，奇异值分解可通过MATLAB软件内嵌的数值工具包求解，得到测量矩阵C＝U和序列状态X＝SVT，其中VT表示对矩阵V进行转置；2-2)设临时矩阵变量X0和X1，令X0＝(x(0),…,x(t),…,x(τ-1))，X1＝(x(1),…,x(t),…,x(τ))；2-3)计算出最优转移矩阵A，使得公式(1)尽可能拟合时间序列在时间维度上的变化规律，通过最小化得到最优转移矩阵其中||·||F2计算输入矩阵的Frobenius范数，即计算矩阵所有元素的平方和；2-4)对步骤2-3)得到的最优转移矩阵A进行平滑化处理：A＝U1S1V1T，用其中为自然指数函数，a为规整因子替换矩阵S1，得到新的转移矩阵A＝U1S1'V1T；2-5)分别利用步骤2-1)和2-4)求解得到的测量矩阵C和最优转移矩阵A，得到观测矩阵O＝[C；CA；CA2；…；CAk]，其中，k为正整数，k＝1,2,…,k；；2-6)对步骤2-5)得到的观测矩阵正交化，求解OTO＝U2S2V2T，得到新的观测矩阵W＝OS2-1/2U2，使得观测矩阵正交化，数值计算更稳定；2-7)计算R＝WWT作为时间序列Y的特征表示。3.如权利要求1所述方法，其特征在于，所述步骤3)具体包括：3-1)已知变量：记训练集中第i条时间序列的特征表示为Ri；需要求解变量：字典集的每条时间序列的观测矩阵为W1,W2,…,WJ，J为字典集时间序列的条数；字典集中每一条时间序列的特征表示为D1,D2,…,DJ；每条训练时间序列在字典集下的编码系数为αi＝(α1,i,α2,i,…,αJ,i)，i为遍历训练集任意一时间序列，其中，αj,i表示该训练时间序列在字典集的第j条时间序列下的编码系...

【专利技术属性】
技术研发人员：孙富春，黄文炳，曹乐乐，杨豪琳，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人