当前位置: 首页 > 专利查询>浙江大学专利>正文

一种对系统多维度状态变化时间序列数据进行建模的方法及装置制造方法及图纸

技术编号:36338868 阅读:58 留言:0更新日期:2023-01-14 17:51
本发明专利技术公开了一种对系统多维度状态变化时间序列数据进行建模的方法及装置,本发明专利技术通过单位时间正向变化生成器(G单元)的设计,使得模型可学习系统两个时间状态的变化,将传统方法对时序轨迹进行整体学习的方式转换为对时序轨迹的特定时间点变化学习的方式,解决了存在残缺点的时序数据无法被学习的问题,由于训练方式的改变,通过一个批次的时间序列数据可以组织多个学习例子,使得例子数量变多,提高训练数据的信息效能;通过模型学习单位时间上系统状态变化的规律,其本质是一个系统工作机制的模型,可在该模型上叠加新的系统工作机制以预测对现有系统工作机制的改变可能产生系统行为的何种改变。系统行为的何种改变。系统行为的何种改变。

【技术实现步骤摘要】
一种对系统多维度状态变化时间序列数据进行建模的方法及装置


[0001]本专利技术属于计算方法领域,是一种对系统多维度状态变化时间序列数据进行建模的方法及装置。

技术介绍

[0002]建立一种对多维数据时间序列建立神经网络模型的方法,实现对系统单位时间状态变化的驱动机制学习,并利用神经网络模型模拟系统内在机制的时序变化,是人工智能领域对时序分析的一个重要目标。
[0003]例如,生物发酵过程的时序数据建模与预测是实现高效生物制造的一项重要技术。发酵过程的时序数据是指,在微生物的发酵过程中,在各个时间点采集的具有时间点标签的序列数据,每个时间点包括一组固定的指标,常见的指标包括代谢组数据、发酵工艺数据、转录组数据。发酵过程时序数据建模与预测的目的是通过模拟探索发酵规律,优化发酵过程,以获得更好的经济和社会效益。
[0004]目前对发酵过程进行分析的主要方法是代谢通量模型,它不是一种发酵过程的时间序列轨迹的分析方法,而是一种对发酵过程可能产生的平衡态的分析方法。这一分析方法依赖偏微分方程组描述化学反应,因而存在一定局限,主要是不能实现对代谢组数据、发酵工艺数据、转录组数据的跨类别联合分析,对发酵过程优化的指导能力有限。
[0005]另一方面,基于数理统计和机器学习理论的回归算法,在很多领域内被用于对各类时间序列数据的建模。数理统计方法首先基于建模者对被建模系统的状态变化规律的理解,设计合理的泛函框架;然后学习泛函参数,完成对多维时间序列的曲线拟合。这类方法常用的有周期因子法、移动平均法、ARIMA模型等。由于建模者设计的泛函框架与真实驱动被建模系统状态变化的机制存在不同,这类方法建立的模型存在系统水平上的精度上限,无法通过增加实验观察数据突破。另一个策略是使用机器学习方法,基于通用的神经网络等框架,完成对多维时间序列的曲线拟合。机器学习方法通过设计对所有的变化规律都有较好拟合能力的泛函框架,解决了数理统计方法要求准确设计拟合泛函框架的问题。这类方法常用的有K近邻算法、SVM算法、LSTM模型、Seq2seq模型等。由于通用泛函比专门设计的泛函更难学习其参数,这类方法通常需要大量的训练例子才能取得较好的拟合效果
[0006]不论是数理统计还是机器学习方法,在应用时通常将一个批次的被建模系统的状态变化曲线作为一个学习例子,且要求全部学习例子中的状态指标不能缺失。在实际应用中,很多对被建模系统状态的追踪观察,因样本检测问题,无法做到无缺失指标和无缺失时间点。例如,在生物发酵过程的时序数据建模中,常常在变化不大的时间段中取样观察的时间点较少,在变化较大的时间段中取样观察的时间点较多,如果以变化较大的时间段中的取样频率为基准,相当于变化不大的时间段中的部分时间点的数据缺失;对发酵过程的一个时间点的系统状态的表征,常常使用代谢组、转录组等组学技术,组学技术可以一次性得到众多指标,但是由于技术原因,不能保证每次测定所得的每个指标都能具有足够用于后
续建模的精度,造成被建模系统的时间点状态数据中存在指标缺失。这样的残缺时序数据无法被直接学习。
[0007]对于被建模系统时间点状态数据缺失的情况,如果通过插值补全时间点状态数据,会造成训练数据的不精确,导致模型精度下降。如果使用整个批次的时间序列整体作为一个学习例子,则使得单个例子数据规模变大,模型变复杂,获取例子的测试成本增高,例子数量减少,给模型学习造成困难。
[0008]另一方面,上述的时间序列建模方法为曲线拟合方法,而不是对时间序列的产生机制建模,因而无法提供时间序列的产生机制应该如何优化的线索。例如,生物发酵过程的时序数据是由工程菌的生物机制驱动的,通过曲线拟合的时间序列建模方法获得的发酵过程模型不直接对应工程菌的生物机制,难以指导对工程菌基因组的改造。
[0009]本专利技术公开,在生物发酵体系中,神经网络模型可以用于建模一个发酵体系的工作机制。发酵体系工作机制的神经网络模型可以根据当前的体系状态,计算一个单位时间之后的体系状态。这一生物发酵体系时间序列变化的驱动机制模型,相比于一般意义上的时间序列数值拟合模型,能够更好地反映工程菌的各类调控机制对发酵过程的影响,更好地指导进行工程菌的基因组改造,获得更好的生产性能。
[0010]因此,目前多维时间序列建模方法具有以下主要不足:
[0011]1)存在残缺时间点的时序数据无法被学习;
[0012]2)使用一个批次的时间序列作为一个学习案例,使得单案例数据规模大,导致模型复杂度高;同时可供学习的案例数量少,给模型学习造成困难;
[0013]3)大多数的时间序列建模方法不能直接对应时间序列的产生机制,无法提供时间序列的产生机制应该如何优化的线索。
[0014]目前缺乏一种通用的方法,可以完全实现针对不同缺失数据的多维时序数据,实现对系统单位时间状态变化的驱动机制的学习和模拟。本专利技术公开了一种利用神经网络模型建模时间序列的产生机制的方法,可以利用存在残缺时间点的时序数据,无需插值或将整体批次的时间序列作为一个例子,弥补了上述多维时间序列建模方法的不足。

技术实现思路

[0015]本专利技术公开了一种对系统多维度状态变化时间序列数据进行建模的方法及装置,具体的,本专利技术是通过以下技术方案来实现的:
[0016]一种对系统多维度状态变化时间序列数据进行建模的方法,包括:
[0017]1)将原始观察数据进行规范化整理,得到形式统一的规范观察数据;
[0018]2)基于规范观察数据组织用于人工神经网络训练的训练例子;
[0019]3)设计人工神经网络的结构,建立人工神经网络模型;
[0020]4)利用步骤2)中的训练例子对步骤3)中建立的人工神经网络模型进行训练,得到人工神经网络的参数矩阵;
[0021]5)利用步骤2)中的训练例子,评估在设计人工神经网络结构的过程中使用的参数以及在对建立的人工神经网络模型进行训练的过程中使用的参数对所得的人工神经网络模型的精度影响,选取不同的参数组合下最优的人工神经网络模型作为最终的结果模型;
[0022]步骤3)中所述的设计的神经网络结构具有如下特征:
[0023]其基本结构为一个神经网络单元,称为单位时间正向变化生成器(G单元),其输入层和输出层具有相同的维度;该神经网络单元用于建模经过一个单位时间后,多维观察数据发生的变化;
[0024]采用对G单元进行串联的方式得到串联训练结构,串联训练结构用于对多维观察数据经过多个单位时间的变化规律进行建模。
[0025]作为进一步地改进,本专利技术所述的步骤1)具体为:经多个批次的观察得到多个批次的多维时间序列观察数据,每个批次的观察数据包括一组时间点,每个时间点的观察数据包括一组指标,每个指标的观察数据为一个具体的值;将多维时间序列观察数据整理为四元组的组织形式,即批次、时间、指标、值。
[0026]作为进一步地改进,本专利技术所述的步骤2)具体为:将同一批次内任意两个时间点的被建模系统的状态变化组织为一个训练例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对系统多维度状态变化时间序列数据进行建模的方法,其特征是,包括以下步骤:1)将原始观察数据进行规范化整理,得到形式统一的规范观察数据;2)基于规范观察数据组织用于人工神经网络训练的训练例子;3)设计人工神经网络的结构,建立人工神经网络模型;4)利用步骤2)中的训练例子对步骤3)中建立的人工神经网络模型进行训练,得到人工神经网络的参数矩阵;5)利用步骤2)中的训练例子,评估在设计人工神经网络结构的过程中使用的参数以及在对建立的人工神经网络模型进行训练的过程中使用的参数对所得的人工神经网络模型的精度影响,选取不同的参数组合下最优的人工神经网络模型作为最终的结果模型;步骤3)中所述的设计的神经网络结构具有如下特征:其基本结构为一个神经网络单元,称为单位时间正向变化生成器(G单元),其输入层和输出层具有相同的维度;该神经网络单元用于建模经过一个单位时间后,多维观察数据发生的变化;采用对G单元进行串联的方式得到串联训练结构,串联训练结构用于对多维观察数据经过多个单位时间的变化规律进行建模。2.根据权利要求1所述的对系统多维度状态变化时间序列数据进行建模的方法,其特征在于,所述的步骤1)具体为:将多维时间序列观察数据整理为四元组的组织形式,即批次、时间、指标、值,经多个批次的观察得到多个批次的多维时间序列观察数据,每个批次的观察数据包括一组时间点,每个时间点的观察数据包括一组指标,每个指标的观察数据为一个具体的值。3.根据权利要求1所述的对系统多维度状态变化时间序列数据进行建模的方法,其特征在于,所述的步骤2)具体为:将同一批次内任意两个时间点的系统状态变化组织为一个训练例子,得到一组具有不同时间间隔的训练例子,其中每个训练例子包括两个时间点的状态,称较早的时间点的数据为该训练例子的起始时间点数据;称较晚的时间点的数据为该训练例子的结束时间点数据;每个训练例子的起始时间点数据和结束时间点数据表示为观察数据四元组的组织形式。4.根据权利要求1中所述的对系统多维度状态变化时间序列数据进行建模的方法,其特征在于,所述的正向变化生成器(G单元)采用全连接结构。5.根据权利要求4所述的对系统多维度状态变化时间序列数据进行建模的方法,其特征在于,所述的串联训练结构按如下方式建立:对不同时间间隔的训练例子,根据其时间间隔个数,为每一个时间间隔,记为n个单位时间,建立一个G单元组成的串联训练结构,所述的串联训练结构将n个G单元首尾相接串联。6.根据权利要求5所述的对系统多维度状态变化时间序列数据进行建模的方法,其特征在于,所述的时间间隔个数为n的串联训练结构称为(G)
n
,n=1时(G)1中仅包含1个G单元,串联训练结构(G)1对应的训练数据为时间间隔个数为1的训练例子;n>1时,(G)
n
为n个G单元串联得到的串联训练结构,串联训练结构(G)
n
对应的训练数据为时间间隔个数为n的训练例子。
7.根据权利1

6中任意一项所述的对系统多维度状态变化时间序列数据进行建模的方法,其特征在于,所述的步骤4)的训练方式具体为:4.1)计算每个串联训练结构的损失值:对每一个串联训练结构(G)
n
,记其对应的训练例子中的一个为S
i
,记S

【专利技术属性】
技术研发人员:陈新杨玉萍
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1