一种用于多源异构数据流的滑动窗口长度自适应调整方法技术

技术编号：24252290 阅读：34 留言：0更新日期：2020-05-22 23:57

本发明专利技术公开了一种用于多源异构数据流的滑动窗口长度自适应调整方法。首先提出了高斯输入受限玻尔兹曼机在矩阵输入和多模态输入下的扩展模型来实现异构数据流的特征提取和特征融合。其次通过受限玻尔兹曼机及其扩展模型生成的自由能函数判断数据流的概率分布变化。最后采用霍夫丁边界来保证相邻窗口之间的数据流变化能被及时地检测到。本发明专利技术通过比较相邻窗口之间数据流的自由能值衡量数据流的变化，自适应地调整滑动窗口的长度，将数据流分成大小不等的数据块进行分批处理。

An adaptive adjustment method of sliding window length for multi-source heterogeneous data flow

全部详细技术资料下载

【技术实现步骤摘要】
一种用于多源异构数据流的滑动窗口长度自适应调整方法
本专利技术属于数据挖掘
，具体涉及一种用于多源异构数据流的滑动窗口自适应调整算法。
技术介绍
随着异构传感网的不断增长，大量数据源源不断的产生，其不仅数据量庞大，还具有动态性、多样性和高维性等多种特征，如果将数据全部存储在存储空间中，会占据大量的内存空间，且数据的过处理也会影响算法整体的运行速率，为此，窗口机制被广泛研究，它通过将大量数据分成若干个小块分批处理来提升数据的处理效率。如：LiNa等在数据流聚类算法中采用了滑动窗口技术，提出了一种增量式的数据流处理方法和数据流聚类算法；Lughofer提出了一种增量式数据流聚类算法，在不断增长的数据流聚类过程中，采用分隔和合并的策略调整聚类数目。上述基于滑动窗口的数据流处理技术可以在一定程度上缓解数据流数量庞大的问题，但是其往往采用固定的滑动窗口，忽略了数据流是动态变化的，且其变化会对数据流的分析产生直接的影响，针对这一问题，Albert将动态滑动窗口技术引入其中，提出了ADWIN算法，其窗口的长度根据动态数据流的变化情况

【技术保护点】
1.一种用于多源异构数据流的滑动窗口长度自适应调整方法，其特征在于包括以下步骤：/n步骤1，通过高斯输入受限玻尔兹曼机在矩阵变量和多模态输入下的扩展模型进行异构数据流的特征提取和特征融合；其中矩阵变量受限玻尔兹曼机可见层的每个节点服从高斯分布，方差为

【技术特征摘要】
1.一种用于多源异构数据流的滑动窗口长度自适应调整方法，其特征在于包括以下步骤：
步骤1，通过高斯输入受限玻尔兹曼机在矩阵变量和多模态输入下的扩展模型进行异构数据流的特征提取和特征融合；其中矩阵变量受限玻尔兹曼机可见层的每个节点服从高斯分布，方差为其能量函数可以表示为

表示矩阵变量可见层输入数据，表示隐藏层输出数据，为归一化后的输入数据，的外积可以得到可见层和隐藏层之间的权重矩阵，为可见层的偏置，为隐藏层的偏置；根据矩阵输入，可以计算隐藏层各节点的概率，并根据此概率获得隐层节点的激活输出矩阵，此过程即为特征提取过程；多模态输入矩阵变量受限玻尔兹曼机的原理类似于矩阵变量受限玻尔兹曼机，其可由两个可见层输入共同得到隐藏层输出即实现了特征融合，其中为可见层的输入，为隐藏层输出，分别合成可可见层和隐藏层之间的连接权重，为隐藏层的偏置量；
步骤2，通过步骤1训练得到的模型构造多源异构数据流的自由能函数，并根据相邻窗口间的自由能变化率来衡量数据流的概率分布变化；
自由能和数据流的概率分布有如下关系：

其中表示输入数据的概率密度分布，表示输入数据的自由能，为配分函数，也称为归一化常数，对于一个训练好的受限玻尔兹曼机，保持不变，因此输入数据的自由能可以反映其概率分布情况；
步骤3，将相邻窗口之间的自由能变化率与霍夫丁边界所确定的阈值作比较，并根据此结果进行滑动窗口的长度调节。

2.权利要求1所述的方法，其特征在于所述步骤1中的高斯输入下矩阵变量受限玻尔兹曼机的训练包含以下步骤：
（1）根据矩阵输入，计算隐藏层各节点的概率，并根据此概率获得隐层节点的激活输出矩阵；
（2）计算矩阵输入值和激活输出值的外积，并定义为“正梯度”；
（3）根据步骤（1）中获得的激活输出矩阵重构可视层的激活值并重复（1）中步骤得到隐藏层相应的激活输出；
（4）计算可视层重构的输入值和其对应隐藏层输出矩阵的外积，并定义为...

【专利技术属性】
技术研发人员：王为，张梦君，
申请(专利权)人：天津师范大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人