一种基于可变间隔对象的时序数据相似性度量方法技术

技术编号:22308864 阅读:71 留言:0更新日期:2019-10-16 08:57
本发明专利技术提供了一种基于可变间隔对象的时序数据相似性度量方法,基本思路是将地学时序大数据统一转换成可变间隔对象数据集,基于间隔变换距离相似性度量方法将时序数据对象的相似性计算转换成为二维间隔点集平面上TIO点的简单空间范围查询,然后根据间隔关系算子理论将该空间查询转换成为一些列结构简单的普通间隔对象之间的关系计算,将复杂的时序相似性计算问题转化成一系列简单的间隔算子的计算问题,实现在本地计算节点上快速构建局部时序相似性计算结果。最后采用规约算法对多个时序片段的局部相似性结果整合为完整的相似性查询结果返回给查询用户,从而在整体上提高时序数据相似性计算性能。

A similarity measurement method of time series data based on variable interval object

【技术实现步骤摘要】
一种基于可变间隔对象的时序数据相似性度量方法
本专利技术涉及一种基于可变间隔对象的时序数据相似性度量方法,属于地学时序数据计算领域。
技术介绍
时序数据可以帮助人类了解历史、掌握现在、预测将来,有助于提高人类对现实世界中各种存在与状态演变的洞察、感知与预测能力。特别是各种地学监测与解译时序大数据,对环境监测、矿山安全、城市内涝、土地管理、泥石流和地震等自然灾害的监测、预报、防治与救援等时间敏感性问题的求解具有重要意义。随着地学传感网络(GeoSensorNetwork,GSN)在资源、环境、生态等领域的大规模部署,地学时序数据获取成本逐渐降低,数据规模与日俱增。这些数据多来源于各种监测传感器,具有多传感器、多目标、多分辨率、多类型的多源异构特征,是地学领域机器学习与数据挖掘的重要数据来源。传统的时序数据管理与分析以时刻点值对类型(简称为TPD类型)的时序数据为主,单一的规则序列结构无法同时兼顾基于时段的时序数据(简称为TLD),缺乏对多目标、多传感器、多分辨率、多类型的多源异构地学时序大数据的统一索引机制与相似性度量方法。大规模多源异构时序数据集的涌现,对传统时序数据管理与分析应用方法提出了严峻挑战。时序数据之间的相似性计算,是许多时序数据挖掘和机器学习任务的核心科学技术问题之一,对于其挖掘性能起着决定性作用。时序相似性度量是其计算的基础,常见的时序相似性度量方法总体上分为锁步度量和弹性度量;前者是时间序列之间点对点的一对一比较,后者则允许两个时序进行一对多或零的比较。最具有代表性的锁步度量是欧氏距离(ED)。欧氏距离可用于不同数据类型,但是它要求被度量的两个时间序列长度相等,对于间隔周期不同的多分辨率时间序列相似度量困难。弹性度量类型的方法在一定程度上克服了这个缺点,它允许将两个需要比较的时间序列拉伸或收缩变换后进行相似性匹配。比较具有代表性的弹性度量方法主要包括动态时间规整(DTW)、基于编辑距离(EditDistance)的最长公共子序列(LCSS)、实序列编辑距离(EDR)、实补偿编辑距离(ERP)以及在线弹性相似性度量方法等。DTW允许序列中的点经过复制、变换后再进行等长匹配计算,通过动态窗口引入,克服了ED方法中由于序列变形导致无法匹配的问题,但计算复杂度急剧上升。最长公共子序列(LCSS)、实序列编辑距离(EDR)和实补偿编辑距离(ERP)的基础都是编辑距离。所谓编辑距离是指,两个字符串之间转换时所需要的最少编辑操作步数,编辑距离的大小与序列相似性成反比。LCSS用两字符串最大公共字串的长度与最长字符串长度的比值进行相似性度量,但噪音、误差比较敏感。EDR则采用重新定义编辑距离的方式降低了噪音与误差,主要适用于生物信息、语音识别等领域。ERP则在两个序列中添加一些符号把两条长度不同的序列排列成相同的长度,从而方便一对一比较,其主要目标是寻找弯曲路径中最小的路径。但是,上述三种弹性相似性度量方法缺乏增量处理机制,无法高效支持实时时序数据流的相似性计算出来。2019年最新提出的在线弹性相似性度量方法针对上述问题进行了改进,在经典弹性相似性度量方法的基础上引入了遗忘机制和增量计算机制,较好的实现了TPD类型在线时序数据的相似性度量。除了上述经典的锁步度量与弹性度量外,部分学者又从符号化、趋势、形状、事件等角度也提出了一些新的时序相似性解释和度量方法,例如基于SAX与增量趋势的SAX_TD方法,基于二值变化趋势的时间序列相似性度量方法(FTSC),基于形状的时间序列数据相似性度量方法(AMSS),采用多尺度形状特征提取并结合尺度权函数计算相似性的SIMshape方法,基于模糊集的事件识别与处理机制(RPBE)等。这些方法多是针对具体应用提出的特定相似性度量解决方案,通常与时序数据聚类算法、分类算法结合紧密,例如FTSC主要针对时序数据聚类算法,RPBE主要针对时序数据分类算法。这些方法为部分特定时序数据挖掘提供了有效的相似性度量;然而,这些相似性度量方法中,除了基于SAX的SAX_TD等方法外,基本不支持基于时序数据摘要进行快速相似性计算。综上所述,现有研究成果主要针对简单TPD类型的规则时序数据,无法同时兼顾TLD类型的时序数据,且绝大多数不支持基于索引摘要的相似性快速计算。因此,亟需突破多源异构时序大数据高效管理与相似性计算方法。
技术实现思路
为了解决现有技术的不足,本专利技术提供了一种基于可变间隔对象的时序数据相似性度量方法,其基本思路是将地学时序数据,统一转换成可变间隔对象(TransformableIntervalObject,TIO)数据集,基于间隔变换距离相似性度量方法(IntervalTransformDistance,ITD)将时序数据对象的相似性计算转换成为二维间隔点集平面上TIO点的简单空间范围查询,然后根据间隔关系算子理论将该空间查询转换成为一些列结构简单、可并行的普通间隔对象之间的关系计算,将复杂的时序相似性计算问题转化成一系列简单的可并行的间隔算子的计算问题,在本地计算节点上快速构建局部时序相似性计算结果。最后采用规约算法对多个时序片段的局部相似性结果整合为完整的相似性查询结果返回给查询用户。本专利技术为解决其技术问题所采用的技术方案是:提供了一种基于可变间隔对象的时序数据相似性度量方法,包括以下步骤:(1)将由N个全局时序对象组成的时序数据加载至内存;(2)对于每个全局时序对象,采用相似性邻近准则的时序划分方法按窗口阈值分割成M个时序片段集合;(3)根据相似性邻近原则,获取第一条要处理的时序数据在两个时间段[t(i-1),t(i)]和[t(i),t(i+1)]两个时序片段,分别记为Segment(i)和Segment(i+1),i取值为1;(4)采用时序片段中最大值和最小值的点作为每个时序片段的最小边界矩形的对角线的两端点,并将两端点作为该时序片段的摘要Summaries,将两线段分别记为两个带有旋转角度的间隔对象TIOAB=(VA,VB,α)和TIOCD=(VC,VD,β),其中间隔对象TIOAB的参数包括线段端点VA、线段端点VB以及旋转角度α,中间隔对象TIOCD的参数包括线段端点VC、线段端点VD以及旋转角度β;(5)设线段AB和CD的中心点距离即TIOAB和TIOCD的中心点距离为D0,s为线段AB与CD长度的比值,即伸缩量,则TIOAB和TIOCD的相似性记为SIM(TIOAB,TIOCD)=aD0+b|α-β|+c|s-1|,其中a表示距离变换因子,b表示角度变换因子,c表示伸缩变换因子;(6)通过2组以上给定相似值的样本数据,分别代入步骤(5)中相似性公式SIM(TIOAB,TIOCD)=aD0+b|α-β|+c|s-1|,选取传统欧式距离相似性计算方法得到样本数据的相似性结果,得到关于a、b、c的方程组,通过解方程得到符号化变换因子a、角度变换因子b以及伸缩变换因子c;(7)将TIOAB和TIOCD数据代入SIM(TIOAB,TIOCD)=aD0+b|α-β|+c|s-1|求得相似性;(8)采用规约算法对M个时序片段的局部相似性计算结果整合并作为结果返回。本专利技术基于其技术方案所具有的有益效果在于:(1)本专利技术中带有旋转角度的间隔对象TIOAB和TI本文档来自技高网
...

【技术保护点】
1.一种基于可变间隔对象的时序数据相似性度量方法,其特征在于包括以下步骤:(1)将由N个全局时序对象组成的时序数据加载至内存;(2)对于每个全局时序对象,采用相似性邻近准则的时序划分方法按窗口阈值分割成M个时序片段集合;(3)根据相似性邻近原则,获取第一条要处理的时序数据在两个时间段[t(i‑1),t(i)]和[t(i),t(i+1)]两个时序片段,分别记为Segment(i)和Segment(i+1),i取值为1;(4)采用时序片段中最大值和最小值的点作为每个时序片段的最小边界矩形的对角线的两端点,并将两端点作为该时序片段的摘要Summaries,将两线段分别记为两个带有旋转角度的间隔对象TIOAB=(VA,VB,α)和TIOCD=(VC,VD,β),其中间隔对象TIOAB的参数包括线段端点VA、线段端点VB以及旋转角度α,中间隔对象TIOCD的参数包括线段端点VC、线段端点VD以及旋转角度β;(5)设线段AB和CD的中心点距离即TIOAB和TIOCD的中心点距离为D0,s为线段AB与CD长度的比值,即伸缩量,则TIOAB和TIOCD的相似性记为SIM(TIOAB,TIOCD)=aD0+b|α‑β|+c|s‑1|,其中a表示距离变换因子,b表示角度变换因子,c表示伸缩变换因子;(6)通过2组以上给定相似值的样本数据,分别代入步骤(5)中相似性公式SIM(TIOAB,TIOCD)=aD0+b|α‑β|+c|s‑1|,选取传统欧式距离相似性计算方法得到样本数据的相似性结果,得到关于a、b、c的方程组,通过解方程得到符号化变换因子a、角度变换因子b以及伸缩变换因子c;(7)将TIOAB和TIOCD数据代入SIM(TIOAB,TIOCD)=aD0+b|α‑β|+c|s‑1|求得相似性;(8)采用规约算法对M个时序片段的局部相似性计算结果整合并作为结果返回。...

【技术特征摘要】
1.一种基于可变间隔对象的时序数据相似性度量方法,其特征在于包括以下步骤:(1)将由N个全局时序对象组成的时序数据加载至内存;(2)对于每个全局时序对象,采用相似性邻近准则的时序划分方法按窗口阈值分割成M个时序片段集合;(3)根据相似性邻近原则,获取第一条要处理的时序数据在两个时间段[t(i-1),t(i)]和[t(i),t(i+1)]两个时序片段,分别记为Segment(i)和Segment(i+1),i取值为1;(4)采用时序片段中最大值和最小值的点作为每个时序片段的最小边界矩形的对角线的两端点,并将两端点作为该时序片段的摘要Summaries,将两线段分别记为两个带有旋转角度的间隔对象TIOAB=(VA,VB,α)和TIOCD=(VC,VD,β),其中间隔对象TIOAB的参数包括线段端点VA、线段端点VB以及旋转角度α,中间隔对象TIOCD的参数包括线段端点VC、线段端点...

【专利技术属性】
技术研发人员:何珍文刘刚田宜平黄挺李旸孙亚博龙仕容赵洪刘玉婷乔璐楠吴凡
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1