一种基于大数据的趋势曲线局部特征的匹配方法及终端组成比例

技术编号:13633134 阅读:75 留言:0更新日期:2016-09-02 15:40
本发明专利技术提供一种基于大数据的趋势曲线局部特征的匹配方法及终端,所述方法包括以下步骤:步骤100,输入需要处理的曲线数据;步骤200,对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合;步骤300,对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配曲线片段并输出。本发明专利技术通过对曲线数据进行两次筛处理,从而获取高相似度的匹配曲线;在二次筛选处理过程中通过对曲线数据进行水平伸缩处理和采用波峰波谷识别法将波峰波谷区域设置为敏感识别区域,并加大对波峰波谷区域的相似度识别权值,再利用加权DTW距离计算法进行距离值计算,使得距离值的计算相似度准确性更高。

【技术实现步骤摘要】

本专利技术涉及大数据领域,尤其涉及一种基于大数据的趋势曲线局部特征的匹配方法及终端
技术介绍
目前,相似曲线匹配问题的实现方案有以下三种:(1)皮尔逊相关系数法;(2)最小二乘法曲线拟合法;(3)DTW(Dynamic Time Warping)动态时间规整算法,其中,皮尔逊相关系数法和最小二乘曲线拟合法只能处理长度相等的两个曲线,而对于长度不同的曲线在计算相似度时会产生极大的误差,这种误差基本导致结果失去参考价值;DTW算法虽然能够很好的解决两段长度不相等的离散曲线相似度计算问题,但其无法避免在曲线上的细节在处理过程中干扰相似度的计算。
技术实现思路
为了解决上述问题,本专利技术提供一种基于大数据的趋势曲线局部特征的匹配方法及终端的设计方案。一种基于大数据的趋势曲线局部特征的匹配方法,所述方法包括:输入需要处理的曲线数据;对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合;对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配曲线片段并输出;其中,对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,具体包括:对曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平伸缩处理,获取拉伸后的曲线数据;识别所述拉伸后的曲线数据的敏感区域;对敏感区域的曲线数据进行加权DTW距离计算,并计算产生距离值;对所述距离值进行DTW距离排序,获取匹配曲线片段并输出。具体的,所述对输入的曲线数据进行初步筛选处理,具体包括:对输入的曲线数据进行正则化处理、平滑处理和垂直伸缩处理,获取拉伸后的曲线数据;对所述拉伸后的曲线数据进行DTW距离计算,并计算产生距离值;对所述距离值进行DTW距离排序,获得初步筛选数据段集合。具体的,识别所述拉伸后的曲线数据的敏感区域,具体包括:通过高斯滤波法将所述拉伸后的曲线数据处理并得到平滑的曲线;设原始的曲线数据序列为x(t),经过滤波处理后的曲线数据序列为则有: x ~ ( t ) = Σ i = - 2 σ 2 σ w i x ( t + i ) ]]>其中,σ表示滤波步长参数,i表示数据节点w的下标,j与i含义相同;设曲线数据总长度为len,则表示经验数据;根据曲线的斜率判断波峰和波谷的位置,若某一点的前向斜率与后向斜率相反,则该点为波峰或波谷点。具体的,识别所述拉伸后的曲线数据的敏感区域还包括:若两个相邻的波峰波谷之间的垂直距离差小于预设阈值θ,则剔除该波峰波谷;当确定波峰和波谷点后,设波峰或波谷点的坐标为ωi,则坐标区间为[ωi-β,ωi+β]的所有采样点均被认为属于敏感区域,其中β表示敏感区域识别区间参数。具体的,对敏感区域的曲线数据进行加权DTW距离计算包括:设Y(i)为参考曲线的数据集,Z(j)为对比曲线的数据集,y(i)为参考曲线数据集的敏感区域标记集合,z(j)为对比曲线数据集的敏感区域标记集合,有以下定义:则若警告DTW路径搜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下标,则该点对的距离δ为:其中,表示距离度量函数,Z(b))表示欧式距离,且ρ(0<ρ<1)表示敏感区域加权系数一种基于大数据的趋势曲线局部特征的匹配终端,所述终端包括:输入模块,用于输入需要处理的曲线数据;初步筛选模块,用于对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合;二次筛选模块,用于对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配曲线片段并输出;其中,所述二次筛选模块包括:处理单元,用于对曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平伸缩处理、获取拉伸后的曲线数据;识别单元,用于识别所述拉伸后的曲线数据的敏感区域;加权计算单元,用于对敏感区域关注识别的曲线数据进行加权DTW距离计算、并计算产生距离值;排序单元,用于对所述距离值进行DTW距离排序、获取匹配曲线片段并输出。具体的,所述初步筛选模块包括:处理单元,用于对输入的曲线数据进行正则化处理、平滑处理和垂直伸缩处理、获取拉伸后的曲线数据;计算单元,用于对所述拉伸后的曲线数据进行DTW距离计算、并计算产生距离值;排序单元,用于对所述距离值进行DTW距离排序、获得初步筛选数据段集合。具体的,所述识别单元具体用于:通过高斯滤波法将所述拉伸后的曲线数据处理并得到平滑的曲线;设原始的曲线数据序列为x(t),经过滤波处理后的曲线数据序列为则有: x ~ ( t ) = Σ i = - 2 σ 2 σ w i x ( t + i ) ]]>其中,σ表示滤波步长参数,i表示数据节点w的下标,j与i含义相同;设曲线数据总长度为len,则表示经验数据;根据曲线的斜率判断波峰和波谷的位置,若某一点的前向斜率与后向斜率相反,则该点为波峰或波谷点。具体的,还包括差异度检测模块,用于若两个相邻的波峰波谷之间的垂直距离差小于预设阈值θ,则剔除该波峰波谷;当确定波峰和波谷点后,设波峰或波谷点的坐标为ωi,则坐标区间为[ωi-β,ωi+β]的所有采样点均被认为属于敏感区域,其中β表示敏感区域识别区间参数。具体的,所述加权计算单元具体用于:设Y(i)为参考曲线的数据集,Z(j)为对比曲线的数据集,y(i)为参考曲线数据集的敏感区域标记集合,z(j)为对比曲线数据集的敏感区域标记集合,有以下定义:则若警告DTW路径搜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下标,则该点对的距离δ为:其中,表示距离度量函数,Z(b))表示欧式距离,且ρ(0<ρ<1)表示敏感区域加权系数。综上所述,本专利技术具有以下有益效果:通过对曲线数据进行两次筛处理,从而获取高相似度的匹配曲线;在二次筛选处理过程中通过对曲线数据进行水平伸缩处理和采用波峰波谷识别法将波峰波谷区域设置为敏感识别区域,并加大对波峰波谷区域的相似度识别权值,再利用加权DTW距离计算法进行距离值计算,使得距离值的计算相似度准确性更高,本专利技术在计算机集群中,通过opencl实现并发计算,效率更高。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的基于大数据的本文档来自技高网...

【技术保护点】
一种基于大数据的趋势曲线局部特征的匹配方法,其特征在于,所述方法包括:输入需要处理的曲线数据;对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合;对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配曲线片段并输出;其中,对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,具体包括:对曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平伸缩处理,获取拉伸后的曲线数据;识别所述拉伸后的曲线数据的敏感区域;对敏感区域的曲线数据进行加权DTW距离计算,并计算产生距离值;对所述距离值进行DTW距离排序,获取匹配曲线片段并输出。

【技术特征摘要】
1.一种基于大数据的趋势曲线局部特征的匹配方法,其特征在于,所述方法包括:输入需要处理的曲线数据;对输入的曲线数据进行初步筛选处理,获取初步筛选数据段集合;对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,获取匹配曲线片段并输出;其中,对所述初步筛选数据段集合中的曲线数据进行二次筛选处理,具体包括:对曲线数据进行正则化处理、平滑处理、垂直伸缩处理和水平伸缩处理,获取拉伸后的曲线数据;识别所述拉伸后的曲线数据的敏感区域;对敏感区域的曲线数据进行加权DTW距离计算,并计算产生距离值;对所述距离值进行DTW距离排序,获取匹配曲线片段并输出。2.如权利要求1所述的方法,其特征在于,所述对输入的曲线数据进行初步筛选处理,具体包括:对输入的曲线数据进行正则化处理、平滑处理和垂直伸缩处理,获取拉伸后的曲线数据;对所述拉伸后的曲线数据进行DTW距离计算,并计算产生距离值;对所述距离值进行DTW距离排序,获得初步筛选数据段集合。3.如权利要求1所述的方法,其特征在于,识别所述拉伸后的曲线数据的敏感区域,具体包括:通过高斯滤波法将所述拉伸后的曲线数据处理并得到平滑的曲线;设原始的曲线数据序列为x(t),经过滤波处理后的曲线数据序列为则有: x ~ ( t ) = Σ i = - 2 σ 2 σ w i x ( t + i ) ]]>其中,σ表示滤波步长参数,i表示数据节点w的下标,j与i含义相同;设曲线数据总长度为len,则表示经验数据;根据曲线的斜率判断波峰和波谷的位置,若某一点的前向斜率与后向斜率相反,则该点为波峰或波谷点。4.如权利要求3所述的方法,其特征在于,识别所述拉伸后的曲线数据的敏感区域还包括:若两个相邻的波峰波谷之间的垂直距离差小于预设阈值θ,则剔除该波峰波谷;当确定波峰和波谷点后,设波峰或波谷点的坐标为ωi,则坐标区间为[ωi-β,ωi+β]的所有采样点均被认为属于敏感区域,其中β表示敏感区域识别区间参数。5.如权利要求1所述的方法,其特征在于,对敏感区域的曲线数据进行加权DTW距离计算包括:设Y(i)为参考曲线的数据集,Z(j)为对比曲线的数据集,y(i)为参考曲线数据集的敏感区域标记集合,z(j)为对比曲线数据集的敏感区域标记集合,有以下定义:则若警告DTW路径搜索后得到匹配点对Y(a)与Z(b),其中,a和b为数据集索引下标,则该点对的距离δ为:其中,表示距离度量函数,表示欧式距离,且表示敏感区域加权系数。6.一种...

【专利技术属性】
技术研发人员:吴子铎
申请(专利权)人:深圳前海云汉金融科技有限公司
类型:发明
国别省市:广东;44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1