一种时变数据的特征提取与追踪方法技术

技术编号:30362926 阅读:21 留言:0更新日期:2021-10-16 17:22
一种时变数据的特征提取与追踪方法,首先让用户在时变数据某个时间步的两张切片上选择他们感兴趣的特征,基于此构造出一系列算法来获得可用于提取该特征的一组最佳化GMM准则;其次,利用最佳化GMM准则,从时变数据的每个时间步中提取出与用户选择特征相似的所有特征;再次,对于所提取出的所有时间步中的所有特征,构造一张全局追踪图来记录它们之间的所有追踪信息;最后,利用体绘制算法以动画形式可视化出追踪特征及其所处环境。本发明专利技术只需用户提供少量的特征信息(仅两个切片上的特征信息),便可在整个时变数据中追踪该特征;能够从全局角度追踪提取的特征,从而能够避免利用局部追踪方法所产生的追踪错误,提高了特征追踪的精度。踪的精度。踪的精度。

【技术实现步骤摘要】
一种时变数据的特征提取与追踪方法


[0001]本专利涉及可视化和可视分析领域,涉及一种利用最佳化高斯混合模型(Gaussian Mixture Model,简称GMM)准则和全局追踪图来对时变数据进行特征提取与追踪的方法。

技术介绍

[0002]科学模拟常常会产生各种各样的时变数据,这是因为这些科学模拟所研究的自然或者技术现象是与时间相关的。这类模拟的例子有很多,例如天气预报、计算流体力学、燃烧科学、计算宇宙学、气候模式研究等。这些产生的时变数据往往是复杂的、大规模的、包含许多的变量和特征、跨越巨大的空间和时间。这些数据原本对科学家来说是无用的,但只要我们能够发现和揭示它们背后所隐藏的趋势和特征,那么就可以帮助科学家理解和洞察这些复杂的时变现象。这便是时变数据可视化的研究目标。然而,对这些时变数据进行有效地特征提取、特征追踪以及特征可视化并不是一件简单的工作。在过去的二十年中,许多学者都在不断地提出各种各样的方法来尝试解决这一问题。
[0003]在最近的一项研究综述中,Bai等人系统地回顾了大量的有关时变数据的可视化技术(参考文献1Z.H.Bai,Y.B.Tao,H.Lin.Time

varying volume visualization:a survey.Journal of Visualization,23:745

761,2020.即Z.H.Bai,Y.B.Tao,H.Lin.时变体可视化:综述.可视化期刊,23:745

761,2020.),并对各个技术进行了总结和分析。从这篇综述中可以清楚地看出,许多已提出的特征提取和追踪方法要求用户向其模型提供大量的特征数据(例如一个体数据),以便在整个模拟的时间跨度上来搜索、提取和追踪该特征。此外,在追踪特征时,这些方法通常会基于两个连续的时间步来对感兴趣的特征进行局部地追踪。然而这种局部追踪方法有时会导致错误的追踪结果(例如错误地将一个特征追踪成另一个特征),并容易受到噪声影响。

技术实现思路

[0004]针对上述两个问题,本专利技术提出了一种时变数据的特征提取与追踪方法,只需要用户从时变数据中任选两张切片(而不是一个体)、并在这两张切片上手动标记出自己感兴趣的特征,然后便可自动在所有时间步中提取该特征。此外,我们提出了一种全局追踪方法,该方法能够从全局角度追踪提取的特征,从而能够避免利用局部追踪方法所产生的追踪错误。
[0005]本专利技术的技术方案如下:
[0006]一种时变数据的特征提取与追踪方法,所述方法包括如下四个步骤:
[0007]1)最佳化GMM准则产生,过程如下:
[0008]1.1,对于原始时变数据,应用基于直方图的自动对比度增强方法增强它们的对比度,并利用全局最大值和最小值将它们归一化至[0,1]范围内;
[0009]1.2,用户需要观察对比度增强的时变数据,从中选择一个包含他们感兴趣的特征
的时间步,并从该时间步任选两张切片且利用鼠标自由地在这些切片上标记出他们感兴趣的特征;
[0010]1.3,对于每个被用户标记为特征的体素,找到以它为中心,以11
×
11为窗口大小的邻域,并利用离线Expectation Maximization(EM)算法来计算出该邻域内数据的GMM,该GMM能够简洁地表示出该体素邻域内的数据分布情况;所有这些标记为特征的体素所产生的高斯混合模型构型了一个集合,称之为候选GMM准则;
[0011]1.4,将遗传算法应用于候选GMM准则,以过滤掉那些可能产生假阳的GMM准则,从而保留了一组可以产生真阳的GMM准则,称这组GMM准则为最佳化GMM准则;
[0012]进一步,所述1.4的过程如下:
[0013]1.4.1,将候选GMM准则编码成一个二进制字符串s,s的每一位对应一个特定的候选GMM准则,如果s的某位为1,则代表该位对应的候选GMM准则被选择为最佳化GMM准则,如为0则代表没有被选择为最佳化GMM准则;
[0014]1.4.2,基于该编码,可以产生父种群的一组二进制字符串s,其中s的每一位被随机分配为0或1;对于该父种群中每个二进制字符串s,它都会有一个适应度(fitness),该适应度越高,代表s所对应的GMM准则组合越能很好地预测目标特征;反之,如果适应度越低,则代表s所对应的GMM准则组合不能很好地预测目标特征;假设v代表两张选择切片上的前景体素,n
s(v)
表示一个体素v可以匹配的二进制字符串s中GMM准则的数量,t代表用户所选择的特征,那么定义如下集合:
[0015][0016]其中,TP
s
表示真阳(true positive)集,在真阳集中,v不仅属于标记特征,还匹配s中的GMM准则;TN
s
表示真阴(true negtive)集,在真阴集中,v不属于标记特征,也不匹配s中的任何GMM准则;FP
s
表示假阳(false positive)集,在假阳集中,v不属于标记特征,但它匹配s中的GMM准则;FN
s
表示假阴(false negtive)集,在假阴集中,v属于标记特征,但它不匹配s中的任何GMM准则,P代表属于标记特征的体素的集合,N代表不是特征的体素的集合;有了上面这些集合,用公式(2)来计算每个字符串s的适应度:
[0017][0018]1.4.3,使用Tournament Selection算法来随机选择父种群中拥有高适应度的二进制字符串,并对它们应用交叉和变异以获得子代的一组二进制字符串s,这里,再次使用公式(1)和(2)来计算该子代每个二进制字符串s的适应度;
[0019]1.4.4,把子代变为父代,并用它们继续产生下一代;
[0020]1.4.5,一直重复1.4.3和1.4.4直到每一代最大的适应度获得收敛,最后,通过解码最后一代中具有最大适应度分数的那个二进制字符串s,获得最佳化GMM准则。
[0021]2)全局特征提取,过程如下:
[0022]2.1,利用公式(3)和(4)计算出每个前景体素邻域的GMM与最佳化GMM准则的巴氏距离d(v):
[0023][0024][0025]其中,w,w

分别代表两个高斯分量权重;μ,μ

代表两个高斯分量的平均值;Σ,Σ

代表两个高斯分量的方差;
[0026]2.2,用公式(5)将巴氏距离转换成概率:
[0027][0028]其中,exp()表示指数函数,p(v)表示体素v属于特征的概率,p(v)值越大,说明体素v属于特征的概率越大;反之,如果p(v)值越小,说明体素v属于特征的概率越低,D由公式(6)计算:
[0029][0030]这里,MD代表匹配度参数,它由用户指定,用来控制一个前景体素v属于特征的严格程度,MD值越大,则拥有较大d(v)的前景体素也可以属于特征;反之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时变数据的特征提取与追踪方法,其特征在于:所述方法包括如下步骤:1)最佳化GMM准则产生,过程如下:1.1,对于原始时变数据,应用基于直方图的自动对比度增强方法增强它们的对比度,并利用全局最大值和最小值将它们归一化至[0,1]范围内;1.2,用户需要观察对比度增强的时变数据,从中选择一个包含他们感兴趣的特征的时间步,并从该时间步任选两张切片且利用鼠标自由地在这些切片上标记出他们感兴趣的特征;1.3,对于每个被用户标记为特征的体素,找到以它为中心,以11
×
11为窗口大小的邻域,并利用离线Expectation Maximization(EM)算法来计算出该邻域内数据的GMM,该GMM能够简洁地表示出该体素邻域内的数据分布情况;所有这些标记为特征的体素所产生的高斯混合模型构型了一个集合,称之为候选GMM准则;1.4,将遗传算法应用于候选GMM准则,以过滤掉那些可能产生假阳的GMM准则,从而保留了一组可以产生真阳的GMM准则,称这组GMM准则为最佳化GMM准则;2)全局特征提取,过程如下:2.1,利用公式(3)和(4)计算出每个前景体素邻域的GMM与最佳化GMM准则的巴氏距离d(v):(v):其中,w,w

分别代表两个高斯分量权重;μ,μ

代表两个高斯分量的平均值;Σ,Σ

代表两个高斯分量的方差;2.2,用公式(5)将巴氏距离转换成概率:其中,exp()表示指数函数,p(v)表示体素v属于特征的概率,p(v)值越大,说明体素v属于特征的概率越大;反之,如果p(v)值越小,说明体素v属于特征的概率越低,D由公式(6)计算:这里,MD代表匹配度参数,它由用户指定,用来控制一个前景体素v属于特征的严格程度,MD值越大,则拥有较大d(v)的前景体素也可以属于特征;反之,如果MD值越小,则拥有较大d(v)的前景体素不可能属于特征;2.3,采用阈值法来过滤掉那些概率值p(v)较小的前景体素;至此,对于时变数据的每个时间步,从中提取出了与用户标记相似的特征;3)全局特征追踪,过程如下:3.1,将3D连通域分析应用于每个时间步所对应的概率数据p(v)上,从而过滤掉那些连通域较小的特征,即如果某特征连通域<阈值,则将其概率设置为0;同时,在应用3D连通域过程中,我们将每个时间步的所有特征相应地贴上标签;3.2,对于每两个连续时间步的任意两个特征,如时间步t的某个特征f
t
和时间步t+1的
某个特征f
t+1
,我们计算它们形心之间的欧氏距离d
c
:其中,表示特征f
t
的形心向量,表示特征f
t+1
的形心向量;3.3,利用如公式(8)所示的Chi

Squared直方图距离来计算它们直方图之间的相似性d
h
:其中和分别代表直方图hf
t
和hf
t+1
的第i个柱子;此外,使用公式(9)来归一化d
h
:其中,sf
t
和sf
t+1
表示特征f
t
和f
t+1
的体素集合;3.4,在特征f
t
和f
t+1
之间建立一条有向边e(f
t
,f
t+1
),并令该边的权重we(f
t
,f
t+1
)=d
...

【专利技术属性】
技术研发人员:马骥陈金金
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1