一种强化聚类的光谱重建训练样本选取方法技术

技术编号：40868585 阅读：2 留言：0更新日期：2024-04-08 16:34

本发明专利技术公开了一种强化聚类的光谱重建训练样本选取方法，涉及样本选取技术领域，该方法将矿物颜料和劳尔色卡作为强化样本集和基础样本集；利用均值漂移算法对强化样本集的色度及光谱双空间进行首次聚类，选取双空间中各簇距离聚类中心最近的点作为优选样本；将优选强化样本加入基础样本集再次进行双空间聚类，通过对色度及光谱双空间进行优选，提高优选样本的空间关联性。依托于强化聚类思想，实现不同样本集针对性与泛化性的优势互补。引入均值漂移聚类进行优选，可在无先验知识的情况下只依靠样本本身分布进行优选，避免主观干扰影响聚类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及样本选取，具体是一种强化聚类的光谱重建训练样本选取方法。

技术介绍

1、由于光谱反射率重建的本质是以学习数据特征为基础的建模过程，故其重建效果的优劣不仅与重建模型有关，选取合适的训练样本集对其重建效果也有重要影响。然而现有训练样本选取方法皆是针对标准色卡样本集进行优选，所选样本虽有较好泛化性，但忽略了特定光谱重建场景对训练样本的针对性需求。如对彩绘文物表面进行光谱重建时，使用优选标准色卡样本的重建精度很低，需使用自制矿物颜料色卡作为训练样本，但受材料、制作方式等因素影响，其色度及光谱空间覆盖程度远不及标准色卡，无法达到模型对训练样本分布的广泛性要求，导致重建精度同样不高。针对上述问题，提出了一种色谱双域强化聚类训练样本选取方法，满足特殊重建场景下对训练样本的针对性需求。

技术实现思路

1、本专利技术的目的在于提供一种强化聚类的光谱重建训练样本选取方法，以解决
技术介绍
中的问题。

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种强化聚类的光谱重建训练样本选取方法，步骤一：将矿物颜料和劳尔色卡作为强化样本集和基础样本集；

4、步骤二：利用均值漂移算法对强化样本集的色度及光谱双空间进行首次聚类，选取双空间中各簇距离聚类中心最近的点作为优选样本；

5、步骤三：将优选强化样本加入基础样本集再次进行双空间聚类，在融合颜料特性的基础上通过统计迭代完成强化优选，获得适合该重建场景下的训练样本集；

6、在对cielab

7、在对光谱空间进行聚类时，为缓解光谱高维数据的造成的噪声冗余，对其进行主成分分析降维处理。

8、在上述技术方案的基础上，本专利技术还提供以下可选技术方案：

9、在一种可选方案中：主成分分析降维处理包括：

10、将给定数据进行归一化处理，使光谱反射率数据均值为0，方差为1；其次对归一化的数据正交化，将数据由线性相关变成线性无关，用向量表示该线性无关的数据，在原始空间中，各样本点数据存在两个变量，由x1和x2轴表示于二维空间中，在利用主成分分析对数据进行正交变换后，可将原始样本数据由x1、x2轴投影在的新的空间坐标y1、y2轴上进行表示；

11、假设x＝(x1,x2,...,xm)t为m维光谱反射率数据，其均值向量为：

12、μ＝e(x)＝(μ1,μ2,...,μm)t (4-1)

13、协方差矩阵为：

14、∑cov(x,x)＝e[(x-μ)(x-μ)t] (4-2)

15、考虑由m维随机变量x到m维随机变量y＝(y1,y2,...ym)t的线性变换

16、

17、其中，由随机变量的性质可知：

18、

19、即对于n×m维光谱反射率样本集x＝(x1,x2...xm)有：

20、

21、式中，k为相机响应值波段数，f为特征向量，故主成分系数可表示为：

22、

23、累积贡献率ρk为：

24、

25、式中，ρk为前k个主成分累计贡献率，σi为第i个主成分贡献量，n为总主成分个数；本专利技术为了保障光谱数据低维度的同时尽可能多的表征光谱特征信息，选取累计贡献率ρk在99.5％的前几个特征向量进行聚类。

26、在一种可选方案中：核函数确定：

27、对cie lab色度空间进行聚类时，为避免光照不均引起的明度值误差同时减少计算量，忽略了亮度坐标l，只保留色度坐标a、b作为空间特征，但(a,b)属于一个二维数据空间，在聚类过程中同样不一定线性可分，由于多维数据空间会对聚类时的样本划分造成困难，因此为提升聚类过程中样本特征的高维映射有效性，需在聚类时引入核函数，通过将多维空间映射到更高维的空间，从而找到一个超平面将线性不可分的数据变为线性可分，达到更好的聚类结果[66]；假设各空间数据集中共有n个样本点xn，n＝(1,2,...,n),设φ为非线性映射函数，使色度及光谱空间被其映射到高维hibert特征空间得到φ(x1),φ(x2),...,φ(xn)，则输入空间的点积形式在特征空间可用核函数表示：

28、k(xi,xj)＝φ(xi)·φ(xj) (4-8)

29、由于核函数的种类很多，而且没有一个公认的选取标准；考虑到色度及光谱空间样本皆为多维数据且维度不统一，因此本节引入可对任意维度进行映射的高斯函数作为核函数k(x)，即：

30、

31、式中，h表示带宽，其值大小与x呈正相关，直接影响着算法最终的聚类效果。

32、在一种可选方案中：在选择好合适的核函数且对数据进行预处理后即可进行聚类优选；将聚类方法应用在光谱重建训练样本中，可有效解决数据冗余、计算效率低等问题；但传统聚类优选方法需人为确定聚类中心，主观性较强且不宜达到最佳的聚类效果；为充分挖掘各空间样本特征信息，采用均值漂移(ms)算法进行聚类，可完全依靠样本集自身进行分析，在缺少样本及聚类数量等先验知识的情况下，通过不断统计迭代，完成对不同特征空间中任意分布形状样本的聚类。

33、在一种可选方案中：ms算法对色度及光谱空间样本的聚类过程可看作：通过对各特征空间中的样本密集区域不断迭代搜寻，使搜寻区域中心移动到搜寻区域内所有点的均值处，最终收敛到密度分布极大值处，将同一极值处的样本聚为一类[67-68]；

34、即在上述基础上，对于给定的d维空间rd有n个样本xi(i＝1,2,...,n)，其中x为该空间中某一样本，即x的模为||x||2＝xtx；可利用核函数k(x)及带宽矩阵hi构成核密度估计表达式：

35、

36、式中，hi为正定的d×d矩阵，w(xi)≥0表示样本点权重，且满足∑w(xi)＝1，记为wi；通过核函数k(x)实现样本点xi与核中心点x间的相似性度量；在均值漂移的迭代搜索过程中，搜索区域的范围可用带宽矩阵hi表示，即核函数的影响范围；由于将各样本点处的核函数加权求和可得密度函数估计值f(x)，因此密度函数估计表达式为：

37、

38、式中，g(x)＝-k′(x)，g(x)＝cgg(||x||2)为阴影函数；可将记为为均ms向量，则ms迭代公式可表示为：

39、

40、上式表明了搜索区域中心如何确定，即搜索区域内样本点的加权平均值；由于始终指向密度更大的方向，故处的密度大于x处的密度，即向量是从x指向同时收敛后的样本点为局部密度极大值点；

41、设当空间内各样本点权重相同时，即w(xi)＝1/n，带宽矩阵与单位矩阵成正比，即hi＝h2i，均值漂移迭代公式可表示为：

42、

43、即在上述迭代规则的基础上，对于给定的光谱或色度空间分布。本文档来自技高网...

【技术保护点】

1.一种强化聚类的光谱重建训练样本选取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的强化聚类的光谱重建训练样本选取方法，其特征在于，主成分分析降维处理包括：

3.根据权利要求1所述的强化聚类的光谱重建训练样本选取方法，其特征在于，核函数确定：

4.根据权利要求3所述的强化聚类的光谱重建训练样本选取方法，其特征在于，在选择好合适的核函数且对数据进行预处理后即可进行聚类优选；将聚类方法应用在光谱重建训练样本中，可有效解决数据冗余、计算效率低的问题；但传统聚类优选方法需人为确定聚类中心，主观性较强且不宜达到最佳的聚类效果；为充分挖掘各空间样本特征信息，采用均值漂移(MS)算法进行聚类，可完全依靠样本集自身进行分析，在缺少样本及聚类数量等先验知识的情况下，通过不断统计迭代，完成对不同特征空间中任意分布形状样本的聚类。

5.根据权利要求4所述的强化聚类的光谱重建训练样本选取方法，其特征在于，MS算法对色度及光谱空间样本的聚类过程可看作：通过对各特征空间中的样本密集区域不断迭代搜寻，使搜寻区域中心移动到搜寻区域内所有点的均值处，最终

6.根据权利要求5所述的强化聚类的光谱重建训练样本选取方法，其特征在于，MS聚类步骤如下：

...

【技术特征摘要】

1.一种强化聚类的光谱重建训练样本选取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的强化聚类的光谱重建训练样本选取方法，其特征在于，主成分分析降维处理包括：

3.根据权利要求1所述的强化聚类的光谱重建训练样本选取方法，其特征在于，核函数确定：

4.根据权利要求3所述的强化聚类的光谱重建训练样本选取方法，其特征在于，在选择好合适的核函数且对数据进行预处理后即可进行聚类优选；将聚类方法应用在光谱重建训练样本中，可有效解决数据冗余、计算效率低的问题；但传统聚类优选方法需人为确定聚类中心，主观性较强且不宜达到最佳的聚类效果；为充分挖掘各...

【专利技术属性】
技术研发人员：王可，樊煜，王慧琴，郭阮昭，王一凡，
申请(专利权)人：西安建筑科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人