一种数据处理方法及系统技术方案

技术编号:39407884 阅读:7 留言:0更新日期:2023-11-19 15:59
本发明专利技术涉及计算机技术领域,具体涉及数据处理方法及系统。数据处理方法包括构建光谱关系网络G:构建关系集R;在光谱库G0中收集相同光谱类型T的不同光谱曲线,构建实例集I;在实例集I中选取具有相同T的两条或多条光谱曲线;选取光谱曲线集D中的任意两条光谱曲线A和B,根据关系判断方法F判断光谱关系,构建对应的边E与置信度值,并构建光谱关系网络G;分析网络G判断拓扑结构:将拓扑结构添加到光谱关系网络G中,使用更新后的S与F*重新检测D中任意两光谱曲线间的光谱关系,分析G的拓扑结构与度量指标来定义规范约束C,将定义规范约束C加入到方法F*中;更新G0与I;用更新的F判断新关系。系。系。

【技术实现步骤摘要】
一种数据处理方法及系统


[0001]本申请涉及计算机
,具体而言,涉及一种数据处理方法及系统。

技术介绍

[0002]在数据处理领域中,快速准确地处理光谱数据是研究重点之意。目前存在的问题是传统的光谱分析方法需要耗费大量的时间和人力,且结果不一定准确。因此,提出了一种新的数据处理方法及系统,该方法通过构建光谱关系网络和分析网络拓扑结构,采用了多种光谱特征和关系判断方法,可以识别光谱曲线之间的关系,从而提高了数据处理的可靠性和泛化能力。

技术实现思路

[0003]本申请的实施例提供了一种数据处理方法及系统,进而至少在一定程度上可以更精确的识别光谱曲线之间的关系,从而提高了数据处理的可靠性和泛化能力的问题。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面,提供了一种数据处理方法,包括:
[0006]构建光谱关系网络G:获取光谱库G0,构建训练集;获取待分析光谱曲线集D;构建光谱曲线之间的特征集S,包含多种光谱特征:峰值波长差异、波峰高度差异、波峰宽度差异、相位差;构建关系集R,R包含多种光谱关系:同源关系、相关关系、独立关系;在光谱库G0中收集相同光谱类型T的不同光谱曲线,如紫外光谱、红外光谱、可见光光谱,构建实例集I;每个实例包含S中的光谱特征及R中的光谱关系;在实例集I中选取具有相同T的两条或多条光谱曲线,构建关系判断方法F*识别其同源关系、相关关系或独立关系;选取光谱曲线集D中的任意两条光谱曲线A和B,根据关系判断方法F*判断光谱关系,构建对应的边E与置信度值,并构建光谱关系网络G;
[0007]分析网络G判断拓扑结构:计算光谱关系网络G的节点特征、层次关系、群组结构、社区结构,获得网络拓扑结构,将拓扑结构添加到光谱关系网络G中,使用更新后的S与F*重新检测D中任意两光谱曲线间的光谱关系,
[0008]分析G的拓扑结构与度量指标来定义规范约束C,将定义规范约束C加入到方法F*中;更新G0与I;
[0009]用更新的F*判断新关系:在满足C的光谱曲线间建立新的关系,将其加入更新后的G0与I,当新增光谱曲线集D'中的新关系符合G的拓扑特征时,表明F*已具备较强的泛化能力,可判断判断单个新的光谱曲线的特征和结构。
[0010]在本申请的一些实施例中,基于前述方案,所述识别其同源关系,包括:
[0011]计算两个光谱曲线A和B的Pearson相关系数r,设定节点相关性阈值Tpearson,如果r≥Tpearson且置信区间较窄,即A和B构成边E;边E的权值设置为P(y|A,B),则可能属于同源关系;
[0012]计算A和B的熵H(A)、H(B)和联合熵H(A,B),并计算互信息I(A|B);若互信息I(A|B)大于0.8,且条件熵H(A)

H(A|B)和H(B)

H(B|A)大于0.2,可能属于同源关系;
[0013]构建Logistic回归模型,设置目标变量y为0

5,表示同源程度;使用训练集优化模型参数θ,并输入A和B计算P(y|A,B),若P(y|A,B)≥3,A和B可能存在同源关系;
[0014]若A和B的吸收峰指数1.5<β<2.5,且A和B的吸收峰出现频率均满足指数分布,且两指数分布曲线的指数β值之差小于0.2,可能属于同源关系;
[0015]当Pearson相关系数、互信息、Logistic回归模型、指数分布这四个条件判断A与B属于同源关系,则确认A和B属于同源关系。
[0016]在本申请的一些实施例中,基于前述方案,所述在实例集I中选取具有相同T的两条或多条光谱曲线,识别其相关关系,包括:
[0017]当A和B的吸收峰幂值α均在2

3之间,且两幂律分布曲线的幂值α之差小于0.5,则综合判断=ω1
·
随机森林模型判断+ω2
·
互信息法判断+ω3
·
Logistic回归模型判断,其中,ω1、ω2和ω3为三种判断方法的权重,设置为0.3

0.5,三者之和为1;如果综合判断值<0.7或置信区间0.1

0.2,则判断A和B为低相关;如果综合判断值在0.7

0.9之间,且置信区间0.05

0.1,则判断A和B为中等相关关系;如果综合判断值>0.9,置信区间<0.05,则判断A和B为高相关关系,将判断过程与结果记录到特征空间S中。
[0018]在本申请的一些实施例中,基于前述方案,所述在实例集I中选取具有相同T的两条或多条光谱曲线,识别其独立关系,包括:
[0019]针对红外光谱,设置峰值波长差异阈值:5

8%;峰值高度差异阈值:20

35%;峰值宽度差异阈值:15

25%;波峰数目差异阈值:ΔN≥4;波峰相对位置差异阈值:Δλr≥35%;
[0020]针对紫外可见光谱,设置峰值波长差异阈值:3

6%;峰值高度差异阈值:10

20%;峰值宽度差异阈值:8

15%;波峰数目差异阈值:ΔN≥5;波峰相对位置差异阈值:Δλr≥40%;ΔN为两条光谱波峰数目差;S1、S2为两条光谱波峰形状,如尖峰或宽峰,根据波峰的全宽度与半高宽度之比W/WH判断:如果W/WH≤2,则为尖峰;如果W/WH≥5,则为宽峰;W为全宽度,WH为半高宽度;Δλr为两条光谱主要波峰相对位置差异比例;
[0021]当峰值波长差异、峰值高度差异、峰值宽度差异、波峰数目差异、波峰相对位置差异均不符合上述设置的阈值时,可能属于独立关系。
[0022]在本申请的一些实施例中,基于前述方案,所述选取光谱曲线集D中的任意两条光谱曲线A和B;根据关系判断方法F*判断关系,构建对应的边E与置信度值,构建光谱关系网络G,并计算光谱关系网络G节点特征,包括:
[0023]构建光谱关系网络G,输入:光谱曲线集D={d1,d2,...,dn},相关性阈值θ,输出:光谱关系网络G=(V,E);采用聚类算法等方法对D进行划分,得到k个“集”{C1,C2,...,Ck};在每个“集”Ci中随机选择m条光谱曲线构成比较对象组OCi;对“集”Ci内的每条光谱曲线dj与OCi中的每条光谱曲线比较;如果相关性>θ或者属于同源关系,则在dj和OCi中的光谱曲线之间构建边E;构建权值为相关性的边E,根据关系判断方法F*,“高”相关关系和同源关系构成边E;构建局部网络Ni;重复上述过程构建所有局部网络N1,N2,...,Nk;将局部网络N1,N2,...,Nk融合构建网络G。
[0024]在本申请的一些实施例中,基于前述方案,所述计算光谱关系网络G本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:构建光谱关系网络G:获取光谱库G0,构建训练集;获取待分析光谱曲线集D,构建光谱曲线之间的特征集S;特征集S包含多种光谱特征:峰值波长差异、波峰高度差异、波峰宽度差异、相位差;构建关系集R,R包含多种光谱关系:同源关系、相关关系、独立关系;在光谱库G0中收集相同光谱类型T的不同光谱曲线,构建实例集I;每个实例集I包含S中的光谱特征及R中的光谱关系;在实例集I中选取具有相同T的两条或多条光谱曲线,构建关系判断方法F*识别其同源关系、相关关系或独立关系;选取光谱曲线集D中的任意两条光谱曲线A和B,根据关系判断方法F*判断光谱关系,构建对应的边E与置信度值,并构建光谱关系网络G;分析光谱关系网络G并判断拓扑结构:计算光谱关系网络G的节点特征、层次关系、群组结构、社区结构,获得网络拓扑结构,将拓扑结构添加到光谱关系网络G中,使用更新后的S与F*重新检测D中任意两光谱曲线间的光谱关系;分析光谱关系网络G的拓扑结构与度量指标来定义规范约束C,将定义规范约束C加入到方法F*中;更新G0与I;用更新的F*判断新光谱曲线:在满足C的光谱曲线间建立新的关系,将其加入更新后的G0与I,当新增光谱曲线集D'中的新关系符合G的拓扑特征时,表明F*已具备较强的泛化能力,可判断单个新的光谱曲线的特征和结构。2.根据权利要求1所述的数据处理方法,其特征在于,在实例集I中选取具有相同T的两条或多条光谱曲线,构建关系判断方法F*识别其同源关系中,包括以下步骤:计算两个光谱曲线A和B的Pearson相关系数r,设定节点相关性阈值Tpearson,如果r≥Tpearson且置信区间较窄,即A和B构成边E;边E的权值设置为P(y|A,B),则可能属于同源关系;计算A和B的熵H(A)、H(B)和联合熵H(A,B),并计算互信息I(A|B);若互信息I(A|B)大于0.8,且条件熵H(A)

H(A|B)和H(B)

H(B|A)大于0.2,可能属于同源关系;构建Logistic回归模型,设置目标变量y为0

5,表示同源程度;使用训练集优化模型参数θ,并输入A和B计算P(y|A,B),若P(y|A,B)≥3,A和B可能存在同源关系;若A和B的吸收峰指数1.5<β<2.5,且A和B的吸收峰出现频率均满足指数分布,且两指数分布曲线的指数β值之差小于0.2,可能属于同源关系;当Pearson相关系数、互信息、Logistic回归模型、指数分布这四个条件判断A与B属于同源关系,则确认A和B属于同源关系。3.根据权利要求1所述的数据处理方法,其特征在于,在实例集I中选取具有相同T的两条或多条光谱曲线,构建关系判断方法F*识别其相关关系中,包括以下步骤:当A和B的吸收峰幂值α均在2

3之间,且两幂律分布曲线的幂值α之差小于0.5,则综合判断=ω1
·
随机森林模型判断+ω2
·
互信息法判断+ω3
·
Logistic回归模型判断,其中,ω1、ω2和ω3为三种判断方法的权重,设置为0.3

0.5,三者之和为1;如果综合判断值<0.7或置信区间0.1

0.2,则判断A和B为低相关;如果综合判断值在0.7

0.9之间,且置信区间0.05

0.1,则判断A和B为中等相关关系;如果综合判断值>0.9,置信区间<0.05,则判断A和B为高相关关系,将判断过程与结果记录到特征空间S中。4.根据权利要求1所述的数据处理方法,其特征在于,相同光谱类型T的不同光谱曲线包括紫外光谱、红外光谱和可见光光谱,在实例集I中选取具有相同T的两条或多条光谱曲
线,构建关系判断方法F*识别其独立关系中,包括以下步骤:针对红外光谱,设置峰值波长差异阈值:5

8%;峰值高度差异阈值:20

35%;峰值宽度差异阈值:15

25%;波峰数目差异阈值:ΔN≥4;波峰相对位置差异阈值:Δλr≥35%;针对紫外可见光谱,设置峰值波长差异阈值:3

6%;峰值高度差异阈值:10

20%;峰值宽度差异阈值:8

15%;波峰数目差异阈值:ΔN≥5;波峰相对位置差异阈值:Δλr≥40%;ΔN为两条光谱波峰数目差;S1、S2为两条光谱波峰形状,如尖峰或宽峰,根据波峰的全宽度与半高宽度之比W/WH判断:如果W/WH≤2,则为尖峰;如果W/WH≥5,则为宽峰;W为全宽度,WH为半高宽度;Δλr为两条光谱主要波峰相对位置差异比例;当峰值波长差异、峰值高度差异、峰值宽度差异、波峰数目差异、波峰相对位置差异均不符合上述设置的阈值时,可能属于独立关系。5.根据权利要求1所述的数据处理方法,其特征在于,选取光谱曲线集D中的任意两条光谱曲线A和B;根据关系判断方法F*判断关系,构建对应的边E与置信度值,构建光谱关系网络G,具体包括:输入:光谱曲线...

【专利技术属性】
技术研发人员:叶文昌张兆斌冯绮诗
申请(专利权)人:智创星酋深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1