一种肺癌电子鼻数据分类方法技术

技术编号:39739138 阅读:11 留言:0更新日期:2023-12-17 23:40
本发明专利技术公开了一种肺癌电子鼻数据分类方法,其对采集不同气体数据气体传感器执行线性判别分析,根据贡献选择传感器,并将对应传感器的单变量时间序列转换最大轨迹矩阵图像,通过空间信息重组方法重组样本的最大轨迹矩阵图像,将重组后的样本图像序列输入分类器得到分类结果

【技术实现步骤摘要】
一种肺癌电子鼻数据分类方法


[0001]本专利技术涉及传感器数据分类技术,特别涉及一种肺癌电子鼻数据的分类方法


技术介绍

[0002]肺癌
(lung cancer,LC)
是危害人类生命的最常见癌症之一

每年造成的死亡人数占所有癌症相关死亡人数的
28


全球每年有超过
160
万人死于肺癌

然而,目前的肺癌诊断技术在可靠性

简便性

经济性

快速性和无创筛查方面很难同时满足要求

最近,电子鼻技术被引入肺癌的诊断中,该技术利用人体呼吸中的挥发性有机化合物
(volatile organic compounds,VOCs)
进行肺癌筛查,具备简单易用

高灵敏度

价格合理和无侵入性的特点

[0003]多变量时间序列
(Multivariate Time Series,MTS)
分类是肺癌电子鼻
(LC detection E

nose)
的基本任务之一

多年来,研究人员已经提出了许多
MTS
分类方法

这些方法可分为两种类型:传统方法和深度学习
(Deep Learning,DL)
方法

常用的传统方法包括了基于距离的方法
(
例如动态时间规整
(Dynamic Time Warping,DTW))
和基于特征的方法
(
例如符号傅里叶近似
(Symbolic Fourier Approximation,SFA))。
然而,这些方法需要大量手工的特征工程;更严重的是,手工的特征工程通常无法捕获
MTS
的潜在特征

为了克服上述缺点,人们已经提出了许多用于
MTS
分类的
DL
方法,例如
TapNet。
它使用注意力原型网络来学习潜在特征
。HIVE

COTE 2.0
替换了构成
HIVE

COTE 1.0
的四个分类器中的三个

它的组成模块有:基于
shapelet
的变换分类器,基于卷积的
ROCKET
分类器集合,基于字典的表示
TDE
以及基于间隔的
DrCIF。
其中
DrCIF

CIF
的扩展
。CIF
是一个时间序列树分类器的集合,使用标准时间序列特征
、Catch22
特征和从相位相关区间提取的简单汇总统计信息构建
。ROCKET
应用了大量随机参数化的卷积核

当每个核被应用于一个序列时,最大值和正值的比例被记录并连接到一个特征向量中

这些
DL
方法表现出了良好的性能

尽管如此,上述网络对
MTS
中时空信息的提取能力仍然有限,而这可能会影响潜在特征的可判别性

[0004]近年来,基于相空间重构
(Phase

Space Reconstruction,PSR)

DL
方法因其允许对信号的特征进行更详细的非线性表征,从而被认为是提升网络时空信息提取能力的有前途的方法

由于时间序列数据通常是非线性的,因此,需要对这些数据进行非线性处理

基于
PSR
的方法刚好满足这一需求

因此,它们已被成功应用于时间序列分类

这些方法使用相空间重构将单变量时间序列
(Univariate Time Series,UTS)
嵌入到相空间中,以形成相空间轨迹,然后将轨迹投影到二维平面上以生成二维的重构相空间图像
(Reconstructed Phase Space Image,RPSI)
,最后采用卷积神经网络对
RPSI
进行分类

[0005]然而据我们所知,目前基于
PSR
的方法都只用于
UTS
的分类

其实,它们同样也可以用于
MTS。
因为
MTS
是由
UTS
组成的,我们只需要逐一对
UTS
进行转换

但是,这种简单的处理方式有可能导致
MTS
中时空信息的丢失,从而无法准确捕获
MTS
的潜在特征

这是因为具有判别性的潜在特征可能存在于
UTS
之间,而不仅仅存在于单个
UTS


多变量时间序列分类
(MTS Classification

MTSC)
的核心额外复杂性在于,判别性特征可能存在于维度之间的
相互作用中,而不仅仅存在于单个序列内的自相关中
。UTS
中的特征可能是相位相关的,也可能不是相位相关的;而
MTS
中的特征同时要考虑维度相关性,
MTS
可能是维度相关的,也可能不是维度相关的

此外,不同于
UTS

MTS
的维度往往很高,这导致上述分类方法在
MTS
数据集上的分类准确率通常都比较低,而海量的数据可能会掩盖判别性特征


技术实现思路

[0006]有鉴于此,本专利技术的目的是提供一种肺癌电子鼻数据分类方法,以解决对肺癌电子鼻数据进行分类,并提高分类准确率和分类效率的技术问题

[0007]本专利技术肺癌电子鼻数据分类方法包括步骤:
[0008](1)
对采集不同气体数据的
D
个气体传感器执行线性判别分析:
[0009]g(F)

W
T
F
ꢀꢀꢀ
(1)
[0010]其中
F

[f1,f2,

,f
i
,

,f
D
]T

1≤i≤D

f
i
表示气体传感器
i
的特征,样本
M
l

[X1,X2,

,X
D
]为多变量时间序列
...

【技术保护点】

【技术特征摘要】
1.
一种肺癌电子鼻数据分类方法,其特征在于:包括步骤:
(1)
对采集不同气体数据的
D
个气体传感器执行线性判别分析:
g(F)

W
T
F
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
其中
F

[f1,f2,

,f
i
,

,f
D
]
T

1≤i≤D

f
i
表示气体传感器
i
的特征,样本
M
l

[X1,X2,

,X
D
]
为多变量时间序列;样本
M
l
中的
X
i

[x1,x2,

,x
d
]
T
为单变量时间序列,单变量时间序列
X
i
由第
i
个气体传感器按设定采样时间间隔顺序采集的
d
个数据构成;函数
h(M
l
,i)
返回样本
M
l
中的单变量时间序列
X
i
,函数
max(
·
)
返回
X
i
中所有元素中的最大值;
W

[w1,w2,

,w
i
,

,w
D
]
T
是权重向量,
W

w
i
的绝对值表示第
i
个气体传感器对线性判别分析的贡献;
|w
i
|
越大,第
i
个气体传感器的贡献越大;根据
|w
i
|
的大小对气体传感器排序;
(2)
将贡献排在前位的每个气体传感器所采集的单变量时间序列转换为一张最大轨迹矩阵图像,由此得到张最大轨迹矩阵图像;
(3)
通过空间信息重组方法重组步骤
(2)
中所述的张最大轨迹矩阵图像,包括:
1)
计算样本的归一化互信息矩阵:设
Θ
s

{
θ1,
θ2,

,
θ
H
×
L
}
是从单变量时间序列
X
s
转换得到的最大轨迹矩阵图像,其中
θ1,
θ2,

,
θ
H
×
L
分别表示最大轨迹矩阵图像中的像素值,
H

L
分别表示
Θ
s
的高度和宽度;在所述的张最大轨迹矩阵图像中,任意两张最大轨迹矩阵图像
Θ
s

Θ
t
的归一化互信息表示为:
MI(
Θ
s
,
Θ
t
)
表示
Θ
s

Θ
t
之间的互信息:其中,
p(
θ
s
,
θ
t
)
表示

【专利技术属性】
技术研发人员:刘然王仕丹毛虎田逢春钱君辉任席伟陈鑫陈宇泽吕迪
申请(专利权)人:广东鸿芯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1