当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于自编码网络的拉曼光谱数据分类方法技术

技术编号:19635702 阅读:53 留言:0更新日期:2018-12-01 16:20
本发明专利技术提出了一种基于自编码网络的拉曼光谱数据分类方法。本发明专利技术通过光镊拉曼系统提取不同病龄的阿尔兹海默症患者血小板的拉曼光谱图,将预处理后的拉曼光谱图随机分为训练集和测试集;将训练集样本作为输入数据,通过逐层贪婪训练法构建两层特征层的栈式稀疏自编码网络;将第二层自动编码器的深层特征作为输入数据以训练Softmax分类器,将训练后Softmax分类器作为Softmax分类层以替换两层特征层的栈式稀疏自编码网络的输出层;根据两层特征层的栈式稀疏自编码网络构建初始分类网络,通过反向传播算法优化得到优化后分类网络;将测试集作为优化后分类网络输入数据,通过优化神经元数量得到神经元数量优化的分类网络。本发明专利技术提高了分类的准确性以及稳定性。

A Raman Spectrum Data Classification Method Based on Self-coding Network

A Raman spectral data classification method based on self-coding network is proposed. The Raman spectrogram of platelets of patients with Alzheimer's disease at different ages is extracted by optical tweezers Raman system, and the pre-processed Raman spectrogram is randomly divided into training set and test set. The training set samples are used as input data, and a sparse self-coding network with two feature layers is constructed by layer-by-layer greedy training method. The deep features of the second layer automatic encoder are used as input data to train the Softmax classifier, and the trained Softmax classifier is used as the output layer of the two-layer feature layer sparse self-coding network to replace the two-layer feature layer. The test set is used as the input data of the optimized classification network, and the optimized classification network is obtained by optimizing the number of neurons. The invention improves the accuracy and stability of classification.

【技术实现步骤摘要】
一种基于自编码网络的拉曼光谱数据分类方法
本专利技术属于人工智能应用
,具体涉及一种基于自编码网络的拉曼光谱数据分类方法。
技术介绍
阿尔茨海默病(Alzheimer'sDisease),是老年痴呆中最常见的一种病型。它是一种中枢神经系统变性病,也是一种慢性的变性疾病,会对大脑造成损伤,临床症状表现为认知功能障碍、记忆障碍及语言障碍等,直接影响患者的正常生活。根据2006年的数据显示,全球已有两亿多的AD患者。并且,社会老龄化程度也越来越高,AD的患病患者也越来越多,阿尔茨海默病已经成为整个社会不得不面对的一种疾病。每一个AD患者都会给一个家庭或数个家庭带来沉重的负担并且通过相关的医疗计划等间接地影响着社会的方方面面,因此,这种疾病的治疗已经引起了广泛的公众关注。但到目前为止,由于对AD发病机制的认识不足,其诊断和治疗还主要依靠主治医师的临床经验,心理测试和医学成像,如计算机断层扫描(CT)和核磁共振成像(NMR)等。然而,这些诊断方法大多具有一定的主观性,误诊和漏诊现象时有发生,而且存在对早期AD患者无法鉴别的缺陷。因此,在临床实践中迫切需要一种客观、准确诊断AD的依据,从而能够在疾病的不同阶段鉴别和诊断AD。单细胞的拉曼光谱检测在1990年被Pupples率先报道,随后拉曼光谱技术在疾病诊断方面的应用越来越多,拉曼光谱技术有着非破坏性和非侵入式检测的优点,从而使得其可以理想地检测生化样品,得到有效数据。而拉曼光谱技术结合一些分类算法诸如偏最小二乘法、线性判别分析、支持向量机等统计分析方法,可以用于分析阿尔兹海默症患者不同病龄血小板的不同特征并加以鉴别。在生物学方面,拉曼光谱应用于对细胞病变的研究往往是一些生物学家或者化学家进行的,他们一般用SPSS软件等工具实现对数据的分析及处理。传统的拉曼光谱分类方法,例如主成分分析法、偏最小二乘法等方法,这些方法都是将原始数据经过某种程度上的变换即特征空间的映射,在新的特征空间中,找到合适的特征表示方法,从而实现分类。这类方法往往计算复杂,分类效果不佳。一些浅层的学习方法,例如支持向量机、线性回归分析等,则是根据输入的带标签数据找出决策边界。但是通常会出现这样一种情况,即输入的训练样本中某些样本与其他样本差异较大时,分类的决策边界会受到较大的影响。
技术实现思路
为了解决上述问题,本专利技术提出了一种基于自编码网络的拉曼光谱数据分类方法,本专利技术根据栈式稀疏自编码,结合Softmax分类器针对不同病龄阿尔兹海默症患者血小板拉曼光谱进行分析和识别。本专利技术的方案为一种基于自编码网络的拉曼光谱数据分类方法,其特征在于,包括以下步骤:步骤1:通过光镊拉曼系统提取不同病龄的阿尔兹海默症患者血小板的拉曼光谱图,并对拉曼光谱图进行背景扣减、基线校正、平滑及平均处理,将处理之后的拉曼光谱图随机分为训练集和测试集;步骤2:将训练集样本作为第一层自动编码器输入数据,通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量,将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量,通过第一层自动编码器以及第二层自动编码器构建两层特征层的栈式稀疏自编码网络;步骤3:将步骤2中所述第二层自动编码器的深层特征作为输入数据以训练Softmax分类器,通过梯度下降算法优化求解Softmax分类器,将训练后Softmax分类器作为Softmax分类层以替换两层特征层的栈式稀疏自编码网络的输出层;步骤4:根据两层特征层的栈式稀疏自编码网络的第一特征层、第二层特征层以及Softmax分类层构建初始分类网络,通过反向传播算法优化初始分类网络得到优化后分类网络;步骤5:将测试集作为优化后分类网络输入数据,构建神经元数量优化第一层特征层以及神经元数量优化第二层特征层,通过神经元数量优化第一层特征层、神经元数量优化第二层特征层以及优化后分类网络的Softmax分类层得到神经元数量优化的分类网络;作为优选,步骤1中所述训练集中样本数量为m张,测试集中样本数量为K张;作为优选,步骤2中所述将训练集样本作为第一层自动编码器输入数据为将步骤1中所述训练集中样本x(i)(i∈[1,m],x(i)表示特征维度为s1的向量),作为输入数据组成第一层输入层;步骤2中所述通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量为:对x(i)进行编码操作得到第一层自动编码器特征层的深层特征y(i):y(i)=s(W1x(i)+b1)其中,W1为第一层自动编码器特征层权重系数,b1为第一层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本专利技术为sigmoid函数;对第一层自动编码器特征层的深层特征y(i)进行解码操作得到第一层自动编码器输出层重构向量其中,W′1为第一层自动编码器输出层权重系数,b′1为第一层自动编码器输出层偏置向量矩阵,s(·)为激活函数,本专利技术为sigmoid函数;构建第一层自动编码器交叉熵函数模型为:其中,m为步骤1所述训练集中样本的数量,W是自编码网络模型的权重系数,b是自编码网络模型的偏置向量矩阵;第一层自动编码器特征层中,对每个神经元加入稀疏约束实现稀疏表达,神经元j的平均激活度为:其中,fθ(x(i))为输入数据为样本x(i)时神经元j的激活度,定义平均激活度系数为ρ,平均激活度与平均激活度系数为ρ的相对熵为:第一层自动编码器稀疏自编码器损失函数为:其中,s2是第一层自动编码器特征层中神经元的数量,j为神经元序号,β是稀疏系数;通过采用逐层贪婪训练法对第一层自动编码器稀疏自编码器损失函数最小时进行优化求解,得到第一层自动编码器特征层权重系数W1、第一层自动编码器特征层偏置向量矩阵b1、第一层自动编码器输出层权重系数W′1以及第一层自动编码器输出层偏置向量矩阵b′1;步骤2中所述将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量:将逐层贪婪训练法训练后第一层自动编码器特征层的深层特征y(i)作为输入数据作为第二层自动编码器输入层,经过编码操作得到第二层自动编码器特征层的深层特征为:y'(i)=s(W2y(i)+b2)其中,W2为第二层自动编码器特征层权重系数,b2为第二层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本专利技术为sigmoid函数;对第二层自动编码器特征层的深层特征y'(i)进行解码操作,得到第二层自动编码器输出层重构向量为:其中,W2'为第二层自动编码器输出层权重系数,b'2为第二层自动编码器输出层偏置向量矩阵,s(·)为激活函数,本专利技术为sigmoid函数;根据步骤2中所述构建第二层自动编码器稀疏自编码器损失函数,结合第二层自动编码器特征层中神经元的数量s3,通过采用逐层贪婪训练法对第二层自动编码器稀疏自编码器损失函数最小时进行优化求解,得到第二层自动编码器特征层权重系数W2、第二层自动编码器特征层偏置向量矩阵b2、第二层自动编码器输出层权重系数W2'以及第二层自动编码器输出层偏置向量矩阵b'2;步骤2中所述通过第一层自动编码器以及第二层自动编码器构建两层特征层的栈式稀疏自编码网络:将逐层贪婪训练法训本文档来自技高网
...

【技术保护点】
1.一种基于自编码网络的拉曼光谱数据分类方法,其特征在于,包括以下步骤:步骤1:通过光镊拉曼系统提取不同病龄的阿尔兹海默症患者血小板的拉曼光谱图,并对拉曼光谱图进行背景扣减、基线校正、平滑及平均处理,将处理之后的拉曼光谱图随机分为训练集和测试集;步骤2:将训练集样本作为第一层自动编码器输入数据,通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量,将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量,通过第一层自动编码器以及第二层自动编码器构建两层特征层的栈式稀疏自编码网络;步骤3:将步骤2中所述第二层自动编码器的深层特征作为输入数据以训练Softmax分类器,通过梯度下降算法优化求解Softmax分类器,将训练后Softmax分类器作为Softmax分类层以替换两层特征层的栈式稀疏自编码网络的输出层;步骤4:根据两层特征层的栈式稀疏自编码网络的第一特征层、第二层特征层以及Softmax分类层构建初始分类网络,通过反向传播算法优化初始分类网络得到优化后分类网络;步骤5:将测试集作为优化后分类网络输入数据,构建神经元数量优化第一层特征层以及神经元数量优化第二层特征层,通过神经元数量优化第一层特征层、神经元数量优化第二层特征层以及优化后分类网络的Softmax分类层得到神经元数量优化的分类网络。...

【技术特征摘要】
1.一种基于自编码网络的拉曼光谱数据分类方法,其特征在于,包括以下步骤:步骤1:通过光镊拉曼系统提取不同病龄的阿尔兹海默症患者血小板的拉曼光谱图,并对拉曼光谱图进行背景扣减、基线校正、平滑及平均处理,将处理之后的拉曼光谱图随机分为训练集和测试集;步骤2:将训练集样本作为第一层自动编码器输入数据,通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量,将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量,通过第一层自动编码器以及第二层自动编码器构建两层特征层的栈式稀疏自编码网络;步骤3:将步骤2中所述第二层自动编码器的深层特征作为输入数据以训练Softmax分类器,通过梯度下降算法优化求解Softmax分类器,将训练后Softmax分类器作为Softmax分类层以替换两层特征层的栈式稀疏自编码网络的输出层;步骤4:根据两层特征层的栈式稀疏自编码网络的第一特征层、第二层特征层以及Softmax分类层构建初始分类网络,通过反向传播算法优化初始分类网络得到优化后分类网络;步骤5:将测试集作为优化后分类网络输入数据,构建神经元数量优化第一层特征层以及神经元数量优化第二层特征层,通过神经元数量优化第一层特征层、神经元数量优化第二层特征层以及优化后分类网络的Softmax分类层得到神经元数量优化的分类网络。2.根据权利要求1所述的基于自编码网络的拉曼光谱数据分类方法,其特征在于:步骤1中所述训练集中样本数量为m张,测试集中样本数量为K张。3.根据权利要求1所述的基于自编码网络的拉曼光谱数据分类方法,其特征在于:步骤2中所述将训练集样本作为第一层自动编码器输入数据为将步骤1中所述训练集中样本x(i)(i∈[1,m],x(i)表示特征维度为s1的向量),作为输入数据组成第一层输入层;步骤2中所述通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量为:对x(i)进行编码操作得到第一层自动编码器特征层的深层特征y(i):y(i)=s(W1x(i)+b1)其中,W1为第一层自动编码器特征层权重系数,b1为第一层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;对第一层自动编码器特征层的深层特征y(i)进行解码操作得到第一层自动编码器输出层重构向量其中,W′1为第一层自动编码器输出层权重系数,b′1为第一层自动编码器输出层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;构建第一层自动编码器交叉熵函数模型为:其中,m为步骤1所述训练集中样本的数量,W是自编码网络模型的权重系数,b是自编码网络模型的偏置向量矩阵;第一层自动编码器特征层中,对每个神经元加入稀疏约束实现稀疏表达,神经元j的平均激活度为:其中,fθ(x(i))为输入数据为样本x(i)时神经元j的激活度,定义平均激活度系数为ρ,平均激活度与平均激活度系数为ρ的相对熵为:第一层自动编码器稀疏自编码器损失函数为:其中,s2是第一层自动编码器特征层中神经元的数量,j为神经元序号,β是稀疏系数;通过采用逐层贪婪训练法对第一层自动编码器稀疏自编码器损失函数最小时进行优化求解,得到第一层自动编码器特征层权重系数W1、第一层自动编码器特征层偏置向量矩阵b1、第一层自动编码器输出层权重系数W′1以及第一层自动编码器输出层偏置向量矩阵b′1;步骤2中所述将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量:将逐层贪婪训练法训练后第一层自动编码器特征层的深层特征y(i)作为输入数据作为第二层自动编码器输入层,经过编码操作得到第二层自动编码器特征层的深层特征为:y'(i)=s(W2y(i)+b2)其中,W2为第二层自动编码器特征层权重系数,b2为第二层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;对第二层自动编码器特征层的深层特征y'(i)进行解码操作,得到第二层自动编码器输出层重构向量为:其中,W′2为第二层自动编码器输出层权重系数,b′2为第二层自动编码器输出层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;根据步骤2中所述构建第二层自动编码器稀疏自编码器损失函数,结合第二层自动编码器特征层中神经元的数量s3,通过采用逐层贪婪训练法对第二层自动编码器稀疏自编码器损失函数最小时进行优化求解,得到第二层自动编码器特征层权重系数W2、第二层自动编码器特征层偏置向量矩阵b2、第二层自动编码器输出层权重系数W′2以及第二层自动编码器输出层偏置向量矩阵...

【专利技术属性】
技术研发人员:雷俊锋董宇轩沈爱国周景龙肖进胜杨天邹文涛
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1