基于PCA和PSO‑KELM模型的乳腺癌诊断系统技术方案

技术编号:17409762 阅读:37 留言:0更新日期:2018-03-07 06:41
基于PCA和PSO‑KELM模型的乳腺癌诊断系统,对乳腺癌病理数据指标进行分析,应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标,对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施,通过医疗设备显示器显示患者的最终诊断结果。其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后,提取高维的乳腺癌病理数据中占主导作用的低维综合指标,把低维综合指标作为该模型的输入向量进行试验,利用粒子方法对模型中的参数进行优化,最后得到稳定的系统参数,加快该模型的收敛速度及分类的准确率。

Breast cancer diagnosis system of PCA and PSO based on KELM model

【技术实现步骤摘要】
基于PCA和PSO-KELM模型的乳腺癌诊断系统
本专利技术涉及基于PCA和PSO-KELM模型的乳腺癌诊断系统;
技术介绍
目前,随着国民的生活节奏在不断加快,饮食结构发生差异性的变化、居住环境的严重污染以及各种各样的社会压力作用下,大部分年轻人养成一些晚睡、酗酒、抽烟等的不良习惯,导致一些慢性非传染性疾病慢慢的在越来越多的年轻人身上逐渐恶化,并且呈现年轻化趋势,严重的情况下,甚至会危及人类生命健康;据我国卫生部疾病预防控制中心统计,慢性非传染性疾病即慢性病已经成为我国普通人群健康的第一杀手,当前被确诊为慢性病的患者已超过2.6亿人,慢性病的死亡率占全国死亡率的85%以上;各大医院的卫生系统都承载着大量的病理数据的重担,对于如何对医疗病理数据进行合理的挖掘和应用在医学领域界受到越来越多的研究学者的关注;数据挖掘作为一个以数据库、人工神经网络、机器学习、统计学习等多个方面为核心组成的多学科交叉的科技前沿领域;数据挖掘中自常见的分类算法提出以来,在各大领域已经被广泛应用;目前,基于数据分类的医学病理数据挖掘正在成为医学界和计算机界共同关注的研究热点之一;在基于病理数据的挖掘中,已经提出了很多新方法、新思路,其中应用最广泛的就是分类方法中的人工神经网络在预测疾病、辅助诊断、知识发现中有着巨大应用前景的数据分类技术;由于人工神经网络是一个具有高度并行处理、非线映射功能的算法,可以应用到大数据库中,对于处理非线性、有噪音、冗余的、不完整的知识或数据十分合适;这些数据的特殊性也正是数据挖掘要面临地挑战;而在神经网络的算法中,在训练和测试过程中需要大量的样本数据,这一点也正是数据挖掘工具所能提供的大型数据库和数据仓库的基础;由于医学数据本身真实可靠,不受其他因素干扰,并且稳定性强,使数据挖掘在医学上的应用具有其自身的优势;因此,将数据挖掘技术应用到医疗中,可以提高整个医院的工作效益和效率;对于好多疾病就可以进行早期发现、早期诊断、早期治疗;
技术实现思路
本专利技术要克服现有技术的上述缺点,提供一种基于PCA和PSO-KELM模型的乳腺癌诊断系统;本专利技术为了能够使复杂的、高维度的、冗余的、非线性的乳腺癌病理数据通过主成分分析法(PCA)对医疗病理数据进行降维,病理数指标之间的耦合度降低;接着用粒子群算法对核极限学习机中相关参数进行优化;最后使PCA和PSO-KELM融合的模型对乳腺癌病理数据进行有效的、准确地分类和预测;基于PCA和PSO-KELM模型的乳腺癌诊断系统,其特征在于:对乳腺癌疾病的病理指标进行分析,应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标,建立样本数据库,对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施;其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后,提取高维的乳腺癌病理数据中占主导作用的低维综合指标,把低维综合指标作为该模型的输入向量进行试验,利用粒子群方法对模型中的参数进行优化,最后得到稳定的系统参数,加快该模型的收敛速度及分类的准确率;采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块;病理数据采集:选取具有丰富临床经验的医生对乳腺肿块通过病理学细针穿刺方法获得细胞组织;然后医生将具有细胞组织的载玻片放在选取来自不同视野的显微镜下进行检测、观察乳腺肿瘤病灶组织中细胞核所显示的检测参数,包括细胞核的直径、质地、周长、面积、光滑度、紧密度、凹陷度、凹陷点数、对称度、断裂度10个量化特征的平均值、标准差以及最坏值,共30个数据指标;利用乳腺癌诊断模型进行病理数据预测分析,根据病理数据的自身特性选择合适的预测模型;基于数据主元分析模块,其数据表达式如下:对式(1)样本数据矩阵进行主成分分析,根据协方差矩阵X求出其相应的特征值,根据每个特征值对应的累积贡献率所占比例的大小优选出主要特征指标,如下公式所示:其中,用σi和ηa分别表示主元yi的方差贡献率和前a个主元的累计贡献率,λ表示特征值,m表示取前几个主要特征指标的个数;一般情况下,取前m个累积贡献率大于85%的主成分综合指标个数,从而达到了降低维度的目的,前m个主成分指标能够完全反映原始乳腺癌病理数据的大量信息,这些主成分就是原始信息的线性组合;其表达式如下所示:公式(3)中,y=[y1,y2,...,y10]表示其中经过主元分析模型处理后的低维医疗病理数据,由原先30维的乳腺癌病理数据指标降维变成了10个毫不相关的主成分指标,这些指标之间是互不重叠的;通过计算将原始数据和相应的系数矩阵做内积,得到降维后的矩阵Y所示:Y569*10=X569*30*a30*10;基于人工神经网络评价分析模块:经过基于数据主元分析模块降维后,将10个主成分的综合指标作为极限学习机模型的输入样本,将输入样本和输入权重的内积再加上阈值通过非线性的激活函数模型来映射,得到一个隐含层的输出响应,将当前隐含层的输出响应作为输出层的输入样本与权重进行内积,得到最终的分类函数模型;为了获得一个ELM网络的最佳模型,ELM在输出过程中不但要考虑到连接隐含层与输出层之间的权值最小化,而且还要保证网络模型的实际输出值和目标输出值之间的误差达到最小,即保证模型的输出权重最小化及输出误差最小化,当两个最小化参数其中一个没有达到最小化的标准,那么所得到的模型可能会产生过拟合状态及其他不良状态;因此,要保证模型中这两个最小化参数之间的比例,使他们达到一定的动态平衡,,一个良好的ELM模型输出层分类目标函数为:Subjectto:h(xp)β=tpT-ξpT(5)P=1,2,…N表示样本的个数,tp表示为网络的实际输出值,其中代表输出层输出的最小权重,即结构风险最小;代表输出误差最小,即经验风险最小,C表示为正规化系数,类似于支持向量机模型中的惩罚系数,因为结构风险和经验风险这两个指标之间是相互矛盾的,用正规化系数C来调节这两个指标之间的比例关系;该模型中输出层中的实际输出向量和目标向量之间存在着一定误差,该训练误差用|||ξp||来表示;通过ELM训练模型所得出的线性系统输出值的解与如下对偶问题是等价的,如下所示这是根据卡罗需-库恩-塔克(Karush-Khu-Tucker)的理论公式所得;其中αp为非负数,称之为拉格朗日乘子;我们根据Karush-Khu-Tucker的相应优化限制条件进行求解结果如下:其中H=[hT(x1),…,hT(xN)]T就是隐含层输出的映射矩阵,实际上矩阵H与输出层中所含的节点的个数没有关系,但是与输入层和隐含层的样本的节点个数关系密切;将公式(8)和(9)带入到公式(10),可得将(11)中的公式进行合并整理:令将其公式合并如下:将公式(11)带入到公式(9)中,可以得到输出权重β:最后可以得出ELM的非线性逼近函数:在ELM模型中,H是隐含层输出矩阵,从上面公式推到中可以发现H是有激活函数做成的输出矩阵,由于ELM模型中权重和阈值的值在训练前是随机产生的,这样就导致H矩阵中的值是不确定的,因此每次进行ELM建模时,输出层输出的权重值也是不确定的,导致整个模型的泛华能力差、随机波动性大;为了进一步加强该模型的稳定性、泛化能力以及抗鲁棒性,本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/201710878027.html" title="基于PCA和PSO‑KELM模型的乳腺癌诊断系统原文来自X技术">基于PCA和PSO‑KELM模型的乳腺癌诊断系统</a>

【技术保护点】
基于基于PCA和PSO‑KELM模型的乳腺癌诊断系统,其主要特征在于对乳腺癌疾病的病理指标进行分析,应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标,建立样本数据库,对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施;其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后,提取高维的乳腺癌病理数据中占主导作用的低维综合指标,把低维综合指标作为该模型的输入向量进行试验,利用粒子群方法对乳腺癌诊断模型中的参数进行优化,最后得到稳定的系统参数,加快该乳腺癌诊断模型的收敛速度及分类的准确率;采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块;病理数据采集:选取具有丰富临床经验的医生对乳腺肿块通过病理学细针穿刺方法获得细胞组织;然后医生将具有细胞组织的载玻片放在选取来自不同视野的显微镜下进行检测、观察乳腺肿瘤病灶组织中细胞核所显示的检测参数,包括细胞核的直径、质地、周长、面积、光滑度、紧密度、凹陷度、凹陷点数、对称度、断裂度10个量化特征的平均值、标准差以及最坏值,共30个数据指标;利用乳腺癌诊断模型进行病理数据预测分析,根据病理数据的自身特性选择合适的预测模型;基于数据主元分析模块,其数据表达式如下:...

【技术特征摘要】
1.基于基于PCA和PSO-KELM模型的乳腺癌诊断系统,其主要特征在于对乳腺癌疾病的病理指标进行分析,应用乳腺癌诊断模型分析、预测乳腺癌各项数据指标,建立样本数据库,对乳腺癌患者良、恶性的诊断结果进行分类、预测并提出具有科学性、针对性及有效性的防疗措施;其中乳腺癌诊断模型是对患良、恶性患者的病理数据进行预处理之后,提取高维的乳腺癌病理数据中占主导作用的低维综合指标,把低维综合指标作为该模型的输入向量进行试验,利用粒子群方法对乳腺癌诊断模型中的参数进行优化,最后得到稳定的系统参数,加快该乳腺癌诊断模型的收敛速度及分类的准确率;采用计算机程序语言编写的乳腺癌诊断模型包括基于数据主元分析模块、基于人工神经网络评价分析模块、基于粒子群优化参数分析模块;病理数据采集:选取具有丰富临床经验的医生对乳腺肿块通过病理学细针穿刺方法获得细胞组织;然后医生将具有细胞组织的载玻片放在选取来自不同视野的显微镜下进行检测、观察乳腺肿瘤病灶组织中细胞核所显示的检测参数,包括细胞核的直径、质地、周长、面积、光滑度、紧密度、凹陷度、凹陷点数、对称度、断裂度10个量化特征的平均值、标准差以及最坏值,共30个数据指标;利用乳腺癌诊断模型进行病理数据预测分析,根据病理数据的自身特性选择合适的预测模型;基于数据主元分析模块,其数据表达式如下:对式(1)样本数据矩阵进行主成分分析,根据协方差矩阵X求出其相应的特征值,根据每个特征值对应的累积贡献率所占比例的大小优选出主要特征指标,如下公式所示:其中,用σi和ηa分别表示主元yi的方差贡献率和前a个主元的累计贡献率,λ表示特征值,m表示取前几个主要特征指标的个数;一般情况下,取前m个累积贡献率大于85%的主成分综合指标个数,从而达到了降低维度的目的,前m个主成分指标能够完全反映原始乳腺癌病理数据的大量信息,这些主成分就是原始信息的线性组合;其表达式如下所示:公式(3)中,y=[y1,y2,...,y10]表示其中经过主元分析模型处理后的低维医疗病理数据,由原先30维的乳腺癌病理数据指标降维变成了10个毫不相关的主成分指标,这些指标之间是互不重叠的;通过计算将原始数据和相应的系数矩阵做内积,得到降维后的矩阵Y所示:Y569*10=X569*30*a30*10;基于人工神经网络评价分析模块:经过基于数据主元分析模块降维后,将10个主成分的综合指标作为极限学习机模型的输入样本,将输入样本和输入权重的内积再加上阈值通过非线性的激活函数模型来映射,得到一个隐含层的输出响应,将当前隐含层的输出响应作为输出层的输入样本与权重进行内积,得到最终的分类函数模型;为了获得一个ELM网络的最佳模型,ELM在输出过程中不但要考虑到连接隐含层与输出层之间的权值最小化,而且还要保证网络模型的实际输出值和目标输出值之间的误差达到最小,即保证模型的输出权重最小化及输出误差最小化,当两个最小化参数其中一个没有达到最小化的标准,那么所得到的模型可能会产生过拟合状态及其他不良状态;因此,要保证模型中这两个最小化参数之间的比例,使他们达到一定的动态平衡,,一个良好的ELM模型输出层分类目标函数为:Subjectto:h(xp)β=tpT-ξpT(5)P=1,2,…N表示样本的个数,tp表示为网络的实际输出值,其中代表输出层输出的最小权重,即结构风险最小;代表输出误差最小,即经验风险最小,C表示为正规化系数,类似于支持向量机模型中的惩罚系数,因为结构风险和经验风险这两个指标之间是相互矛盾的,用正规化系数C来调节这两个指标之间的比例关系;该模型中输出层中的实际输出向量和目标向量之间存在着一定误差,该训练误差用||ξp||来表示;通过ELM训练模型所得出的线性系统输出值的解与如下对偶问题是等价的,如下所示这是根据卡罗需-库恩-塔克(Karush-Khu-Tucker)的理论公式所得;其中αp为非负数,称之为拉格朗日乘子;我们根据Karush-Khu-Tucker的相应优化限制条件进行求解结果如下:

【专利技术属性】
技术研发人员:潘娟鲍东海丁佳骏何熊熊
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1