当前位置: 首页 > 专利查询>南昌大学专利>正文

一种卵巢癌分子分型预测系统技术方案

技术编号:20392663 阅读:62 留言:0更新日期:2019-02-20 03:58
本发明专利技术提供了一种卵巢癌分子分型预测系统,主要包括以下步骤:步骤1,卵巢癌mRNA基因表达特征数据提取模块:获取卵巢癌基因表达数据;步骤2,对所有基因表达数据使用skleam中preprocessing.scale方法进行标准化处理,根据公式Z‑scroce=(x‑μ)/S

【技术实现步骤摘要】
一种卵巢癌分子分型预测系统
本专利技术涉及数据处理
,具体为一种卵巢癌分子分型预测系统。
技术介绍
卵巢癌作为当今妇科癌症中死亡率最高的疾病,其早期诊断、预后和个体差异较大。根据现有的临床诊断及治疗手段难以继续提高卵巢癌的生存率,因而,基于癌症的异质性,有必要通过对卵巢癌的基因表达谱的挖掘和研究来深入认识卵巢癌复杂的致病机制。通过挖掘基因组学数据中卵巢癌的基因表达差异,可以将卵巢癌分成分化型、增殖型、免疫反应型、间质型4个亚型,以期于正确认识各亚型间的致病机制,并推断其起源,从根源上制定诊疗计划。随着大数据的完善和发展,让基因在疾病中的作用机制不断为人所知,通过对亚型的研究,发现在不同的亚型中基因表达谱有所不同,这类特定的基因也在不同通路中发挥作用,这也提示,对卵巢癌的进一步分类及挖掘有助于认识到各亚型的起源、发病机制,为治疗、预后等可提供新的研究方向。
技术实现思路
本专利技术的目的在于提供一种卵巢癌分子分型预测系统,以解决上述
技术介绍
中提出的问题,本专利技术探索并建立了跨平台亚型分类模型,筛选与各亚型相关的特异性基因进行基因富集分析后,得出与各亚型相关的通路,从而可推测出各亚型的致病机制与起源,为临床早期筛查方法、癌症精准治疗及靶向治疗位点提供新的思路与方法,改善卵巢癌患者预后及中位生存期等。为实现上述目的,本专利技术提供如下技术方案:一种卵巢癌分子分型预测系统,主要包括以下步骤:步骤1,卵巢癌mRNA基因表达特征数据提取模块:获取卵巢癌基因表达数据;步骤2,数据预处理器:对所有基因表达数据使用skleam中preprocessing.scale方法进行标准化处理,根据公式Z-scroce=(x-μ)/S2,将每张mRNA表达谱数据处理成均值为0,方差为1的服从正态分布的数据;步骤3,选择主要特征基因数据:运用主成分分析法(PCA)进行特征筛选,Filter特征选择法选取出特征表达最明显的N个特征;步骤4,使用BP神经网络对N个特征的基因数据训练模型;步骤5,验证:使用一定量样本进行回带程序验证。进一步的,所述主成分分析法(PCA)为:设原始变量x1,x2等数据矩阵为X,将数据矩阵按列进行中心标准化,然后求相关系数矩阵R;R=(rij)p×p其中,rij=rji,rii=1;求R的特征方程:det(R-λE)=0其中,λ1>=λ2>=λp>0;确定主成分个数:其中,α为累计贡献率,一般取α>=80%;计算m个相应的单位特征向量:计算主成分:Zi=β1iX1+β2iX2+......+βpiXp,i=1,2,......,m。进一步的,所述Filter特征选择法是一种启发式方法,其基本思想就是制定一个准则,用来衡量每个特征或者属性,对目标特征或属性的重要性程度,以此来对所有特征或者属性进行排序,或者进行择优选择,选取出特征表达最明显的N个特征。进一步的,所述准则采用但不限于信息增益准则。进一步的,所述BP神经网络包含输入层,隐含层和输出层:假设有d个输入神经元,有1个输出神经元,q个隐含层神经元;设输出层第j个神经元的阈值为θj;设隐含层第h个神经元的阈值为γh;输入层第i个神经元与隐含层第h个神经元之间的连接权为Vih;隐含层第h个神经元与输出层第j个神经元之间的连接权为Whj;记隐含层第h个神经元接收到来自于输入层的输入为αh;记输出层第j个神经元接收到来自于隐含层的输入为βj;其中bh为隐含层第h个神经元的输出;理论推导:在神经网络中,神经元接收到来自其他神经元的输入信号,这些信号乘以权重累加到神经元接收的总输入值上,随后与当前神经元的阈值进行比较,然后通过激活函数处理,产生神经元的输出;激活函数:采用sigmoid函数作为激活函数;训练数据的时候,输入数据后得到的结果放入激活函数,与预期的结果进行比较,如果与预期结果有误差,则进行误差传递和调整参数;sigmoid函数的公式如下:对于一个训练例(xk,yk),假设神经网络的输出层为Yk,则神经网络输出层第j个神经元的输出值可表示为:f(***)表示激活函数,可以计算网络上,(xk,yk)的均方差误差为:从隐含层的第h个神经元看,输入层总共有d个权重传递参数,共有l个权重传递参数传给输出层,自身还有1个阈值,一个隐含层神经元有(d+l+1)个参数待确定,输出层每个神经元还有一个阈值,所以总共有l个阈值,最后,总共有(d+l+1)*q+l个待定参数,随机给出这些待定的参数,后面通过BP算法的迭代,这些参数的值会逐渐收敛于合适的值;任意权重参数的更新公式为:W←W+ΔW以隐含层到输出层的权重参数whj为例,求出均方差误差Ek,期望值为0,或者为最小值,以目标的负梯度方向对参数进行调整,通过多次迭代,新的权重参数会逐渐趋近于最优解;对于误差Ek,给定学习率(learningrate)即步长η,有:首先whj影响到了输出层神经元的输入值βj,然后影响到输出值Yjk,然后再影响到误差Ek,所以根据输出层神经元的输入值βj的定义得到:对于激活函数很容易通过求导证得下面的性质:f′(x)=f(x)[1-f(x)]使用这个性质进行如下推导:令又因为所以得到即把其带入式子中,得到所以通过不停地更新即梯度下降法就可实现权重更新了,w←w+Δw,η为学习率,即梯度下降的补偿;为神经网络输出层第j个神经元的输出值;为给出的训练例(xk,yk)的标志(label),即训练集给出的正确输出;bh为隐含层第h个神经元的输出,类似可以得到其中通过不断的误差传递,权重调整得到最后的模型,把测试的数据带入模型中,即输入层位置进行计算,模型训练的时候会把正确分类结果放进输出层,模型进行权重的调整,会使得最后得到的结果十分接近1或2或3或4,若测试数据的结果接近1判定为分化型,若接近2判定为增繁殖型,若接近3判定为免疫反应型,若接近4判定为间质型。与现有技术相比,本专利技术的有益效果是:本专利技术克服了以往的针对卵巢癌分子分型技术方法速度慢、泛化性能差、分类准确率低的缺陷,并且能够凭借卵巢癌病理切片实现机器自动识别及报错,实现了快速且准确率高的卵巢癌分子分型预测;利用本专利技术系统进行卵巢癌分子分型预测,能更好的帮助临床治疗方案的完善;本专利技术使卵巢癌患者治疗更有针对性,帮助提高患者预后及存活时间。附图说明图1为本专利技术的流程图;图2为本专利技术简易BP神经网络示意图;图3为本专利技术GSE9891ROC曲线图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步的详细说明。此处所描述的具体实施例仅用于解释本专利技术技术方案,并不限于本专利技术。在对癌症亚型分类模型的研究中,现常用的建模方法为k-means,其分组的可预测性是其优点,但后期需要人工对各亚型进行定义,因此对于较为相似的两种亚型,可能存在分型的定义偏差。因此,我们采用了神经网络中的BP模型,可直接预测出每一个样本的准确亚型,这不失为癌症亚型分类的一种新方法。另外,通过对比与TCGA团队的研究结果,及Tothill等人的结论,我们证实了卵巢癌四型亚型分类法的可行性。并且,通过对卵巢癌亚型基因的通路分析,我们认为不同亚型间的病因机制也有所不同。本专利技术提供一种技术方案:一种卵巢癌分子分型预测系统,如图1所示,主本文档来自技高网...

【技术保护点】
1.一种卵巢癌分子分型预测系统,其特征在于:主要包括以下步骤:步骤1,卵巢癌mRNA基因表达特征数据提取模块:获取卵巢癌基因表达数据;步骤2,数据预处理器:对所有基因表达数据使用skleam中preprocessing.scale方法进行标准化处理,根据公式Z‑scroce=(x‑μ)/S2,将每张mRNA表达谱数据处理成均值为0,方差为1的服从正态分布的数据;步骤3,选择主要特征基因数据:运用主成分分析法(PCA)进行特征筛选,Filter特征选择法选取出特征表达最明显的N个特征;步骤4,使用BP神经网络对N个特征的基因数据训练模型;步骤5,验证:使用一定量样本进行回带程序验证。

【技术特征摘要】
1.一种卵巢癌分子分型预测系统,其特征在于:主要包括以下步骤:步骤1,卵巢癌mRNA基因表达特征数据提取模块:获取卵巢癌基因表达数据;步骤2,数据预处理器:对所有基因表达数据使用skleam中preprocessing.scale方法进行标准化处理,根据公式Z-scroce=(x-μ)/S2,将每张mRNA表达谱数据处理成均值为0,方差为1的服从正态分布的数据;步骤3,选择主要特征基因数据:运用主成分分析法(PCA)进行特征筛选,Filter特征选择法选取出特征表达最明显的N个特征;步骤4,使用BP神经网络对N个特征的基因数据训练模型;步骤5,验证:使用一定量样本进行回带程序验证。2.根据权利要求1所述的一种卵巢癌分子分型预测系统,其特征在于:所述主成分分析法(PCA)为:设原始变量x1,x2等数据矩阵为X,将数据矩阵按列进行中心标准化,然后求相关系数矩阵R;R=(rij)p×p其中,rij=rji,rii=1;求R的特征方程:det(R-λE)=0其中,λ1>=λ2>=λp>0;确定主成分个数:其中,α为累计贡献率,一般取α>=80%;计算m个相应的单位特征向量:计算主成分:Zi=β1iX1+β2iX2+......+βpiXp,i=1,2,......,m。3.根据权利要求1所述的一种卵巢癌分子分型预测系统,其特征在于:所述Filter特征选择法是一种启发式方法,其基本思想就是制定一个准则,用来衡量每个特征或者属性,对目标特征或属性的重要性程度,以此来对所有特征或者属性进行排序,或者进行择优选择,选取出特征表达最明显的N个特征。4.根据权利要求3所述的一种卵巢癌分子分型预测系统,其特征在于:所述准则采用但不限于信息增益准则。5.根据权利要求1所述的一种卵巢癌分子分型预测系统,其特征在于:所述BP神经网络包含输入层,隐含层和输出层:假设有d个输入神经元,有1个输出神经元,q个隐含层神经元;设输出层第j个神经元的阈值为θj;设隐含层第h个神经元的阈值为γh;输入层第i个神经元与隐含层第h个神经元之间的连接权为Vih;隐含层第h个神经元与输出层第j个神经元之间的连接权为Whj;记隐含层第h个神经元接收到来自于输入层的输入为αh;记输出层第j个神经元接收到来自于隐含层的输入为βj;其中bh为隐含层第h个神经元的输出;理论推导:在神经网...

【专利技术属性】
技术研发人员:邓立彬王豪庆梁博文王紫璇杨霭琳傅芬汤晓丽
申请(专利权)人:南昌大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1