当前位置: 首页 > 专利查询>西南大学专利>正文

基于遗传和环境相关的结直肠癌数据模型的分析方法技术

技术编号:16038447 阅读:29 留言:0更新日期:2017-08-19 20:17
本发明专利技术提供了一种基于遗传和环境相关的结直肠癌数据模型的分析方法,包括:接收参考人群的指定特征类型的结直肠癌(CRC)数据;对所述数据进行预处理,得到标准化数据;基于标准化数据,对数据进行分类;对每个子类使用稀疏主成分分析和/或信息熵法和/或Relief方法进行特征选择;使用维恩图获取三种方法的交集,使用U检验得到有显著性差异的特征;将特征基因数据样本集分成测试样本和训练样本,根据训练样本得到训练后分类器,将测试样本注入训练后分类器,对测试样本进行特征分类,并统计分类器的分类准确性。本发明专利技术实施例可以提高提取致癌因子的准确性,提高分类准确率。

【技术实现步骤摘要】
基于遗传和环境相关的结直肠癌数据模型的分析方法
本专利技术涉及生物信息学
,主要涉及生物数据分析和生物数据挖掘的方法,具体涉及大遗传和环境相关的大肠癌数据建立一个稳健的结直肠癌的数据模型,并在该数据模型的基础上进行数据分析和挖掘。
技术介绍
结直肠癌包括结肠癌和直肠癌,是世界范围内癌症相关发病和死亡的一个主要原因。2002年约有1023152例新诊断结直肠癌病例,并且528978有例患者死于结直肠癌,结直肠癌在男性恶性肿瘤发病谱和死亡谱中均居第四位分别为,而在女性恶性肿瘤发病谱中居第三位,在死亡谱中居第五位。也就是说每半分钟就有1人被新诊断为结直肠癌,每分钟就有1人因患有结直肠癌而死亡。虽然与北美和西欧发达国家相比,我国结直肠癌发病尚处于中等水平,但是随着生活环境的变化、人口老龄化及生活方式的西化,我国结直肠癌的发病率近年来呈明显上升的趋势。根据中国国家癌症数据库资料表明,结直肠癌是中国一年期间发病率上升速度最快的第三大恶性肿瘤,仅次于肺癌、女性乳腺癌。中国结直肠癌患者的发病年龄多在40-60岁,由于结直肠癌起病隐匿,症状的公众知晓度较低,许多患者在确诊时已经处于晚期。结直肠癌大约有25%的患者初次就诊时就已经发生转移。另外,高达50%的新诊断患者最终将进展为转移性结直肠癌,发生转移的患者能存活5年以上的不足5%。中晚期的结直肠癌患者治疗效果较差,其不良预后严重影响患者本人的生活质量的同时,也给肿瘤患者及家人带来了巨大的经济负担。结直肠癌已经成为严重影响我国人群生命质量的疾病。尽管近几十年来随着科学技术的发展及诊疗技术的进步,结直肠癌的治疗效果得到了很大的提升,尤其是早期结直肠癌的预后情况大有好转,但是晚期结直肠癌患者的5年生存率仍极差,而且大多数结直肠癌病例发现时已进入晚期。如能探明结直肠癌的发病机制,即可在病因上对其进行预防和控制,大大降低其发生率。结直肠癌的形成既非单纯环境因素所致,也非仅仅遗传因素所为,而是外部致病因素通过一定途径与相关基因相互作用,导致机体代谢和功能的变化。因此,单纯环境因素或基因多态性的研究已不能满足结直肠癌发生的病因解释,所以基因-环境交互作用的研究已倍受关注。由于遗传因素一般恒定不变,我们可以根据其与环境因素交互作用的特点,控制环境、职业和生活方式中的有害暴露因素,以达到有效预防结直肠癌的目的。因此,使用大遗传和环境相关的大肠癌数据建立一个稳健的结直肠癌风的险预测模型的方法具有重大的现实意义。随着疾病遗传学研究的深入开展,人们发现基因对疾病的影响是非常复杂的,很多疾病并非简单的由单一环境影响,许多常见疾病和复杂性状可能.由多种遗传与环境因素以及它们的相互作用确定,在人群中比较常见,如结直肠癌、糖尿病、骨质疏松症、高血压等。在复杂性疾病中,很多位点相互作用并且和环境因素一起影响疾病的形成。众所周知,传统的生物实验非常昂贵并且要花费大量的时间,所以近年来越来越多的癌症科学家使用统计模型去预测结直肠癌的发病状况,从数学的层面上去预测结直肠癌的发病风险或者提取关键致癌生物标记。YaZhouWu等人用传统的逻辑回归和交叉分析去分析数据量比较小的结直肠癌病人数据,确定预测模型去探索结直肠癌的发病状况;Ritchie和她的同事等人基于统计量和交叉验证提出了多因子降维法(MDR)来探索结直肠癌的致癌基因。MDR其基本思想是:先利用部分数据(从全部数据中随机抽取)得出模型,再在剩余的数据中加以检验;并且多次重复这一过程以避免数据的机会性划分对结果造成的影响。但是,上面的研究方法存在一定的局限性,并没有提高预测结直肠癌的精度。以下对本专利技术所涉及到的技术词汇/技术术语注释如下:1、结直肠癌(colorectalcancer,CRC)2、稀疏主成分分析(sparseprincipalcomponentanalysis,SPCA)3、支持向量机(supportvectormachine,SVM)4、广义递归最大相关熵算法(generalizedKernelrecursivemaximumcorrentropyalgorithm,GKRMC)5、Relief方法:是一种特征选择算法,根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。
技术实现思路
有鉴于此,本专利技术在总结前人的研究基础上,提出建立一个多层次的结直肠癌数据模型,并基于上述模型进行数据的分析,利用现有CRC数据,结合稀疏主成分分析、信息熵和Relief算法来对数据进行降维,并且用维恩图得到三个方法选取的特征的交集,并且使用逻辑回归、SVM和GKRMC对降维后的数据进行数据挖掘和结果预测,提高分析和预测结果的准确度。具体而言,本专利技术所提出的技术方案如下:一种基于遗传和环境相关的结直肠癌数据模型的分析方法,其特征在于,所述方法包括:步骤1、接收样本特征类型的CRC数据;步骤2、对所述CRC数据进行预处理,获得预处理数据;步骤3、将CRC的所述预处理数据分为多个子类;步骤4、针对每个所述子类,进行特征选择,获得不同子类的特征集;步骤5、获取不同子类的所述特征集的交集,检验并得到其中具有显著性差异的特征;步骤6、将所述具有显著性差异的特征对应的特征基因数据样本集分成测试样本和训练样本,我们可以采用多种方式进行样本的划分,例如使用基于交叉验证方法等,将所述训练样本分别注入多个分类器,得到训练后分类器,将所述测试样本注入所述训练后分类器,对所述测试样本进行特征分类,并统计所述训练后分类器的分类准确性。优选地,步骤2.1、对维度不一致的所有CRC数据,进行规范化,所述规范化方法为:其中x表示某一具体分数,u表示平均值,σ表示标准差,z为规范化后的数据。优选地,所述步骤3中,所述子类为四个,四个子类数据分别为基因数据、人口学特征数据、生活方式数据、食物数据。优选地,所述步骤4中,针对每个所述子类,采用以下方法中的一种或其任意组合,进行特征选择:稀疏主成分分析法、信息熵方法、Relief方法。优选地,所述在所述稀疏主成分分析法中,所述主成分为:PCi=l1iX1+l2iX2+L+lmiXm其中,X1,X2,...,Xm表示原始的变量,l1i,l2i,...lmi表示的是主成分PCi的系数,m表示变量的总数量。优选地,所述信息熵方法中,计算每个变量的信息增益,选取信息增益大于一预设阈值的特征。优选地,所述Relief方法根据各个特征和类别的相关性赋予该特征不同的权重,移除权重小于一预设阈值的特征;对于所述权重,依据各个特征与同类样本特征及不同类样本特征的距离关系,更新所述权重。更为优选地,上述权重的更新可以采用具体如下的方式:从训练集D中随机选择一个样本R,从和R同类的样本中寻找最近邻样本H,设为NearHit,从和R不同类的样本中寻找最近邻样本M,设为NearMiss,根据以下规则更新每个特征的权重:如果R和NearHit在某个特征上的距离小于R和NearMiss上的距离,则增加该特征的权重;反之,如果R和NearHit在某个特征的距离大于R和NearMiss上的距离,则降低该特征的权重;重复以上过程T次,最后得到各特征的平均权重。优选地,所述步骤5具体包括:针对所述步骤4中获得的特征集,采用维恩图选取交集,再利用本文档来自技高网
...
基于遗传和环境相关的结直肠癌数据模型的分析方法

【技术保护点】
一种基于遗传和环境相关的结直肠癌数据模型的分析方法,其特征在于,所述方法包括:步骤1、接收样本特征类型的CRC数据;步骤2、对所述CRC数据进行预处理,获得预处理数据;步骤3、将CRC的所述预处理数据分为多个子类;步骤4、针对每个所述子类,进行特征选择,获得不同子类的特征集;步骤5、获取不同子类的所述特征集的交集,检验并得到其中具有显著性差异的特征;步骤6、将所述具有显著性差异的特征对应的特征基因数据样本集分成测试样本和训练样本,将所述训练样本分别注入多个分类器,得到训练后分类器,将所述测试样本注入所述训练后分类器,对所述测试样本进行特征分类,并统计所述训练后分类器的分类准确性。

【技术特征摘要】
1.一种基于遗传和环境相关的结直肠癌数据模型的分析方法,其特征在于,所述方法包括:步骤1、接收样本特征类型的CRC数据;步骤2、对所述CRC数据进行预处理,获得预处理数据;步骤3、将CRC的所述预处理数据分为多个子类;步骤4、针对每个所述子类,进行特征选择,获得不同子类的特征集;步骤5、获取不同子类的所述特征集的交集,检验并得到其中具有显著性差异的特征;步骤6、将所述具有显著性差异的特征对应的特征基因数据样本集分成测试样本和训练样本,将所述训练样本分别注入多个分类器,得到训练后分类器,将所述测试样本注入所述训练后分类器,对所述测试样本进行特征分类,并统计所述训练后分类器的分类准确性。2.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:步骤2.1、对维度不一致的所有CRC数据,进行规范化,所述规范化方法为:其中x表示某一具体分数,u表示平均值,σ表示标准差,z为规范化后的数据。3.根据权利要求1所述的方法,其特征在于,所述步骤3中,所述子类为四个,四个子类数据分别为基因数据、人口学特征数据、生活方式数据、食物数据。4.根据权利要求1所述的方法,其特征在于,所述步骤4中,针对每个所述子类,采用以下方法中的一种或其任意组合,进行特征选择:稀疏主成分分析法、信息熵方法、Relief方法。5.根据权利要求...

【专利技术属性】
技术研发人员:章乐郑纯秋李甜周紫垣陈霸东邢磊李婷婷
申请(专利权)人:西南大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1