当前位置: 首页 > 专利查询>西南大学专利>正文

基于遗传和环境相关的结直肠癌数据模型的分析方法技术

技术编号:16038447 阅读:40 留言:0更新日期:2017-08-19 20:17
本发明专利技术提供了一种基于遗传和环境相关的结直肠癌数据模型的分析方法,包括:接收参考人群的指定特征类型的结直肠癌(CRC)数据;对所述数据进行预处理,得到标准化数据;基于标准化数据,对数据进行分类;对每个子类使用稀疏主成分分析和/或信息熵法和/或Relief方法进行特征选择;使用维恩图获取三种方法的交集,使用U检验得到有显著性差异的特征;将特征基因数据样本集分成测试样本和训练样本,根据训练样本得到训练后分类器,将测试样本注入训练后分类器,对测试样本进行特征分类,并统计分类器的分类准确性。本发明专利技术实施例可以提高提取致癌因子的准确性,提高分类准确率。

【技术实现步骤摘要】
基于遗传和环境相关的结直肠癌数据模型的分析方法
本专利技术涉及生物信息学
,主要涉及生物数据分析和生物数据挖掘的方法,具体涉及大遗传和环境相关的大肠癌数据建立一个稳健的结直肠癌的数据模型,并在该数据模型的基础上进行数据分析和挖掘。
技术介绍
结直肠癌包括结肠癌和直肠癌,是世界范围内癌症相关发病和死亡的一个主要原因。2002年约有1023152例新诊断结直肠癌病例,并且528978有例患者死于结直肠癌,结直肠癌在男性恶性肿瘤发病谱和死亡谱中均居第四位分别为,而在女性恶性肿瘤发病谱中居第三位,在死亡谱中居第五位。也就是说每半分钟就有1人被新诊断为结直肠癌,每分钟就有1人因患有结直肠癌而死亡。虽然与北美和西欧发达国家相比,我国结直肠癌发病尚处于中等水平,但是随着生活环境的变化、人口老龄化及生活方式的西化,我国结直肠癌的发病率近年来呈明显上升的趋势。根据中国国家癌症数据库资料表明,结直肠癌是中国一年期间发病率上升速度最快的第三大恶性肿瘤,仅次于肺癌、女性乳腺癌。中国结直肠癌患者的发病年龄多在40-60岁,由于结直肠癌起病隐匿,症状的公众知晓度较低,许多患者在确诊时已经处于晚期。结直肠癌本文档来自技高网...
基于遗传和环境相关的结直肠癌数据模型的分析方法

【技术保护点】
一种基于遗传和环境相关的结直肠癌数据模型的分析方法,其特征在于,所述方法包括:步骤1、接收样本特征类型的CRC数据;步骤2、对所述CRC数据进行预处理,获得预处理数据;步骤3、将CRC的所述预处理数据分为多个子类;步骤4、针对每个所述子类,进行特征选择,获得不同子类的特征集;步骤5、获取不同子类的所述特征集的交集,检验并得到其中具有显著性差异的特征;步骤6、将所述具有显著性差异的特征对应的特征基因数据样本集分成测试样本和训练样本,将所述训练样本分别注入多个分类器,得到训练后分类器,将所述测试样本注入所述训练后分类器,对所述测试样本进行特征分类,并统计所述训练后分类器的分类准确性。

【技术特征摘要】
1.一种基于遗传和环境相关的结直肠癌数据模型的分析方法,其特征在于,所述方法包括:步骤1、接收样本特征类型的CRC数据;步骤2、对所述CRC数据进行预处理,获得预处理数据;步骤3、将CRC的所述预处理数据分为多个子类;步骤4、针对每个所述子类,进行特征选择,获得不同子类的特征集;步骤5、获取不同子类的所述特征集的交集,检验并得到其中具有显著性差异的特征;步骤6、将所述具有显著性差异的特征对应的特征基因数据样本集分成测试样本和训练样本,将所述训练样本分别注入多个分类器,得到训练后分类器,将所述测试样本注入所述训练后分类器,对所述测试样本进行特征分类,并统计所述训练后分类器的分类准确性。2.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:步骤2.1、对维度不一致的所有CRC数据,进行规范化,所述规范化方法为:其中x表示某一具体分数,u表示平均值,σ表示标准差,z为规范化后的数据。3.根据权利要求1所述的方法,其特征在于,所述步骤3中,所述子类为四个,四个子类数据分别为基因数据、人口学特征数据、生活方式数据、食物数据。4.根据权利要求1所述的方法,其特征在于,所述步骤4中,针对每个所述子类,采用以下方法中的一种或其任意组合,进行特征选择:稀疏主成分分析法、信息熵方法、Relief方法。5.根据权利要求...

【专利技术属性】
技术研发人员:章乐郑纯秋李甜周紫垣陈霸东邢磊李婷婷
申请(专利权)人:西南大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1