基于单核苷酸多态性和逻辑回归模型计算肺癌发病率的方法及其应用技术

技术编号:11951050 阅读:138 留言:0更新日期:2015-08-26 19:42
本发明专利技术涉及疾病的遗传基础和发病率计算等领域,具体而言是以单核苷酸多态性为基础,采用逻辑回归模型,预测个体的肺癌发病率,包括三个步骤:1)收集和肺癌有关的全基因关联研究学术文章,整理SNP信息;2)以这些SNP的OR值、分布频率以及肺癌的平均患病风险为基础,构建统一的逻辑回归模型,确定模型中的常数项βO以及每个SNP对应的线性系数β;3)收集临床样本血液,分析SNP,计算每个样本的肺癌发病率和临床病症比对,验证本方法的准确率。本发明专利技术所构建的方法具有普遍性,可以计算包括肺癌在内等多种疾病的发病率,帮助个体进行更为科学的健康管理,对降低患病风险具有重大的价值,属于典型的一级预防策略。

【技术实现步骤摘要】

本专利技术涉及肺癌的遗传基础、基因检测、风险评估等领域,具体而言是以个体的单核苷酸多态性为基础,采用逻辑回归(1ogistic)模型,计算个体的肺癌发病率。本专利技术通过改造传统的逻辑回归模型,使之可以处理来自不同研究文章、基于不同人种、针对单核苷酸多态性的全基因关联研究成果,用于计算中国人的肺癌发病率。其价值在于可以在后基因组时代,针对大气污染严重以及吸烟泛滥引发肺癌发病率逐年升高的情况,为肺癌高风险患者提前预警患病风险,并进而实施更科学的健康管理方案以及有针对性的体检策略,这是典型的一级预防策略,对降低肺癌患病风险、减少治疗费用具有重大的价值。
技术介绍
疾病和遗传有关人类的健康状况由遗传因子(基因)和环境因子共同决定。其中,遗传因子发生异常是疾病产生的内因。目前,人类常见病,包括肿瘤、心脑血管病、代谢性疾病、神经疾病、呼吸疾病等绝大多数都是复杂性疾病,由多个基因的变异引起,这些变异包括单核苷酸多态性(Single nucleotide polymorphysim,SNP)、基因和染色体拷贝数的异常等。发现引起这些疾病的基因变异具有重要的意义,不仅可以发现新的药物治疗靶点,也可以对疾病的发生做出风险预警和早期诊断,因此具有重大的医学价值。诱发疾病的SNP可以被发现全基因组关联研究(Genome-wide association studies,GWAS)在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,从而可以全面揭示疾病发生、发展与治疗相关的基因(WTCCC.(2007)Genome-wideassociation studies of14,000cases of seven common diseases and3,000sharedcontrols.Nature447,661-683)。目前,科学家已经对I型和II型糖尿病、心脑血管病、肺癌、前列腺癌、肥胖、精神病、自身免疫病等多种复杂疾病进行了GWAS,并找到了疾病相关的易感位点。截止2010年底,已有21O种疾病及性状被研究,相关的1212个GWAS研究结果先后发表在国际一流学术刊物上(如:New England Journal ofMedicine、Nature、Science、Nature Genetics),总计发现了6000多种复杂疾病相关基因及相应的疾病相关单核苷酸多态性,并系统地在归并在数据库中(http://www.genome.gov/gwastudi es)。基于SNP计算疾病的发病率科学可行由于GWAS是发现SNP和疾病关联的过程,而疾病发病率计算的本质就是基于已知的SNP和疾病关系数据库,来计算疾病的发病概率,是科学可行的。已经发现的6000多种复杂疾病的单核苷酸多态性位点为发病率计算提供了最为基础的数据。随着发现的致病位点越来越多,结合多个位点进行预测的准确性也将越来越高。因此,这项研究有着极为广泛的应用前景,尤其是标志着个性化医学时代的来临(Hamburg MA,Collins FS.(2010)The path to personalized medicine.N Engl J Med.363:301-304.)但是,目前还没有适当的方法来整合来自不同学术文章的研究成果进行疾病发病率的计算。这些不同的学术文章通常由不同研究团队发表,临床样本也是针对不同的人种。以肺癌为例,到目前为止,不同的研究人员发现,总计有超过100多个SNP位点和肺癌发病有关。怎样整合这些不同研究来源的原始医学数据,用以计算个体的肺癌发病率是本专利技术的主要内容。
技术实现思路
(1)主要内容概述为了实现上述专利技术目的,专利技术人进行了多方面的研究工作,最终构建了基于多个SNP位点的逻辑回归模型,成功地应用于肺癌发病率的计算。这些研究工作包括如下方面。1.从众多的GWAS研究文章中,系统地收集了和肺癌疾病有关的SNP位点;2.整理了SNP位点的相关信息,包括在NCBI数据库中的注释、频率、和患病风险有关的OR(odds ratio)值等;3.利用SNP的OR值、在中国汉人里的出现频率、中国人肺癌的平均患病概率等参数构建了多个SNP位点的逻辑回归模型;4.针对构建的逻辑回归模型,收集临床样本进行验证。我们准确地预测到,在只包含一个肺癌病人的40例病人中,该肺癌患者的发病率最高,从而验证了我们选择的SNP位点以及构建的逻辑回归模型具有相当的准确度。(2)收集和疾病相关的SNP位点信息首先,我们在NCBI数据库(http://www.ncbi.nlm.nih.gov/)里搜索和肺癌有关的GWAS研究文章,并通过和已有的疾病-SNP数据库(http://www.genome.gov/gwastudies)比较,确定了目前和肺癌有关的SNP位点。通过阅读原始研究文章、查阅SNP位点在NCBI数据库中的注释,构建了和肺癌相关的肺癌-SNP位点关系数据库。其中,SNP位点的信息包括ID、所在的区域(一般以基因名称代替)、风险碱基、杂合和纯合SNP的OR值、在中国汉人中的出现频率、在全世界人群中的平均分布频率、是否进行临床分析检测等。最终,我们梳理出多个和肺癌有关的SNP位点,如表1所示。这些SNP的文献来源以及可能的致病机理如表2所示。表1和肺癌有关的SNP信息表2各个SNP位点的文献来源以及可能的致病机理(3)构建逻辑回归模型在目前的GWAS研究中,通常都利用逻辑回归模型(1ogistic regression)来计算各个SNP位点对患病风险的影响,以OR值表示(如表1所示)。在这样的模型里,患病风险的对数和SNP的分布取值有着线性关系,公式如下:公式1:Logit(P)=ln(P1-P)=β0+β1x1+······+βpxp]]>其中,P为患病风险,介于0到1之间;参数X为每个SNP的取值,作为二分类变量或者是0,或者是1;线性系数β反应了各个SNP位点对患病风险的贡献,和表1中的OR值有着固定的换算关系,如下所示:公式2:ORk=eβk]]>根据公式1,我们可以将患病风险表示为公式3,如下所示:公式3:P(y=1|X)=11+e-(β0+β1x1+······+β本文档来自技高网
...

【技术保护点】
一种基于单核苷酸多态性和逻辑回归模型计算癌症发病率的方法,其特征在于,该方法包括如下步骤:步骤1:收集和整理与癌症有关的SNP位点信息;步骤2:整合多个不同SNP的OR值,计算相应的β值;步骤3:利用每个SNP的分布频率、对应的β值以及特定人群癌症的平均患病概率,计算得到逻辑回归模型中常数步骤4:在用逻辑回归模型计算肺癌患病风险时,区分杂合SNP和纯合SNP,并采用对应的OR值计算肺癌发病率。

【技术特征摘要】
1.一种基于单核苷酸多态性和逻辑回归模型计算癌症发病率的方法,其特征在
于,该方法包括如下步骤:
步骤1:收集和整理与癌症有关的SNP位点信息;
步骤2:整合多个不同SNP的OR值,计算相应的β值;
步骤3:利用每个SNP的分布频率、对应的β值以及特定人群癌症的平均患
病概率,计算得到逻辑回归模型中常数步骤4:在用逻辑回归模型计算肺癌患病风险时,区分杂合SNP和纯合SNP,
并采用对应的OR值计算肺癌发病率。
2.根据权利要求1所述的方法,其特征在于,所述SNP位点信息包括在NCBI
数据库中的注释、频率、和患病风险有关的OR(odds ratio)值等。
3.根据权利要求1所述的方法,其特征在于,所述计算的癌症发病率为肺癌的
发病率。

【专利技术属性】
技术研发人员:付新苗吕贯廷毕永军毛岳淦
申请(专利权)人:北京协力润华科技有限责任公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1