基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法制造技术

技术编号:14339561 阅读:62 留言:0更新日期:2017-01-04 12:08
本发明专利技术涉及疾病风险评估算法领域,尤其是—乳腺癌患病风险评估算法。本发明专利技术公开了一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:1)高通量测序得到BRCA 1和BRCA 2序列;2)筛选出BRCA 1和BRCA 2序列中的高危突变位置;3)建立COX比例风险模型,剔除不显著因素;4)分析各个高危突变因素对个体患病风险的影响;5)重新建立最佳模型,估计模型参数;6)计算个体患乳腺癌的概率;7)预测未来n年内患乳腺癌的概率;考虑样本其他高危风险因素,计算家族相对风险,对上述预测的患病概率进行修正。本发明专利技术是根据中国人特异的乳腺癌致病相关突变库,定义BRCA 1和BRCA 2高危突变位置,设计算法,计算样本个体乳腺癌患病的绝对风险,并预测个体未来几年内患乳腺癌的概率。

【技术实现步骤摘要】

本专利技术涉及疾病风险评估算法领域,尤其是-乳腺癌患病风险评估算法。
技术介绍
乳腺癌发病率在我国女性恶性肿瘤发病率中排在第一位。BRCA1和BRCA2基因突变存在于80%的乳腺癌高发家族的患者中。目前医院对于乳腺癌的诊断主要靠检查双侧乳腺、乳腺X线摄影(乳腺钼靶照相)、乳腺磁共振检查(MRI)等。这样诊断发现的乳腺癌一般已到晚期,很难治愈。因此,研究BRCA1和BRCA2基因突变位置与乳腺癌患病风险之间的关系,设计乳腺癌风险评估算法就成为一项迫切且很有临床意义的工作。本专利技术的主要目的是建立中国人特异的乳腺癌致病相关突变库,定义BRCA1和BRCA2基因高危突变位置;设计乳腺癌患病风险评估算法,计算样本个体乳腺癌患病的绝对风险,预测个体未来几年内患乳腺癌的概率;最后就是根据家族病史信息,对上述个体的患病概率进行修正,并预测突变样本的亲属(一级亲属)未来几年内患乳腺癌的概率。
技术实现思路
为了解决现有技术存在的不足,本专利技术提供了一种基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法。本专利技术中的一种基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法,包括以下步骤:i)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度的注释,主要通过筛查其中是否含有已发现的,较公认的高危突变;j)将样本中BRCA1和BRCA2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA1和BRCA2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;k)建立COX比例风险回归模型,剔除不显著因素:i.截尾值,对样本结局的处理:患乳腺癌样本为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图;若生存曲线交叉,提示不满足PH假定;iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)=λ0(t)eβ1X1+β2X2+...+βpXP,]]>(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示与乳腺癌患病相关的突变位置。l)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,在队列研究中,样本i(i=1,2...n)具有相同的特征(年龄,患病等)。在某一年龄段ti,样本i患病的条件概率:qi=λi(t,x)Σj=1nλj(t,x)=λ0(t)eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1nλ0(t)eβ1Xj,1+β2Xj,2+...+βpXi,p=eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1neβ1Xj,1+β2Xj,2+...+βpXj,p]]>在某一年龄段ti,所有样本均患病的概率:L=Πi=1nqi=Πi=1d(eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=1neβ1Xj,1+β2Xj,2+...+βpXj,p)δi]]>d表示患病样本数。lnL=Σi=1d(β1Xi,1+β2Xi,2+...+βpXi,p)-Σi=1dln(ΣjRiβ1Xi,1+β2Xi,2+...+βpXi,p)∂(lnL)∂βj=0,j=1,2,3]]>⇒βk(k=1,2,3)]]>的估计值参数的进行COX比例风险回归模型参数检验,本专利技术采用最大似然比检验,假设H0:所有的βk为0,H1:至少有一个βk不为0假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为χ2=2[lnL(p+1)-lnL(p)]服从自由度为1的χ2分布;m)进行COX比例风险回归模型性能评估:i.ROC曲线对应95%的AUC,与其他模型的结果做比较;ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearsonχ2最优拟合;iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;n)BRCA1和BRCA2突变位置分析:i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为0时的比值:HRj=λ(t,Xj)λ0(t)=λ0(t)eβj×1λ0(t)eβj×0=eβj]]>同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为HR=λ(t,Xi)λ′(t,X1)=λ0(t)eβ1×1+β2×1λ0(t)eβ1×0+β2×0=HR1×HR2]]>对于个致病突变位置Xi(i=1,2,...,p)HR=HR1×HR2×…×HRp表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍。o)个体患病风险:基准风险率λ0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA1/2突变样本来说,对应的风险率函数如下:λ(t,x)=λ0(t)·HRp)个体患病风险的累积概率n年内的乳腺癌发病率Λ(t)=Σk=1niktkeβk]]>tk:第k个年龄段的长度;ik:第k个年龄段的发病率;βk:第k个年龄段的βk=ln(HR),eβk=H本文档来自技高网...

【技术保护点】
一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:a)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度进行注释,通过筛查其中是否含有已发现的,较公认的高危突变;b)将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;c)建立COX比例风险回归模型,剔除不显著因素:i.截尾值,对样本结局的处理:患乳腺癌样本赋值为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型‑COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(‑log)图;若生存曲线交叉,提示不满足PH假定;iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示BRCA 1和BRCA 2中与乳腺癌患病相关的突变位置;d)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,在队列研究中,样本i(i=1,2…n)具有相同的特征(年龄,患病等);在某一年龄段ti,样本i患病的条件概率:qi=λi(t,x)Σj=inλj(t,x)=λ0(t)eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=inλ0(t)eβ1Xj,1+β2Xj,2+βpXi,p=eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=ineβ1Xj,1+β2Xj,2+βpXj,p]]>在某一年龄段ti,所有样本均患病的概率:L=Πi=1nqi=Πi=1d(eβ1Xi.1+β2Xi.2+...+βpXi.pΣj=1neβ1Xj.1+β2Xj.2+βpXi.p)δi]]>d表示患病样本数。lnL=Σi=1d(β1Xi,1+β2Xi,2+...+βpXi,p)-Σi=1dln(ΣjRiβ1Xj,1+β2Xj,2+βpXj,p)]]>∂(lnL)∂βj=0,j=1,2,3]]>⇒βk(k=1,2,3)]]>的估计值参数的95%CI:进行COX比例风险回归模型参数检验,本专利技术采用最大似然比检验,假设H0:所有的βi为0,H1:至少有一个βi不为0假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为χ2=2[lnL(p+1)‑lnL(p)]服从自由度为1的χ2分布;e)进行Cox比例风险回归模型性能评估:i.ROC曲线对应95%的AUC,与其他模型的结果做比较;ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P‑value值;iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearson χ3最优拟合;iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;f)BRCA 1和BRCA 2突变位置分析:i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为o时的比值:HRj=λ(t,Xj)λ0(t)=λ0(t)eβj×1λ0(t)e&bet...

【技术特征摘要】
1.一种基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法,包括以下步骤:a)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度进行注释,通过筛查其中是否含有已发现的,较公认的高危突变;b)将样本中BRCA1和BRCA2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA1和BRCA2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;c)建立COX比例风险回归模型,剔除不显著因素:i.截尾值,对样本结局的处理:患乳腺癌样本赋值为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型-COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(-log)图;若生存曲线交叉,提示不满足PH假定;iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示BRCA1和BRCA2中与乳腺癌患病相关的突变位置;d)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,在队列研究中,样本i(i=1,2…n)具有相同的特征(年龄,患病等);在某一年龄段ti,样本i患病的条件概率:qi=λi(t,x)Σj=inλj(t,x)=λ0(t)eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=inλ0(t)eβ1Xj,1+β2Xj,2+βpXi,p=eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=ineβ1Xj,1+β2Xj,2+βpXj,p]]>在某一年龄段ti,所有样本均患病的概率:L=Πi=1nqi=Πi=1d(eβ1Xi.1+β2Xi.2+...+βpXi.pΣj=1neβ1Xj.1+β2Xj.2+βpXi.p)δi]]>d表示患病样本数。lnL=Σi=1d(β1Xi,1+β2Xi,2+...+βpXi,p)-Σi=1dln(ΣjRiβ1Xj,1+β2Xj,2+βpXj,p)]]>∂(lnL)∂βj=0,j=1,2,3]]>⇒βk(k=1,2,3)]]>的估计值参数的95%CI:进行COX比例风险回归模型参数检验,本发明采用最大似然比检验,假设H0:所有的βi为0,H1:至少有一个βi不为0假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为χ2=2[lnL(p+1)-lnL(p)]服从自由度为1的χ2分布;e)进行Cox比例风险回归模型性能评估:i.ROC曲线对应95%的AUC,与其他模型的结果做比较;ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P-value值;iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearsonχ3最优拟合;iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;f)BRCA1和BRCA2突变位置分析:i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;突变位置的叠加影响,对于一元COX模型输出...

【专利技术属性】
技术研发人员:马婷婷刘明明张鹤柳泽亮蔡乐靖徐飞陈帼婧屠勇军陈贤丰
申请(专利权)人:杭州圣庭生物技术有限公司
类型:发明
国别省市:浙江;33

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1