一种个体癌症样本的生物标记物识别方法技术

技术编号:23086741 阅读:30 留言:0更新日期:2020-01-11 01:44
本发明专利技术是一种个体癌症样本的生物标记物识别方法。本发明专利技术先基于两种不同表型的样本数据确定差异表达基因成分,如基因,蛋白质等分子化合物,选取出q个差异表达成分;基于选取的q个差异表达成分,获得平均样本。本发明专利技术构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;基于样本回归预测的结果和差异表达成分,确定单样本的生物标记。本发明专利技术可以针对不同的个体样本选出差异化的生物标记物。

A biomarker recognition method for individual cancer samples

【技术实现步骤摘要】
一种个体癌症样本的生物标记物识别方法
本专利技术涉及生物标记物识别
,是一种个体癌症样本的生物标记物识别方法。
技术介绍
现有的生物标记物识别方法多基于两组不同表型的样本的差异性来识别生物标记物,然而癌症是一种复杂的异质性疾病,不同的患者有不同的发病机制,需要不同的治疗,因此,需要一种可以确定个体癌症样本的生物标记物的方法。
技术实现思路
本专利技术为确定个体癌症样本的生物标记,本专利技术提供了一种个体癌症样本的生物标记物识别方法,本专利技术提供了以下技术方案:一种个体癌症样本的生物标记物识别方法,包括以下步骤:步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;步骤2:基于选取的q个差异表达成分,获得平均样本;步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分。优选地,所述步骤1具体为:选取两组不同表型的成分表达数据样本,分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;采用yji表示第i个样本,样本标签为“+”的第j个成分的表达值,采用xji表示第i个样本,样本标签为“-”的第j个成分的表达值,基于yji和xji选取出q个差异表达成分。优选地,所述步骤2具体为:步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:其中,u+和u-分别表示“+”和“-”两组样本的平均样本,为在“+”组中的第q个成分的平均表达值,为“-”组中的第q个成分的平均表达值;步骤2.2:根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的的第j个成分的表达值,来确定在“+”组和“-”组的第j个成分的平均表达值,通过下式确定在“+”组和“-”组的第j个成分的平均表达值:其中,为“+”组的第j个成分的平均表达值,为“-”组的第j个成分的平均表达值,n1和n2分别表示“+”和“-”两类样本的样本数。优选地,所述步骤3具体为:步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本,样本标签为“+”的第j个差异表达成分的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:其中,为第i个标签为“+”的样本;对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:其中,为第i个标签为“+”的样本进行回归预测的结果,为线型回归的截距系数;步骤3.2:令x'ji表示第i个样本,样本标签为“-”的第i个差异表达成分的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:其中,为第i个标签为“-”的样本;对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:其中,为第i个标签为“+”的样本进行回归预测的结果,为线型回归的自变量系数。优选地,所述步骤4具体为:步骤4.1:在q个差异表达成分中,单个样本的某些成分的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达成分的残差值通过如下公式计算:对于第i个样本标签为“-”的样本,第j个差异表达成分的残差值通过如下公式计算:步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物成分,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:其中,为高斯核进行核密度估计结果,h是平滑因子,K是高斯核函数;步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:其中,CIα为残差值分布的在置信度为α下的置信区间;步骤4.4:在得到CIα后,对于第i个样本标签为“+”的样本的第j个成分,当满足则第j个成分是第i个样本标签为“+”的样本的生物标记物成分;对于标签为“-”的样本,当满足则第j个成分是第i个样本标签为“+”的样本的生物标记物成分。优选地,所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发、或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发、或响应的样本。本专利技术具有以下有益效果:本专利技术可以针对不同的个体样本选出差异化的生物标记物。本专利技术可以有效地识别出生物标记物,其有效性主要体包括:a)不同样本的生物标记物的表达值与其他样本在统计上有显著地差异;b)在不同样本中频繁出现的生物标记物可以有效地区分样本的生存状况;c)被选出的生物标记物被文献报道表明其具有与表型相关的生物作用。附图说明图1是个体癌症样本的生物标记物识别方法流程图;具体实施方式以下结合具体实施例,对本专利技术进行了详细说明。具体实施例一:按照图1所示,以下内容以生物标记物是基因为例,介绍
技术实现思路
,本专利技术提供一种个体癌症样本的生物标记物识别方法,包括以下步骤:步骤1:基于两种不同表型的样本数据确定差异表达基因,选取出q个差异表达基因所述步骤1具体为:步骤1.1:选取两组不同表型的基因表达数据样本,分别使用“+”和“-”作为两组不同表型的基因表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;n=n1+n2,n表示所有样本的个数,所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发、或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发、或响应的样本。步骤1.2:采用yji表示第i个样本,样本标签为“+”的第j个基因的表达值,采用xji表示第i个样本,样本标签为“-”的第j个基因的表达值,基于yji和xji选取出q个基因差异表达基因。步骤2:基于选取的q个差异表达基因,获得平均样本;所述步骤2具体为:步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:其中,u+和u-分别表示“+”和“-”两组样本的平均样本,为在“+”组中的第q个基因的平均表达值,为“-”组中的第q个基因的平均表达值;步骤2.2:根据第i个样本标签为“+”的样本的第j个基因的表达值和第i个样本标本文档来自技高网
...

【技术保护点】
1.一种个体癌症样本的生物标记物识别方法,其特征是:包括以下步骤:/n步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;/n步骤2:基于选取的q个差异表达成分,获得平均样本;/n步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;/n步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分。/n

【技术特征摘要】
1.一种个体癌症样本的生物标记物识别方法,其特征是:包括以下步骤:
步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;
步骤2:基于选取的q个差异表达成分,获得平均样本;
步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;
步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分。


2.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤1具体为:
选取两组不同表型的成分表达数据样本,分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;
采用yji表示第i个样本,样本标签为“+”的第j个成分的表达值,采用xji表示第i个样本,样本标签为“-”的第j个成分的表达值,基于yji和xji选取出q个差异表达成分。


3.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤2具体为:
步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:






其中,u+和u-分别表示“+”和“-”两组样本的平均样本,为在“+”组中的第q个成分的平均表达值,为“-”组中的第q个成分的平均表达值;
步骤2.2:根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的的第j个成分的表达值,来确定在“+”组和“-”组的第j个成分的平均表达值,通过下式确定在“+”组和“-”组的第j个成分的平均表达值:






其中,为“+”组的第j个成分的平均表达值,为“-”组的第j个成分的平均表达值,n1和n2分别表示“+”和“-”两类样本的样本数。


4.根据权利要求1所述的一种个体癌症样本的生物标记物识别方法,其特征是:所述步骤3具体为:
步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本,样本标签为“+”的第j个差异表达成分的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:



其中,为第i个标签为“+”的样本;
对第i个标签为“+”的样本进行回归预...

【专利技术属性】
技术研发人员:李杰王东王亚东
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利