一种特征lincRNA表达谱组合及结肠癌的早期预测方法技术

技术编号:25885998 阅读:26 留言:0更新日期:2020-10-09 23:20
本发明专利技术公开了一种特征lincRNA表达谱组合及结肠癌的早期预测方法,所述特征miRNA表达谱组合的核苷酸探针序列如SEQ ID NO.1‑15所示。本发明专利技术的基于lincRNA表达谱组合特征评估结肠癌早期风险具有很高的精确度和准确率(ROC曲线下面积AUC=1.000)。只需要获取上述15种lincRNA的相对表达量,通过支持向量机模型计算给出结肠癌早期患病概率,可作为结肠癌早期预测的参考依据。

【技术实现步骤摘要】
一种特征lincRNA表达谱组合及结肠癌的早期预测方法
本专利技术属于生物技术和医学领域,具体地说,涉及一种特征lincRNA表达谱组合及结肠癌的早期预测方法。
技术介绍
结肠癌(coloncancer)是常见的发生于结肠部位的消化道恶性肿瘤,多发于直肠与乙状结肠交界处。结肠癌男女患病比率为2-3:1,40-50岁人群发病率最高。慢性结肠炎患者、结肠息肉患者、男性肥胖者等为易感人群。结肠癌早期无明显症状,早期诊断较为困难。全球疾病负担(GlobalBurdenofDisease,GBD)数据显示,2017年全球患有结肠直肠癌的人数超过930万,其中中国患病人数高达235万。2017年全球患有结肠直肠癌的死亡人数约为90万,占总死亡人数的1.60%。中国2017年死亡患者数约为19万,占总死亡人数的1.79%。统计结果显示,从1990年到2017年全球结肠直肠癌患病率和死亡率持续增长。中国结肠直肠癌患病率和死亡率在2010年之前低于全球平均水平,2010年后患病率和死亡率急剧增长高于全球平均水平。支持向量机(SupportVectorMachine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。当训练数据是线性可分时,SVM通过硬间隔最大化学习进行分类。当训练数据线性不可分时,SVM通过使用核技巧以及软间隔最大化学习进行分类。SVM对于特征含义相似的中等大小的数据集很强大,也适用于小型数据集。通常情况下,对样本量小于1万的数据集SVM都有很好的预测效果。SVM在疾病诊断、肿瘤分类、肿瘤基因识别等有着广泛的应用。肿瘤早期诊断一直是医学界的难题。现有的早期诊断方法多是观测某一个或一类标志物的表达水平,难以达到理想的诊断效果。由于这些标志物在肿瘤患者和正常人群中的表达分布有部分重叠,难以界定标志物的临界值将肿瘤患者和正常人群较好地分开。因此,利用多个标志物表达特征组合可能是肿瘤早期诊断的一种有效方法。长链基因间非编码RNA(longintergenicnon-codingRNA,lincRNA)是一类位于基因间非编码序列的长度大于200个核苷酸的非编码单链RNA分子。lincRNA不具有编码潜力并且在不同物种之间不保守。研究表明lincRNA参与多个基因的表达调控,在人体内表达相对稳定且容易检测。由于单个lincRNA分子在肿瘤和正常人群中表达分布有重叠,难以界定早期诊断的临界值。因此,需要建立一种有助于结肠癌的早期预测的更稳定的多个差异lincRNA表达特征组合的预测模型。
技术实现思路
有鉴于此,本专利技术针对上述的问题,提供了一种特征lincRNA表达谱组合及结肠癌的早期预测方法。为了解决上述技术问题,本专利技术公开了一种特征lincRNA表达谱组合,包括AC005332.6、AC008124.1、AC090114.2、BAIAP2-DT、HEIH、LINC00294、LINC00476、LINC00667、LINC00847、LINC01559、MIR194-2HG、MIR22HG、PVT1、SNHG15和TP53TG1,其核苷酸序列探针如SEQIDNO.1-SEQIDNO.15所示。本专利技术还公开了一种基于上述的特征lincRNA表达谱组合的结肠癌的早期预测方法,包括以下步骤:步骤1、获取结肠癌早期患者稳定差异表达的特征lincRNA;步骤2、选取特征lincRNA表达数据,对每个样本进行数据标准化;步骤3、使用支持向量机对标准化后的数据构建早期预测模型;步骤4、根据患者特征lincRNA的表达水平进行早期预测;该方法用于非疾病的诊断和治疗目的。可选地,所述步骤1中的获取结肠癌早期患者稳定差异表达的特征lincRNA具体为:步骤1.1、从GenomicDataCommonsDataPortal数据库中下载结肠癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得结肠癌患者肿瘤组织基因表达谱readcounts数值,即为测序读段数值,进行对数转换;步骤1.2、选取具有一定表达丰度的lincRNA,即在所有样本中lincRNA的readcounts大于等于10;再对所有lincRNA的readcounts取对数,设样本总数为n,筛选后lincRNA总数为m,v为lincRNA的readcounts,u为取对数之后的表达值,则有;uij=log2vij,i∈(1,n),j∈(1,m)(1)其中,i为样本编号,j为lincRNA编号,uij为第i个样本、第j个lincRNA编号取对数之后的表达值,vij为第i个样本、第j个lincRNA编号的readcounts数值;步骤1.3、选取疾病分期为I期和II期的结肠癌患者,将这些患者记为结肠癌早期患者,结肠癌早期患者总数记为n′;步骤1.4、选取肿瘤和正常样本中稳定表达的lincRNA,即在肿瘤和正常样本中变异系数均小于0.2的lincRNA,设μ为所有样本中lincRNA的表达均值,σ为标准差,变异系数的计算公式为:其中,j为lincRNA编号,cv为变异系数,cvj为第j个样本的变异系数,σj为第j个lincRNA编号的标准差,μj为第j个lincRNA编号的lincRNA的表达均值,设m1为稳定表达的lincRNA总数,则有:步骤1.5、选取肿瘤和正常样本中差异表达的lincRNA;使用取对数后的表达值计算肿瘤和正常样本lincRNA取对数后的倍数变化f,公式为:其中,j为lincRNA编号,fj为第j个lincRNA编号的倍数变化,μ1j为第j个lincRNA编号的肿瘤样本的表达均值,μ2j为第j个lincRNA编号的正常样本的表达均值;然后使用独立样本t检验比较肿瘤和正常样本中lincRNA的表达差异,独立样本t检验公式为:其中n1为肿瘤样本数,n2为正常样本数,μ1为肿瘤样本lincRNA表达均值,μ2为正常样本lincRNA表达均值,为肿瘤样本lincRNA方差,为正常样本lincRNA方差;对所有t检验得出的p值进行错误发现率(falsediscoveryrate,FDR)校正,定义q为FDR校正后的数值,r为p值在m1个lincRNA中排序后的位置,则有:其中,j为lincRNA编号,qj代表第j个lincRNA编号的FDR校正后的数值,pj代表第j个lincRNA编号的t检验得出的p值,rj代表第j个lincRNA编号的p值在m1个lincRNA中排序后的位置;最后选取倍数变化f的绝对值大于1且FDR校正后q值小于等于0.05的lincRNA,记为特征lincRNA,设特征lincRNA总数为m2,则有:m2=m1{|本文档来自技高网
...

【技术保护点】
1.一种用于预测早期结肠癌的特征lincRNA表达谱组合,其特征在于,包括AC005332.6、AC008124.1、AC090114.2、BAIAP2-DT、HEIH、LINC00294、LINC00476、LINC00667、LINC00847、LINC01559、MIR194-2HG、MIR22HG、PVT1、SNHG15和TP53TG1,其核苷酸序列探针如SEQ ID NO.1-SEQ ID NO.15所示。/n

【技术特征摘要】
1.一种用于预测早期结肠癌的特征lincRNA表达谱组合,其特征在于,包括AC005332.6、AC008124.1、AC090114.2、BAIAP2-DT、HEIH、LINC00294、LINC00476、LINC00667、LINC00847、LINC01559、MIR194-2HG、MIR22HG、PVT1、SNHG15和TP53TG1,其核苷酸序列探针如SEQIDNO.1-SEQIDNO.15所示。


2.一种基于权利要求1所述的特征lincRNA表达谱组合的结肠癌的早期预测方法,其特征在于,包括以下步骤:
步骤1、获取结肠癌早期患者稳定差异表达的特征lincRNA;
步骤2、选取特征lincRNA表达数据,对每个样本进行数据标准化;
步骤3、使用支持向量机对标准化后的数据构建早期预测模型;
步骤4、根据患者特征lincRNA的表达水平进行早期预测;
该方法用于非疾病的诊断和治疗目的。


3.根据权利要求2所述的预测方法,其特征在于,所述步骤1中的获取结肠癌早期患者稳定差异表达的特征lincRNA具体为:
步骤1.1、从GenomicDataCommonsDataPortal数据库中下载结肠癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得结肠癌患者肿瘤组织基因表达谱readcounts数值,即为测序读段数值,进行对数转换;
步骤1.2、选取具有一定表达丰度的lincRNA,即在所有样本中lincRNA的readcounts大于等于10;再对所有lincRNA的readcounts取对数,设样本总数为n,筛选后lincRNA总数为m,v为lincRNA的readcounts,u为取对数之后的表达值,则有;
uij=log2vij,i∈(1,n),j∈(1,m)(1)
其中,i为样本编号,j为lincRNA编号,uij为第i个样本、第j个lincRNA编号取对数之后的表达值,vij为第i个样本、第j个lincRNA编号的readcounts数值;
步骤1.3、选取疾病分期为I期和II期的结肠癌患者,将这些患者记为结肠癌早期患者,结肠癌早期患者总数记为n′;
步骤1.4、选取肿瘤和正常样本中稳定表达的lincRNA,即在肿瘤和正常样本中变异系数均小于0.2的lincRNA,设μ为所有样本中lincRNA的表达均值,σ为标准差,变异系数的计算公式为:



其中,j为lincRNA编号,cv为变异系数,cvj为第j个样本的变异系数,σj为第j个lincRNA编号的标准差,μj为第j个lincRNA编号的lincRNA的表达均值,设m1为稳定表达的lincRNA总数,则有:



步骤1.5、选取肿瘤和正常样本中差异表达的lincRNA;使用取对数后的表达值计算肿瘤和正常样本lincRNA取对数后的倍数变化f,公式为:



其中,j为lincRNA编号,fj为第j个lincRNA编号的倍数变化,μ1j为第j个lincRNA编号的肿瘤样本的表达均值,μ2j为第j个lincRNA编号的正常样本的表达均值;
然后使用独立样本t检验比较肿瘤和正常样本中lincRNA的表达差异,独立样本t检验公式为:



其中n1为肿瘤样本数,n2为正常样本数,μ1为肿瘤样本lincRNA表达均值,μ2为正常样本lincRNA表达均值,为肿瘤样本lincRNA方差,为正常样本lincRNA方差;
对所有t检验得出的p值进行错误发现率(falsediscoveryrate,FDR)校正,定义q为FDR校正后的数值,r为p值在m1个lincRNA中排序后的位置,则有:



其中,j为lincRNA编号,qj代表第j个lincRNA编号的FDR校正后的数值,pj代表第j个lincRNA编号的t检验得出的p值,rj代表第j个lincRNA编号的p值在m1个lincRNA中排序后的位置;
最后选取倍数变化f的绝对值大于1且FDR校正后q值小于等于0.05的lincRNA,记为特征lincRNA,设特征l...

【专利技术属性】
技术研发人员:贺轲向国安李文兴陈小勋黄许森
申请(专利权)人:广东省第二人民医院广东省卫生应急医院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1