一种特征lincRNA表达谱组合及肺鳞癌早期预测方法技术

技术编号:26162375 阅读:34 留言:0更新日期:2020-10-31 12:52
本发明专利技术公开了一种特征lincRNA表达谱组合及肺鳞癌早期预测方法,所述特征lincRNA表达谱组合的核苷酸序列为SEQ ID NO.1‑21所示。所述方法包括以下步骤:获取肺鳞癌早期患者稳定差异表达的特征lincRNA;选取特征lincRNA表达数据,对每个样本进行数据标准化;使用支持向量机对标准化后的数据构建早期预测模型;根据患者特征lincRNA的表达水平进行早期预测;本发明专利技术的特征lincRNA表达谱组合的ROC曲线下面积AUC=0.994。只需要获取上述21种lincRNA的相对表达量,通过支持向量机模型计算给出肺鳞癌早期患病概率,可作为肺鳞癌早期预测参考依据。

【技术实现步骤摘要】
一种特征lincRNA表达谱组合及肺鳞癌早期预测方法
本专利技术属于生物技术和医学
,具体地说,涉及一种特征lincRNA表达谱组合及肺鳞癌早期预测方法。
技术介绍
肺鳞癌又称肺鳞状细胞癌(lungsquamouscellcarcinoma),占原发性肺癌的40%-51%。肺鳞癌多见于老年男性,与吸烟有密切关系。肺鳞癌以中央型肺癌多见,并有胸管腔内生长的倾向,肺鳞癌早期常引发支气管狭窄,或阻塞性肺炎。全球疾病负担(GlobalBurdenofDisease,GBD)数据显示,2017年全球患有气管、支气管或肺癌的人数超过330万,其中中国患病人数高达127万。2016年全球患有上述癌症的死亡人数为188万,占总死亡人数的3.37%。中国2016年死亡患者数为69万,占总死亡人数的6.62%。统计结果显示,从1990年到2017年全球气管、支气管和肺癌患病率和死亡率持续增长。近十年来中国患病率和死亡率逐年增加且增长率高于全球平均水平。支持向量机(SupportVectorMachine,SVM)是一类按监督学习方式对数据进行二元分类本文档来自技高网...

【技术保护点】
1.一种特征lincRNA表达谱组合,其特征在于,包括:AC026401.3、AC125807.2、AC244090.1、AL137003.2、AL355338.1、AL359643.3、AL365203.2、AP002360.1、AP003486.1、BAIAP2-DT、HEIH、LINC01503、MIAT、MIR210HG、MIR22HG、NUP50-DT、PCAT19、PSMB8-AS1、PSMG3-AS1、PVT1和SMIM25,其核苷酸序列为SEQ ID NO.1-SEQ ID NO.21所示。/n

【技术特征摘要】
1.一种特征lincRNA表达谱组合,其特征在于,包括:AC026401.3、AC125807.2、AC244090.1、AL137003.2、AL355338.1、AL359643.3、AL365203.2、AP002360.1、AP003486.1、BAIAP2-DT、HEIH、LINC01503、MIAT、MIR210HG、MIR22HG、NUP50-DT、PCAT19、PSMB8-AS1、PSMG3-AS1、PVT1和SMIM25,其核苷酸序列为SEQIDNO.1-SEQIDNO.21所示。


2.一种基于特征lincRNA表达谱组合的肺鳞癌早期预测方法,其特征在于,包括以下步骤:
步骤1、获取肺鳞癌早期患者稳定差异表达的特征lincRNA;
步骤2、选取特征lincRNA表达数据,对每个样本进行数据标准化;
步骤3、使用支持向量机对标准化后的数据构建早期预测模型;
步骤4、根据患者特征lincRNA的表达水平进行早期预测;
该方法用于非疾病的诊断和治疗目的。


3.根据权利要求2所述的预测方法,其特征在于,所述步骤1中的获取肺鳞癌早期患者稳定差异表达的特征lincRNA具体为:
步骤1.1、从GenomicDataCommonsDataPortal数据库中下载肺鳞癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得肺鳞癌患者肿瘤组织基因表达谱readcounts数值,即为测序读段数值,进行对数转换;
步骤1.2、选取在所有样本中lincRNA的readcounts大于等于10的lincRNA,再对所有lincRNA的readcounts取对数,设样本总数为n,筛选后lincRNA总数为m,v为lincRNA的readcounts,u为取对数之后的表达值,则有;
uij=log2vij,i∈(1,n),j∈(1,m)(1)
其中,i为样本编号,j为lincRNA编号,uij为第i个样本、第j个lincRNA编号取对数之后的表达值,vij为第i个样本、第j个lincRNA编号的readcounts数值;
步骤1.3、选取疾病分期为I期和II期的肺鳞癌患者,将这些患者记为肺鳞癌早期患者,肺鳞癌早期患者总数记为n′;
步骤1.4、选取在肿瘤和正常样本中变异系数均小于0.2的lincRNA,设μ为所有样本中lincRNA的表达均值,σ为标准差,变异系数的计算公式为:



其中,j为lincRNA编号,cv为变异系数,cvj为第j个样本的变异系数,σj为第j个lincRNA编号的标准差,μj为第j个lincRNA编号的lincRNA的表达均值,设m1为稳定表达的lincRNA总数,则有:



步骤1.5、选取肿瘤和正常样本中差异表达的lincRNA。使用取对数后的表达值计算肿瘤和正常样本lincRNA取对数后的倍数变化f,公式为:



其中,j为lincRNA编号,fj为第j个lincRNA编号的倍数变化,μ1j为第j个lincRNA编号的肿瘤样本的表达均值,μ2j为第j个lincRNA编号的正常样本的表达均值;
然后使用独立样本t检验比较肿瘤和正常样本中lincRNA的表达差异,独立样本t检验公式为:



其中n1为肿瘤样本数,n2为正常样本数,μ1为肿瘤样本lincRNA表达均值,μ2为正常样本lincRNA表达均值,为肿瘤样本lincRNA方差,为正常样本lincRNA方差;
对所有t检验得出的p值进行错误发现率(falsediscoveryrate,FDR)校正,定义q为FDR校正后的数值,r为p值在m1个lincRNA中排序后的位置,则有:



其中,j为lincRNA编号,qj代表第j个lincRNA编号的FDR校正后的数值,pj代表第j个lincRNA编号的t检验得出的p值,rj代表第j个lincRNA编号的p值在m1个lincRNA中排序后的位置;
最后选取倍数变化f的绝对值大于1且FDR校正后q值小于等于0.05的lincRNA,记为特征lincRNA,设特征lincRNA总数为m2,则有:
m2=m1{|fj...

【专利技术属性】
技术研发人员:高跃东李文兴
申请(专利权)人:中国科学院昆明动物研究所
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1