一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法技术

技术编号:26365552 阅读:37 留言:0更新日期:2020-11-19 23:34
本发明专利技术公开了一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法,所述的特征lincRNA表达谱组合的核苷酸探针序列如SEQ ID NO.1‑18所示。本发明专利技术的基于lincRNA表达谱组合特征评估子宫内膜癌早期风险具有很高的精确度和准确率(ROC曲线下面积AUC=0.929)。只需要获取上述18种lincRNA的相对表达量,通过支持向量机模型计算给出子宫内膜癌早期患病概率,可作为子宫内膜癌早期预测的参考依据。

【技术实现步骤摘要】
一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法
本专利技术属于生物技术和医学
,具体地说,涉及一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法。
技术介绍
子宫内膜癌(uterinecorpusendometrialcarcinoma)是发生于子宫内膜的一种上皮性恶性肿瘤,多发于围绝经期和绝经后女性。子宫内膜癌是最常见的女性生殖系统肿瘤之一,其发病与生活方式密切相关,发病率在各地区有较大差异。子宫内膜癌最常见的症状是绝经后出血或围绝经期出血,早期诊断较为困难。全球疾病负担(GlobalBurdenofDisease,GBD)数据显示,2017年全球患有子宫癌的人数超过300万,其中中国患病人数约为53万。2017年全球患有子宫癌的死亡人数约为85万,占总死亡人数的0.15%。中国2017年死亡患者数约为12万,占总死亡人数的0.12%。统计结果显示,从1990年到2017年全球子宫癌患病率和死亡率持续增长。中国子宫内膜癌患病率增长与全球较为一致,死亡数相对稳定。支持向量机(SupportVectorMachine本文档来自技高网...

【技术保护点】
1.一种特征lincRNA表达谱组合,其特征在于,包括AC008124.1、AC068473.5、AC093297.2、AC104825.1、AL355338.1、AP003486.1、BAIAP2-DT、EIF3J-DT、EPB41L4A-AS1、HEIH、ILF3-DT、LINC00294、LINC00467、LINC00909、LINC01963、MIR22HG、NORAD和OSER1-DT,其核苷酸探针序列如SEQ ID NO.1-18所示。/n

【技术特征摘要】
1.一种特征lincRNA表达谱组合,其特征在于,包括AC008124.1、AC068473.5、AC093297.2、AC104825.1、AL355338.1、AP003486.1、BAIAP2-DT、EIF3J-DT、EPB41L4A-AS1、HEIH、ILF3-DT、LINC00294、LINC00467、LINC00909、LINC01963、MIR22HG、NORAD和OSER1-DT,其核苷酸探针序列如SEQIDNO.1-18所示。


2.一种基于权利要求1所述的特征lincRNA表达谱组合的子宫内膜癌早期预测方法,其特征在于,包括以下步骤:
步骤1、获取子宫内膜癌早期患者稳定差异表达的特征lincRNA;
步骤2、选取特征lincRNA表达数据,对每个样本进行数据标准化;
步骤3、使用支持向量机对标准化后的数据构建早期预测模型;
步骤4、根据患者特征lincRNA的表达水平进行早期预测;
所述方法为非疾病的诊断和治疗目的。


3.根据权利要求2所述的子宫内膜癌早期预测方法,其特征在于,所述步骤1中的获取子宫内膜癌早期患者稳定差异表达的特征lincRNA,具体为:
步骤1.1、从GenomicDataCommonsDataPortal数据库中下载子宫内膜癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得子宫内膜癌患者肿瘤组织基因表达谱readcounts数值,即为测序读段数值,进行对数转换;
步骤1.2、选取具有一定表达丰度的lincRNA,即在所有样本中lincRNA的readcounts大于等于10;再对所有lincRNA的readcounts取对数,设样本总数为n,筛选后lincRNA总数为m,v为lincRNA的readcounts,u为取对数之后的表达值,则有:
uij=log2vij,i∈(1,n),j∈(1,m)(1)
其中,i为样本编号,j为lincRNA编号,uij为第i个样本、第j个lincRNA编号取对数之后的表达值,vij为第i个样本、第j个lincRNA编号的readcounts数值;
步骤1.3、选取疾病分期为I期和II期的子宫内膜癌患者,将这些患者记为子宫内膜癌早期患者,子宫内膜癌早期患者总数记为n′;
步骤1.4、选取肿瘤和正常样本中稳定表达的lincRNA,即在肿瘤和正常样本中变异系数均小于0.2的lincRNA,设μ为所有样本中lincRNA的表达均值,σ为标准差,变异系数的计算公式为:



其中,j为lincRNA编号,cv为变异系数,cvj为第j个样本的变异系数,σj为第j个lincRNA编号的标准差,μj为第j个lincRNA编号的lincRNA的表达均值,设m1为稳定表达的lincRNA总数,则有:



步骤1.5、选取肿瘤和正常样本中差异表达的lincRNA;使用取对数后的表达值计算肿瘤和正常样本lincRNA取对数后的倍数变化f,公式为:



其中,j为lincRNA编号,fj为第j个lincRNA编号的倍数变化,μ1j为第j个lincRNA编号的肿瘤样本的表达均值,μ2j为第j个lincRNA编号的正常样本的表达均值;
然后使用独立样本t检验比较肿瘤和正常样本中lincRNA的表达差异,独立样本t检验公式为:



其中,n1为肿瘤样本数,n2为正常样本数,μ1为肿瘤样本lincRNA表达均值,μ2为正常样本lincRNA表达均值,为肿瘤样本lincRNA方差,为正常样本lincRNA方差;
对所有t检验得出的p值进行错误发现率(falsediscoveryrate,FDR)校正,定义q为FDR校正后的数值,r为p值在m1个lincRNA中排序后的位置,则有:



其中,j为lincRNA编号,qj代表第j个lincRNA编号的FDR校正后的数值,pj代表第j个lincRNA编号的t检验得出的p值,rj代表第j个lincRNA编号的p值在m1个lincRNA中排序后的位置;
最后选取倍数变化f的绝对值大于1且FDR校正后q值小于等于0.05的lincRNA,记为特征lin...

【专利技术属性】
技术研发人员:刘大海李文兴孙婷婷刘蕾娜
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1