一种特征miRNA表达谱组合及肺鳞癌早期预测方法技术

技术编号:25981902 阅读:29 留言:0更新日期:2020-10-20 18:48
本发明专利技术公开了一种特征miRNA表达谱组合及肺鳞癌早期预测方法,所述特征miRNA表达谱组合的核苷酸序列如SEQ ID NO.1‑30所示。所述方法包括以下步骤:获取肺鳞癌早期患者稳定差异表达的miRNA;选取特征miRNA表达数据,对每个样本进行数据标准化;使用支持向量机对标准化后的数据构建早期预测模型;根据患者特征miRNA的表达水平进行早期预测。本发明专利技术的特征miRNA表达谱组合评估肺鳞癌早期风险具有很高的精确度和准确率(ROC曲线下面积AUC=0.994)。只需要获取上述30种miRNA的相对表达量,通过支持向量机模型计算给出肺鳞癌早期患病概率,可作为肺鳞癌早期预测的参考依据。

【技术实现步骤摘要】
一种特征miRNA表达谱组合及肺鳞癌早期预测方法
本专利技术属于生物技术和医学
,具体地说,涉及一种特征miRNA表达谱组合及肺鳞癌早期预测方法。
技术介绍
肺鳞癌又称肺鳞状细胞癌(lungsquamouscellcarcinoma),占原发性肺癌的40%-51%。肺鳞癌多见于老年男性,与吸烟有密切关系。肺鳞癌以中央型肺癌多见,并有胸管腔内生长的倾向,肺鳞癌早期常引发支气管狭窄,或阻塞性肺炎。全球疾病负担(GlobalBurdenofDisease,GBD)数据显示,2017年全球患有气管、支气管或肺癌的人数超过330万,其中中国患病人数高达127万。2016年全球患有上述癌症的死亡人数为188万,占总死亡人数的3.37%。中国2016年死亡患者数为69万,占总死亡人数的6.62%。统计结果显示,从1990年到2017年全球气管、支气管和肺癌患病率和死亡率持续增长。近十年来中国患病率和死亡率逐年增加且增长率高于全球平均水平。支持向量机(SupportVectorMachine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。当训练数据是线性可分时,SVM通过硬间隔最大化学习进行分类。当训练数据线性不可分时,SVM通过使用核技巧以及软间隔最大化学习进行分类。SVM对于特征含义相似的中等大小的数据集很强大,也适用于小型数据集。通常情况下,对样本量小于1万的数据集SVM都有很好的预测效果。SVM在疾病诊断、肿瘤分类、肿瘤基因识别等有着广泛的应用。肿瘤早期诊断一直是医学界的难题。现有的早期诊断方法多是观测某一个或一类标志物的表达水平,难以达到理想的诊断效果。由于这些标志物在肿瘤患者和正常人群中的表达分布有部分重叠,难以界定标志物的临界值将肿瘤患者和正常人群较好地分开。因此,利用多个标志物表达特征组合可能是肿瘤早期诊断的一种有效方法。MicroRNA(miRNA)是一类由内源基因编码的长度约为21-25个核苷酸的非编码单链RNA分子,主要以多种方式调节基因表达。miRNA在人体内表达相对稳定且容易检测。由于单个miRNA在肿瘤和正常人群中表达分布有重叠,难以界定早期诊断的临界值。因此,有必要提供一种更稳定的多个差异miRNA表达特征组合的诊断模型将有助于肺鳞癌的早期预测。
技术实现思路
有鉴于此,本专利技术提供了一种特征miRNA表达谱组合及肺鳞癌早期预测方法,能够准确地进行肺鳞癌I/II期预测。为了解决上述技术问题,本专利技术公开了一种用于预测早期肺鳞癌的特征miRNA表达谱组合,包括hsa-let-7a-1,hsa-let-7a-2,hsa-let-7a-3,hsa-let-7b,hsa-let-7i,hsa-mir-101-1,hsa-mir-101-2,hsa-mir-103a-1,hsa-mir-103a-2,hsa-mir-10a,hsa-mir-126,hsa-mir-143,hsa-mir-146b,hsa-mir-181a-2,hsa-mir-182,hsa-mir-183,hsa-mir-22,hsa-mir-23a,hsa-mir-23b,hsa-mir-26a-1,hsa-mir-26a-2,hsa-mir-26b,hsa-mir-27a,hsa-mir-27b,hsa-mir-29a,hsa-mir-30a,hsa-mir-30d,hsa-mir-30e,hsa-mir-374a,hsa-mir-99b,其核苷酸序列如SEQIDNO.1-30所示。本专利技术还公开了一种基于miRNA表达谱组合特征的肺鳞癌早期预测方法,包括以下步骤:步骤1、获取肺鳞癌早期患者稳定差异表达的miRNA;步骤2、选取特征miRNA表达数据,对每个样本进行数据标准化;步骤3、使用支持向量机对标准化后的数据构建早期预测模型;步骤4、根据患者特征miRNA的表达水平进行早期预测。可选地,所述步骤1中的获取肺鳞癌早期患者稳定差异表达的miRNA具体为:步骤1.1、从GenomicDataCommonsDataPortal数据库中下载肺鳞癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得肺鳞癌患者肿瘤组织基因表达谱readcounts数值,即为测序读段数值,进行对数转换;步骤1.2、选取在所有样本中miRNA的readcounts大于等于10的miRNA,再对所有miRNA的readcounts取对数,设样本总数为n,筛选后miRNA总数为m,v为miRNA的readcounts,u为取对数之后的表达值,则有;uij=log2vij,i∈(1,n),j∈(1,m)(1)其中,i为样本编号,j为miRNA编号,uij为第i个样本、第j个miRNA编号取对数之后的表达值,vij为第i个样本、第j个miRNA编号的readcounts;步骤1.3、选取疾病分期为I期和II期的肺鳞癌患者,将这些患者记为肺鳞癌早期患者,肺鳞癌早期患者总数记为n′;步骤1.4、选取在肿瘤和正常样本中变异系数均小于0.1的miRNA,设μ为所有样本中miRNA的表达均值,σ为标准差,变异系数的计算公式为:其中,j为miRNA编号,cv为变异系数,cvj为第j个样本的变异系数,σj为第j个miRNA编号的标准差,μj为第j个miRNA编号的miRNA的表达均值,设m1为稳定表达的miRNA总数,则有:步骤1.5、选取肿瘤和正常样本中差异表达的miRNA,使用取对数后的表达值计算肿瘤和正常样本miRNA取对数后的倍数变化f,公式为:其中j为miRNA编号,fj为第j个miRNA编号的倍数变化,μ1j为第j个miRNA编号的肿瘤样本的表达均值,μ2j为第j个miRNA编号的正常样本的表达均值;然后使用独立样本t检验比较肿瘤和正常样本中miRNA的表达差异,独立样本t检验公式为:其中n1为肿瘤样本数,n2为正常样本数,μ1为肿瘤样本miRNA表达均值,μ2为正常样本miRNA表达均值,为肿瘤样本miRNA方差,为正常样本miRNA方差;对所有t检验得出的p值进行错误发现率(falsediscoveryrate,FDR)校正,定义q为FDR校正后的数值,r为p值在m1个miRNA中排序后的位置,则有:其中,j为miRNA编号,qj代表第j个miRNA编号的FDR校正后的数值,pj代表第j个miRNA编号的t检验得出的p值,rj代表第j个miRNA编号的p值在m1个miRNA中排序后的位置;最后选取倍数变化f的绝对值大于1且FDR校正后q值小于等于0.05的miRNA,记为特征miRNA,设特征miRNA总数为m2,则有:m2=m1{|本文档来自技高网
...

【技术保护点】
1.一种用于预测早期肺鳞癌的特征miRNA表达谱组合,其特征在于,包括hsa-let-7a-1,hsa-let-7a-2,hsa-let-7a-3,hsa-let-7b,hsa-let-7i,hsa-mir-101-1,hsa-mir-101-2,hsa-mir-103a-1,hsa-mir-103a-2,hsa-mir-10a,hsa-mir-126,hsa-mir-143,hsa-mir-146b,hsa-mir-181a-2,hsa-mir-182,hsa-mir-183,hsa-mir-22,hsa-mir-23a,hsa-mir-23b,hsa-mir-26a-1,hsa-mir-26a-2,hsa-mir-26b,hsa-mir-27a,hsa-mir-27b,hsa-mir-29a,hsa-mir-30a,hsa-mir-30d,hsa-mir-30e,hsa-mir-374a,hsa-mir-99b,其核苷酸序列如SEQ ID NO.1-30所示。/n

【技术特征摘要】
1.一种用于预测早期肺鳞癌的特征miRNA表达谱组合,其特征在于,包括hsa-let-7a-1,hsa-let-7a-2,hsa-let-7a-3,hsa-let-7b,hsa-let-7i,hsa-mir-101-1,hsa-mir-101-2,hsa-mir-103a-1,hsa-mir-103a-2,hsa-mir-10a,hsa-mir-126,hsa-mir-143,hsa-mir-146b,hsa-mir-181a-2,hsa-mir-182,hsa-mir-183,hsa-mir-22,hsa-mir-23a,hsa-mir-23b,hsa-mir-26a-1,hsa-mir-26a-2,hsa-mir-26b,hsa-mir-27a,hsa-mir-27b,hsa-mir-29a,hsa-mir-30a,hsa-mir-30d,hsa-mir-30e,hsa-mir-374a,hsa-mir-99b,其核苷酸序列如SEQIDNO.1-30所示。


2.一种基于miRNA表达谱组合特征的肺鳞癌早期预测方法,其特征在于,包括以下步骤:
步骤1、获取肺鳞癌早期患者稳定差异表达的miRNA;
步骤2、选取特征miRNA表达数据,对每个样本进行数据标准化;
步骤3、使用支持向量机对标准化后的数据构建早期预测模型;
步骤4、根据患者特征miRNA的表达水平进行早期预测;
该方法用于非疾病的诊断和治疗目的。


3.根据权利要求2所述的预测方法,其特征在于,所述步骤1中的获取肺鳞癌早期患者稳定差异表达的miRNA具体为:
步骤1.1、从GenomicDataCommonsDataPortal数据库中下载肺鳞癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得肺鳞癌患者肿瘤组织基因表达谱readcounts数值,即为测序读段数值,进行对数转换;
步骤1.2、选取在所有样本中miRNA的readcounts大于等于10的miRNA,再对所有miRNA的readcounts取对数,设样本总数为n,筛选后miRNA总数为m,v为miRNA的readcounts,u为取对数之后的表达值,则有;
uij=log2vij,i∈(1,n),j∈(1,m)(1)
其中,i为样本编号,j为miRNA编号,uij为第i个样本、第j个miRNA编号取对数之后的表达值,vij为第i个样本、第j个miRNA编号的readcounts数值;
步骤1.3、选取疾病分期为I期和II期的肺鳞癌患者,将这些患者记为肺鳞癌早期患者,肺鳞癌早期患者总数记为n′;
步骤1.4、选取在肿瘤和正常样本中变异系数均小于0.1的miRNA,设μ为所有样本中miRNA的表达均值,σ为标准差,变异系数的计算公式为:



其中,j为miRNA编号,cv为变异系数,cvj为第j个样本的变异系数,σj为第j个miRNA编号的标准差,μj为第j个miRNA编号的miRNA的表达均值,设m1为稳定表达的miRNA总数,则有:
m1=m{cvj≥10},j∈(1,m)(3)
步骤1.5、选取肿瘤和正常样本中差异表达的miRNA,使用取对数后的表达值计算肿瘤和正常样本miRNA取对数后的倍数变化f,公式为:
fj=μ1j-μ2j,j∈(1,m1)(4)
其中j为miRNA编号,fj为第j个miRNA编号的倍数变化,μ1j为第j个miRNA编号的肿瘤样本的表达均值,μ2j为第j个miRNA编号的正常样本的表达均值;
然后使用独立样本t检验比较肿瘤和正常样本中miRNA的表达差异,独立样本t检验公式为:



其中n1为肿瘤样本数,n2为正常样本数,μ1为肿瘤样本miRNA表达均值,μ2为正常样本miRNA表达均值,为肿瘤样本miRNA方差,为正常样本miRNA方差;
对所有t检验得出的p值进行错误发现率(falsediscoveryrate,FDR)校正,定义q为FDR校正后的数值,r为p值在m1个miRNA中排序后的位置,则有:



其中,j为miRNA编号,qj代表第j个miRNA编号的FDR校正后的数值,pj代表第j个miRNA编号的t检验得出的p值,rj代表第j个miRNA编号的p值在m1个miRNA中排序后的位置;
最后选取倍数变化f的绝对值大于1且FDR校正后q值小于等于0.05的miRNA,记为特征miRNA,设特征miRNA总数为m2,则有:
m2=m1{|fj|≥1,qj≤0.05},j∈(1,m1)(7)。


4.根据权利要求2所述的预测方法,其特征在于,所述miRNA分别为:hsa-let-7a-1、hsa-let-7a-2、hsa-let-7a-3、hsa-let-7b...

【专利技术属性】
技术研发人员:高跃东李文兴
申请(专利权)人:中国科学院昆明动物研究所
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1