【技术实现步骤摘要】
一种基于miRNAs表达谱和自然语言模型的癌症分类方法
[0001]本专利技术涉及生物信息学与计算生物学
,尤其涉及一种基于miRNAs表达谱和自然 语言模型的癌症分类方法。
技术介绍
[0002]据世界卫生组织国际癌症研究机构(IARC)发布的2020年全球最新癌症负担预估数据显 示,2020年全球新发癌症病例1929万例,癌症死亡病例996万例。在中国,癌症已成为常 见的高发疾病之一。发展癌症分类新方法、提高癌症分类精确度是一个重要的研究内容。 miRNAs是一类长度约为20nt的非编码短序列分子,已有研究表明一些miRNAs的异常表达与 包括癌症在内的多种复杂疾病的产生和恶化具有密切的关系。随着测序技术的发展,使我们 能够便捷的获取生物组织样本的微观miRNAs分子的表达信息。这为我们开发基于miRNAs分 子表达谱癌症分类方法提供了数据支持。
[0003]当前基于基因组数据的癌症分类方法,通常是先进行特征选择,挑选出在两个群体间差 异表达的分子,然后再采用机器学习模型方法进行分类。通过挑选特异性表达的分 ...
【技术保护点】
【技术特征摘要】
1.一种基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,包括如下步骤:S1,获取癌症样本和正常样本的miRNAs表达谱数据;S2,去除低表达量的miRNAs表达谱数据,将剩余的miRNAs表达谱数据分成癌症样本集和正常样本集;S3,分别构建癌症样本集和正常样本集的miRNA邻居频数矩阵;S4,对于待测样本,基于统计语言模型分别计算其在癌症样本集和正常样本集中的统计概率;S5,将待测样本在癌症样本集和正常样本集中的统计概率值,以及概率值的差值共同作为癌症分类器的分类特征,构建癌症分类器;S6,将待测样本输入到癌症分类器中进行分类,获得分类结果。2.根据权利要求1所述的基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,所述S1包括:从TCGA数据库中获取癌症样本和正常样的本miRNAs表达谱数据。3.根据权利要求1所述的基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,所述S2包括:若miRNAs表达谱数据在80%以上的样本中的表达值均为0,就将该miRNAs表达谱数据删除,最终获得一个m
×
n的矩阵,其中m表示数量,n表示样本的个数;所述的样本包括癌症数据集和正常数据集;根据样本名称末尾两位编号将miRNAs表达谱数据分成癌症样本集和正常样本集:若编号属于区间[01,09],则样本属于正常样本集;若编号大于等于10,则样本属于癌症样本集;从而得到癌症样本集(m
×
n1)和正常样本集(m
×
n2),其中n1表示癌症样本的miRNAs表达谱数据的个数、n2表示正常样本的miRN...
【专利技术属性】
技术研发人员:许鹏,俞健,谢斌,郭纪森,鲍振申,李先彬,顾丽丽,刘文斌,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。