当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于miRNAs表达谱和自然语言模型的癌症分类方法技术

技术编号:33928265 阅读:26 留言:0更新日期:2022-06-25 22:04
本发明专利技术公开了一种基于miRNAs表达谱和自然语言模型的癌症分类方法,包括如下步骤:对癌症miRNA表达数据集样本的预处理;根据miRNA的表达数据,构建邻居miRNA频数数据表;遍历每一个miRNA表达样本,基于统计语言模型方法分别计算每个样本在癌症组和正常组中的统计概率;根据待测样本在癌症组和正常组中的统计概率特征,构建分类器预测待测样本所属类别。本发明专利技术基于自然语言模型的癌症分类方法,具有高效预测且计算简单的优点。本方法着重考虑样本内miRNA分子表达值的排名先后顺序,无需关注miRNA分子在样本间的表达差异。本发明专利技术不受基因组测序批次效应的影响,对于癌症样本的分类具有广泛的适用性。具有广泛的适用性。具有广泛的适用性。

【技术实现步骤摘要】
一种基于miRNAs表达谱和自然语言模型的癌症分类方法


[0001]本专利技术涉及生物信息学与计算生物学
,尤其涉及一种基于miRNAs表达谱和自然 语言模型的癌症分类方法。

技术介绍

[0002]据世界卫生组织国际癌症研究机构(IARC)发布的2020年全球最新癌症负担预估数据显 示,2020年全球新发癌症病例1929万例,癌症死亡病例996万例。在中国,癌症已成为常 见的高发疾病之一。发展癌症分类新方法、提高癌症分类精确度是一个重要的研究内容。 miRNAs是一类长度约为20nt的非编码短序列分子,已有研究表明一些miRNAs的异常表达与 包括癌症在内的多种复杂疾病的产生和恶化具有密切的关系。随着测序技术的发展,使我们 能够便捷的获取生物组织样本的微观miRNAs分子的表达信息。这为我们开发基于miRNAs分 子表达谱癌症分类方法提供了数据支持。
[0003]当前基于基因组数据的癌症分类方法,通常是先进行特征选择,挑选出在两个群体间差 异表达的分子,然后再采用机器学习模型方法进行分类。通过挑选特异性表达的分子,在癌 症分类方面本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,包括如下步骤:S1,获取癌症样本和正常样本的miRNAs表达谱数据;S2,去除低表达量的miRNAs表达谱数据,将剩余的miRNAs表达谱数据分成癌症样本集和正常样本集;S3,分别构建癌症样本集和正常样本集的miRNA邻居频数矩阵;S4,对于待测样本,基于统计语言模型分别计算其在癌症样本集和正常样本集中的统计概率;S5,将待测样本在癌症样本集和正常样本集中的统计概率值,以及概率值的差值共同作为癌症分类器的分类特征,构建癌症分类器;S6,将待测样本输入到癌症分类器中进行分类,获得分类结果。2.根据权利要求1所述的基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,所述S1包括:从TCGA数据库中获取癌症样本和正常样的本miRNAs表达谱数据。3.根据权利要求1所述的基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,所述S2包括:若miRNAs表达谱数据在80%以上的样本中的表达值均为0,就将该miRNAs表达谱数据删除,最终获得一个m
×
n的矩阵,其中m表示数量,n表示样本的个数;所述的样本包括癌症数据集和正常数据集;根据样本名称末尾两位编号将miRNAs表达谱数据分成癌症样本集和正常样本集:若编号属于区间[01,09],则样本属于正常样本集;若编号大于等于10,则样本属于癌症样本集;从而得到癌症样本集(m
×
n1)和正常样本集(m
×
n2),其中n1表示癌症样本的miRNAs表达谱数据的个数、n2表示正常样本的miRN...

【专利技术属性】
技术研发人员:许鹏俞健谢斌郭纪森鲍振申李先彬顾丽丽刘文斌
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1