The invention provides a device and method to predict the type of cancer, methylation data based on some randomly selected sites including DNA methylation data sequence from DNA methylation chip detected in the data as the training data to train the classifier model; among them, as the methylation data of the training data represents the types of cancer are known; the prediction of DNA methylation microarray data of unknown types of cancer may represent the types of cancers by the trained classifier model, or prediction of single celled or multicellular methylation sequencing data may represent the types of cancers. The present invention from the methylation data measured in randomly selected sites of data to train the classifier, the methylation data in some types of cancer sites in the sample of the do not know when the sites of methylation sites according to the sample and make the classifier have been informed of the same data for training, a great extent improve the convenience of the prediction of cancer types based on methylation.
【技术实现步骤摘要】
基于甲基化数据的癌症类型的预测方法及装置
本专利技术涉及癌症类型预测领域,特别是涉及基于甲基化数据的癌症类型的预测方法及装置。
技术介绍
作为人类基因组最为典型的表观遗传现象,DNA甲基化在多种关键生理活动中扮演重要角色,其甲基化状态与各种疾病,特别是癌症的发生密切相关。甲基化芯片检测已经用于患者样本的DNA甲基化检测中,在此基础上,通过已知癌种类型的甲基化芯片数据训练出的分类器模型就可以用来预测未知癌种类型的甲基化芯片数据可能代表的癌种类型。然而,这种分类器模型的建立通常会精选一些特异性较好的,即能用于较好地区分样本癌症类型的甲基化位点,相应的,用来训练该分类器模型的数据集也必须是来自这些精选出的甲基化位点的数据。可见,这种分类器模型在预测单细胞或多细胞的甲基化测序数据可能代表的癌种类型方面并不能取得良好效果,原因是:这种分类器模型的甲基化位点相对固定,而单细胞或多细胞数据的捕获通常又比较困难,极有可能捕获不到这些相对固定的甲基化位点的数据,所以说,在某些甲基化位点数据缺失的情况下这种模型就很难使用。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提 ...
【技术保护点】
一种基于甲基化数据的癌症类型的预测方法,其特征在于,包括:从DNA甲基化芯片检测到的DNA序列的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型;其中,作为训练数据的甲基化位点数据所代表的癌症种类为已知;通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据代表的癌症种类。
【技术特征摘要】
1.一种基于甲基化数据的癌症类型的预测方法,其特征在于,包括:从DNA甲基化芯片检测到的DNA序列的甲基化位点数据中随机选取部分位点的数据作为训练数据来训练分类器模型;其中,作为训练数据的甲基化位点数据所代表的癌症种类为已知;通过训练好的分类器模型预测未知癌症种类的DNA甲基化芯片数据代表的癌症种类,或预测单细胞或多细胞的甲基化测序数据代表的癌症种类。2.根据权利要求1所述的方法,其特征在于,所述训练数据还包括:预先捕获的单细胞或多细胞的甲基化位点的数据。3.根据权利要求1所述的方法,其特征在于,所述分类器模型包括:随机森林模型、和/或支持向量机模型。4.根据权利要求1所述的方法,其特征在于,所述甲基化位点数据是从公共数据库中获取的DNA甲基化芯片检测得到的数据。5.根据权利要求4所述的方法,其特征在于,所述甲基化位点数据还包括:预先积累得到的测序数据。6.一种基于甲基化数据...
【专利技术属性】
技术研发人员:杨飞,任一,陈昌岳,郑冠涛,王芳,李静,路远,
申请(专利权)人:上海美吉生物医药科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。