甲基化测序数据的处理方法和装置制造方法及图纸

技术编号：27940211 阅读：44 留言：0更新日期：2021-04-02 14:21

本发明专利技术提供了一种甲基化测序数据的处理方法和装置。该处理方法包括：通过变分自动编码的方法建立甲基化测序数据的预测模型；将待测样本的甲基化测序数据输入预测模型；输出预测结果。通过变分自动编码的方法建立甲基化测序数据的预测模型，利用变分自动编码器的优势，将甲基化测序的原始数据转换成另一组数据，转换后的这组数据更符合某种特征分布规律，进而能更准确地建立与表型之间的相关性，进而得到的预测模型预测结果也更准确。

全部详细技术资料下载

【技术实现步骤摘要】
甲基化测序数据的处理方法和装置
本专利技术涉及生物信息领域，具体而言，涉及一种甲基化测序数据的处理方法和装置。
技术介绍
DNA甲基化（DNAm）是基因表达程序的表观遗传调控因子，可因环境暴露，衰老和发病机理改变而改变。通常情况下全基因组甲基化测序采用基因芯片技术进行，计算每个CpG靶标的甲基化比例，以beta值表示。传统方法将DNAm变化与表型数据相关联，进行表观遗传学的研究。尽管DNAm数据具有与基因型数据相似的功能，由于DNAmbeta值的连续性、高维度等特性，在使用DNAm数据进行分析时面临多重假设检验和多重共线性等困扰。为了应对这些问题，许多下游EWAS（Epigenome-WideAssociationStudy，表观基因组关联分析）分析都集中于将数据特征维度缩减为与结果相关联的集合，通过降维和特征选择来限制特征的数量，使分析变得更易于计算，并且减轻多重比较的问题。以往机器学习方法应用甲基化原始数据分析甲基化状态、进行分类和回归分析。但现有的这些方法仍存在结果准确性低的问题。专利技...

【技术保护点】
1.一种甲基化测序数据的处理方法，其特征在于，所述处理方法包括：/n通过变分自动编码的方法建立甲基化测序数据的预测模型；/n将待测样本的甲基化测序数据输入所述预测模型；/n输出预测结果，通过变分自动编码的方法建立甲基化测序数据的预测模型包括：/n采用变分自动编码器将已知数据库中的甲基化测序数据转换为拟真数据；/n利用所述拟真数据进行模型预训练，得到预训练模型；/n在所述模型预训练过程中对所述预训练模型的超参数进行自动选择，筛选出最优模型，作为所述预测模型。/n

【技术特征摘要】
1.一种甲基化测序数据的处理方法，其特征在于，所述处理方法包括：
通过变分自动编码的方法建立甲基化测序数据的预测模型；
将待测样本的甲基化测序数据输入所述预测模型；
输出预测结果，通过变分自动编码的方法建立甲基化测序数据的预测模型包括：
采用变分自动编码器将已知数据库中的甲基化测序数据转换为拟真数据；
利用所述拟真数据进行模型预训练，得到预训练模型；
在所述模型预训练过程中对所述预训练模型的超参数进行自动选择，筛选出最优模型，作为所述预测模型。

2.根据权利要求1所述的处理方法，其特征在于，在所述模型预训练过程中还包括修改所述预训练模型的结构，选择性载入所述预训练模型的权重后，再对所述预训练模型重新进行所述模型预训练。

3.根据权利要求2所述的处理方法，其特征在于，采用微调编码器对所述预训练模型进行结构调整，选择性载入所述预训练模型的权重；
在采用所述微调编码器对对所述预训练模型进行结构调整，选择性载入所述预训练模型的权重之后，所述处理方法还包括对超参数进行自动选择，从而筛选出最优模型作为所述预测模型。

4.根据权利要求1所述的处理方法，其特征在于，所述已知数据库为TCGA数据库，通过变分自动编码的方法建立甲基化测序数据的预测模型包括：
从所述TCGA数据库中选择目的表型的甲基化测序数据，并拆分为训练集和验证集；
利用所述变分自动编码器将所述训练集和所述验证集中的所述甲基化测序数据转换为拟真数据集；
并利用所述训练集的所述拟真数据集进行模型预训练，优选所述预训练过程中采用超参数自动选择，得到预训练模型；
利用所述验证集的所述拟真数据对所述预训练模型进行验证，并采用微调编码器对所述预训练模型进行调整，所述调整包括对所述预训练模型执行自动超参数扫描，自动调整模型的超参数选择，从而选择最优模型作为所述预测模型。

5.一种甲基化测序数据的处理装置，其特征在...

【专利技术属性】
技术研发人员：楼峰，周涛，张萌萌，郭璟，曹善柏，
申请(专利权)人：北京橡鑫生物科技有限公司，天津橡鑫生物科技有限公司，北京橡鑫医学科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人