甲基化测序数据的处理方法和装置制造方法及图纸

技术编号:27940211 阅读:40 留言:0更新日期:2021-04-02 14:21
本发明专利技术提供了一种甲基化测序数据的处理方法和装置。该处理方法包括:通过变分自动编码的方法建立甲基化测序数据的预测模型;将待测样本的甲基化测序数据输入预测模型;输出预测结果。通过变分自动编码的方法建立甲基化测序数据的预测模型,利用变分自动编码器的优势,将甲基化测序的原始数据转换成另一组数据,转换后的这组数据更符合某种特征分布规律,进而能更准确地建立与表型之间的相关性,进而得到的预测模型预测结果也更准确。

【技术实现步骤摘要】
甲基化测序数据的处理方法和装置
本专利技术涉及生物信息领域,具体而言,涉及一种甲基化测序数据的处理方法和装置。
技术介绍
DNA甲基化(DNAm)是基因表达程序的表观遗传调控因子,可因环境暴露,衰老和发病机理改变而改变。通常情况下全基因组甲基化测序采用基因芯片技术进行,计算每个CpG靶标的甲基化比例,以beta值表示。传统方法将DNAm变化与表型数据相关联,进行表观遗传学的研究。尽管DNAm数据具有与基因型数据相似的功能,由于DNAmbeta值的连续性、高维度等特性,在使用DNAm数据进行分析时面临多重假设检验和多重共线性等困扰。为了应对这些问题,许多下游EWAS(Epigenome-WideAssociationStudy,表观基因组关联分析)分析都集中于将数据特征维度缩减为与结果相关联的集合,通过降维和特征选择来限制特征的数量,使分析变得更易于计算,并且减轻多重比较的问题。以往机器学习方法应用甲基化原始数据分析甲基化状态、进行分类和回归分析。但现有的这些方法仍存在结果准确性低的问题。
技术实现思路
本专利技术的主要目的在于提供一种甲基化测序数据的处理方法和装置,以解决现有技术中处理结果准确性相对较低的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种甲基化测序数据的处理方法,该处理方法包括:通过变分自动编码的方法建立甲基化测序数据的预测模型;将待测样本的甲基化测序数据输入预测模型;输出预测结果。进一步地,通过变分自动编码的方法建立甲基化测序数据的预测模型包括:采用变分自动编码器将已知数据库中的甲基化测序数据转换为拟真数据;利用拟真数据进行模型预训练,得到预训练模型;在模型预训练过程中对预训练模型的超参数进行自动选择,筛选出最优模型,作为预测模型。进一步地,在模型预训练过程中还包括修改预训练模型的结构,选择性载入预训练模型的权重后,再对预训练模型重新进行模型预训练。进一步地,采用微调编码器对预训练模型进行结构调整,选择性载入预训练模型的权重;在采用微调编码器对对预训练模型进行结构调整,选择性载入预训练模型的权重之后,处理方法还包括对超参数进行自动选择,从而筛选出最优模型作为预测模型。进一步地,已知数据库为TCGA数据库,通过变分自动编码的方法建立甲基化测序数据的预测模型包括:从TCGA数据库中选择目的表型的甲基化测序数据,并拆分为训练集和验证集;利用变分自动编码器将训练集和验证集中的甲基化测序数据转换为拟真数据集;并利用训练集的拟真数据集进行模型预训练,优选预训练过程中采用超参数自动选择,得到预训练模型;利用验证集的拟真数据对预训练模型进行验证,并采用微调编码器对预训练模型进行调整,调整包括对预训练模型执行自动超参数扫描,自动调整模型的超参数选择,从而选择最优模型作为预测模型。在本申请的第二个方面,提供了一种甲基化测序数据的处理装置,该处理装置包括:模型建立模块,用于通过变分自动编码的装置建立甲基化测序数据的预测模型;数据输入模块,用于将待测样本的甲基化测序数据输入预测模型;结果输出模块,用于输出预测结果。进一步地,模型建立模块包括:数据转换模块,数据转换模块为变分自动编码器,用于将已知数据库中的甲基化测序数据转换为拟真数据;训练模块,用于利用拟真数据进行模型预训练,得到预训练模型;调整模块,调整模块包括自动超参数扫描模块,用于在模型预训练过程中对预训练模型的超参数进行自动选择,筛选出最优模型,作为预测模型。进一步地,调整模块还包括微调编码器,用于对预训练模型进行调整后,对预训练模型重新进行模型预训练。进一步地,已知数据库为TCGA数据库,模型建立模块包括:数据选择模块,用于从TCGA数据库中选择目的表型的甲基化测序数据,并拆分为训练集和验证集;数据转换模块,用于利用变分自动编码器将训练集和验证集中的甲基化测序数据转换为拟真数据集;训练模块,用于利用训练集的拟真数据集进行模型预训练,得到预训练模型;调整模块,用于利用验证集的拟真数据对预训练模型进行验证,并采用微调编码器对预训练模型进行调整,调整包括对预训练模型执行自动超参数扫描,自动调整模型的超参数选择,选择最优模型作为预测模型。根据本申请的第三个方面,提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种甲基化测序数据的处理方法。根据本申请的第四个方面,提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种甲基化测序数据的处理方法。应用本专利技术的技术方案,通过变分自动编码的方法建立甲基化测序数据的预测模型,利用变分自动编码器的优势,将甲基化测序的原始数据转换成另一组数据,转换后的这组数据更符合某种特征分布规律,进而能更准确地建立与表型之间的相关性,进而得到的预测模型预测结果也更准确。附图说明构成本申请的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了根据本专利技术的一种优选的实施例的甲基化测序数据的处理方法的流程示意图;图2示出了本专利技术的实施例2的处理结果的预测准确性检验结果图;图3示出了本专利技术的实施例2的处理结果的ROC曲线图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本专利技术。术语解释:TCGA:TheCancerGenomeAtlas,癌症基因组图谱数据库。DNAmethylation(DNAm):DNA甲基化。Cytosine-GuanineDinucleotides(CpG):胞嘧啶(C,Cytosine),磷酸(p,phosphoricacid),鸟嘌呤(G,Guanine)的缩写。在基因组中富含GC和CpG的序列区段,叫CpG岛(CpGislands)Autoencodingvariationa(VAE):变分自动编码器,在合理范围内提高生成的数据的多样性。Fine-tuneencoder:微调编码器,通过修改预训练模型结构,选择性载入预训练网络模型权重,对模型重新训练。可以通过相对较小的数据量,快速训练出较优的模型。超参数:在深度学习模型中,在架构层面的参数叫做超参数,以便与模型参数区分开来。模型参数通过反向传播进行训练。比如,决策树模型中的树深度和人工神经网络中的层数是典型的超参数。不同项目之间由于算法、目标、数据类型及数据量等存在差异,因而没有适合所有模型和所有问题的超参数值的最佳选择,相反,必须在每个机器学习项目的上下文中优化超参数。如
技术介绍
所提到的,现有的甲基化测序数据仍存在处理结果准确性待提高的缺陷,为改善这一状况,本申请从一种全新的思路,对现有的甲基化测序数据的处理方案进行了改进,提高了处理结果的准确性。在该基础上,申请人提出了本申请的技术方案。实施例1本实施例提供了一种甲本文档来自技高网
...

【技术保护点】
1.一种甲基化测序数据的处理方法,其特征在于,所述处理方法包括:/n通过变分自动编码的方法建立甲基化测序数据的预测模型;/n将待测样本的甲基化测序数据输入所述预测模型;/n输出预测结果,通过变分自动编码的方法建立甲基化测序数据的预测模型包括:/n采用变分自动编码器将已知数据库中的甲基化测序数据转换为拟真数据;/n利用所述拟真数据进行模型预训练,得到预训练模型;/n在所述模型预训练过程中对所述预训练模型的超参数进行自动选择,筛选出最优模型,作为所述预测模型。/n

【技术特征摘要】
1.一种甲基化测序数据的处理方法,其特征在于,所述处理方法包括:
通过变分自动编码的方法建立甲基化测序数据的预测模型;
将待测样本的甲基化测序数据输入所述预测模型;
输出预测结果,通过变分自动编码的方法建立甲基化测序数据的预测模型包括:
采用变分自动编码器将已知数据库中的甲基化测序数据转换为拟真数据;
利用所述拟真数据进行模型预训练,得到预训练模型;
在所述模型预训练过程中对所述预训练模型的超参数进行自动选择,筛选出最优模型,作为所述预测模型。


2.根据权利要求1所述的处理方法,其特征在于,在所述模型预训练过程中还包括修改所述预训练模型的结构,选择性载入所述预训练模型的权重后,再对所述预训练模型重新进行所述模型预训练。


3.根据权利要求2所述的处理方法,其特征在于,采用微调编码器对所述预训练模型进行结构调整,选择性载入所述预训练模型的权重;
在采用所述微调编码器对对所述预训练模型进行结构调整,选择性载入所述预训练模型的权重之后,所述处理方法还包括对超参数进行自动选择,从而筛选出最优模型作为所述预测模型。


4.根据权利要求1所述的处理方法,其特征在于,所述已知数据库为TCGA数据库,通过变分自动编码的方法建立甲基化测序数据的预测模型包括:
从所述TCGA数据库中选择目的表型的甲基化测序数据,并拆分为训练集和验证集;
利用所述变分自动编码器将所述训练集和所述验证集中的所述甲基化测序数据转换为拟真数据集;
并利用所述训练集的所述拟真数据集进行模型预训练,优选所述预训练过程中采用超参数自动选择,得到预训练模型;
利用所述验证集的所述拟真数据对所述预训练模型进行验证,并采用微调编码器对所述预训练模型进行调整,所述调整包括对所述预训练模型执行自动超参数扫描,自动调整模型的超参数选择,从而选择最优模型作为所述预测模型。


5.一种甲基化测序数据的处理装置,其特征在...

【专利技术属性】
技术研发人员:楼峰周涛张萌萌郭璟曹善柏
申请(专利权)人:北京橡鑫生物科技有限公司天津橡鑫生物科技有限公司北京橡鑫医学科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1