可变剪切事件预测的机器学习模型的训练方法和预测方法及应用技术

技术编号:38254043 阅读:14 留言:0更新日期:2023-07-27 10:18
本发明专利技术涉及一种用于可变剪切事件预测的机器学习模型的训练方法和可变剪切事件的预测方法及应用。该用于可变剪切事件预测的机器学习模型的训练方法包括:确定用于获取可变剪切事件的预测结果的候选软件;基于所述候选软件获得机器学习模型的训练真集;以及,使用所述机器学习模型的训练真集对预定机器学习模型进行训练,所述预定机器学习模型采用从所述候选软件中确定的多个软件对可变剪切事件的预测结果获得单一可变剪切事件预测结果。本发明专利技术的方法能够显著提高预测结果的置信度,可以达到更加准确的可变剪切事件的预测效果。达到更加准确的可变剪切事件的预测效果。达到更加准确的可变剪切事件的预测效果。

【技术实现步骤摘要】
可变剪切事件预测的机器学习模型的训练方法和预测方法及应用


[0001]本专利技术涉及生物信息
,更为具体地说,涉及一种用于可变剪切事件预测的机器学习模型的训练方法和可变剪切事件的预测方法及其应用。

技术介绍

[0002]可变剪切(alternative splicing)是一种后转录生物学过程,对细胞活动和疾病过程具有重要的且广泛的影响,研究表明人的基因组中有超过90

95%的多外显子基因存在可变剪切。可变剪切能够产生多种类型的mRNA,因此一个基因就可以产生多种不同的蛋白,这个过程极大的增加了mRNA和蛋白质的多样性。
[0003]可变剪切事件目前主要被分为5种主要的类型,包括:外显子跳跃(skipped exons,SE),内含子滞留(retained introns,RI),5'端可变剪切(alternative 5'(donor)splice sites,A5SS),3'端可变剪切(alternative 3'(acceptor)splice sites,A3SS)以及互斥外显子跳跃(mutually exclusive exon,MXE)。
[0004]目前对二代的可变剪切预测的软件种类繁多,标准不一,各有优劣,而对三代可变剪切预测的软件并不多。有文献比较各软件检出的差异可变基因相似度很低,差异显著,且二三代各软件检测的准确性也并不明确。例如,有各种对可变剪切事件进行预测的软件的预测结果的相关性的比较显示,相同软件不同版本间的相似性较高能达到90%以上,但是不同软件的相似性较低,例如仅为45%。
[0005]虽然有多种软件可以对可变剪切事件的类型进行预测,但是,不同软件对不同类型的可变剪切事件各有优势,结果置信度有待提高。因此,期望提供一种结合各种软件对可变剪切事件的类型的预测结果的优化的可变剪切事件的预测方法。

技术实现思路

[0006]目前各种预测可变剪切事件的软件各有优劣,但是目前的可变剪切事件的预测方法普遍存在置信度较低的问题。本专利技术提供了一种用于可变剪切事件预测的机器学习模型的训练方法和可变剪切事件的预测方法,采用本专利技术的方法能够显著提高预测结果的置信度,可以达到更加准确的可变剪切事件的预测效果,能够为疾病研究和生长发育过程的研究奠定基础。
[0007]具体内容如下:
[0008]1.一种用于可变剪切事件预测的机器学习模型的训练方法,包括:
[0009]确定用于获取可变剪切事件的预测结果的候选软件;
[0010]基于所述候选软件获得机器学习模型的训练真集;以及
[0011]使用所述机器学习模型的训练真集对预定机器学习模型进行训练,所述预定机器学习模型采用从所述候选软件中确定的多个软件对可变剪切事件的预测结果获得单一可变剪切事件预测结果。
[0012]2.根据上述的用于可变剪切事件预测的机器学习模型的训练方法,其中,所述候选软件的确定标准包括以下的至少其中之一:
[0013]所述候选软件能够检测出可变剪切事件;
[0014]所述候选软件能够进行单样本可变剪切预测;和,
[0015]所述候选软件至少支持预定数目的类型的可变剪切事件。
[0016]3.根据上述的用于可变剪切事件预测的机器学习模型的训练方法,其中,所述多个软件为至少两个软件;优选地,所述多个软件为至少三个软件;更优选地,所述候选软件选自:asprofile、SUPPA、Astalavista、rMATS、TAPIS、ASt、cufflinks、SQANTI3、Leafcutter、lr2rmats、sqanti、CASH、MAJIQ、ballgrown、DEXseq。
[0017]4.根据上述的用于可变剪切事件预测的机器学习模型的训练方法,其中,基于所述候选软件获得机器学习模型的训练真集的方法包括:
[0018]在准备所述机器学习模型的训练数据时,基于所述候选软件确定所述训练数据的不同数据类型;
[0019]基于所述候选软件确定分别与所述不同数据类型对应的测序平台;
[0020]确定每个所述测序平台与所述每个候选软件的对应关系;以及,
[0021]确定所述候选软件支持的可变剪切事件的真实预测类型,并基于所述可变剪切事件的真实预测类型确定所述训练真集的类型预测标签;
[0022]优选地,所述不同数据类型包括二代测序数据类型NGS和三代测序数据类型TGS;
[0023]优选地,与所述不同数据类型对应的测序平台选自illumina、PB、ONT、Ion Torrent、BGI/MGI中的至少一种;
[0024]优选地,基于所述可变剪切事件的真实预测类型确定所述训练真集的类型预测标签的方法包括:将所述可变剪切事件的真实预测类型SE、RI、A5SS、A3SS和MXE确定为所述训练真集的三种类型预测标签SE、RI和AE。
[0025]5.根据上述的用于可变剪切事件预测的机器学习模型的训练方法,其中,所述预定机器学习模型为线性回归模型h(x)=W(x1,x2,x3,...,x
n
)+b=w1x1+w2x2+w3x3+

+w
n
x
n
+b,所述线性回归模型具有权重向量W和偏置值b,且(x1,x2,x3,...,x
n
)表示所述候选软件中的多个软件对可变剪切事件的预测结果。
[0026]6.根据上述的用于可变剪切事件预测的机器学习模型的训练方法,其中,所述预测方法还包括确定所述线性回归模型的训练超参数,所述训练超参数包括迭代周期数目、学习率和批次大小中的一种或多种;和/或,
[0027]在所述线性回归模型的训练过程中,在每次迭代时通过K折交叉验证的方式来将所述训练真集划分为验证集和测试集。
[0028]7.根据上述的可变剪切事件的预测方法,其中,所述预测方法还包括通过预定的评估指标来确定所述机器学习模型的性能,其中,所述评估指标包括准确度、召回度和F1分数中的一种或多种;和/或,
[0029]所述预测方法还包括基于训练数据计算训练值,并基于训练值与真实值之间的损失函数来通过梯度下降的方式迭代地更新模型参数。
[0030]8.根据上述的用于可变剪切事件预测的机器学习模型的训练方法得到的机器学习模型。
[0031]9.一种可变剪切事件的预测方法,包括:
[0032]获取待预测可变剪切事件的样本数据;以及
[0033]使用上述的用于可变剪切事件预测的机器学习模型的训练方法所训练的机器学习模型或上述的机器学习模型,获得所述样本数据的可变剪切事件预测结果。
[0034]10.上述的用于可变剪切事件预测的机器学习模型的训练方法、上述的机器学习模型或上述的可变剪切事件的预测方法在生物信息技术中的应用。
附图说明
[0035]通过阅读下文优选的具体实施方式中的详细描述,本专利技术各种其他的优点和益处对于本领域普通技术人员本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于可变剪切事件预测的机器学习模型的训练方法,包括:确定用于获取可变剪切事件的预测结果的候选软件;基于所述候选软件获得机器学习模型的训练真集;以及使用所述机器学习模型的训练真集对预定机器学习模型进行训练,所述预定机器学习模型采用从所述候选软件中确定的多个软件对可变剪切事件的预测结果获得单一可变剪切事件预测结果。2.根据权利要求1所述的用于可变剪切事件预测的机器学习模型的训练方法,其中,所述候选软件的确定标准包括以下的至少其中之一:所述候选软件能够检测出可变剪切事件;所述候选软件能够进行单样本可变剪切预测;和,所述候选软件至少支持预定数目的类型的可变剪切事件。3.根据权利要求1所述的用于可变剪切事件预测的机器学习模型的训练方法,其中,所述多个软件为至少两个软件;优选地,所述多个软件为至少三个软件;更优选地,所述候选软件选自:asprofile、SUPPA、Astalavista、rMATS、TAPIS、ASt、cufflinks、SQANTI3、Leafcutter、lr2rmats、sqanti、CASH、MAJIQ、ballgrown、DEXseq。4.根据权利要求1所述的用于可变剪切事件预测的机器学习模型的训练方法,其中,基于所述候选软件获得机器学习模型的训练真集的方法包括:在准备所述机器学习模型的训练数据时,基于所述候选软件确定所述训练数据的不同数据类型;基于所述候选软件确定分别与所述不同数据类型对应的测序平台;确定每个所述测序平台与所述每个候选软件的对应关系;以及,确定所述候选软件支持的可变剪切事件的真实预测类型,并基于所述可变剪切事件的真实预测类型确定所述训练真集的类型预测标签;优选地,所述不同数据类型包括二代测序数据类型NGS和三代测序数据类型TGS;优选地,与所述不同数据类型对应的测序平台选自illumina、PB、ONT、Ion Torrent、BGI/MGI中的至少一种;优选地,基于所述可变剪切事件的真实预测类型确定所述训练真集的类型预测标签的方法包括:将所述可变剪切事件的真实预测类型SE、RI、A5SS、A3SS和MXE确定为所述训练真集...

【专利技术属性】
技术研发人员:涂成芳刘涛李志民李华云韩少怀任雪权慧王娟
申请(专利权)人:安诺优达基因科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1