一种序列合成周期预测模型的构建方法及其应用技术

技术编号:38662252 阅读:11 留言:0更新日期:2023-09-02 22:45
本发明专利技术公开了一种序列合成周期预测模型的构建方法及其应用,所述方法包括选取若干已知不同长度、不同合成周期的基因序列,对所述已知序列进行序列特征提取,将提取的序列特征与所述已知序列作为数据库的训练数据,然后利用深度学习中的Embedding技术、Transformer模型和两个神经网络建立序列合成周期预测模型。本发明专利技术所述方法可以对不同复杂度的基因序列合成周期进行预测,操作简单,准确率高,有利于基因合成的统筹安排,提高合成效率。提高合成效率。提高合成效率。

【技术实现步骤摘要】
一种序列合成周期预测模型的构建方法及其应用


[0001]本专利技术属于分子生物学及生物信息学
,具体涉及一种序列合成周期预测模型的构建方法及其应用。

技术介绍

[0002]生物技术和信息技术的结合,基因合成技术以超摩尔定律的速度普及,基因合成作为生命科学的基础,在生物医药、疾病研究等多个领域得到应用,市场需求持续攀升。基因合成不依赖于序列模板,而是在体外化学人工合成双链DNA,合成片段相对较长可达kb级别,基因合成在流程上是一个不断设计、改造、验证、修正的试错过程。目前,大多商业化DNA合成公司通常采用柱式合成法,即基于四步法亚磷酰胺化学合成方法,在固相上进行寡核苷酸合成。这些寡核苷酸通常可以合成多达100nt~200nt,错误率在0.5%或以下,每个单体耦合效率通常可达99%。
[0003]目前,大多数的基因合成是通过外包服务的模式,由基因合成公司代为设计合成的,随着基因合成需求的日益增长,客户对于交付时间有了更明确的要求。但是待合成的基因序列不仅长度不同,其合成难度也各不相同,很难准确的预估序列的合成周期,基因合成公司通常是依据多年的合成经验,给客户提供大致的交付周期。
[0004]如CN111192629A公开了一种基因序列难度分析模型,该模型使用机器学习中常用的几种回归算法构建定量预测模型,选取一定量的已知序列进行训练,最终输入序列中提取的特征,即可预估基因序列的难度,以预测待测基因的合成周期。但其用于训练模型的基因序列数据量有限,导致模型不够准确;序列特征只考虑了序列GC含量,没有考虑AT含量和AT富集情况,且只考虑了重复序列的长度,虽然也考虑了正向和反向重复占序列总长度与重复覆盖区的比例,但其核心仍然是长度,并没有考虑重复序列与序列中位置的关联关系,而重复序列出现的位置可能会影响序列合成难度;此外,只使用传统机器学习回归算法,难以处理大规模复杂数据。

技术实现思路

[0005]针对现有技术的不足和实际需求,本专利技术提供一种序列合成周期预测模型的构建方法及其应用,所述方法可以对不同复杂度的基因序列合成周期进行预测,操作简单,准确率高,有利于基因合成的统筹安排,提高合成效率。
[0006]为达上述目的,本专利技术采用以下技术方案:
[0007]第一方面,本专利技术提供一种序列合成周期预测模型的构建方法,包括:
[0008]选取若干已知序列,所述已知序列包括已知不同长度、不同合成周期的基因序列;
[0009]对所述已知序列进行序列特征提取,将提取的序列特征与所述已知序列作为数据库的训练数据;
[0010]将所述训练数据,利用深度学习中的Embedding技术、Transformer模型和两个神经网络建立序列合成周期预测模型。
[0011]在深度学习中,Embedding是一种常用技术,它可以将离散型的输入特征映射为连续的向量表示,以便神经网络理解和处理,从而提高模型的表现。
[0012]Transformer是一种用于处理序列数据的深度学习模型,最初由Vaswani等人在2017年提出。传统的序列模型,如循环神经网络(RNN)或卷积神经网络(CNN),在处理长序列时存在一些问题,如梯度消失、梯度爆炸等。相比之下,Transformer模型采用了一种完全不同的思路,它不使用循环或卷积,而是使用注意力机制(Attention Mechanism)来处理输入序列。该机制也是模仿人脑的信息处理过程,即将有限的注意力集中到重点信息上,从而节省资源,快速获得有效信息。与传统的序列模型相比,Transformer模型具有如下优点:支持并行计算,因而可以提高计算效率;支持长序列建模,能够同时考虑序列中的所有元素,因而提高模型准确率;具有较好的泛化性能,已在机器翻译和文本生成等任务上取得了较好的效果。
[0013]优选地,所述神经网络包括Linear神经网络和Dense神经网络。
[0014]优选地,所述Linear神经网络包含4个线性变换层,所述Dense神经网络包含3个线性变换层。
[0015]优选地,所述序列特征包括碱基类型、序列重复情况、AT/GC富集情况、序列长度、总重复序列得分、AT富集分、GC富集分以及最长重复子序列长度。
[0016]第二方面,本专利技术提供第一方面所述的构建方法构建得到的预测模型在预测基因序列合成周期中的应用。
[0017]第三方面,本专利技术提供一种序列合成周期预测装置,包括:
[0018]序列特征提取单元,用于对已知序列进行序列特征提取;除了为预测模型单元准备训练数据外,还需要为预测单元提供服务;
[0019]数据库单元,用于获取已知不同长度、不同合成周期的基因序列和经过序列特征提取单元处理后获取的序列特征信息,划分为训练集和测试集;这些数据将被输入预测模型单元,以训练模型参数,形成最终的预测模型;
[0020]预测模型单元,用于训练数据库单元中的训练集数据,构建预测模型;
[0021]预测单元,用于输入待测序列,调用序列特征提取单元和预测模型单元,预测序列的合成周期。
[0022]优选地,所述预测模型单元包括:Linear子单元、Embedding子单元、Encoder子单元、Dense子单元和Represent子单元。
[0023]优选地,所述Embedding子单元包括两层结构,第一层使用PyTorch中的Embedding类,第二层将Embedding的结果相加,然后使用PyTorch中的nn.LayerNorm实现层归一化。
[0024]PyTorch是一个基于Torch的Python开源机器学习库,提供了大量的工具和接口,可以用于构建各种深度学习模型,包括卷积神经网络、循环神经网络、变分自编码器等。此外,PyTorch还提供了许多高级功能,如自动微分、分布式训练等,使得深度学习变得更加容易和高效。
[0025]与现有技术相比,本专利技术具有以下有益效果:
[0026]本专利技术提供的序列合成周期预测模型的构建方法,用于构建序列数据库的不同长度、不同合成周期的序列大于20000条,且都来源于真实的业务案例,因此有助于构建更准确的预测模型;本专利技术在提取序列特征时,综合考虑了GC和AT的含量与各自在序列中的富
集情况,对非重复序列、普通重复序列和最长重复序列所在的位置赋予不同的数值,这样既区分了不同的重复情况,又记录并关联了重复位置与重复情况,进一步提高了预测模型的准确率;本专利技术使用了深度学习中的优秀模型,不仅可以处理大规模数据,而且可以使用分布式计算提升训练速度。
附图说明
[0027]图1为基因序列合成周期预测模型结构示意图;
[0028]图2为数据库单元的数据准备流程图;
[0029]图3为预测模型单元的结构示意图;
[0030]图4为预测模型单元的Linear模块结构示意图;
[0031]图5为预测模型单元的Embedding模块结构示意图;
[0032]图6为预测模型单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种序列合成周期预测模型的构建方法,其特征在于,包括:选取若干已知序列,所述已知序列包括已知不同长度、不同合成周期的基因序列;对所述已知序列进行序列特征提取,将提取的序列特征与所述已知序列作为数据库的训练数据;将所述训练数据,利用深度学习中的Embedding技术、Transformer模型和两个神经网络建立序列合成周期预测模型。2.根据权利要求1所述的构建方法,其特征在于,所述神经网络包括Linear神经网络和Dense神经网络。3.根据权利要求2所述的构建方法,其特征在于,所述Linear神经网络包含4个线性变换层,所述Dense神经网络包含3个线性变换层。4.根据权利要求1所述的构建方法,其特征在于,所述序列特征包括碱基类型、序列重复情况、AT/GC富集情况、序列长度、总重复序列得分、AT富集分、GC富集分以及最长重复子序列长度。5.一种如权利要求1

4任一项所述的构建方法构...

【专利技术属性】
技术研发人员:庞逍逸蔡晓辉申姝茵杨平
申请(专利权)人:苏州泓迅生物科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1