一种基因序列难度分析模型的构建方法及其应用技术

技术编号:24253177 阅读:22 留言:0更新日期:2020-05-23 00:26
本发明专利技术涉及生物技术领域,具体涉及一种基因序列难度分析模型的构建方法及其应用,包括:取已知序列难度的不同基因序列若干,作为建模的数据库;对所述数据库中的基因序列进行序列特征提取;将所述序列特征与所述已知序列难度利用回归算法建立定量预测模型;发明专利技术人在生产过程中,发现待测序列基因序列的难度无法预测,进而难以满足客户对于基因合成周期需求,同时在大量待合成基因序列存在的情况下,无法进行有效的统筹安排,降低了基因合成的效率,因此,发明专利技术人研究发现,将已知序列难度的基因序列的特征与已知序列难度利用回归算法构建的模型可以准确预估基因序列的难度,以预测待测基因合成的周期。

Construction and application of a gene sequence difficulty analysis model

【技术实现步骤摘要】
一种基因序列难度分析模型的构建方法及其应用
本专利技术涉及生物
,具体涉及一种基因序列难度分析模型的构建方法及其应用。
技术介绍
随着计算机、生物信息、基因测序等技术的不断发展,使全基因乃至基因组人工合成成为可能。基因合成是指运用生物学方法在体外合成所需基因的技术,它不仅可以对已有基因进行改造,还能创造出自然界中不存在的基因,即“改造生命”和“人造生命”。由于基因合成技术为人类改造生物开辟了一个全新的方向,任何与基因相联系的领域都需要进行人工基因的合成。在可预计的将来,基因合成将在生命科学、新能源、新材料、人工生命、核酸疫苗以及生物医药等领域中发挥巨大作用。目前,为了快速的、高通量的进行基因合成,提供了工业化的基因合成方法,以期满足不断增长的研究院所或企业关于基因合成的需求。现有的工业化基因合成方法大致有7个模块化步骤,分别为PCR扩增、连接转化、挑取单克隆摇菌、菌液PCR鉴定、质粒抽提、Sanger测序、PCR扩增正确克隆,最终得到与预期一致的PCR产物片段。由于上述方法步骤繁多、通量低,整体流程的运行时间超过72小时,成本高。为了提高基因合成效率,中国专利文献CN107760672A公开的一种基于二代测序技术的工业化基因合成方法,快速简便,效率高。随着基因合成的需求日益增长,基因合成公司会同时接到来自不同客户的大量的基因序列合成订单,而这些待合成的基因序列千差万别,基因序列的难度不同,无法预估基因序列合成的生产周期,即使采用标准化的工业化基因合成方法,也无法为客户提供基因合成的生产周期,同时由于待合成基因序列的周期不确定性,无法进行有效的统筹安排,降低了基因合成的效率。然而,还未有关于不同基因序列的基因序列难度分析的相关报道。
技术实现思路
因此,本专利技术要解决的技术问题在于提出一种基因序列难度分析模型的构建方法及其应用,所述构建方法构建的基因系列难度分析模型可以对不同基因序列的基因序列难度进行预测,依据基因序列的难度,可以为客户提供较为精准的序列订单的基因合成周期,同时也有利于基因合成公司的统筹安排,提高生产效率。为解决上述技术问题,本专利技术提供了如下技术方案:一种基因序列难度分析模型的构建方法,包括:取已知序列难度的不同基因序列若干,作为建模的数据库;对所述数据库中的基因序列进行序列特征提取;将提取的序列特征与所述已知序列难度利用回归算法建立定量预测模型。进一步的,所述已知序列难度的不同基因是指已知合成周期的不同基因。进一步的,提取的序列特征包括:序列长度、序列GC含量、最大正向重复覆盖区域大小、正向最大重复与重复覆盖区比例、正向重复覆盖区域总和与序列长度的比例、最大反向重复覆盖区域大小、反向最大重复与重复覆盖区比例、反向重复覆盖区域总和与序列长度的比例、连续重复碱基个数和聚合物个数中的至少3个。优选的,所述序列特征为序列长度、序列GC含量、最大正向重复覆盖区域大小、正向最大重复与重复覆盖区比例、正向重复覆盖区域总和与序列长度的比例、最大反向重复覆盖区域大小、反向最大重复与重复覆盖区比例、反向重复覆盖区域总和与序列长度的比例、连续重复碱基个数和聚合物个数。优选的,已知序列难度的不同基因序列≥500条。进一步的,所述回归算法包括贝叶斯岭回归算法(BayesianRidge)、线性回归算法(LinearRegression)、弹性网络(ElasticNet)、支持向量回归(SVR)、背景梯度提升回归(GBR)、随机森林回归(RandomForestRegressor)、梯度提升回归(GradientBoostingRegressor)或极端随机森林回归(ExtraTreesRegressor)。进一步的,包括:对待测序列的序列特征进行提取,然后将所得的序列特征导入所述定量预测模型中。一种如上述的构建方法构建得到的定量预测模型。一种基因合成周期预测方法,包括利用所述的构建方法构建得到的定量预测模型。一种基因合成难度分析装置,包括:数据库单元,用于获取已知序列难度的不同基因序列若干;序列特征提取单元,用于对数据库单元中的基因序列进行序列特征提取;定量预测模型单元,用于将所述序列特征与所述已知序列难度利用回归算法建立定量预测模型。进一步的,所述已知序列难度的不同基因是指已知合成周期的不同基因。进一步的,所述序列特征提取单元包括:序列长度提取子单元、序列GC含量提取子单元、最大正向重复覆盖区域大小提取子单元、正向最大重复与重复覆盖区比例提取子单元、正向重复覆盖区域总和与序列长度的比例提取子单元、最大反向重复覆盖区域大小提取子单元、反向最大重复与重复覆盖区比例提取子单元、反向重复覆盖区域总和与序列长度的比例提取子单元、连续重复碱基个数提取子单元和聚合物个数提取子单元中至少3个。优选的,所述序列特征提取单元包括:序列长度提取子单元、序列GC含量提取子单元、最大正向重复覆盖区域大小提取子单元、正向最大重复与重复覆盖区比例提取子单元、正向重复覆盖区域总和与序列长度的比例提取子单元、最大反向重复覆盖区域大小提取子单元、反向最大重复与重复覆盖区比例提取子单元、反向重复覆盖区域总和与序列长度的比例提取子单元、连续重复碱基个数提取子单元和聚合物个数提取子单元。进一步的,所述定量预测模型单元包括:所述回归算法包括贝叶斯岭回归算法(BayesianRidge)子单元、线性回归算法(LinearRegression)子单元、弹性网络(ElasticNet)子单元、支持向量回归(SVR)子单元、背景梯度提升回归(GBR)子单元、随机森林回归(RandomForestRegressor)子单元、梯度提升回归(GradientBoostingRegressor)子单元或极端随机森林回归(ExtraTreesRegressor)子单元。进一步的,包括检测单元,用于将待测序列的序列特征进行提取,然后将所得的序列特征导入所述定量预测模型中。本专利技术技术方案,具有如下优点:1.本专利技术提供的一种基因序列难度分析模型的构建方法,包括:取已知序列难度的不同基因序列若干,作为建模的数据库;对所述数据库中的基因序列进行序列特征提取;将提取的序列特征与所述已知序列难度利用回归算法建立定量预测模型;专利技术人在生产过程中,发现待测序列基因序列的难度无法预测,进而难以满足客户对于基因合成周期的需求,同时在大量待合成基因序列存在的情况下,无法进行有效的统筹安排,降低了基因合成的效率,因此,专利技术人研究发现,将已知序列难度的基因序列的序列特征与已知序列难度利用回归算法构建的模型可以准确的预估待测基因序列的难度,从而进一步预测基因合成周期。2.本专利技术提供的一种基因合成难度分析模型的构建方法,提取的序列特征包括:序列长度、序列GC含量、最大正向重复覆盖区域大小、正向最大重复与重复覆盖区比例、正向重复覆盖区域总和与序列长度的比例、最大反向重复覆盖区域大小、反向最大重复与重复覆盖区比例、反向重本文档来自技高网
...

【技术保护点】
1.一种基因序列难度分析模型的构建方法,其特征在于,包括:/n取已知序列难度的不同基因序列若干,作为建模的数据库;/n对所述数据库中的基因序列进行序列特征提取;/n将提取的序列特征与所述已知序列难度利用回归算法建立定量预测模型。/n

【技术特征摘要】
1.一种基因序列难度分析模型的构建方法,其特征在于,包括:
取已知序列难度的不同基因序列若干,作为建模的数据库;
对所述数据库中的基因序列进行序列特征提取;
将提取的序列特征与所述已知序列难度利用回归算法建立定量预测模型。


2.根据权利要求1所述的构建方法,其特征在于,提取的序列特征包括:序列长度、序列GC含量、最大正向重复覆盖区域大小、正向最大重复与重复覆盖区比例、正向重复覆盖区域总和与序列长度的比例、最大反向重复覆盖区域大小、反向最大重复与重复覆盖区比例、反向重复覆盖区域总和与序列长度的比例、连续重复碱基个数和聚合物个数中的至少3个。


3.根据权利要求1或2所述的构建方法,其特征在于,所述回归算法包括贝叶斯岭回归算法、线性回归算法、弹性网络、支持向量回归、背景梯度提升回归、随机森林回归、梯度提升回归或极端随机森林回归。


4.根据权利要求1-3任一项所述的构建方法,其特征在于,包括:对待测序列的序列特征进行提取,然后将所得的序列特征导入所述定量预测模型中。


5.一种如权利要求1-4任一项所述的构建方法构建得到的定量预测模型在预测基因合成周期的用途。


6.一种基因合成周期预测方法,其特征在于,包括利用权利要求1-4任一项所述的构建方法构建得到的定量预测...

【专利技术属性】
技术研发人员:赵文妍段广有丁砚书方其张艳葛毅廖国娟
申请(专利权)人:苏州金唯智生物科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1