当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于局部序列约束的启动子智能设计方法、装置及应用制造方法及图纸

技术编号:37444255 阅读:11 留言:0更新日期:2023-05-06 09:16
本发明专利技术公开了一种基于局部序列约束的启动子智能设计方法、装置及应用。本发明专利技术中的方法利用“侧翼序列填充”的知识

【技术实现步骤摘要】
一种基于局部序列约束的启动子智能设计方法、装置及应用


[0001]本专利技术涉及合成生物学与医疗领域,具体涉及一种基于局部序列约束的基因调控元件启动子智能设计方法、系统装置及应用。

技术介绍

[0002]基因调控元件是指包含启动子、增强子在内的一段DNA序列,能够在时间与空间上调控基因的表达量,进一步的调控细胞的生长、分裂、分化等各项生命活动。基因调控元件能够以模块化的方式放入基因线路中,独立或协作式的行使调控基因表达量的功能,是合成生命系统的基础单元,在基因治疗、代谢通路优化、疫苗生产等领域具有广泛应用。
[0003]天然的基因调控元件是从天然基因组上截取的一段能够调控基因表达的DNA片段,已应用于合成基因线路的构建。然而天然元件在性能及数量上不足以满足基因线路构建的需求:一方面来看,天然元件是生命为满足自身生长发育进化而来,无法满足人们不断增长的性能需求;更为重要的是,使用天然元件会导致同源重组现象,从而导致基因组的不稳定,影响产物的产量与质量。若能设计多样且性能优良的合成基因元件,对合成基因线路的构建,满足应用端的需求具有重要意义。
[0004]传统的基因调控元件设计方法主要依赖于较强的生物学先验知识,如转录因子结合位点(TFBS)和核小体排布。这些序列通常被认为是顺式调控逻辑的核心,基因调控的关键部分。然而,最近的研究表明,基因调控元件的调控模式在很大程度上隐含的取决于TFBS和它们的侧翼区域的相互作用。这些普遍的弱调控模式包括TFBS与其侧翼区域之间的潜在依赖性,各区域之间的长距离调控,或物理化学性质的限制。这些弱调控模式由于在序列之中隐含表示,无法概括为简明的设计标准,但是忽略这些隐式调控模式将降低基因调控的设计成功率。
[0005]近年来,智能设计策略显示出捕捉复杂模式的强大能力,在自然语言建模以及图像的表示学习中均得到成功的应用。

技术实现思路

[0006]本专利技术所要解决的技术问题是如何设计合成基因调控元件和/或如何设计合成基因启动子和/或如何设计合成多样且调控性能优良的基因调控元件和/或如何设计合成调控基因表达量高的基因启动子。
[0007]为了解决上述技术问题,本专利技术首先提供了基因调控元件智能设计的方法,所述方法可包括如下步骤:
[0008]A1)基于已知基因调控元件的共有序列和共有序列的位置信息,使用条件生成对抗网络生成基因调控元件生成模型;所述基因调控元件生成模型用于生成符合天然分布的初始基因调控元件;所述初始基因调控元件含有所述共有序列和所述共有序列的侧翼序列;
[0009]A2)基于所述已知基因调控元件序列及其对应的调控基因表达量数据作为训练
集,使用神经网络DenseNet和长短期神经网络LSTM(DenseNet

LSTM网络)构建基因调控元件调控性能预测模型;所述基因调控元件调控性能预测模型用于预测所述初始基因调控元件的调控性能;
[0010]A3)使用基于种群交叉与变异的遗传算法对所述基因调控元件生成模型和基因调控元件调控性能预测模型进行循环优化,获得包含基因调控元件生成模型和基因调控元件调控性能预测模型的基因调控元件智能设计模型;使用所述基因调控元件智能设计模型设计获得基因调控元件。
[0011]上述方法中,所述预测调控性能可包括预测调控基因表达量。所述基因调控元件的预测调控性能可高于所述已知基因调控元件。
[0012]所述基因调控元件来源于所述初始基因调控元件序列;所述基因调控元件在所述初始基因调控元件序列中可预测为具有最高的调控性能。
[0013]所述侧翼序列可由N组成,所述N可为A、T、C和G中的任一种核苷酸。
[0014]上述方法中,A2)还可包括对所构建的基因调控元件调控性能预测模型的调控性能预测优化的步骤:基于条件生成对抗网络模型和注意力机制来捕捉所述已知基因调控元件的长程调控功能以实现基因调控元件调控性能预测的优化。
[0015]所述优化可通过包括如下步骤的方法建立:使用条件生成对抗网络(conditional Generative adversarial network,cGAN)模型中的生成器和判别器中加入注意力机制来学习所述已知基因调控元件的长程调控关系,将所述长程调控关系加入预测所述基因调控元件的调控性能。
[0016]上述方法中,所述共有序列可为已知诱导型基因调控元件的共有序列,所述基因调控元件可为诱导型基因调控元件,所述预测调控性能可为预测调控基因表达量。
[0017]所述共有序列也可为已知组成型基因调控元件的共有序列,所述基因调控元件可为组成型基因调控元件所述调控性能可为调控基因表达量。
[0018]上述方法中,所述基因调控元件可为启动子。
[0019]上述方法中,所述已知诱导型基因调控元件可为大肠杆菌IPTG诱导型启动子和/或哺乳动物dox诱导型启动子。所述组成型基因调控元件可为大肠杆菌常表达启动子。
[0020]为了解决上述技术问题,本专利技术还提供了基因调控元件智能设计的装置,所述装置可包括如下模块:
[0021]B1)基因调控元件生成模型构建模块:用于基于已知基因调控元件的共有序列和共有序列的位置信息,使用条件生成对抗网络生成基因调控元件的生成模型;所述基因调控元件生成模型用于生成初始基因调控元件序列;所述初始基因调控元件序列含有所述共有序列和所述共有序列的侧翼序列;
[0022]B2)基因调控元件功能预测模型构建模块:用于基于所述已知基因调控元件及其对应的调控基因表达量数据作为训练集,使用神经网络DenseNet和长短期神经网络LSTM(DenseNet

LSTM网络)构建基因调控元件调控性能预测模型;所述基因调控元件调控性能预测模型用于预测所述初始基因调控元件序列的调控性能;
[0023]B3)基因调控元件智能设计系统生成模块:用于基于种群交叉与变异的遗传算法对所述基因调控元件生成模型和基因调控元件调控性能预测模型进行循环优化,获得包含基因调控元件生成模型和基因调控元件调控性能预测模型的基因调控元件智能设计模型;
使用所述基因调控元件智能设计模型设计获得基因调控元件。
[0024]上述装置中,所述预测调控性能可为预测调控基因表达量。所述基因调控元件的预测调控性能可高于所述已知基因调控元件序列。
[0025]所述基因调控元件来源于所述初始基因调控元件序列;所述基因调控元件在所述初始基因调控元件序列中可具有最高的预测调控性能。
[0026]上述装置中,所述侧翼序列可由N组成,所述N可为A、T、C和G中的任一种核苷酸。
[0027]上述装置中,所述基因调控元件调控性能预测模型构建模块还可包括调控性能预测优化模块。所述调控性能预测优化模块用于基于条件生成对抗网络模型和注意力机制来捕捉所述基因调控元件的长程调控功能以实现基因调控元件调控性能预测的优化。
[0028]所述优化可通过包括如下步骤的方法建立:使用条件生成对抗网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基因调控元件智能设计的方法,其特征在于:所述方法包括如下步骤:A1)基于已知基因调控元件的共有序列和共有序列的位置信息,使用条件生成对抗网络生成基因调控元件生成模型;所述基因调控元件生成模型用于生成符合天然分布的初始基因调控元件序列;所述初始基因调控元件序列含有所述共有序列和所述共有序列的侧翼序列;A2)基于所述已知基因调控元件及其对应的调控基因表达量数据作为训练集,使用神经网络DenseNet和长短期神经网络LSTM构建基因调控元件调控性能预测模型;所述基因调控元件调控性能预测模型用于预测所述初始基因调控元件的调控性能;A3)使用基于种群交叉与变异的遗传算法对所述基因调控元件生成模型和基因调控元件调控性能预测模型进行循环优化,获得包含基因调控元件生成模型和基因调控元件调控性能预测模型的基因调控元件智能设计模型;使用所述基因调控元件智能设计模型设计获得基因调控元件。2.根据权利要求1所述的方法,其特征在于:A2)还包括所构建的基因调控元件调控性能预测模型的调控性能预测优化的步骤:基于条件生成对抗网络模型和注意力机制来捕捉所述已知基因调控元件的长程调控功能以实现基因调控元件调控性能预测的优化。3.根据权利要求1或2所述的方法,其特征在于:所述共有序列为已知诱导型基因调控元件的共有序列,所述基因调控元件为诱导型基因调控元件;或,所述共有序列为已知组成型基因调控元件的共有序列,所述基因调控元件为组成型基因调控元件。4.根据权利要求1

3中任一权利要求所述的方法,其特征在于:所述基因调控元件为启动子。5.基因调控元件智能设计的装置,其特征在于:所述装置包括如下模块:B1)基因调控元件生成模型构建模块:用于基于已知基因调控元件的共有序列和共有序列的位置信息,使用条件生成对抗网络生成基因调控元件的生成模型;所述基因调控元件生成模型用于生成初始基因调控元件序列;所述初始基因调控元件序列含有所述共有序列和所述共有序列的侧翼序列;B2)基因...

【专利技术属性】
技术研发人员:汪小我王昊晨许涵文张鹏程魏磊
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1