一种基于增强子和启动子数据预测关键转录因子的方法技术

技术编号:37627484 阅读:20 留言:0更新日期:2023-05-18 12:19
本发明专利技术公开了一种基于增强子和启动子数据预测关键转录因子的方法,其包括以下步骤:获得基因增强子序列的FASTA格式文件;根据基因转录起始位点的位置信息,获取基因启动子序列的FASTA格式文件;将基因增强子序列和启动子序列的FASTA格式文件分别导入转录因子在线预测系统PROMO,得到靶向结合增强子的转录因子和靶向结合启动子的转录因子;筛选出同时靶向结合增强子和启动子的整合转录因子;构建整合转录因子的蛋白质相互作用网络;筛选处于核心位置的转录因子作为调控基因表达的关键转录因子。本发明专利技术能够通过整合增强子和启动子数据而准确、快速地预测出调控基因表达的关键转录因子,并具有更高的预测准确性。并具有更高的预测准确性。并具有更高的预测准确性。

【技术实现步骤摘要】
一种基于增强子和启动子数据预测关键转录因子的方法


[0001]本专利技术涉及生物信息
,具体而言,涉及一种基于增强子和启动子数据预测关键转录因子的方法。

技术介绍

[0002]随着高通量测序技术的发展和表观遗传学的兴起,染色质免疫共沉淀技术及转录组等测序技术应用十分广泛,不仅有力地推动了基础研究的发展,也逐渐应用于临床医学的转化。通常,我们聚焦高通量测序分析的基本套路是通过一系列分析找到目标靶基因,而往往忽略了上游机制中起着关键作用的转录因子。转录因子可识别并结合特异的顺式调控元件调控基因转录,直接控制基因表达的时间、地点和程度,在多种疾病的发生发展中均起着至关重要的作用。然而目前仍缺少基于准确数据预测关键转录因子的方法。
[0003]增强子和启动子均属于调控基因表达的重要转录调控元件,在基因的上游交错分布。通常情况下,转录因子可以通过其DNA结构域结合基因的启动子区域,实现对基因转录的调控。但值得注意的是,哺乳动物的染色体结构是通过调控增强子和启动子之间的三维相互作用来调控基因转录的。转录因子不单与基因的启动子结合,同样受基因的增强子的显著影响,在大多数情况下,激活的增强子会招募转录因子与启动子发生互作,通过增强子

启动子的相互作用实现对基因的非线性转录调控。即增强子和启动子共同决定着基因的转录水平。而现阶段预测基因关键转录因子的方法多是仅基于基因的启动子数据,而忽略了转录因子通过上游增强子与启动子相互作用而实现对基因表达的非线性调控。因此,亟需全面利用调控元件数据更新转录因子预测技术,从而解决目前方法预测结果不准确的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种基于增强子和启动子数据预测关键转录因子的方法,本专利技术的方法能够快速预测出介导增强子和启动子调控基因表达的关键转录因子。
[0005]本专利技术提供了一种基于增强子和启动子数据预测关键转录因子的方法,包括以下步骤:
[0006]1)通过染色质免疫共沉淀测序(ChIP

Seq)或公开数据库获得基因增强子序列(具体的,人或小鼠的基因增强子序列可获取自VISTA Enhancer Browser(https://enhancer.lbl.gov/),猪的基因增强子序列可获取自Pig Genome Regulatory Element Browser(http://segtp.jxau.edu.cn/pencode/?genome=susScr11)),并通过公开数据库UCSC(https://genome.ucsc.edu/)获取基因增强子序列的FASTA格式文件;
[0007]2)根据公开数据库UCSC(https://genome.ucsc.edu/)中的基因转录起始位点位置信息,获取基因启动子序列的FASTA格式文件;
[0008]3)将基因增强子序列的FASTA格式文件导入转录因子在线预测系统PROMO
(https://alggen.lsi.upc.es/),得到靶向结合增强子的转录因子;
[0009]4)将基因启动子序列的FASTA格式文件导入转录因子在线预测系统PROMO(https://alggen.lsi.upc.es/),得到靶向结合基因启动子的转录因子;
[0010]5)筛选同时靶向结合基因增强子和启动子的转录因子;
[0011]6)将步骤5得到的转录因子导入STRING数据库(http://string

db.org/),构建转录因子的蛋白质相互作用(PPI)网络;
[0012]7)筛选在蛋白质相互作用网络中处于核心位置的转录因子作为调控基因表达的关键转录因子。
[0013]优选的,步骤2)中选择基因的Upstream 2,000bases,CDS Exons和Downstream 100bases序列生成FASTA格式文件。
[0014]优选的,步骤3)和步骤4)中预测转录因子时,将Maximum matrix dissimilarity rate设置为5%。
[0015]本专利技术中基因增强子序列、基因增强子序列的FASTA格式文件、基因启动子序列的FASTA格式文件等均是已知的,能通过相关的公开数据库直接查询获得。
[0016]本专利技术的优点在于:
[0017]1、本专利技术创新性地构建了整合基因增强子和启动子数据筛选关键转录因子的核心技术;
[0018]2、与现有仅基于基因启动子数据预测转录因子的方法相比,本专利技术通过引入增强子数据全面利用调控元件数据进行转录因子预测,有效解决了现有转录因子预测技术预测效率低,预测结果不准确的问题。
[0019]3、本专利技术中所述转录因子预测步骤均可通过在线数据系统可视化操作实现,操作上简单易行,降低了研究人员预测关键转录因子的技术门槛,具有更高的普适性;
[0020]4、本专利技术能够准确筛选出调控基因表达的关键转录因子,降低了研究人员的实验工作量及分析成本;
[0021]5、通过本专利技术所预测出的调控基因表达的关键转录因子可加深研究人员对于基因转录调控机制的探索,有利于研究人员基于关键转录因子进一步阐明疾病发生发展与转归的机制,并将进一步拓展转录因子在疾病治疗中的潜在应用价值;
附图说明
[0022]图1为本专利技术的流程图,
[0023]图2是本专利技术实施例2预测到的调控大鼠SCD基因表达的关键转录因子C/EBPβ;
[0024]图3是本专利技术实施例2的预测效果评价示意图。
[0025]具体实施方法
[0026]下面结合实施例及附图对本专利技术做进一步解释,但不限定于本专利技术。
[0027]实施例1:
[0028]本专利技术提供了一种基于增强子和启动子数据预测关键转录因子的方法,如图1所示包括以下步骤:
[0029]1)通过染色质免疫共沉淀后测序(ChIP

Seq)或公开数据库获得基因增强子序列,并通过公开数据库UCSC(https://genome.ucsc.edu/)获取基因增强子序列的FASTA格式文
件;其中,基因增强子序列的获取具体为:人或小鼠的基因增强子序列可获取自VISTA Enhancer Browser(https://enhancer.lbl.gov/);猪的基因增强子序列可获取自Pig Genome Regulatory Element Browser
[0030](http://segtp.jxau.edu.cn/pencode/?genome=susScr11);
[0031]2)根据公开数据库UCSC(https://genome.ucsc.edu/)中的基因转录起始位点位置信息,获取基因启动子序列的FASTA格式文件;
[0032]3)将基因增强子序列的FASTA格式文件导入转录因子在线预测系统PROMO(https://alggen.lsi.upc.es/),得到靶本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于增强子和启动子数据预测关键转录因子的方法,其特征在于:包括以下步骤:1)获得基因增强子序列,并通过公开数据库UCSC获取基因增强子序列的FASTA格式文件;2)根据公开数据库UCSC中的基因转录起始位点的位置信息,获取基因启动子序列的FASTA格式文件;3)将基因增强子序列的FASTA格式文件导入转录因子在线预测系统PROMO,得到靶向结合增强子的转录因子;4)将基因启动子序列的FASTA格式文件导入转录因子在线预测系统PROMO,得到靶向结合启动子的转录因子;5)筛选出同时靶向结合增强子和启动子的整合转录因子;6)将步骤5)中得到的整合转录因子导入STRING数据库中,构建整合转录因子的蛋白质相互作用网络;7)...

【专利技术属性】
技术研发人员:方皓舒朱亚玲孟蕾蕾马金虎
申请(专利权)人:安徽医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1