【技术实现步骤摘要】
本专利技术涉及生物技术数据研究领域,特别涉及一种基于protbert的甲基化dna偏好结合转录因子识别方法。
技术介绍
1、转录因子是一种调控基因表达的dna结合蛋白。转录因子通过在三维基因组的形成过程中介导dna序列间的长距离相互作用,引导tad与环形结构的形成、a-b区域的转换及核的重新定位,从而影响转录调控。转录调控机制在细胞过程中发挥重要功能,影响癌症发展及植物产量等方面。
2、传统观点认为转录因子倾向于结合未甲基化的dna,而cpg二核苷酸的高水平甲基化则阻碍其结合。近期的研究表明,众多转录因子,如klf4、tet、cebpa和zfp57,更倾向于与甲基化dna结合,并且显著调节基因表达,促进转录启动及rna剪接。
3、甲基化dna与转录因子间具体的相互作用及其功能尚不明确,识别偏好结合甲基化dna的转录因子和揭示相互作用机制对于理解甲基化介导的生物过程及相关疾病具有重要意义。
4、目前,通过串联质谱法、功能性蛋白微阵列、dna微阵列、chip-bs-seq及ht-selex等高通量实验方法
...【技术保护点】
1.一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,其特征在于,所述步骤S1中,对序列数据集的处理中,包括对偏好甲基化DNA的转录因子和偏好非甲基化DNA的转录因子的处理,处理步骤包括:
3.根据权利要求1所述的一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,其特征在于,在所述步骤S2中,根据转录因子的分布情况,设定一个统一的目标长度,覆盖大多数序列长度,对于长度超过目标长度的序列,将其从末端裁剪;
...【技术特征摘要】
1.一种基于protbert的甲基化dna偏好结合转录因子识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于protbert的甲基化dna偏好结合转录因子识别方法,其特征在于,所述步骤s1中,对序列数据集的处理中,包括对偏好甲基化dna的转录因子和偏好非甲基化dna的转录因子的处理,处理步骤包括:
3.根据权利要求1所述的一种基于protbert的甲基化dna偏好结合转录因子识别方法,其特征在于,在所述步骤s2中,根据转录因子的分布情况,设定一个统一的目标长度,覆盖大多数序列长度,对于长度超过目标长度的序列,将其从末端裁剪;对于长度小于目标长度的序列,通过添加特定的填充标记[pad]到序列的规定位置,将每个转录因子序列分解成基本单位氨基酸,根据定义的词汇表映射为模型可识别的数值标识符,并在序列的开头和结尾分别添加特殊标记[cls]和[sep],用于表示整个序列的开始和结束。
4.根据权利要求1所述的一种基于protbert的甲基化dna偏好结合转录因子识别方法,其特征在于,在所述步骤s3中,使用bertfor...
【专利技术属性】
技术研发人员:罗锡梅,李艳超,王彦苏,邹权,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。