一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法技术

技术编号:42376301 阅读:56 留言:0更新日期:2024-08-16 15:00
本发明专利技术公开了一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,涉及生物技术数据研究领域。该方法先获取转录因子序列数据集,并分为训练集和测试集;再通过AutoTokenizer将所有序列填充或裁剪处理到相同长度和标记化;最后使用BertForSequenceClassification加载预训练的ProtBERT模型进行序列分类。该方法能够捕捉序列中的深层次特征和复杂的依赖关系,Dropout层的应用增强了模型在新数据上的泛化能力,线性分类层将模型的输出转换为类别概率,在进行偏好结合甲基化DNA的转录因子分类中具有较高的准确度和可靠性;与传统的基于序列的预测技术相比,通过结合大模型技术,提升了处理效率,且自适应地学习序列的内在特征,提高了预测准确度、敏感性、特异性、Matthews相关系数和ROC曲线下面积等指标。

【技术实现步骤摘要】

本专利技术涉及生物技术数据研究领域,特别涉及一种基于protbert的甲基化dna偏好结合转录因子识别方法。


技术介绍

1、转录因子是一种调控基因表达的dna结合蛋白。转录因子通过在三维基因组的形成过程中介导dna序列间的长距离相互作用,引导tad与环形结构的形成、a-b区域的转换及核的重新定位,从而影响转录调控。转录调控机制在细胞过程中发挥重要功能,影响癌症发展及植物产量等方面。

2、传统观点认为转录因子倾向于结合未甲基化的dna,而cpg二核苷酸的高水平甲基化则阻碍其结合。近期的研究表明,众多转录因子,如klf4、tet、cebpa和zfp57,更倾向于与甲基化dna结合,并且显著调节基因表达,促进转录启动及rna剪接。

3、甲基化dna与转录因子间具体的相互作用及其功能尚不明确,识别偏好结合甲基化dna的转录因子和揭示相互作用机制对于理解甲基化介导的生物过程及相关疾病具有重要意义。

4、目前,通过串联质谱法、功能性蛋白微阵列、dna微阵列、chip-bs-seq及ht-selex等高通量实验方法,可以识别偏好结合甲本文档来自技高网...

【技术保护点】

1.一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,其特征在于,所述步骤S1中,对序列数据集的处理中,包括对偏好甲基化DNA的转录因子和偏好非甲基化DNA的转录因子的处理,处理步骤包括:

3.根据权利要求1所述的一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,其特征在于,在所述步骤S2中,根据转录因子的分布情况,设定一个统一的目标长度,覆盖大多数序列长度,对于长度超过目标长度的序列,将其从末端裁剪;对于长度小于目标长度...

【技术特征摘要】

1.一种基于protbert的甲基化dna偏好结合转录因子识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于protbert的甲基化dna偏好结合转录因子识别方法,其特征在于,所述步骤s1中,对序列数据集的处理中,包括对偏好甲基化dna的转录因子和偏好非甲基化dna的转录因子的处理,处理步骤包括:

3.根据权利要求1所述的一种基于protbert的甲基化dna偏好结合转录因子识别方法,其特征在于,在所述步骤s2中,根据转录因子的分布情况,设定一个统一的目标长度,覆盖大多数序列长度,对于长度超过目标长度的序列,将其从末端裁剪;对于长度小于目标长度的序列,通过添加特定的填充标记[pad]到序列的规定位置,将每个转录因子序列分解成基本单位氨基酸,根据定义的词汇表映射为模型可识别的数值标识符,并在序列的开头和结尾分别添加特殊标记[cls]和[sep],用于表示整个序列的开始和结束。

4.根据权利要求1所述的一种基于protbert的甲基化dna偏好结合转录因子识别方法,其特征在于,在所述步骤s3中,使用bertfor...

【专利技术属性】
技术研发人员:罗锡梅李艳超王彦苏邹权
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1