System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的转录因子结合位点预测方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于大语言模型的转录因子结合位点预测方法及装置制造方法及图纸

技术编号:40580670 阅读:9 留言:0更新日期:2024-03-06 17:23
本发明专利技术涉及一种基于大语言模型的转录因子结合位点预测方法及装置,属于生物信息技术领域。包括:获取待预测DNA序列,对待预测DNA序列进行预处理得到目标输入序列;将目标输入序列输入大语言模型中,输出全局特征矩阵;将全局特征矩阵输入卷积神经网络模块中,输出局部特征矩阵;将局部特征矩阵输入通道注意力模块中,输出通道强化特征矩阵;将通道强化特征矩阵输入空间注意力模块中,输出空间强化特征矩阵,将空间强化特征矩阵和局部特征矩阵进行残差连接得到强化局部特征矩阵;将强化局部特征矩阵输入全连接层,输出待预测DNA序列上存在转录因子结合位点的预测概率。本申请通过充分提取DNA序列的特征,提高了预测结果的准确性。

【技术实现步骤摘要】

本专利技术涉及生物信息,尤其是指一种基于大语言模型的转录因子结合位点预测方法、装置及计算机可读存储介质。


技术介绍

1、转录因子(tfs)是能够特异性结合基因上游核苷酸序列的蛋白质,从而调控基因的转录,其通常识别6-12个碱基对长度的dna短序列,这些短序列被称为转录因子结合位点(tfbss)。转录因子结合位点的准确预测有利于研究转录因子的工作原理和生理作用,有助于设计和构建基于转录因子的代谢调控系统,推进代谢工程和合成生物学的发展。此外,还有研究表明转录因子结合位点的变异可能会导致一些严重疾病发生,因此,转录因子结合位点的预测具有重要的科学与应用价值。

2、随着测序工作的不断推荐和高通量测序技术的发展,染色质免疫沉淀测序(chip-seq)和选择性微流体基础的配体富集测序(smile-seq)等实验方法都可以在生物体内得到与蛋白质结合的dna序列片段。然而,上述方法通常昂贵,费时费力且高度依赖实验条件,因此,迫切需要设计经济高效、准确快速的计算方法。近年来,机器学习和深度学习在生物信息学中得到广泛关注,在预测基因表达、药物发现和预测蛋白质功能等领域取得重大突破。目前,已有利用隐马尔可夫模型(hmm)、支持向量机(svm)和随机森林等传统机器学习方法预测蛋白质能否与dna结合,但是传统机器学习方法的性能受限于手工设计的特征,存在重要特征遗漏或不相关特征被提取的问题。

3、基于上述原因,目前越来越多方法利用深度学习进行转录因子结合位点预测,例如:deepbind和deepsea模型利用独热编码和卷积神经网络学习dna序列特征预测转录因子结合位点,但是由于dna序列中相邻碱基之间互相影响,而卷积神经网络无法捕捉dna序列中的上下文信息,因此这种方法提取的特征信息并不全面,使得预测结果不够准确;hocnn模型利用高阶编码核苷酸和多尺度卷积层的方法能够更深入的提取到dna序列的上下文信息,但是这种方法并未关注dna序列中的局部特征,导致预测结果的准确性仍然较低。

4、综上所述,现有的转录因子结合位点预测方法由于未充分提取dna序列中的特征信息,导致对于该dna序列中是否存在转录因子结合位点的预测结果准确性较低。


技术实现思路

1、为此,本专利技术所要解决的技术问题在于克服现有技术中的转录因子结合位点预测方法由于未充分提取dna序列中的特征信息,导致对于该dna序列中是否存在转录因子结合位点的预测结果准确性较低。

2、为解决上述技术问题,本专利技术提供了一种基于大语言模型的转录因子结合位点预测方法,包括:

3、获取待预测dna序列,对所述待预测dna序列进行预处理得到目标输入序列;

4、将所述目标输入序列输入至训练好的转录因子结合位点预测模型中的大语言模型中,输出全局特征矩阵;

5、将所述全局特征矩阵输入至训练好的转录因子结合位点预测模型中的卷积神经网络模块中,输出局部特征矩阵;

6、将所述局部特征矩阵输入至训练好的转录因子结合位点预测模型中的通道注意力模块中,输出通道强化特征矩阵;

7、将所述通道强化特征矩阵输入至训练好的转录因子结合位点预测模型中的空间注意力模块中,输出空间强化特征矩阵,将所述空间强化特征矩阵和所述局部特征矩阵进行残差连接得到强化局部特征矩阵;

8、将所述强化局部特征矩阵输入至训练好的转录因子结合位点预测模型中的全连接层,输出所述待预测dna序列上存在转录因子结合位点的预测概率。

9、在本专利技术的一个实施例中,将所述全局特征矩阵输入至训练好的转录因子结合位点预测模型中的卷积神经网络模块中,输出局部特征矩阵包括:

10、将所述全局特征矩阵输入至所述卷积神经网络模块中的第一卷积块,输出第一特征矩阵;

11、将所述第一特征矩阵输入至所述卷积神经网络模块中的第二卷积块,输出第二特征矩阵;

12、将所述第二特征矩阵输入至所述卷积神经网络模块中的第三卷积块,输出局部特征矩阵。

13、在本专利技术的一个实施例中,将所述第一特征矩阵输入至所述卷积神经网络模块中的第二卷积块,输出第二特征矩阵包括:

14、将所述第一特征矩阵输入至所述第二卷积块中的第一卷积子块,所述第一卷积子块对所述第一局部特征矩阵进行卷积运算,输出第一中间特征矩阵、第二中间特征矩阵和第三中间特征矩阵;

15、将所述第一中间特征矩阵、所述第二中间特征矩阵和所述第三中间特征矩阵输入至所述第二卷积块中的第二卷积子块;

16、所述第二卷积子块分别对所述第一中间特征矩阵、所述第二中间特征矩阵和所述第三中间特征矩阵进行卷积运算,输出第四中间特征矩阵、第五中间特征矩阵和第六中间特征矩阵;

17、将所述第四中间特征矩阵、所述第五中间特征矩阵和所述第六中间特征矩阵拼接得到第二特征矩阵。

18、在本专利技术的一个实施例中,将所述局部特征矩阵输入至训练好的转录因子结合位点预测模型中的通道注意力模块中,输出通道强化特征矩阵包括:

19、将所述局部特征矩阵输入至通道注意力模块进行全局最大池化和全局平均池化,输出第一通道特征矩阵和第二通道特征矩阵;

20、对所述第一通道特征矩阵和所述第二通道特征矩阵进行逐元素求和,输出通道注意力特征矩阵;

21、利用广播机制将所述通道注意力特征矩阵和所述局部特征矩阵进行hadamard乘积,得到通道强化特征矩阵。

22、在本专利技术的一个实施例中,所述将所述通道强化特征矩阵输入至训练好的转录因子结合位点预测模型中的空间注意力模块中,输出空间强化特征矩阵包括:

23、将所述通道强化特征矩阵输入至空间注意力模块进行全局最大池化和全局平均池化,输出空间注意力特征矩阵;

24、利用广播机制将所述空间注意力特征矩阵和所述局部特征矩阵进行hadamard乘积,得到空间强化特征矩阵。

25、在本专利技术的一个实施例中,所述大语言模型包括l个串联的编码器块,每个编码器块均由自注意力机制、层归一化、前馈网络子模块构成;

26、将所述目标输入序列输入至训练好的转录因子结合位点预测模型中的大语言模型中,输出全局特征矩阵包括:将所述目标输入序列输入至所述大语言模型中的第一个编码器块中,将第l个编码器块的输出作为全局特征矩阵;

27、其中,第l个编码器块的自注意力机制的输出为:

28、

29、其中,multihead(x(l))表示第l个编码器块的自注意力机制的输出,x(l)表示第l个编码器块输入,x(1)表示目标输入序列,h表示自注意力机制头的数量,表示第i个自注意力机制头的输出,wo,l表示输出变换矩阵;

30、

31、其中,wiq,l,wik,l,wiv,l分别表示第i个自注意力机制头的查询变换矩阵、键变换矩阵、值变换矩阵,dk表示键矩阵的维度;

32、第l个编码器块的层归一化的输出为:...

【技术保护点】

1.一种基于大语言模型的转录因子结合位点预测方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,将所述全局特征矩阵输入至训练好的转录因子结合位点预测模型中的卷积神经网络模块中,输出局部特征矩阵包括:

3.根据权利要求2所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,将所述第一特征矩阵输入至所述卷积神经网络模块中的第二卷积块,输出第二特征矩阵包括:

4.根据权利要求1所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,将所述局部特征矩阵输入至训练好的转录因子结合位点预测模型中的通道注意力模块中,输出通道强化特征矩阵包括:

5.根据权利要求1所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,所述将所述通道强化特征矩阵输入至训练好的转录因子结合位点预测模型中的空间注意力模块中,输出空间强化特征矩阵包括:

6.根据权利要求1所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,所述大语言模型包括L个串联的编码器块,每个编码器块均由自注意力机制、层归一化、前馈网络子模块构成;

7.根据权利要求1所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,转录因子结合位点预测模型的训练过程包括:

8.根据权利要求7所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,所述损失函数为:

9.一种基于大语言模型的转录因子结合位点预测装置,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的基于大语言模型的转录因子结合位点预测方法的步骤。

...

【技术特征摘要】

1.一种基于大语言模型的转录因子结合位点预测方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,将所述全局特征矩阵输入至训练好的转录因子结合位点预测模型中的卷积神经网络模块中,输出局部特征矩阵包括:

3.根据权利要求2所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,将所述第一特征矩阵输入至所述卷积神经网络模块中的第二卷积块,输出第二特征矩阵包括:

4.根据权利要求1所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,将所述局部特征矩阵输入至训练好的转录因子结合位点预测模型中的通道注意力模块中,输出通道强化特征矩阵包括:

5.根据权利要求1所述的基于大语言模型的转录因子结合位点预测方法,其特征在于,所述将所述通道强化特征矩阵输入至训练好的转录因子结合...

【专利技术属性】
技术研发人员:王锴曾炫周景文刘飞栾小丽王兴隆
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1