System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于生物医药大语言模型的蛋白质自然语言交互方法技术_技高网

基于生物医药大语言模型的蛋白质自然语言交互方法技术

技术编号:41127751 阅读:2 留言:0更新日期:2024-04-30 17:56
本发明专利技术提供一种基于生物医药大语言模型的蛋白质自然语言交互方法,包括:获取自然语言数据与生物语言数据,将所述自然语言数据与生物语言数据进行匹配编码构建生物医药大语言模型;从蛋白质数据库中获取蛋白质的氨基酸一维序列以及围绕蛋白质的各种对话,构建指令微调训练数据;通过所述指令微调训练数据对所述生物医药大语言模型进行训练,使蛋白质的氨基酸一维序列与生物医药大语言模型进行融合;对融合后的生物医药大语言模型进行部署,输入相关的自然语言进行提问,通过所述生物医药大语言模型输出蛋白质相关信息。本发明专利技术解决了现有技术中难以针对蛋白质结构进行自然语言对话提问的问题。

【技术实现步骤摘要】

本专利技术涉及生物医药大模型交互,尤其涉及一种基于生物医药大语言模型的蛋白质自然语言交互方法


技术介绍

1、蛋白质是生命活动的重要组成部分,参与并调节了几乎所有生物体内的生命活动(比如结构功能,催化代谢反应,免疫系统,信息传递)。蛋白质的结构与其功能密切相关:分子的功能取决于特定的三维结构;只有在正确的结构下,蛋白质才能与其他分子相互作用,发挥其功能;基于蛋白质的1d氨基酸序列进行蛋白质3d结构预测有多种方法:同源建模,蛋白质折叠动力学模拟,alphafold,rosettafold;预测复杂蛋白质的整体结构仍然是一个具有挑战性的任务;虽然alphafold2在蛋白质3d结构预测取得了巨大进展,但一些研究表明在alphafold2三分之一的预测里它的准确度并不足够高。人类对生命世界里海量的蛋白质结构和功能仍然不了解。单就人类自身的蛋白质而言,2023年最新的研究表明,对多达2百万的蛋白质还不了解。

2、相比3d结构,蛋白质1d氨基酸序列可以非常容易的得到,例如通过生物实验(比如质谱法)或者蛋白质序列分析软件(ncbi的blast、expasy的protparam)。获取蛋白质的氨基酸序列是非常常见和基本的生物信息学任务,这些1d序列对于理解蛋白质的结构和功能至关重要。但是现有技术中难以通过自然语言对话的方式,给定蛋白质1d氨基酸序列,难以针对该蛋白质进行有关功能,性质,以及潜在结构的各种提问,阻碍生物医药领域的发展。


技术实现思路

1、本专利技术提供一种基于生物医药大语言模型的蛋白质自然语言交互方法,用以解决现有技术中难以针对蛋白质结构进行自然语言对话提问的问题。

2、本专利技术提供一种基于生物医药大语言模型的蛋白质自然语言交互方法,包括:

3、获取自然语言数据与生物语言数据,将所述自然语言数据与生物语言数据进行匹配编码构建生物医药大语言模型;

4、从蛋白质数据库中获取蛋白质的氨基酸一维序列以及围绕蛋白质的各种对话,构建指令微调训练数据;

5、通过所述指令微调训练数据对所述生物医药大语言模型进行训练,使蛋白质的氨基酸一维序列与生物医药大语言模型进行融合;

6、对融合后的生物医药大语言模型进行部署,输入相关的自然语言进行提问,通过所述生物医药大语言模型输出蛋白质相关信息。

7、根据本专利技术提供的一种基于生物医药大语言模型的蛋白质自然语言交互方法,所述获取自然语言数据与生物语言数据,具体包括:

8、所述自然语言数据包括蛋白质相关的知识图谱、论文材料、专利信息以及实验数据;

9、所述生物语言数据包括分子结构、蛋白质结构以及细胞结构。

10、根据本专利技术提供的一种基于生物医药大语言模型的蛋白质自然语言交互方法,将所述自然语言数据与生物语言数据进行匹配编码构建生物医药大语言模型,具体包括:

11、对所述自然语言数据进行授权处理,对所述生物语言数据进行破译处理;

12、将处理后的自然语言数据和生物语言数据输入至多模态编码器进行编码,生成编码结果;

13、基于所述编码结果进行神经对齐与翻译,生成处理结果;

14、基于所述处理结果对预设的神经网络模型进行训练构建生物医药大语言模型。

15、根据本专利技术提供的一种基于生物医药大语言模型的蛋白质自然语言交互方法,所述从蛋白质数据库中获取蛋白质的氨基酸一维序列以及围绕蛋白质的各种对话,构建指令微调训练数据,具体包括:

16、从蛋白质数据库中获取蛋白质的氨基酸一维序列;

17、基于蛋白质的氨基酸一维序列通过预设的蛋白质语言模型学习蛋白质氨基酸一维序列中氨基酸对的相互作用模式,输出第一蛋白质序列表示;

18、将所述第一蛋白质序列表示及蛋白质氨基酸一维序列中氨基酸对的相互作用模式输入至预设的蛋白质结构预测模型,输出第二蛋白质序列表示;

19、将所述第一蛋白质序列表示和第二蛋白质序列表示联合输入至预设的神经网络转换器,得到此蛋白质的氨基酸一维序列在自然语言空间的表示,形成指令微调训练数据。

20、根据本专利技术提供的一种基于生物医药大语言模型的蛋白质自然语言交互方法,通过所述指令微调训练数据对所述生物医药大语言模型进行训练,使蛋白质的氨基酸一维序列与生物医药大语言模型进行融合,具体包括:

21、基于指令微调训练数据只训练神经网络转换器或者基于指令微调训练数据对蛋白质语言模型、蛋白质结构预测模型以及神经网络转换器均进行训练;

22、基于训练结果,使蛋白质的氨基酸一维序列与生物医药大语言模型进行融合。

23、根据本专利技术提供的一种基于生物医药大语言模型的蛋白质自然语言交互方法,所述对融合后的生物医药大语言模型进行部署,输入相关的自然语言进行提问,通过所述生物医药大语言模型输出蛋白质相关信息,具体包括:

24、将融合后的生物医药大语言模型部署至实际应用环境中;

25、基于给定的蛋白质氨基酸一维序列,向生物医药大语言模型输入自然语言进行提问,通过所述生物医药大语言模型输出蛋白质相关功能、性质以及潜在结构。

26、本专利技术还提供一种基于生物医药大语言模型的蛋白质自然语言交互系统,所述系统包括:

27、数据获取模块,用于获取自然语言数据与生物语言数据,将所述自然语言数据与生物语言数据进行匹配编码构建生物医药大语言模型;

28、指令微调模块,用于从蛋白质数据库中获取蛋白质的氨基酸一维序列以及围绕蛋白质的各种对话,构建指令微调训练数据;

29、融合模块,用于通过所述指令微调训练数据对所述生物医药大语言模型进行训练,使蛋白质的氨基酸一维序列与生物医药大语言模型进行融合;

30、应用模块,用于对融合后的生物医药大语言模型进行部署,输入相关的自然语言进行提问,通过所述生物医药大语言模型输出蛋白质相关信息。

31、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于生物医药大语言模型的蛋白质自然语言交互方法。

32、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于生物医药大语言模型的蛋白质自然语言交互方法。

33、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于生物医药大语言模型的蛋白质自然语言交互方法。

34、本专利技术提供的基于生物医药大语言模型的蛋白质自然语言交互方法,通过将生物语言数据与自然语言进行融合构建生物医药大语言模型,将蛋白质的氨基酸一维序列与生物医药大语言模型融合后,能够通过自然对话的形式进行蛋白质相关信息问答,仅需要知道蛋白质的1d氨基酸序列,就可以为研究人员提供关于该蛋白的各种信息(比如功能,结构,交互,变异,以及疾本文档来自技高网...

【技术保护点】

1.一种基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,包括:

2.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,所述获取自然语言数据与生物语言数据,具体包括:

3.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,将所述自然语言数据与生物语言数据进行匹配编码构建生物医药大语言模型,具体包括:

4.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,所述从蛋白质数据库中获取蛋白质的氨基酸一维序列以及围绕蛋白质的各种对话,构建指令微调训练数据,具体包括:

5.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,通过所述指令微调训练数据对所述生物医药大语言模型进行训练,使蛋白质的氨基酸一维序列与生物医药大语言模型进行融合,具体包括:

6.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,所述对融合后的生物医药大语言模型进行部署,输入相关的自然语言进行提问,通过所述生物医药大语言模型输出蛋白质相关信息,具体包括:

7.一种基于生物医药大语言模型的蛋白质自然语言交互系统,其特征在于,所述系统包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于生物医药大语言模型的蛋白质自然语言交互方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于生物医药大语言模型的蛋白质自然语言交互方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于生物医药大语言模型的蛋白质自然语言交互方法。

...

【技术特征摘要】

1.一种基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,包括:

2.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,所述获取自然语言数据与生物语言数据,具体包括:

3.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,将所述自然语言数据与生物语言数据进行匹配编码构建生物医药大语言模型,具体包括:

4.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,所述从蛋白质数据库中获取蛋白质的氨基酸一维序列以及围绕蛋白质的各种对话,构建指令微调训练数据,具体包括:

5.根据权利要求1所述的基于生物医药大语言模型的蛋白质自然语言交互方法,其特征在于,通过所述指令微调训练数据对所述生物医药大语言模型进行训练,使蛋白质的氨基酸一维序列与生物医药大语言模型进行融合,具体包括:

6.根据权利要求1所述的基于生物...

【专利技术属性】
技术研发人员:乔木
申请(专利权)人:北京水木分子生物科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1