一种增强大语言模型问答特定领域问题能力的方法及系统技术方案

技术编号:39424234 阅读:73 留言:0更新日期:2023-11-19 16:11
本申请涉及药物筛选技术领域,尤其涉及一种增强大语言模型问答特定领域问题能力的方法及系统,该方法包括以下步骤:采用大语言模型,从数据集中抽取关系三元组;数据集包括结构化数据和非结构化数据;基于关系三元组,构建G蛋白偶联受体的知识图谱,并将知识图谱以图数据库形式存储;知识图谱包括G蛋白偶联受体实体及其关系;采用预训练大语言模型,在图数据库中搜索特定领域相关信息,得到提示信息;特定领域为G蛋白偶联受体领域;基于提示信息和预训练大语言模型,得到回答结果;回答结果由预训练大语言模型返回至用户。本申请通过构建知识图谱,赋予大语言模型模型准确、实时的GPCRs领域知识,增强其回答GPCRs领域问题的能力。能力。能力。

【技术实现步骤摘要】
一种增强大语言模型问答特定领域问题能力的方法及系统


[0001]本申请涉及药物筛选
,尤其涉及一种增强大语言模型问答特定领域问题能力的方法及系统。

技术介绍

[0002]G蛋白偶联受体(GPCRs)超家族是人类和其他生物中最重要的蛋白质家族之一,包含800多种七跨膜(7TM)蛋白质。GPCRs的主要功能是通过检测信号分子(如5

羟色胺、乙酰胆碱等)并通过构象变化激活细胞内反应,进一步将信号从细胞外传递到细胞内。由于它们的重要功能,GPCRs已成为研究人员最受欢迎的药物靶点之一,约有40%的上市药物以这些受体为靶点。然而,由于GPCRs形成的信号网络复杂,设计针对GPCRs的药物并不容易。GPCRs的细胞外和跨膜结构域可以结合各种信号分子,以感知外部环境的变化。其下游合作伙伴包括G蛋白和G蛋白耦合受体激酶(GRKs)等,它们结合到GPCRs的细胞内结构域。根据Gα亚单位的序列,G蛋白可以进一步分为Gs、Gi/o、Gq/11和G12/13四类。因此,阐明GPCR信号传导网络将有助于理解它们的功能,并促进药物的发现研究。...

【技术保护点】

【技术特征摘要】
1.一种增强大语言模型问答特定领域问题能力的方法,其特征在于,包括以下步骤:采用大语言模型,从数据集中抽取关系三元组;所述数据集包括结构化数据和非结构化数据;基于所述关系三元组,构建G蛋白偶联受体的知识图谱,并将所述知识图谱以图数据库形式存储;所述知识图谱包括G蛋白偶联受体实体以及其与G蛋白偶联受体实体的关系;采用预训练大语言模型,在所述图数据库中搜索特定领域相关信息,得到提示信息;所述特定领域为G蛋白偶联受体领域;基于所述提示信息和预训练大语言模型,得到回答结果;所述回答结果由所述预训练大语言模型返回至用户。2.根据权利要求1所述的增强大语言模型问答特定领域问题能力的方法,其特征在于,采用大语言模型,从数据集中抽取关系三元组,包括:采用大语言模型,从所述数据集的非结构化数据中抽取结构化关系三元组,并将所述数据集的结构化数据中存储的与G蛋白偶联受体相关的信息转换为关系三元组;其中,所述非结构化数据、所述结构化数据分别通过从非结构的文本、结构化数据库中提取数据得到;所述非结构的文本包括期刊、专利、网页、书籍中的段落,以及图片中的文字信息;所述结构化数据库包括G蛋白偶联受体特异的数据库和非G蛋白偶联受体特异的数据库;其中,所述G蛋白偶联受体特异的数据库是专为存储G蛋白偶联受体信息构建的数据库;所述非G蛋白偶联受体特异的数据库是并非为存储G蛋白偶联受体信息构建的数据库。3.根据权利要求1或2所述的增强大语言模型问答特定领域问题能力的方法,其特征在于,所述结构化数据包括:UniProt编码、ChEMBL编码、受体名称、分类信息、下游信使、相关疾病、内源性配体以及上市药物;所述关系三元组包括G蛋白偶联受体在功能、信号通路、配体、疾病以及属性方面的性质。4.根据权利要求1所述的增强大语言模型问答特定领域问题能力的方法,其特征在于,所述大语言模型、所述预训练大语言模型均为经过设计与训练、且与人类反馈充分对齐的语言模型;所述大语言模型与所述预训练大语言模型相同,或所述大语言模型与所述预训练大语言模型不同;所述大语言模型为开源大语言模型、非开源大语言模型中的一种或多种。5.根据权利要求1所述的增强大语言模型问答特定领域问题能力的方法,其特征在于,所述知识图谱通过NEO4J软件以图数据库的形式存储。6.根据权利要求1所述的增强大语言模型问答特定领域问题能力的方法,其特征在于,所述大语言模型、所述...

【专利技术属性】
技术研发人员:袁曙光王世玉
申请(专利权)人:深圳阿尔法分子科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1