一种药物发现数据构建与模型训练方法技术

技术编号：41206179 阅读：8 留言：0更新日期：2024-05-07 22:32

本发明专利技术公开了一种药物发现数据构建与模型训练方法。该方法包括以下步骤：获取原始异构数据，并将原始异构数据转换为标准化文本数据；构建药物发现大型语言模型，利用标准化文本数据对药物发现大型语言模型进行训练和评估，获取训练后的药物发现大型语言模型；获取药物发现任务，并根据训练后的药物发现大型语言模型完成药物发现任务。本发明专利技术能将多种格式的药物发现数据转化为标准化文本药物数据以对大语言模型进行训练，并利用训练后的模型完成药物发现任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及药物发现领域，具体涉及一种药物发现数据构建与模型训练方法。

技术介绍

1、大型语言模型在通用的自然语言生成、图像生成和多领域理解方面表现出了显著的能力。然而，大型语言模型在药物发现这一特定专业领域的表现效果一般。这归因于缺乏特定于药物发现领域的语料库。

2、目前对药物发现的制药领域的覆盖范围有限，其知识往往分散在不同的数据格式中。总的来说，在药物发现领域有四种类型的数据格式：1)关于药物的基本信息通常以结构化格式描述；2)与药物功能相关的先进发现、证据和结论在研究论文中用文本描述；3)通过湿实验室实验测量的药物特性通常以表格格式进行记录和管理；4)药物分子的合成路线以树状结构的形式表示，以此显示迭代获得目标分子的逐步反应。

3、综上，尽管有大量的药物发现数据，但这些药物发现数据具有高度专业化、来源不同和格式不同的特性。药物发现数据的这些特性给模型训练带来了重大挑战。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的一种药物发现数据构建与模型训练方法，能将多种格式的药物发现数据转化为标准化文本药物数据以对大语言模型进行训练，并利用训练后的模型完成药物发现任务。

2、为了达到上述专利技术目的，本专利技术采用的技术方案为：

3、一种药物发现数据构建与模型训练方法，包括以下步骤：

4、s1、获取原始异构药物数据，并将原始异构药物数据转换为标准化文本药物数据；

5、s2、构建药物发现大型语言模型

6、s3、获取药物发现任务，并根据步骤s2中训练后的药物发现大型语言模型完成药物发现任务。

7、进一步地，在步骤s1中，原始异构药物数据包括结构化药物数据、文本药物数据、表格药物数据和树状药物数据。

8、进一步地，在步骤s1中，将原始异构数据转换为标准化文本数据，包括以下步骤：

9、a1、将结构化药物数据转换为标准化文本药物数据；

10、a2、将表格药物数据转化为标准化文本药物数据；

11、a3、将树状药物数据转化为标准化文本药物数据。

12、进一步地，步骤a1包括以下步骤：

13、a11、构建自然语言表达模板，并确定自然语言表达模板的必要条目；

14、a12、根据步骤a11中自然语言表达模板的必要条目对结构化药物数据进行数据提取，并将提取的数据填充至步骤a11中的自然语言表达模板，以将结构化药物数据转换为标准化文本药物数据。

15、进一步地，步骤a2包括以下步骤：

16、a21、根据表格药物数据获取表格中的药物分子数据，并根据表格中的药物分子数据计算药物分子的相似度；

17、a22、确定药物分子相似度阈值，并根据药物分子相似度阈值和步骤a21中药物分子的相似度对表格中的药物分子数据进行优化，以将表格药物数据转化为标准化文本药物数据。

18、进一步地，步骤a3包括以下步骤：

19、a31、根据树状药物数据获取树状中的药物节点数据，并根据树状药物数据构建药物节点之间的线性变换关系；

20、a32、根据步骤a31中药物节点之间的线性变换关系获取药物合成路线，根据药物合成路线和步骤a31中树状中的药物节点数据，将树状药物数据转化为标准化文本药物数据。

21、进一步地，在步骤s2中，构建药物发现大型语言模型，具体为：采用llama架构，根据药物分子smiles式特定的序列调整llama架构的词汇表以适应具有药物发现知识背景的药物发现任务，并通过使用lora插件对调整了词汇表的llama架构进行微调，以构建药物发现大型语言模型。

22、进一步地，根据药物分子smiles式特定的序列调整llama架构的词汇表，具体为：扩充llama架构的词嵌入层，并采用与llama架构相同的bpe分词算法计算药物分子知识子词以确定药物分子smiles式，并将药物分子smiles式添加至llama架构的原始词汇表之后。

23、进一步地，在步骤s2中，利用步骤s1中的标准化文本药物数据对药物发现大型语言模型进行训练和评估，评估过程采用客观指标、双转指标和专家评估指标。

24、本专利技术的有益效果为：

25、(1)本专利技术能将多种格式的药物发现数据转化为标准化文本药物数据以对大语言模型进行训练，并利用训练后的模型完成药物发现任务；

26、(2)本专利技术通过将包括结构化药物数据、文本药物数据、表格药物数据和树状药物数据的原始异构数据转换为标准化文本数据，将标准化文本数据对药物发现大型语言模型集成到药物发现大型语言模型的语料库中，并对其进行训练和评估，能在药物发现方面提供准确和专业的回复，并展示了其在药物发现问答、药物分子优化以及药物合成路线预测方面卓越的专业知识。

本文档来自技高网...

【技术保护点】

1.一种药物发现数据构建与模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种药物发现数据构建与模型训练方法，其特征在于，在步骤S1中，原始异构药物数据包括结构化药物数据、文本药物数据、表格药物数据和树状药物数据。

3.根据权利要求2所述的一种药物发现数据构建与模型训练方法，其特征在于，在步骤S1中，将原始异构数据转换为标准化文本数据，包括以下步骤：

4.根据权利要求3所述的一种药物发现数据构建与模型训练方法，其特征在于，步骤A1包括以下步骤：

5.根据权利要求3所述的一种药物发现数据构建与模型训练方法，其特征在于，步骤A2包括以下步骤：

6.根据权利要求3所述的一种药物发现数据构建与模型训练方法，其特征在于，步骤A3包括以下步骤：

7.根据权利要求1所述的一种药物发现数据构建与模型训练方法，其特征在于，在步骤S2中，构建药物发现大型语言模型，具体为：采用LLaMA架构，根据药物分子SMILES式特定的序列调整LLaMA架构的词汇表以适应具有药物发现知识背景的药物发现任务，并通过使用LoRA

8.根据权利要求7所述的一种药物发现数据构建与模型训练方法，其特征在于，根据药物分子SMILES式特定的序列调整LLaMA架构的词汇表，具体为：扩充LLaMA架构的词嵌入层，并采用与LLaMA架构相同的BPE分词算法计算药物分子知识子词以确定药物分子SMILES式，并将药物分子SMILES式添加至LLaMA架构的原始词汇表之后。

9.根据权利要求1所述的一种药物发现数据构建与模型训练方法，其特征在于，在步骤S2中，利用步骤S1中的标准化文本药物数据对药物发现大型语言模型进行训练和评估，评估过程采用客观指标、双转指标和专家评估指标。

...

【技术特征摘要】

1.一种药物发现数据构建与模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种药物发现数据构建与模型训练方法，其特征在于，在步骤s1中，原始异构药物数据包括结构化药物数据、文本药物数据、表格药物数据和树状药物数据。

3.根据权利要求2所述的一种药物发现数据构建与模型训练方法，其特征在于，在步骤s1中，将原始异构数据转换为标准化文本数据，包括以下步骤：

4.根据权利要求3所述的一种药物发现数据构建与模型训练方法，其特征在于，步骤a1包括以下步骤：

5.根据权利要求3所述的一种药物发现数据构建与模型训练方法，其特征在于，步骤a2包括以下步骤：

6.根据权利要求3所述的一种药物发现数据构建与模型训练方法，其特征在于，步骤a3包括以下步骤：

7.根据权利要求1所述的一种药物发现数据构建与模型训练方法，其特征在于，在步骤s2...

【专利技术属性】
技术研发人员：刘祥根，刘沛东，孙硕，张博，吕建成，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人