一种实现分子生成语言模型高效输出的方法和系统技术方案

技术编号:41848350 阅读:39 留言:0更新日期:2024-06-27 18:26
本发明专利技术公开了一种实现分子生成语言模型高效输出的方法和系统,所述方法包括:将起始字符转换为起始字符编码;将起始字符编码与时间步输出采样器所输出的时间步输出编码进行扩展得到扩展编码组;按照预设的并行处理批次大小、序列长度阈值和搜索阈值,对扩展编码组列表中的所有编码组进行循环扩展得到终止扩展的编码组;计算所输入的终止扩展的编码组的概率得分并按概率得分大小进行排序和取舍,得到目标编码组;将目标编码组在去除起始字符编码和结束字符编码后转换为SMILES字符串输出。本发明专利技术所述方法和系统,既可减少大量不必要的序列空间搜索,且可保证生成分子结构数据的有效性,可有效提高分子生成语言模型的性能。

【技术实现步骤摘要】

本专利技术是涉及一种实现分子生成语言模型高效输出的方法和系统,属于计算机信息处理。


技术介绍

1、分子是物质的基本组成,是由多个原子以独特的化学方式(例如化学键)结合在一起所构成,保留了由其特定结构决定的独特的化学特性。通过对分子的全面了解,科学家可以有效地设计出具有不同特性和功能的材料、药物和产品,因此成为化学科学领域的重要研究对象。

2、分子生成语言模型,是指使用编码器和解码器架构的、序列到序列预测的深度学习神经网络,在特定大规模分子结构数据集上进行训练,从而具备生成与该数据集相似的新分子结构的能力,是一种重要的化学人工智能技术,可广泛应用于化学、生物、医药领域的分子设计中。

3、因分子生成语言模型是使用smiles格式的数据来表征化学分子结构,即使用smiles(simplified molecular input line entry system,简化分子线性输入规范)字符代表分子序列(词),smiles字符串代表整个分子序列(句子),因此,本领域常以分子生成语言模型所输出的分子结构数据中符合smiles规范表达的分子结构本文档来自技高网...

【技术保护点】

1.一种实现分子生成语言模型高效输出的方法,其特征在于,包括如下顺序步骤:

2.根据权利要求1所述的方法,其特征在于:所述的分子序列编码表是由分子生成语言模型中使用的起始字符、空字符、结束字符及所有SMILES字符,与其所对应的字符编码和字符属性所构成。

3.根据权利要求1所述的方法,其特征在于:步骤S3)是通过将起始字符编码加入到由时间步输出采样器所输出的时间步输出编码的前面,得到所述的扩展编码组。

4.根据权利要求1所述的方法,其特征在于,步骤S4)具体包括如下步骤:

5.根据权利要求1或4所述的方法,其特征在于,所述的时间步输出采样器...

【技术特征摘要】

1.一种实现分子生成语言模型高效输出的方法,其特征在于,包括如下顺序步骤:

2.根据权利要求1所述的方法,其特征在于:所述的分子序列编码表是由分子生成语言模型中使用的起始字符、空字符、结束字符及所有smiles字符,与其所对应的字符编码和字符属性所构成。

3.根据权利要求1所述的方法,其特征在于:步骤s3)是通过将起始字符编码加入到由时间步输出采样器所输出的时间步输出编码的前面,得到所述的扩展编码组。

4.根据权利要求1所述的方法,其特征在于,步骤s4)具体包括如下步骤:

5.根据权利要求1或4所述的方法,其特征在于,所述的时间步输出采样器均按如下规则进行输出:

6.根据权利要求1所述的方法,其特征在于,步骤s5)根...

【专利技术属性】
技术研发人员:徐挺军
申请(专利权)人:中国科学院上海有机化学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1