【技术实现步骤摘要】
本专利技术是涉及一种实现分子生成语言模型高效输出的方法和系统,属于计算机信息处理。
技术介绍
1、分子是物质的基本组成,是由多个原子以独特的化学方式(例如化学键)结合在一起所构成,保留了由其特定结构决定的独特的化学特性。通过对分子的全面了解,科学家可以有效地设计出具有不同特性和功能的材料、药物和产品,因此成为化学科学领域的重要研究对象。
2、分子生成语言模型,是指使用编码器和解码器架构的、序列到序列预测的深度学习神经网络,在特定大规模分子结构数据集上进行训练,从而具备生成与该数据集相似的新分子结构的能力,是一种重要的化学人工智能技术,可广泛应用于化学、生物、医药领域的分子设计中。
3、因分子生成语言模型是使用smiles格式的数据来表征化学分子结构,即使用smiles(simplified molecular input line entry system,简化分子线性输入规范)字符代表分子序列(词),smiles字符串代表整个分子序列(句子),因此,本领域常以分子生成语言模型所输出的分子结构数据中符合smile
...【技术保护点】
1.一种实现分子生成语言模型高效输出的方法,其特征在于,包括如下顺序步骤:
2.根据权利要求1所述的方法,其特征在于:所述的分子序列编码表是由分子生成语言模型中使用的起始字符、空字符、结束字符及所有SMILES字符,与其所对应的字符编码和字符属性所构成。
3.根据权利要求1所述的方法,其特征在于:步骤S3)是通过将起始字符编码加入到由时间步输出采样器所输出的时间步输出编码的前面,得到所述的扩展编码组。
4.根据权利要求1所述的方法,其特征在于,步骤S4)具体包括如下步骤:
5.根据权利要求1或4所述的方法,其特征在于,所
...【技术特征摘要】
1.一种实现分子生成语言模型高效输出的方法,其特征在于,包括如下顺序步骤:
2.根据权利要求1所述的方法,其特征在于:所述的分子序列编码表是由分子生成语言模型中使用的起始字符、空字符、结束字符及所有smiles字符,与其所对应的字符编码和字符属性所构成。
3.根据权利要求1所述的方法,其特征在于:步骤s3)是通过将起始字符编码加入到由时间步输出采样器所输出的时间步输出编码的前面,得到所述的扩展编码组。
4.根据权利要求1所述的方法,其特征在于,步骤s4)具体包括如下步骤:
5.根据权利要求1或4所述的方法,其特征在于,所述的时间步输出采样器均按如下规则进行输出:
6.根据权利要求1所述的方法,其特征在于,步骤s5)根...
【专利技术属性】
技术研发人员:徐挺军,
申请(专利权)人:中国科学院上海有机化学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。