一种面向化学结构式识别的数据集构建方法和装置制造方法及图纸

技术编号:38770063 阅读:14 留言:0更新日期:2023-09-10 10:43
本发明专利技术涉及结构式识别技术领域,公开了一种面向化学结构式识别的数据集构建方法和装置,方法包括:获取化学结构式的文本表示形式预处理后构建仿真训练数据集,基于其得到基准识别模型;获取公开文献中化学结构式图像,对其预设处理后送入基准识别模型进行预测及后处理;将后处理预测结果与预设化合物数据库数据进行相似度计算,并与预设匹配阈值比较后确定目标训练数据,将其输入基准识别模型进行训练,得到对应迭代模型及预测结果;对预测结果重复进行后处理及相似度匹配过滤,得到更新的目标训练数据用于迭代模型的迭代优化,直至满足预设要求时得到最终的化学结构式识别数据集。本发明专利技术能够提供大规模化学结构式识别数据集来提升模型识别效果。集来提升模型识别效果。集来提升模型识别效果。

【技术实现步骤摘要】
一种面向化学结构式识别的数据集构建方法和装置


[0001]本专利技术涉及结构式识别
,具体涉及一种面向化学结构式识别的数据集构建方法和装置。

技术介绍

[0002]药物的研发数据多达数千至数万页,而且这些海量的原始数据是以各种各样的形式散落在不同的地方,如文献、专利、网页、图片和纸质印刷物等。如何在非结构化或信息不完整的海量研发原始数据中快速获取真正有参考价值的“有效数据”,并构建大规模完善且高质量的数据集是药物研发人员所面临的巨大挑战。
[0003]在期刊和专利等出版物中,有机化合物通常以化学分子结构式的图片形式来表示。基于文献数据人工抽取并标注真实图像分子数据,需要相关人员具备较强的专业,存在标注效率低、耗时长、经济成本高,难以产出深度学习依赖的大规模训练数据的问题。因此,自动从此类图像文件中识别成化学结构,可以使化学家快速地获取有参考价值的“化学数据”。这类“化学数据”可以是用于表示药物的基于文本的表示形式,比如SMILES(Simplified Molecular Input Line Entry System)、InChIKey(International Chemical Identifier)以及SELFIES(SELF

referencIng Embedded Strings)等。也可以是包含了有关分子的原子、键、连接性和坐标信息的MOL文本文件。ChEMBL、PubChem等大型的、开放访问的药物发现数据库可供检索的化合物分别有190w+以及11100w+。大部分公开数据库都未能构建完整的匹配信息。例如PubChem数据库,只存储了文献索引以及该文献中出现的所有结构式“化学数据”的列表,用户无法根据该数据库中的信息定位到某个结构式在对应文献中的位置以及结构式的原始图像。
[0004]当前,化学分子结构式识别的数据集的来源,可以分为利用RDKit等工具自动构造生产等仿真数据,以及从文献数据人工标注真实图像分子数据两类。RDKit工具箱可以自动生成各种样式的标注良好的化学图像,同时对生成的结构式图像支持多种增强操作,如旋转、减小键的宽度、增加噪声等。通过RDKit等工具自动构造数据的优点是可以大规模自动构建、成本低、速度快,其显著不足是缺乏严格的标准评估数据集,其仿真合成的数据和真实文献中的分子图像分布差异大,导致训练的化学分子结构识别模型应用于真实文献处理时效果差,且识别效果在不同的数据集上参差不齐,不足以满足实际数据生产的需求。
[0005]从真实文献中抽取数据的光学化学分子结构式识别(Optical Chemical Structure Recognition, OCSR)算法,OCSR算法旨在将化学分子结构图像解码为机器可读的分子格式,比如SMILES。然而,如何准确识别真实文献中的分子结构仍然是一个存在挑战问题。自1990年以来,已经建立了多个开源或者闭源基于规则的OCSR识别方法和系统。这些系统基于基本类似的规则实现OCSR识别功能,包括图像矢量化、图像细化、线条增强、基于文本的光学字符识别和图形重建等,对与训练数据对依赖程度较低。其中,化学文献数据抽取CLiDE是Keymodule公司开发的一个商业OCSR工具箱,已集成到ChemAxon软件中。Filippov和Nicklaus发布了第一个名为光学结构识别应用程序(OSRA)的开源系统。Imago
和MOLVec作为两款开源系统,同样为研究人员提供了分子结构识别的功能。基于规则的方法其特点是速度快、对数据依赖程度低,但是方法的鲁棒性差,对包含大量噪声或图像质量不高的真实文献分子效果表现一般。
[0006]得益于深度学习方法和硬件的发展,图像识别技术有了巨大的进步。DECIMER基于Transfrmer和深度学习,将各种化学结构式图像转换为SELFIES字符串,大幅提升了识别效果;拜耳的研究人员开发了另一种基于翻译的方法Img2MOL,可用于识别手绘结构式;ChemGrapher使用基于原子、键和电荷的分割神经网络来预测化学结构式图像中每个像素的所属类型,然后构建包含位置信息的结构式图。在这项工作之后,ABC

Net应用了分而治之的分割策略来提高识别性能。最新的工作包括SwinOCSR方法,它使用大规模仿真数据,训练基于Swin Transformer的深度学习模型,在仿真数据上取得了很好的端到端效果,但是在真实数据上的准确率只有24%,同时不支持还原原图的点边位置和分子图片。MIT提出的MOLScribe方法,同样基于Swin Transformer,引入了对点边类型和坐标位置的学习,能够还原原图的点边位置和分子图片。MOLScribe主要使用了基于SMILES转成的MOL文件生成的仿真数据,以及USPTO专利的图片和MOL文件对数据,数据年份最新为2009年,不包含最新的专利数,其它世专、欧专等专利来源数据,以及期刊数据,同时不支持马库斯式(Markush)的识别、特别是R基团的识别。
[0007]当前,基于大规模仿真数据训练的化学结构式识别OCSR模型,在真实期刊/专利等文献上的识别效果欠佳。通过引入小规模的真实标注数据,能够一定程度提升模型识别效果,但是受限于人力和标注成本,无法构建大规模真实文献分子结构式识别训练数据集来提升其识别效果,从而无法达到理想效果。

技术实现思路

[0008]有鉴于此,本专利技术提供了一种面向化学结构式识别的数据集构建方法和装置,可高效、稳定、持续地自动化标注化学结构式数据,为OCSR模型提供大规模高质量的真实文献化学结构式识别训练数据集,并根据得到的数据迭代优化OCSR模型,提升化学结构式的识别效果,以解决上述
技术介绍
中提到的问题。
[0009]第一方面,本专利技术实施例提供一种面向化学结构式识别的数据集构建方法,方法包括:从预设化合物数据库中获取化学结构式的文本表示形式,对其进行预处理后用于构建仿真训练数据集;基于仿真训练数据集训练化学结构式的预设识别模型,得到基准识别模型;获取公开文献中的化学结构式图像数据,对图像数据进行预设处理后送入基准识别模型进行预测,输出化学结构式预测结果并对其进行后处理;将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据;利用目标训练数据输入基准识别模型进行训练,得到对应迭代模型并输出相应的迭代模型预测结果;将迭代模型预测结果进行后处理及与预设化合物数据库中的化学结构式数据相
似度匹配过滤后,得到更新的目标训练数据并将其输入迭代模型进行迭代优化训练,直至满足预设要求时停止训练,得到最终的目标训练数据,作为化学结构式识别的数据集。
[0010]本专利技术的面向化学结构式识别的数据集构建方法,能够高效、稳定、持续地自动化标注化学结构式数据,为化学结构式识别OCSR模型提供大规模高质量的真实文献化学结构式识别训练数据集,并根据得到的数据迭代优化OCSR模型,提升化学结构式的识别效果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向化学结构式识别的数据集构建方法,其特征在于,所述方法包括:从预设化合物数据库中获取化学结构式的文本表示形式,对其进行预处理后用于构建仿真训练数据集;基于仿真训练数据集训练化学结构式的预设识别模型,得到基准识别模型;获取公开文献中的化学结构式图像数据,对所述图像数据进行预设处理后送入基准识别模型进行预测,输出化学结构式预测结果并对其进行后处理;将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据;利用所述目标训练数据输入所述基准识别模型进行训练,得到对应迭代模型并输出相应的迭代模型预测结果;将迭代模型预测结果进行后处理及与预设化合物数据库中的化学结构式数据相似度匹配过滤后,得到更新的目标训练数据并将其输入迭代模型进行迭代优化训练,直至满足预设要求时停止训练,得到最终的目标训练数据,作为化学结构式识别的数据集。2.根据权利要求1所述的面向化学结构式识别的数据集构建方法,其特征在于,所述化学结构式的文本表示形式为SMILES数据,对其进行预处理后用于构建仿真训练数据集的过程,包括:利用预设工具对SMILES数据进行处理得到其对应的化学结构式图像数据和MOL文件数据,其中,化学结构式图像数据包括化学结构式图片和位置,MOL文件数据包括化学结构式点边的类型和坐标位置;基于SMILES数据、化学结构式图像数据和MOL文件数据构建仿真训练数据集,仿真训练数据集的形式为化学结构式图片和位置、SMILES和点边的类型和坐标位置的预设组合形式。3.根据权利要求1所述的面向化学结构式识别的数据集构建方法,其特征在于,所述获取公开文献中的化学结构式图像数据,对所述图像数据进行预设处理后送入基准识别模型进行预测的过程,包括:获取公开文献中的化学结构式图像数据并将其进行拆分,得到多个单页图像;将多个单页图像输入结构式检测模型进行化学结构式的检测,得到对应的化学结构式的位置信息,记录文献索引和对应的化学结构式图片和位置,所述文献索引为每个单页图像的页码标记信息;基于化学结构式的位置信息对其对应单页图像进行图像截取,得到截取的结构式图像,并将其送入基准识别模型进行预测。4.根据权利要求2所述的面向化学结构式识别的数据集构建方法,其特征在于,所述后处理是对预测结果进行化学结构式的规范化处理的过程,包括:获取基准识别模型预测识别后得到的预测结构式图像;基于预设工具对预测结构式图像进行处理,得到对应规范化的化学结构式的SMILES数据和规范化的包括化学结构式点边的类型和坐标位置的MOL文件数据。5.根据权利要求4所述的面向化学结构式识别的数据集构建方法,其特征在于,所述将后处理的化学结构式预测结果与预设化合物数据库中的化学结构式数据进行相似度匹配
计算,将匹配计算结果与预设匹配阈值进行比较,并根据比较结果确定对应满足要求的目标训练数据的过程,包括:基于模型的预测置信度将经过后处理得到的预测结果进行排序,选取TopK的数据作为可信数据;对可信数据中预测得到的SMI...

【专利技术属性】
技术研发人员:田振华王晗陶恒
申请(专利权)人:北京望石智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1