分子结构提取方法、装置及设备制造方法及图纸

技术编号:38228713 阅读:19 留言:0更新日期:2023-07-25 17:57
本申请涉及一种分子结构提取方法和装置、分子结构数据集设备、电子设备及计算机可读存储介质,该方法包括:获取待识别分子结构的原始图像;根据多个预设光学结构识别工具分别识别所述原始图像中的待识别分子结构,获得对应的候选分子结构;将各候选分子结构相互进行比较,当至少部分所述候选分子结构不一致时,筛选出与原始图像中的待识别分子结构接近的候选分子结构作为识别结果。本申请提供的方案,能够快速且准确地提取文献中的分子结构,节约人力资源,提高信息收集效率。提高信息收集效率。提高信息收集效率。

【技术实现步骤摘要】
分子结构提取方法、装置及设备


[0001]本申请涉及化学图像识别
,尤其涉及一种分子结构提取方法、装置及设备。

技术介绍

[0002]科学研究结果通常以文章或专利的形式发表,在合成化学、天然药物研究、药物发现以及其他诸多领域中,阅读文献是获取医药研发信息最普遍的方式。据统计,出版化学类文章的学术期刊有近万家,每年公开的新化学结构超过两万个。药物研发者可以基于文献中公开的分子结构和活性数据进行分析,进而推动下一步的药物开发工作。
[0003]然而,大量的分子结构信息是隐藏在文献当中,需要专业人员阅读文献,手动绘制分子结构,导致耗费大量的人力和时间进行汇集,效率低下。

技术实现思路

[0004]为解决或部分解决相关技术中存在的问题,本申请提供一种分子结构提取方法和装置、分子结构数据集设备、电子设备及计算机可读存储介质,能够快速且准确地提取文献中的分子结构,节约人力资源,提高信息收集效率。
[0005]本申请第一方面提供一种分子结构提取方法,其包括:
[0006]获取待识别分子结构的原始图像;
[0007]根据多个预设光学结构识别工具分别识别所述原始图像中的待识别分子结构,获得对应的候选分子结构;
[0008]将各候选分子结构相互进行比较,当至少部分所述候选分子结构不一致时,筛选出与原始图像中的待识别分子结构接近的候选分子结构作为识别结果。
[0009]在本申请的分子结构提取方法中,所述将各候选分子结构相互进行比较,包括:
[0010]对各所述候选分子结构进行同一性判别,根据判别结果是否一致设置待识别分子结构对应的判别标记。
[0011]在本申请的分子结构提取方法中,所述当至少部分所述候选分子结构不一致时,筛选出与原始图像中的待识别分子结构接近的候选分子结构作为识别结果,包括:
[0012]当所述判别标记为表示结构不一致的非一致性标记时,分别评估各所述候选分子结构与对应的原始图像中的分子结构的相似度;根据各候选分子结构与原始图像中的分子结构的相似度,将相似度最高的候选分子结构作为待识别分子结构的识别结果。
[0013]在本申请的分子结构提取方法中,所述方法还包括:
[0014]当各候选分子结构全部一致时,确定所述候选分子结构为待识别分子结构的识别结果。
[0015]在本申请的分子结构提取方法中,所述方法还包括:
[0016]按照预设结构格式,分别将各待识别分子结构的识别结果进行存储,获得分子结构数据集。
[0017]在本申请的分子结构提取方法中,所述获取待识别分子结构的原始图像,包括:
[0018]将预设格式的原始文件进行分页处理,获得对应的分页文件;将分页文件中的各待识别分子结构分割为独立的图像,分别生成待识别分子结构对应的原始图像。
[0019]在本申请的分子结构提取方法中,所述分别将分页文件中的各待识别分子结构分割为独立的图像,生成待识别分子结构的原始图像,包括:
[0020]对分页文件中的待识别分子结构进行掩码,生成对应的掩码图像;
[0021]对掩码图像中的掩码区域进行分割,生成待识别分子结构的原始图像。
[0022]在本申请的分子结构提取方法中,所述根据多个预设光学结构识别工具分别识别所述原始图像中的待识别分子结构,获得对应的候选分子结构,包括:
[0023]分别对原始图像进行矢量化处理,获得对应的矢量图;根据预设光学结构识别工具识别所述矢量图中的分子结构信息,获得对应的候选分子结构;其中,所述分子结构信息包括化学键信息、原子类型信息、电荷状态及原子连接信息。
[0024]本申请第二方面提供一种分子结构数据集设备,其存储有上述所述分子结构提取方法获得的待识别分子结构的识别结果;其中:
[0025]各所述识别结果分别与原始图像及同一性的判别结果相互映射存储。
[0026]本申请第三方面提供一种分子结构提取装置,其包括:
[0027]原始图像获取模块,用于获取待识别分子结构的原始图像;
[0028]化学结构识别模块,用于根据多个预设光学结构识别工具分别识别所述原始图像中的待识别分子结构,获得对应的候选分子结构;
[0029]结构筛选模块,用于将各候选分子结构相互进行比较,当至少部分所述候选分子结构不一致时,筛选出与原始图像中的待识别分子结构接近的候选分子结构作为识别结果。
[0030]本申请第四方面提供一种电子设备,包括:
[0031]处理器;以及
[0032]存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
[0033]本申请第五方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
[0034]本申请提供的技术方案可以包括以下有益效果:
[0035]本申请的技术方案,可以通过多个不同的预设光学结构识别工具分别对待识别分子结构的原始图像进行识别,获得对应数量的候选分子结构后,通过相互比较以判别各候选分子结构是否一致,并在不一致的情形下,将候选分子结构与原始图像中的分子结构进行比较以筛选出最终的识别结果。这样的设计,无需人工逐个翻阅文献进行手动绘制,提升信息收集效率,降低人力成本;同时,通过多种光学结构识别工具进行识别并在输出结构不一致的前提下,比较筛选出结构更接近的候选分子结构作为最终的识别结果,从而提高分子结构识别的准确率和可靠性。
[0036]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0037]通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其他目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
[0038]图1是本申请示出的分子结构提取方法的流程示意图;
[0039]图2是本申请一具体实例示出的分子结构提取方法的流程示意图;
[0040]图3是图2示出的分子结构提取方法的另一种流程示意图;
[0041]图4是图2示出的分子结构提取方法的部分流程示意图;
[0042]图5是本申请示出的分子结构提取装置的结构示意图;
[0043]图6是本申请一具体实例示出的分子结构提取装置的结构示意图;
[0044]图7是本申请示出的电子设备的结构示意图。
具体实施方式
[0045]下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
[0046]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分子结构提取方法,其特征在于,包括:获取待识别分子结构的原始图像;根据多个预设光学结构识别工具分别识别所述原始图像中的待识别分子结构,获得对应的候选分子结构;将各候选分子结构相互进行比较,当至少部分所述候选分子结构不一致时,筛选出与原始图像中的待识别分子结构接近的候选分子结构作为识别结果。2.根据权利要求1所述的方法,其特征在于,所述将各候选分子结构相互进行比较,包括:对各所述候选分子结构进行同一性判别,根据判别结果是否一致设置待识别分子结构对应的判别标记。3.根据权利要求2所述的方法,其特征在于,所述当至少部分所述候选分子结构不一致时,筛选出与原始图像中的待识别分子结构接近的候选分子结构作为识别结果,包括:当所述判别标记为表示结构不一致的非一致性标记时,分别评估各所述候选分子结构与对应的原始图像中的分子结构的相似度;根据各候选分子结构与原始图像中的分子结构的相似度,将相似度最高的候选分子结构作为待识别分子结构的识别结果。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当各候选分子结构全部一致时,确定所述候选分子结构为待识别分子结构的识别结果。5.根据权利要求1或4所述的方法,其特征在于,所述方法还包括:按照预设结构格式,分别将各待识别分子结构的识别结果进行存储,获得分子结构数据集。6.根据权利要求1所述的方法,其特征在于,所述获取待识别分子结构的原始图像,包括:将预设格式的原始文件进行分页处理,获得对应的分页文件;将分页文件中的各待识别分子结构分割为独立的图像,分别生成待识别分子结构对应的原始图像。7.根据权利要求6所述的方法,其特征在于,所述分别将分页文件中的各待识别分子结构分割为独立的图像,生成待识别分子结构的原始图像,包...

【专利技术属性】
技术研发人员:张启花陈照强
申请(专利权)人:深圳晶泰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1