化学结构式的提取方法及提取装置制造方法及图纸

技术编号:32504586 阅读:36 留言:0更新日期:2022-03-02 10:14
本公开的实施例提供一种化学结构式的提取方法和提取装置。在该提取方法中,获取包括至少一个化学结构式的图像。然后,识别至少一个化学结构式中的各个化学结构式的轮廓,并获取用于标识至少一个化学结构式的掩膜矩阵。掩膜矩阵的元素与图像的像素相对应。掩膜矩阵包括对应于所识别的化学结构式的轮廓之内的像素的候选区域。候选区域中的元素是第一元素,候选区域之外的元素是第二元素。对图像进行二值化处理以获得图像对应的二值图像。二值图像包括黑色像素和白色像素。接着,基于二值图像来调整掩膜矩阵以使得调整后的候选区域对应于图像中至少一个化学结构式所占的区域。之后,基于调整后的掩膜矩阵来生成提取出至少一个化学结构式的目标图像。个化学结构式的目标图像。个化学结构式的目标图像。

【技术实现步骤摘要】
化学结构式的提取方法及提取装置


[0001]本公开的实施例涉及计算机
,具体地,涉及化学结构式的提取方法及提取装置。

技术介绍

[0002]化学信息在各种出版物(例如,专利、文献、网页、图片等)中以文本和图像的形式传播。很多化学信息不容易由机器可读,而从文档中手动提取化学信息是一个耗时且容易出错的过程。随着化学信息量的不断增加,对化学信息的自动提取需求日益增加。例如,在一些情况下,人们可能期待从文档中自动提取出化学结构式。
[0003]化学结构式是用元素符号和短线表示化合物(或单质)分子中原子的排列和结合方式的化学式。化学结构式可以完整地绘出分子内每个原子间的化学键。多数化学结构式的结构比较复杂,符号种类繁多,且在排版时可能与其他附加信息混合排列。

技术实现思路

[0004]本文中描述的实施例提供了一种化学结构式的提取方法、提取装置以及存储有计算机程序的计算机可读存储介质。
[0005]根据本公开的第一方面,提供了一种化学结构式的提取方法。在该提取方法中,获取包括至少一个化学结构式的图像。然后,识别至少一个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种化学结构式的提取方法,包括:获取包括至少一个化学结构式的图像;识别所述至少一个化学结构式中的各个化学结构式的轮廓;获取用于标识所述至少一个化学结构式的掩膜矩阵,所述掩膜矩阵的元素与所述图像的像素相对应,所述掩膜矩阵包括对应于所识别的化学结构式的轮廓之内的像素的候选区域,所述候选区域中的元素是第一元素,所述候选区域之外的元素是第二元素;对所述图像进行二值化处理以获得所述图像对应的二值图像,所述二值图像包括黑色像素和白色像素;基于所述二值图像来调整所述掩膜矩阵以使得调整后的候选区域对应于所述图像中所述至少一个化学结构式所占的区域;以及基于调整后的掩膜矩阵来生成提取出所述至少一个化学结构式的目标图像。2.根据权利要求1所述的提取方法,其中,基于调整后的掩膜矩阵来生成提取出所述至少一个化学结构式的目标图像包括:获取所述图像中与所述掩膜矩阵的所述调整后的候选区域相对应的像素来生成所述目标图像;或者获取所述二值图像中与所述掩膜矩阵的所述调整后的候选区域相对应的像素来生成所述目标图像。3.根据权利要求1所述的提取方法,其中,基于调整后的掩膜矩阵来生成提取出所述至少一个化学结构式的目标图像包括:将所述二值图像中与所述掩膜矩阵的所述第二元素对应的像素设置成所述白色像素;获取所述图像中针对所述至少一个化学结构式的感兴趣区域;以及获取所述二值图像中与所述感兴趣区域相对应的像素来生成所述目标图像。4.根据权利要求3所述的提取方法,其中,获取所述图像中针对所述至少一个化学结构式的感兴趣区域包括:识别所述图像中针对每个化学结构式的相应感兴趣区域;基于所述调整后的掩膜矩阵来调整相应感兴趣区域以使得每个感兴趣区域包括一个化学结构式所占的区域;计算所述感兴趣区域的数量;响应于所述感兴趣区域的数量大于1,确定任意两个感兴趣区域之间的重合度;以及响应于任意两个感兴趣区域之间的重合度大于阈值...

【专利技术属性】
技术研发人员:丁红霞吴忠毅伍星余志颖徐更惟李靖李琪廖宛玲
申请(专利权)人:药渡经纬信息科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1