System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种化学结构式提取方法、系统、设备及存储介质技术方案_技高网

一种化学结构式提取方法、系统、设备及存储介质技术方案

技术编号:40136134 阅读:7 留言:0更新日期:2024-01-23 22:53
本发明专利技术涉及一种化学结构式提取方法、系统、设备及存储介质,其中方法包括以下步骤:获取目标文档图像;使用基于深度学习的分割模型对目标文档图像进行分割;分割步骤具体为:生成用于标识各化学结构式的二进制掩码集;对目标文档图像进行二值化处理,通过分割模型预测图像中的目标化学结构式,将目标化学结构式对应的像素置为黑色,背景对应的像素置为白色,形成二值化图像;基于二值化图像更新二进制掩码集;完成分割后,基于更新后的二进制掩码集提取各个目标化学结构式的图像。

【技术实现步骤摘要】

本专利技术涉及一种化学结构式提取方法、系统、设备及存储介质,属于化学结构提取。


技术介绍

1、对于化学领域技术人员的工作来说,需要阅读大量化学类书籍和文献,其中包含的很多化合物结构信息,通常会以图片的形式表示。当看到感兴趣的化合物时,往往希望能将这些化学结构提取出来,便于使用和编辑。

2、现有技术如公开号为“cn115631507a”的专利技术专利公开了一种化学结构识别方法及识别系统,方法包括:基于历史文献资料获取包含化学结构的图像的原始数据集,并且根据原始数据集生成图像分割数据集和图像识别数据集;针对需要进行化学结构识别的文献资料,把pdf格式的文献资料都转换成若干个待识别图像,在若干个待识别图像中识别化学结构,提取化学结构图像;根据图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,通过图像识别模型识别出化学结构图像中的化学原子,以及超文本;基于化学原子和超文本,推理构建化学分子图,解析输出符合smiles或者inchi规范的化学结构式,能从pdf格式的文档中提取出机器可读格式的化学结构式。除了该专利公开的方案之外,现有技术还有如molminer,decimer等已应用于市场的化学结构式提取工具。

3、上述现有技术存在的问题是:1)并不能保证将每一个化学结构式剥离出来;2)可能2个或多个结构式同时出现在一个分割图像中,也不能避免非化学结构的组件或元素出现在分割图像中;3)需要定义不同尺度大小的anchor对图像进行扫描计算出候选区或掩码膜,这种计算通常费时,而且得到候选区域或掩码膜通常包含很多非化学结构的组件,并且候选区域通常不会和单个化学结构式完美契合,经常一个掩码膜同时包含不同化学结构式的不同部分,尤其是在化学结构式排列比较密集的情况下。这种计算候选区域来识别化学结构不够直接,即只有化学结构类的像素和非化学结构类的像素,不存在类似中间体的候选区域;4)该方法只局限于2d化学结构的识别,不能能识别3d的化学结构;5)decimer使用掩码膜然后求出中心位置坐标在向上下左右4个方向跨越阈值式扩增,效率比较低;6)decimer类后处理方法需要手动定义跨越阈值,如果值太大会导致相隔较远的不同化学结构式合并出现在同一个分割图像,如果过小,会导致扩增减弱或没扩增导致识别分割的化学结构不完整。


技术实现思路

1、为了解决上述现有技术中存在的问题,本专利技术提出了一种化学结构式提取方法、系统、设备及存储介质。

2、本专利技术的技术方案如下:

3、一方面,本专利技术提出一种化学结构式提取方法,包括以下步骤:

4、获取目标文档图像;

5、使用基于深度学习的分割模型对目标文档图像进行分割;

6、分割步骤具体为:

7、通过分割模型预测图像中的目标化学结构式,生成用于标识各化学结构式的二进制掩码集;

8、对目标文档图像进行二值化处理,将目标化学结构式对应的像素置为黑色,背景对应的像素置为白色,形成二值化图像;

9、基于二值化图像更新二进制掩码集;

10、完成分割后,基于更新后的二进制掩码集提取各个目标化学结构式的图像。

11、作为优选实施方式,所述二进制掩码集中的每一元素的位置与目标文档图像中每一像素的位置相对应;所述二进制掩码集中包含多个掩码子集,每一掩码子集对应一个目标化学结构式的像素区域。

12、作为优选实施方式,所述基于更新后的二进制掩码集提取各个目标化学结构式的图像的方法为:

13、获取目标文档图像中与更新后的二进制掩码集中的掩码位置相对应的像素位置来生成各个目标化学结构式的图像;

14、或者获取二值图像中与更新后的二进制掩码集中的掩码位置相对应的像素位置来生成各个目标化学结构式的图像。

15、作为优选实施方式,所述基于二值化图像更新二进制掩码集的步骤包括:

16、识别图像中针对每个化学结构式的至少一个像素位置并用白色掩码标记;

17、将白色掩码的位置对应的二值图像中的黑色像素设为起点,进行邻居搜索,并将新遇到的黑色邻居像素对应的位置收集起来作为新的起点并迭代下一轮邻居搜索,直至没有新的邻居产生,此时在二进制掩码集中,将收集到的所有起点对应的位置更新成白色掩码,若掩码页所含任一白色掩码的位置不在起点集合中,则将该位置的白色掩码纠正更新为背景黑色掩码。

18、作为优选实施方式,在更新二进制掩码集之后,还包括步骤:

19、基于更新后的二进制掩码集,使用连接组件标记算法对二进制掩码集中不相连的白色掩码筛选为不同的组件或掩码子集;其中组件或掩码子集的高度和宽度必须同时大于等于预设的阈值,该阈值根据掩码页的尺寸调整,筛选后的每一个组件或掩码子集对应输入图像中一个完整的目标化学结构式;

20、当生成的目标化学结构式的图像数量大于1时,基于原输入图像所属文档中的页码排序和目标化学结构式的图像在图像中的位置为各目标化学结构式的图像进行命名。

21、作为优选实施方式,所述对目标文档图像进行二值化处理的步骤具体为:

22、将目标文档图像进行复制并将复制得到的副本转换为灰度图像;

23、对灰度图像进行缩放处理,使其与更新后的二进制掩码集的张量处于同一尺度大小;

24、对缩放后的灰度图像进行腐蚀处理去除图像中的噪声;

25、对经腐蚀处理的灰度图像进行二值化处理以获得二值化图像;

26、对二值化后图像进行膨胀处理使得目标化学结构式中的各元素符号和化学键相连。

27、作为优选实施方式,还包括以下步骤:

28、获取提取到的各个目标化学结构式的图像的分辨率;

29、当各个目标化学结构式的图像的分辨率低于预设的分辨率阈值时,对各个目标化学结构式的图像进行上采样处理生成超分辨率图像。

30、另一方面,本专利技术还提出一种化学结构式提取系统,包括:

31、原始图像获取模块,用于获取目标文档图像;

32、图像分割模块,使用基于深度学习的分割模型对目标文档图像进行分割;

33、图像分割模块具体包括:

34、掩码集生成单元,通过分割模型预测图像中的目标化学结构式,生成用于标识各化学结构式的二进制掩码集;

35、二值化处理单元,用于对目标文档图像进行二值化处理,将目标化学结构式对应的像素置为黑色,背景对应的像素置为白色,形成二值化图像;

36、掩码更新单元,基于二值化图像更新二进制掩码集;

37、化学结构式图像提取模块,基于更新后的二进制掩码集提取各个目标化学结构式的图像。

38、再一方面,本专利技术还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术任一实施例所述的化学结构式提取方法。

39、再一方面,本专利技术还提出一种计算机可读存储介本文档来自技高网...

【技术保护点】

1.一种化学结构式提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种化学结构式提取方法,其特征在于:

3.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述基于更新后的二进制掩码集提取各个目标化学结构式的图像的方法为:

4.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述基于二值化图像更新二进制掩码集的步骤包括:

5.根据权利要求4所述的一种化学结构式提取方法,其特征在于,在更新二进制掩码集之后,还包括步骤:

6.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述对目标文档图像进行二值化处理的步骤具体为:

7.根据权利要求1所述的一种化学结构式提取方法,其特征在于,还包括以下步骤:

8.一种化学结构式提取系统,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的化学结构式提取方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一项所述的化学结构式提取方法。

...

【技术特征摘要】

1.一种化学结构式提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种化学结构式提取方法,其特征在于:

3.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述基于更新后的二进制掩码集提取各个目标化学结构式的图像的方法为:

4.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述基于二值化图像更新二进制掩码集的步骤包括:

5.根据权利要求4所述的一种化学结构式提取方法,其特征在于,在更新二进制掩码集之后,还包括步骤:

6.根据权利要求1所述的一种化学结构式提...

【专利技术属性】
技术研发人员:唐博文牛张明张龙黄俊杰王晓枫马超江荧辉肖祥路晋旭锐
申请(专利权)人:杭州德睿智药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1