一种化学结构式提取方法、系统、设备及存储介质技术方案

技术编号:40136134 阅读:23 留言:0更新日期:2024-01-23 22:53
本发明专利技术涉及一种化学结构式提取方法、系统、设备及存储介质,其中方法包括以下步骤:获取目标文档图像;使用基于深度学习的分割模型对目标文档图像进行分割;分割步骤具体为:生成用于标识各化学结构式的二进制掩码集;对目标文档图像进行二值化处理,通过分割模型预测图像中的目标化学结构式,将目标化学结构式对应的像素置为黑色,背景对应的像素置为白色,形成二值化图像;基于二值化图像更新二进制掩码集;完成分割后,基于更新后的二进制掩码集提取各个目标化学结构式的图像。

【技术实现步骤摘要】

本专利技术涉及一种化学结构式提取方法、系统、设备及存储介质,属于化学结构提取。


技术介绍

1、对于化学领域技术人员的工作来说,需要阅读大量化学类书籍和文献,其中包含的很多化合物结构信息,通常会以图片的形式表示。当看到感兴趣的化合物时,往往希望能将这些化学结构提取出来,便于使用和编辑。

2、现有技术如公开号为“cn115631507a”的专利技术专利公开了一种化学结构识别方法及识别系统,方法包括:基于历史文献资料获取包含化学结构的图像的原始数据集,并且根据原始数据集生成图像分割数据集和图像识别数据集;针对需要进行化学结构识别的文献资料,把pdf格式的文献资料都转换成若干个待识别图像,在若干个待识别图像中识别化学结构,提取化学结构图像;根据图像识别数据集,分别生成图像识别学习数据集和图像识别测试数据集,通过图像识别模型识别出化学结构图像中的化学原子,以及超文本;基于化学原子和超文本,推理构建化学分子图,解析输出符合smiles或者inchi规范的化学结构式,能从pdf格式的文档中提取出机器可读格式的化学结构式。除了该专利公开的方案之外,现有技术还有本文档来自技高网...

【技术保护点】

1.一种化学结构式提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种化学结构式提取方法,其特征在于:

3.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述基于更新后的二进制掩码集提取各个目标化学结构式的图像的方法为:

4.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述基于二值化图像更新二进制掩码集的步骤包括:

5.根据权利要求4所述的一种化学结构式提取方法,其特征在于,在更新二进制掩码集之后,还包括步骤:

6.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述对目标文档图像进行...

【技术特征摘要】

1.一种化学结构式提取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种化学结构式提取方法,其特征在于:

3.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述基于更新后的二进制掩码集提取各个目标化学结构式的图像的方法为:

4.根据权利要求1所述的一种化学结构式提取方法,其特征在于,所述基于二值化图像更新二进制掩码集的步骤包括:

5.根据权利要求4所述的一种化学结构式提取方法,其特征在于,在更新二进制掩码集之后,还包括步骤:

6.根据权利要求1所述的一种化学结构式提...

【专利技术属性】
技术研发人员:唐博文牛张明张龙黄俊杰王晓枫马超江荧辉肖祥路晋旭锐
申请(专利权)人:杭州德睿智药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1