分子式识别方法及相关装置、设备和存储介质制造方法及图纸

技术编号:33128863 阅读:17 留言:0更新日期:2022-04-17 00:42
本申请公开了一种分子式识别方法及相关装置、设备和存储介质,该方法包括:利用分子式识别模型对待识别图像进行识别,得到符号序列;基于符号序列,恢复得到待识别图像中的目标分子式;其中,分子式识别模型利用含有样本分子式的样本图像训练得到,样本图像标注有样本分子式的样本符号序列,且样本符号序列由样本分子式的图形视觉形态构建得到。上述方案,能够提高识别分子式的准确性和分子式识别的泛化能力。泛化能力。泛化能力。

【技术实现步骤摘要】
分子式识别方法及相关装置、设备和存储介质


[0001]本申请涉及图像识别
,特别是涉及一种分子式识别方法及相关装置、设备和存储介质。

技术介绍

[0002]随着深度学习的发展,图文识别技术也日趋成熟,开始赋能越来越多的行业。尤其在教育行业中,对作业、作答、试卷的拍照图像的图文识别能力已成为非常重要的一环,一方面可用于教学知识的高效电子化,另一方面可服务于自动批改,实现学情分析、因材施教,毋庸置疑已成绝对的刚需。
[0003]目前,图文识别技术对于中英文数据的识别已基本成熟,对公式等带结构的数据的识别能力也基本达到了可用状态,可用满足中英数理化学科中的大部分场景。但是,对于一些特殊场景,图文识别技术并未达到可用,有机化学学科便是其中之一,由于有机化学的题目和作答的图像数据在外观形态上和中英文数据、数学公式差别很大,所以还不具备对有机化学数据的识别能力。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种分子式识别方法及相关装置、设备和存储介质,能够提高识别分子式的准确性和分子式识别的泛化能力。
[0005]为了解决上述技术问题,本申请第一方面提供了一种分子式识别方法,包括:利用分子式识别模型对待识别图像进行识别,得到符号序列;基于符号序列,恢复得到待识别图像中的目标分子式;其中,分子式识别模型利用含有样本分子式的样本图像训练得到,样本图像标注有样本分子式的样本符号序列,且样本符号序列由样本分子式的图形视觉形态构建得到。
[0006]为了解决上述技术问题,本申请第二方面提供了一种分子式识别装置,包括:序列识别模块和式子恢复模块;序列识别模块用于利用分子式识别模型对待识别图像进行识别,得到符号序列;式子恢复模块用于基于符号序列,恢复得到待识别图像中的目标分子式;其中,分子式识别模型利用含有样本分子式的样本图像训练得到,样本图像标注有样本分子式的样本符号序列,且样本符号序列由样本分子式的图形视觉形态构建得到。
[0007]为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的分子式识别方法。
[0008]为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的分子式识别方法。
[0009]上述方案,利用分子式识别模型对待识别图像进行识别,得到符号序列,并基于符号序列,恢复得到待识别图像中的目标分子式;其中,分子式识别模型利用含有样本分子式的样本图像训练得到,样本图像标注有样本分子式的样本符号序列,且样本符号序列由样
本分子式的图形视觉形态构建得到。故利用公式识别模型得到的符号序列能够准确反映目标公式的图形视觉状态,即能够如实反映出待识别图像中分子式的内容,充分保留待识别图像中的分子式的原始信息,从而提高识别目标分子式的准确性和泛化能力。
附图说明
[0010]图1是本申请提供的分子式识别方法一实施例的流程示意图;
[0011]图2是本申请提供的SMILES识别结果一实施例的示意图;
[0012]图3是本申请提供的Chemfig标注结果一实施例的示意图;
[0013]图4是本申请提供的分子式识别模型一实施例的结构示意图;
[0014]图5是本申请提供的样本数据一实施例的示意图;
[0015]图6是图1所示步骤S11一实施例的流程示意图;
[0016]图7是本申请提供的对原始标签序列进行处理得到样本符号序列一实施例的流程示意图;
[0017]图8是本申请提供的确定原始标签序列是否正确一实施例的流程示意图;
[0018]图9是本申请提供的样本符号序列一实施例的示意图;
[0019]图10是图6所示步骤S112一实施例的流程示意图;
[0020]图11是本申请提供的样本符号序列另一实施例的示意图;
[0021]图12是本申请提供的训练分子式识别模型一实施例的流程示意图;
[0022]图13是本申请提供的分子式识别模型解码过程一实施例的示意图;
[0023]图14是本申请提供的确定解码结束一实施例的流程示意图
[0024]图15是本申请提供的分子式识别装置一实施例的框架示意图;
[0025]图16是本申请提供的电子设备一实施例的框架示意图;
[0026]图17是本申请提供的计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0027]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0028]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0029]本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
[0030]请参阅图1,图1是本申请提供的分子式识别方法一实施例的流程示意图。需要注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例包括:
[0031]步骤S11:利用分子式识别模型对待识别图像进行识别,得到符号序列。
[0032]本实施例的方法用于对待识别图像进行识别,以恢复得到待识别图像中的目标分子式。本文所述的待识别图像可以为包括任意分子式的图像,具体可以从本地存储或云端存储中获取得到。可以理解地,在其他实施方式中,也可通过图像采集设备实时采集得到待
识别图像,在此不做具体限定。
[0033]本实施方式中,利用分子式识别模型对待识别图像进行识别,能够得到符号序列。其中,分子式识别模型利用含有样本分子式的样本图像训练得到的,样本图像标注有样本分子式的样本符号序列,且样本符号序列由样本分子式的图形视觉形态构建得到。也就是说,分子式识别模型是根据由样本分子式的图形视觉形态构建得到的标注有样本分子式的样本符号序列的样本图像训练得到的;另外,通过训练完成的分子式识别模型能够对待识别图像进行处理,以得到目标分子式。
[0034]举例来说,如图2所示,图2是本申请提供的SMILES识别结果一实施例的示意图,深度学习类分子式识别方法,一般都直接套用现有的Encoder

Decoder模型进行建模,该模型能够直接学习分子式图像到识别结果,识别结果一般以SMILES字符串格式存储;但是,如图2所示,左侧输入图像和右侧输入图像为两个学生的手写分子式,左侧输入图像中的分子式书写正确,右侧输入图像中的分子式书写错误(右侧输入图像中虚线框所示只能为3,否则违反了化合价的规则),此时使用SMILES规范,只能正确表达出左边本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分子式识别方法,其特征在于,包括:利用分子式识别模型对待识别图像进行识别,得到符号序列;基于所述符号序列,恢复得到所述待识别图像中的目标分子式;其中,所述分子式识别模型利用含有样本分子式的样本图像训练得到,所述样本图像标注有所述样本分子式的样本符号序列,且所述样本符号序列由所述样本分子式的图形视觉形态构建得到。2.根据权利要求1所述的方法,其特征在于,所述样本符号序列包括表示所述样本分子式中原子团的字符串,及表示所述样本分子式中化学键的字符串,表示所述化学键的字符串至少包含所述化学键的角度。3.根据权利要求2所述的方法,其特征在于,所述样本符号序列还包括代表所述样本分子式中分支的分支符,且所述分支符至少表征所述分支的方向。4.根据权利要求3所述的方法,其特征在于,所述样本符号序列由所述样本分子式主干的样本第一子序列和各所述分支的样本第二子序列组成,所述样本第一子序列包含分别代表各所述分支的分支符,且所述分支符还表征所述分支的标识,所述样本第二子序列包含序位符,所述序位符表征所述分支的标识。5.根据权利要求1所述的方法,其特征在于,所述样本分子式预先以预设分子式标记语言标注为原始标签序列,且所述预设分子式标记语言的语法规则遵循分子式的图形视觉形态,所述样本符号序列的获取步骤包括:基于所述原始标签序列进行结构解析,得到所述样本分子式的图形数据;其中,所述图形数据由若干数据元素组成,所述若干数据元素包括节点和连接所述节点的边,所述节点表示原子团,所述边表示化学键,且所述图形数据中各所述数据元素标记有数据属性;基于所述图形数据进行遍历,得到所述样本符号序列。6.根据权利要求5所述的方法,其特征在于,所述节点的数据属性包括表示所述原子团的字符;和/或,所述边的数据属性至少包括所述化学键的角度。7.根据权利要求5所述的方法,其特征在于,所述基于所述图形数据进行遍历,得到所述样本符号序列,包括:在所述图形数据遍历所述样本分子式主干上的数据元素,得到样本第一子序列,并在所述图形数据遍历所述样本分子式分支上的数据元素,得到样本第二子序列;组合所述样本第一子序列和所述样本第二子序列,得到所述样本符号序列;其中,所述样本符号序列中表示所述数据元素的字符串包括所述数据元素的数据属性,所述分支在所述样本第一子序列由分支符代为表示,且所述分支符表征所述分支的方向和标识,所述样本第二子序列包含序位符,所述序位符表征所述分支的标识。8.根据权利要求5所述的方法,其特征在于,在所述基于所述原始标签序列进行结构解析,得到所述样本分子式的图形数据之前,所述方法还包括:利用所述预设分子式标记语言的渲染引擎对所述原始标签序列进行渲染,得到渲染分子式;基于所述渲染分子式与所述样本分子式之间的差异检查结果,确定所述原始标签序列是否标注正确。
9.根据权利要求1所述的方法,其特征在于,所述样本分子式由主干和分支构成,所述样本...

【专利技术属性】
技术研发人员:吴浩
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1