【技术实现步骤摘要】
分子式识别方法及相关装置、设备和存储介质
[0001]本申请涉及图像识别
,特别是涉及一种分子式识别方法及相关装置、设备和存储介质。
技术介绍
[0002]随着深度学习的发展,图文识别技术也日趋成熟,开始赋能越来越多的行业。尤其在教育行业中,对作业、作答、试卷的拍照图像的图文识别能力已成为非常重要的一环,一方面可用于教学知识的高效电子化,另一方面可服务于自动批改,实现学情分析、因材施教,毋庸置疑已成绝对的刚需。
[0003]目前,图文识别技术对于中英文数据的识别已基本成熟,对公式等带结构的数据的识别能力也基本达到了可用状态,可用满足中英数理化学科中的大部分场景。但是,对于一些特殊场景,图文识别技术并未达到可用,有机化学学科便是其中之一,由于有机化学的题目和作答的图像数据在外观形态上和中英文数据、数学公式差别很大,所以还不具备对有机化学数据的识别能力。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种分子式识别方法及相关装置、设备和存储介质,能够提高识别分子式的准确性和分子式识别的泛化能力。
[0005]为了解决上述技术问题,本申请第一方面提供了一种分子式识别方法,包括:利用分子式识别模型对待识别图像进行识别,得到符号序列;基于符号序列,恢复得到待识别图像中的目标分子式;其中,分子式识别模型利用含有样本分子式的样本图像训练得到,样本图像标注有样本分子式的样本符号序列,且样本符号序列由样本分子式的图形视觉形态构建得到。
[0006]为了解决上述技术问题,本申请第二 ...
【技术保护点】
【技术特征摘要】
1.一种分子式识别方法,其特征在于,包括:利用分子式识别模型对待识别图像进行识别,得到符号序列;基于所述符号序列,恢复得到所述待识别图像中的目标分子式;其中,所述分子式识别模型利用含有样本分子式的样本图像训练得到,所述样本图像标注有所述样本分子式的样本符号序列,且所述样本符号序列由所述样本分子式的图形视觉形态构建得到。2.根据权利要求1所述的方法,其特征在于,所述样本符号序列包括表示所述样本分子式中原子团的字符串,及表示所述样本分子式中化学键的字符串,表示所述化学键的字符串至少包含所述化学键的角度。3.根据权利要求2所述的方法,其特征在于,所述样本符号序列还包括代表所述样本分子式中分支的分支符,且所述分支符至少表征所述分支的方向。4.根据权利要求3所述的方法,其特征在于,所述样本符号序列由所述样本分子式主干的样本第一子序列和各所述分支的样本第二子序列组成,所述样本第一子序列包含分别代表各所述分支的分支符,且所述分支符还表征所述分支的标识,所述样本第二子序列包含序位符,所述序位符表征所述分支的标识。5.根据权利要求1所述的方法,其特征在于,所述样本分子式预先以预设分子式标记语言标注为原始标签序列,且所述预设分子式标记语言的语法规则遵循分子式的图形视觉形态,所述样本符号序列的获取步骤包括:基于所述原始标签序列进行结构解析,得到所述样本分子式的图形数据;其中,所述图形数据由若干数据元素组成,所述若干数据元素包括节点和连接所述节点的边,所述节点表示原子团,所述边表示化学键,且所述图形数据中各所述数据元素标记有数据属性;基于所述图形数据进行遍历,得到所述样本符号序列。6.根据权利要求5所述的方法,其特征在于,所述节点的数据属性包括表示所述原子团的字符;和/或,所述边的数据属性至少包括所述化学键的角度。7.根据权利要求5所述的方法,其特征在于,所述基于所述图形数据进行遍历,得到所述样本符号序列,包括:在所述图形数据遍历所述样本分子式主干上的数据元素,得到样本第一子序列,并在所述图形数据遍历所述样本分子式分支上的数据元素,得到样本第二子序列;组合所述样本第一子序列和所述样本第二子序列,得到所述样本符号序列;其中,所述样本符号序列中表示所述数据元素的字符串包括所述数据元素的数据属性,所述分支在所述样本第一子序列由分支符代为表示,且所述分支符表征所述分支的方向和标识,所述样本第二子序列包含序位符,所述序位符表征所述分支的标识。8.根据权利要求5所述的方法,其特征在于,在所述基于所述原始标签序列进行结构解析,得到所述样本分子式的图形数据之前,所述方法还包括:利用所述预设分子式标记语言的渲染引擎对所述原始标签序列进行渲染,得到渲染分子式;基于所述渲染分子式与所述样本分子式之间的差异检查结果,确定所述原始标签序列是否标注正确。
9.根据权利要求1所述的方法,其特征在于,所述样本分子式由主干和分支构成,所述样本...
【专利技术属性】
技术研发人员:吴浩,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。