一种图像中文字的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26971757 阅读:28 留言:0更新日期:2021-01-06 00:03
本发明专利技术实施例提供了一种图像中文字的识别方法、装置、电子设备及存储介质,方法包括:获取待识别图像;将待识别图像输入预先训练完成的深度学习模型,获得待识别文字的语义信息及结构信息,深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的,深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系;基于语义信息及结构信息,确定待识别文字的识别结果。由于不需要对文字进行分割,而是根据预先训练的深度学习模型获得待识别文字的准确的语义信息及结构信息,进而根据这两方面的信息的关联确定待识别文字的识别结果,可以准确对蕴含大量结构信息的文字进行识别。

【技术实现步骤摘要】
一种图像中文字的识别方法、装置、电子设备及存储介质
本专利技术涉及图像处理
,特别是涉及一种图像中文字的识别方法、装置、电子设备及存储介质。
技术介绍
在众多图像处理场合均需要对图像中的文字进行识别,以获得图像中的文字信息。一般的文字识别技术大都针对英文进行识别,由于英文类别少,形态简单,所以采用常见的文字识别方式在进行英文识别时可以满足需求。但是对于花体英文或中日韩文字这类蕴含了大量结构信息的文字来说则很容易出现错误。识别蕴含了大量结构信息的文字,出现了基于结构拆分的文字识别方式,其过程为:首先将文字分割为文字部件,然后采取最优路径搜索等方式,进行各部件的融合,进而得到文字识别结果,其过程一般为,将图像中的文本行分割为文字部件得到子结构,通过字符识别进行子结构识别,然后采取最优路径搜索方式进行各子结构的融合,即分割片段组合,将子结构组合得到文字识别结果。虽然该方式可以处理结构信息较多的文字序列,但其主要依赖文字分割算法,需要将文字的每个部件清晰独立地识别出来,一旦某一部件发生残缺污损,或者字体粘连,会导致文字难以拆分,采本文档来自技高网...

【技术保护点】
1.一种图像中文字的识别方法,其特征在于,所述方法包括:/n获取待识别图像,其中,所述待识别图像中包括待识别文字;/n将所述待识别图像输入预先训练完成的深度学习模型,获得所述待识别文字的语义信息及结构信息,其中,所述深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的,所述深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系;/n基于所述语义信息及所述结构信息,确定所述待识别文字的识别结果。/n

【技术特征摘要】
1.一种图像中文字的识别方法,其特征在于,所述方法包括:
获取待识别图像,其中,所述待识别图像中包括待识别文字;
将所述待识别图像输入预先训练完成的深度学习模型,获得所述待识别文字的语义信息及结构信息,其中,所述深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的,所述深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系;
基于所述语义信息及所述结构信息,确定所述待识别文字的识别结果。


2.如权利要求1所述的方法,其特征在于,所述深度学习模型包括特征提取模型及特征识别模型;
所述将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述的待识别文字的语义信息及结构信息的步骤,包括:
将所述待识别图像输入所述特征提取模型对所述待识别图像进行处理,获得所述待识别图像的图像特征;
将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别,获得所述待识别文字的语义信息及结构信息。


3.如权利要求2所述的方法,其特征在于,所述特征识别模型包括第一注意力机制模型和第二注意力机制模型;
所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行处理,获得所述待识别文字的语义信息及结构信息的步骤,包括:
将所述待识别图像的图像特征输入所述第一注意力机制模型,确定每个图像特征对应的第一权重,其中,所述第一权重表示对应的图像特征属于所述待识别文字的概率;
基于所述图像特征及其对应的第一权重,对所述图像特征进行加权求和,得到所述待识别文字的语义特征向量,作为所述待识别文字的目标语义向量;
根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系,确定所述目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的目标语义信息;
根据所述待识别文字的目标语义特征向量的长度,将所述待识别文字的目标语义特征向量展开为多个子特征向量;
将所述多个子特征向量输入所述第二注意力机制模型,确定每个子特征向量对应的第二权重,其中,所述第二权重表示对应的子特征向量属于当前识别的待识别文字的结构部分的概率;
基于所述子特征向量及其对应的第二权重,对所述子特征向量进行加权求和,得到所述待识别文字的当前结构特征向量;
根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系,确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的子结构信息;
根据所述子结构信息,确定所述待识别文字的结构信息。


4.如权利要求3所述的方法,其特征在于,所述根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系,确定所述目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的目标语义信息的步骤,包括:
获取在所述待识别文字之前识别得到的其他文字的语义信息;
根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系以及所述目标语义特征向量确定所述目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的预估语义信息;
基于所述预估语义信息以及所述其他文字的语义信息,确定所述待识别文字的目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的目标语义信息。


5.如权利要求3所述的方法,其特征在于,所述根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系,确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的子结构信息的步骤,包括:
获取在所述当前结构特征向量所对应的子结构信息之前确定的所述待识别文字的其他结构部分的子结构信息;
根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的预估结构信息;
基于所述预估结构信息以及所述其他结构部分的子结构信息,确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的子结构信息。


6.如权利要求2所述的方法,其特征在于,所述深度学习模型还包括特征编码模型;
在所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别,获得所述待识别文字的语义信息及结构信息的步骤之前,所述方法还包括:
将所述待识别图像的图像特征输入所述特征编码模型,对所述待识别图像的图像特征进行编码,得到多个特征图;
根据每个特征图的长宽高分别将每个特征图变形为特征向量;
将变形得到的多个特征向量确定为所述待识别图像的图像特征。


7.如权利要求1-6任一项所述的方法,其特征在于,所述基于所述语义信息及所述结构信息,确定所述待识别文字的识别结果的步骤,包括:
当所述语义信息表示明确语义时,根据所述结构信息对所述语义信息进行校正,确定所述待识别文字的最终的识别结果;
当所述语义信息表示不明确语义时,根据所述结构信息确定所述待识别文字的识别结果。


8.一种图像中文字的识别装置,其特征在于,所述装置包括:
待识别图像获取模块,用于获取待识别图像,其中,所述待识别图像中包括待识别文字;
语义结构信息确定模块,用于将所述待识别图像输入预先训练完成的深度学习模型,获得所述待识别文字的语义...

【专利技术属性】
技术研发人员:徐杨柳
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1