【技术实现步骤摘要】
多维度混合OCR识别方法、装置、设备及存储介质
[0001]本专利技术实施例涉及图像识别领域,尤其涉及一种多维度混合OCR识别方法、装置、设备及存储介质。
技术介绍
[0002]OCR(Optical Character Recognition,光学符号识别)技术是利用文字识别技术将光学扫描、相机拍摄等获得的印刷品图片转化为计算机可以处理的文字信息。近年来,OCR技术发展迅速,对文字的识别已经达到较高的识别准确度。但对于公式、图表及文字混合的图像则无法直接进行OCR识别,需要首先分割公式、文字和图表区域再分别做OCR识别,而目前通过手工进行分割公式、文字和图表的方法耗时耗力;传统的直接对公式、文字和图表混合的图像进行识别的方法则准确度不高,鲁棒性不强,对图像质量有较高的要求。
技术实现思路
[0003]有鉴于此,本专利技术实施例提供一种多维度混合OCR识别方法、装置、设备及存储介质,以实现对公式、图表或文字等混合的图像的OCR识别。
[0004]第一方面,本专利技术实施例提供了一种多维度混合OCR识别 ...
【技术保护点】
【技术特征摘要】
1.一种多维度混合OCR识别方法,其特征在于,包括:将目标图像设置为预设尺寸的待识别图像;根据预设神经网络模型区分所述待识别图像的公式、图表和/或文字区域,并分别获取所述公式、图表和/或文字区域的位置坐标,其包括:将所述待识别图像输入至所述预设神经网络模型,以获取所述待识别图像的第一特征向量;将所述第一特征向量输入至区域候选网络,以获取一个或多个候选框的位置坐标;提取所述一个或多个候选框所对应的第二特征向量,并将所述第二特征向量输入至类别识别网络,以获取所述一个或多个候选框的类别,所述类别包括公式、图表或文字;根据所述公式、图表和/或文字区域分别调用不同的OCR模型进行识别,以获取识别结果;根据所述位置坐标和识别结果输出所述待识别图像的识别信息。2.如权利要求1所述的多维度混合OCR识别方法,其特征在于,所述根据预设神经网络模型区分所述待识别图像的公式、图表和/或文字区域,并分别获取所述公式、图表和/或文字区域的位置坐标,还包括:对所述位置坐标进行优化调整,以获取所述公式、图表和/或文字区域的精确位置坐标。3.如权利要求1所述的多维度混合OCR识别方法,其特征在于,所述根据所述公式、图表和/或文字区域分别调用不同的OCR模型进行识别,以获取识别结果,包括:调用第一OCR模型识别所述公式区域,以获取公式识别结果,其中,所述第一OCR模型采用卷积神经网络加上注意力机制加上序列编码器加上序列解码器架构;调用第二OCR模型识别所述图表区域,以获取图表识别结果,其中,所述第二OCR模型首先对图表区域调用深度神经网络分析解构图表结构,然后调用第三OCR模型识别其中的文字;调用第三OCR模型识别所述文字区域,以获取文字识别结果,其中,所述第三OCR模型采用微分二值化网络加上端到端场景文字识别网络架构。4.一种多维度混合OCR识别装置,其特征在于,包括:第一处理模块,所述第一处理模块用于将目标图像设置为预设尺寸的待识别图像;第二处理模块,所述第二处理模块用于根据预设神经网络模型区分所述待识别图像的公式、图表和/或文字区域,并分别获取所述公式、图表和/或文字区域的位置坐标,其包括:第四处理模块,所述第四处理模块用于将所...
【专利技术属性】
技术研发人员:马百泉,
申请(专利权)人:江西风向标教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。