图像方向的确定方法、装置、电子设备和介质制造方法及图纸

技术编号：37434535 阅读：37 留言：0更新日期：2023-05-06 09:06

本公开提供了一种图像方向的确定方法、装置、电子设备和介质，涉及深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。实现方案为：从待识别图像中提取至少一个文本行区域，将各文本行区域旋转第一设定角度，并从旋转后的各文本行区域中提取设定个数的第一文本行区域；获取各第一文本行区域的字符识别的第一置信度；将各第一文本行区域旋转第二设定角度，并获取旋转后的各第一文本行区域的字符识别的第二置信度；根据各第一置信度和各第二置信度，确定待识别图像的方向。由此，仅根据待识别图像中的部分文本行区域，确定待识别图像的方向，而无需根据待识别图像中的所有像素点，来预测待识别图像的方向，可以提升计算速度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
图像方向的确定方法、装置、电子设备和介质

[0001]本公开涉及人工智能
，具体为深度学习、图像处理、计算机视觉
，可应用于OCR(Optical Character Recognition，光学字符识别)等场景，尤其涉及图像方向的确定方法、装置、电子设备和介质。

技术介绍

[0002]OCR是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。OCR技术可以应用于车牌识别、证件(身份证、驾驶证等)识别、印刷文档录入等场景。
[0003]OCR流程包括图像预处理、文本行检测和文本识别。其中，对文本图像(或文档图像)的方向进行识别，并基于方向识别结果对文本图像进行旋转矫正，是图像预处理中的一个必要环节，方向识别结果的准确性将影响到后续文本识别的结果。

技术实现思路

[0004]本公开提供了一种用于图像方向的确定方法、装置、电子设备和介质。
[0005]根据本公开的一方面，提供了一种图像方向的确定方法，包括：
[0006]获取待识别图像，并从所述待识别图像中提取至少一个文本行区域；
[0007]将所述至少一个文本行区域旋转第一设定角度，并从旋转后的所述至少一个文本行区域中提取设定个数的第一文本行区域；
[0008]获取各所述第一文本行区域的字符识别的第一置信度；
[0009]将各所述第一文本行区域旋转第二设定角度，并获取旋转后的各所述第一文本行区域的字符识别的第二置信度；
[001...

【技术保护点】

【技术特征摘要】
1.一种图像方向的确定方法，所述方法包括：获取待识别图像，并从所述待识别图像中提取至少一个文本行区域；将所述至少一个文本行区域旋转第一设定角度，并从旋转后的所述至少一个文本行区域中提取设定个数的第一文本行区域；获取各所述第一文本行区域的字符识别的第一置信度；将各所述第一文本行区域旋转第二设定角度，并获取旋转后的各所述第一文本行区域的字符识别的第二置信度；根据各所述第一置信度和各所述第二置信度，确定所述待识别图像的方向。2.根据权利要求1所述的方法，其中，所述根据各所述第一置信度和各所述第二置信度，确定所述待识别图像的方向，包括：根据各所述第一置信度的均值，确定第一目标得分；根据各所述第二置信度的均值，确定第二目标得分；在所述第一目标得分与所述第二目标得分之间的差异大于设定差异阈值的情况下，根据所述第一目标得分和所述第二目标得分的大小关系，确定所述待识别图像的方向。3.根据权利要求2所述的方法，其中，所述在所述第一目标得分与所述第二目标得分的差异大于设定差异阈值的情况下，根据所述第一目标得分和所述第二目标得分的大小关系，确定所述待识别图像的方向，包括：在所述第一目标得分与所述第二目标得分的差异大于设定差异阈值的情况下，判断所述第一目标得分是否大于所述第二目标得分；在所述第一目标得分大于所述第二目标得分的情况下，根据所述第一设定角度，确定所述待识别图像的方向；在所述第一目标得分小于所述第二目标得分的情况下，则根据所述第一设定角度和所述第二设定角度之和，确定所述待识别图像的方向。4.根据权利要求2所述的方法，其中，所述根据各所述第一置信度和各所述第二置信度，确定所述待识别图像的方向，还包括：在所述第一目标得分与所述第二目标得分之间的差异小于或等于所述设定差异阈值的情况下，获取对各所述第一文本行区域进行分类得到的第一概率，其中，所述第一概率用于指示所述第一文本行区域属于设定类别的概率；获取对旋转后的各所述第一文本行区域进行分类得到的第二概率，其中，所述第二概率用于指示旋转后的所述第一文本行区域属于所述设定类别的概率；根据各所述第一概率和各所述第二概率，确定所述待识别图像的方向。5.根据权利要求4所述的方法，其中，所述根据各所述第一概率和各所述第二概率，确定所述待识别图像的方向，包括：在各所述第一概率中存在第一目标概率的情况下，根据所述第一设定角度，确定所述待识别图像的方向；其中，所述第一目标概率大于各所述第二概率；在各所述第二概率中存在第二目标概率的情况下，根据所述第一设定角度和所述第二设定角度之和，确定所述待识别图像的方向；其中，所述第二目标概率大于各所述第一概率。6.根据权利要求1所述的方法，其中，所述从所述待识别图像中提取至少一个文本行区
域，包括：对所述待识别图像进行特征提取，以得到图像特征；基于所述图像特征，确定所述待识别图像中各像素点属于对应文本行的中心线的第三概率；基于所述图像特征，确定各所述像素点与对应文本行的至少一个边界的偏移量；根据各所述像素点对应的第三概率和偏移量，从所述待识别图像中提取所述至少一个文本行区域。7.根据权利要求6所述的方法，其中，所述根据各像素点对应的第三概率和偏移量，从所述待识别图像中提取所述至少一个文本行区域，包括：根据各所述像素点对应的第三概率，确定所述待识别图像中各所述文本行区域的中心线；根据各所述文本行区域的中心线和各所述像素点的偏移量，确定至少一个文本框的位置信息；根据所述至少一个文本框的位置信息，从所述待识别图像中提取所述至少一个所述文本行区域。8.根据权利要求7所述的方法，其中，所述将所述至少一个文本行区域旋转第一设定角度，包括：从所述至少一个文本框中确定第一文本框和/或第二文本框，其中，所述第一文本框的高度大于所述第一文本框的宽度，所述第二文本框的宽度大于所述第二文本框的高度；在所述第一文本框的数量大于所述第二文本框的数量的情况下，将所述至少一个文本行区域旋转第一设定角度。9.根据权利要求8所述的方法，其中，所述方法还包括：在所述第一文本框的数量小于或等于所述第二文本框的数量的情况下，从所述至少一个文本行区域中提取所述设定个数的第二文本行区域；获取各所述第二文本行区域的字符识别的第三置信度；将各所述第二文本行区域旋转所述第二设定角度，并获取旋转后的各所述第二行文本区域的字符识别的第四置信度；根据各所述第三置信度和各所述第四置信度，确定所述待识别图像的方向。10.根据权利要求9所述的方法，其中，所述根据各所述第三置信度和各所述第四置信度，确定所述待识别图像的方向，包括：根据各所述第三置信度的均值，确定第三目标得分；根据各所述第四置信度的均值，确定第四目标得分；在所述第三目标得分与所述第四目标得分之间的差异大于设定差异阈值的情况下，根据所述第三目标得分和所述第四目标得分的大小关系，确定所述待识别图像的方向。11.根据权利要求10所述的方法，其中，所述根据各所述第三置信度和各所述第四置信度，确定所述待识别图像的方向，还包括：在所述第三目标得分与所述第四目标得分的差异小于或等于所述设定差异阈值的情况下，获取对各所述第二文本行区域进行分类得到的第四概率，其中，所述第四概率用于指示所述第二文本行区域属于设定类别的概率；
获取对旋转后的各所述第二文本行区域进行分类得到的第五概率，其中，所述第五概率用于指示旋转后的所述第二文本行区域属于所述设定类别的概率；根据各所述第四概率和各所述第五概率，确定所述待识别图像的方向。12.根据权利要求1
‑
11中任一项所述的方法，其中，所述方法还包括：根据所述待识别图像的方向，对所述至少一个文本行区域进行旋转，以得到至少一个目标文本行区域；对各所述目标文本行区域进行字符识别，以得到各所述目标文本行区域的文本序列；根据各所述目标文本行区域在所述待识别图像中的位置，对各所述目标文本行区域的文本序列进行拼接，以得到字符识别结果。13.一种图像方向的确定装置，所述装置包括：第一获取模块，用于获取待识别图像；第一提取模块，用于从所述待识别图像中提取至少一个文本行区域；第一处理模块，用于将所述至少一个文本行区域旋转第一设...

【专利技术属性】
技术研发人员：范森，刘珊珊，吕鹏原，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人