一种识别图像中文本信息的方法、设备及系统技术方案

技术编号：37376752 阅读：27 留言：0更新日期：2023-04-27 07:19

本申请公开了一种识别图像中文本信息的方法、设备及系统，涉及计算机视觉(computer version，CV)领域，可以快速、精确的识别图像中的信息。本申请中，通过利用图像语义分割算法对图像进行场景分析，并根据分析结果调用对应的专项光学字符识别(optical character recognition，OCR)能力，如专项模型或专项算法分场景进行信息识别，最后整合多个专项模型或专项算法的信息识别结果，得到最终图像的信息识别结果。该方法可以得到更加准确、可靠的信息识别结果，为用户提供更加便捷、高效、可靠的智能化信息识别体验。智能化信息识别体验。智能化信息识别体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别图像中文本信息的方法、设备及系统

[0001]本申请实施例涉及计算机视觉(computer version，CV)领域，尤其涉及一种识别图像中文本信息的方法、设备及系统。

技术介绍

[0002]随着智能终端的普及，终端可以通过光学字符识别(optical character recognition，OCR) 技术识别图像中的文本信息，如识别文档中的文本，识别车牌号码等。
[0003]不同类型的文本信息呈现的形式不一样，例如表格文本和卡证文本的布局和内容差异比较大。当前，卡证文本图像中的文本可以通过卡证相关的模型或算法来识别，表格文本图像中的文本可以通过表格相关的模型或算法来识别。但对于一些情况稍复杂些的图像，如图像中的内容既包括卡证又包括表格，图像中文字的识别精度亟待提升。

技术实现思路

[0004]本申请提供一种识别图像中文本信息的方法、设备及系统，可以快速、精确的识别图像中的信息。
[0005]为达到上述目的，本申请实施例采用如下技术方案：
[0006]第一方面，提供一种识...

【技术保护点】

【技术特征摘要】
1.一种识别图像中文本信息的方法，其特征在于，所述方法包括：获取图像，所述图像包括多个内容区域；通过多个模型分别识别所述多个内容区域中的文本信息；整合所述多个模型对所述多个内容区域中的文本信息的识别结果，得到对所述图像的文本识别结果。2.根据权利要求1所述的方法，其特征在于，所述多个内容区域对应多个场景；所述方法还包括：对所述多个内容区域进行分类，确定所述多个内容区域对应的多个场景；所述通过多个模型分别识别所述多个内容区域中的文本信息，包括：通过所述多个场景对应的所述多个模型分别识别所述多个内容区域中的文本信息。3.根据权利要求2所述的方法，其特征在于，所述对所述多个内容区域进行分类，确定所述多个内容区域对应的多个场景，包括：基于图像语义分割模型或算法，对所述多个内容区域进行图像语义分割，确定所述多个内容区域对应的所述多个场景。4.根据权利要求2或3所述的方法，其特征在于，所述通过所述多个场景对应的所述多个模型分别识别所述多个内容区域中的文本信息，包括：根据所述多个内容区域对应的所述多个场景，将所述多个内容区域裁剪，得到多个图像区域；分别将所述多个图像区域分送至对应模型，以通过所述多个模型分别识别所述多个图像区域中的文本信息。5.根据权利要求2或3所述的方法，其特征在于，所述通过所述多个场景对应的所述多个模型分别识别所述多个内容区域中的文本信息，包括：根据所述多个内容区域对应的所述多个场景，确定所述多个场景在所述图像中对应的多个图像区域的位置信息；将所述图像发送至所述多个模型，以及分别将所述多个图像区域的位置信息分送至对应模型，以通过所述多个模型分别识别所述多个图像区域中的文本信息。6.根据权利要求1
‑
5中任一项所述的方法，其特征在于，所述方法还包括：基于视觉显著性检测VSD算法，计算所述图像中像素的显著性值；根据所述图像中像素的显著性值，确定所述图像的焦点区域；其中，所述图像的焦点区域中像素的显著性值大于预设阈值。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：分别根据所述多个内容区域中像素的显著性值和焦点区域的面积，确定所述多个内容区域的区域显著性值；所述通过多个模型分别识别所述多个内容区域中的文本信息，包括：通过多个模型分别识别所述多个内容区域中，区域显著性值大于预设阈值的内容区域中的文本信息。8.根据权利要求1
‑
7中任一项所述的方法，其特征在于，所述方法还包括：对所述图像进行文本行分析，确定所述图像包括第一信息，其中，所述第一信息的第一部分属于第一场景，所述第一信息的第二部分属于第二场景；
合并所述第一场景和所述第二场景对应的图像区域。9.根据权利要求1
‑
8中任一项所述的方法，其特征在于，所述方法还包括：在所述图像上叠加展示对所述图像的文本识别结果；或者，在所述图像上悬浮展示对所述图像的文本识别结果；或者，以所述图像的排版格式展示对所述图像的文本识别结果；或者，按照预设规则重新排版，以展示对所述图像的文本识别结果，所述预设规则包括：预设位置顺序、预设显著性顺序。10.根据权利要求2
‑
9中任一项所述的方法，其特征在于，所述多个内容区域对应的所述多个场景包括以下中的任意多种：卡证场景、车牌场景、照片场景、招牌场景、海报场景、路牌场景、路标场景、文档场景、表格场景、书籍场景、环境场景。11.一种识别图像中文本信息的方法，其特征在于，所述方法包括：第一设备获取图像，所述图像包括多个内容区域；所述第一设备对所述多个内容区域进行分类，确定所述多个内容区域对应的多个场景；所述第一设备向第二设备发送所述多个场景对应的多个信息识别任务；所述第一设备接收来自所述第二设备的对所述图像的信息识别结果。12.根据权利要求11所述的方法，其特征在于，所述第一设备对所述多个内容区域进行分类，确定所述多个内容区域对应的多个场景，包括：所述第一设备基于图像语义分割模型或算法，对所述多个内容区域进行图像语义分割，确定所述多个内容区域对应的所述多个场景。13.根据权利要求11或12所述的方法，其特征在于，所述方法还包括：所述第一设备根据所述多个内容区域对应的所述多个场景，将所述多个内容区域裁剪，得到多个子图像；所述第一设备向所述第二设备发送所述多个场景对应的多个信息识别任务，包括：所述第一设备将所述多个子图像，分送至所述第二设备中的对应模型，以通过所述多个模型分别识别所述多个子图像中的文本信息。14.根据权利要求11或12所述的方法，其特征在于，所述方法还包括：所述第一设备根据所述多个内容区域对应的所述多个场景，确定所述多个场景在所述图像中对应的多个图像区域的位置信息；所述第一设备将所述图像发送至所述第二设备，以及将所述多个图像区域的位置信息分送至所述第二设备中的对应模型，以通过所述多个模型分别识别所述多个图像区域中的文本信息。15.根据权利要求11
‑
14中任一项所述的方法，其特征在于，所述方法还包括：所述第一设备基于视觉显著性检测VSD算法，计算所述图像中像素的显著性值；所述第一设备根据所述图像中像素的显著...

【专利技术属性】
技术研发人员：周正中，黄富伟，何佰胜，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人