一种图像处理方法、系统、设备及介质、程序产品技术方案

技术编号：27975718 阅读：26 留言：0更新日期：2021-04-06 14:10

本申请提供了一种图像处理方法，应用于人工智能领域，包括：获取包括一个或多个文档目标的图像，然后从文档目标中的文本提取文档目标的语义特征，接着根据文档目标的视觉特征和语义特征，获得文档目标的分类结果。该方法通过在视觉特征基础上结合语义特征对文档目标进行分类，为分类器提供了较多的信息，提高了分类的准确度，避免了输入的类型不匹配导致下游的字符识别模型识别错误，满足了业务需求。而且，该方法支持自动地提取语义特征进行分类，由此实现端到端的分类，无需人为干预，提高了分类效率，降低了分类的成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像处理方法、系统、设备及介质、程序产品
本申请涉及人工智能(artificialintelligence，AI)
，尤其涉及一种图像处理方法、系统、设备以及计算机可读存储介质、计算机程序产品。
技术介绍
随着光学字符识别(opticalcharacterrecognition，OCR)技术的快速发展，利用OCR技术代替人力进行识别和处理图像中的文字信息的应用变得越来越广泛。为了实现批量化和自动化处理，可以先对输入的图像进行分类，例如分为卡证、票据等不同类型，然后采用与上述类型对应的专业OCR引擎如票据识别引擎进行文字识别。人工对输入的图像进行分类需要花费大量的时间和精力，为此，业界提出了采用目标检测与分类技术，自动检测图像中的文档目标如卡证、票据、邮件截图，并对文档目标进行分割和分类。目前，业界比较常用的目标检测与分类技术是基于掩膜的区域卷积神经网络(maskregion-basedconvolutionalneuralnetwork，maskR-CNN)。然而，mask-RCNN等技术对文档目标...

【技术保护点】
1.一种图像处理方法，其特征在于，所述方法包括：/n获取图像，所述图像包括一个或多个文档目标；/n根据所述文档目标中的文本获取所述文档目标的语义特征；/n根据所述文档目标的视觉特征和所述语义特征，获得所述文档目标的分类结果，所述分类结果包括所述文档目标的类别标签。/n

【技术特征摘要】
1.一种图像处理方法，其特征在于，所述方法包括：
获取图像，所述图像包括一个或多个文档目标；
根据所述文档目标中的文本获取所述文档目标的语义特征；
根据所述文档目标的视觉特征和所述语义特征，获得所述文档目标的分类结果，所述分类结果包括所述文档目标的类别标签。

2.根据权利要求1所述的方法，其特征在于，所述根据所述文档目标的视觉特征和所述语义特征，获得所述文档目标的分类结果，包括：
根据由所述视觉特征确定的置信度以及由所述语义特征确定的置信度，获得所述文档目标的分类结果，其中，所述置信度是根据经验确定的、用于表征可信程度的概率值。

3.根据权利要求1或2所述的方法，其特征在于，所述分类结果还包括与所述类别标签对应的置信度，所述方法还包括：
输出所述类别标签以及与所述类别标签对应的置信度。

4.根据权利要求3所述的方法，其特征在于，所述输出所述类别标签以及与所述类别标签对应的置信度，包括：
输出根据所述视觉特征确定的第一类别标签以及与所述第一类别标签对应的第一置信度、根据所述语义特征确定的第二类别标签以及与所述第二类别标签对应的第二置信度、根据所述视觉特征和所述语义特征确定的第三类别标签以及与所述第三类别标签对应的第三置信度，所述第一置信度小于预设阈值。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：
根据所述文档目标的视觉特征，获得所述多个文档目标的包围框。

6.根据权利要求5所述的方法，其特征在于，所述包围框根据基于所述视觉特征回归的初始角点获得。

7.根据权利要求6所述的方法，其特征在于，所述初始角点包括四个，所述包围框根据修正后的角点获得，所述修正后的角点大于或等于四个，所述修正后的角点根据边缘线的交点对所述初始角点修正获得，所述边缘线是基于所述视觉特征回归的边缘信息提取的直线。

8.根据权利要求5至7任一项所述的方法，其特征在于，所述文档目标中的文本根据所述包围框确定。

9.根据权利要求5至8任一项所述的方法，其特征在于，所述方法还包括：
根据角点的位置信息，输出所述多个文档目标的包围框。

10.根据权利要求5至9任一项所述的方法，其特征在于，所述方法还包括：
根据透视信息，获得透视变换后的文本，所述透视变换后的文本中字符的大小相同。

11.根据权利要求5至10任一项所述的方法，其特征在于，所述方法还包括：
根据透视信息，获得透视变换后的包围框，所述透视变换后的包围框为矩形。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述方法还包括：
根据所述图像以及与所述分类结果对应的光学字符识别模型，获得所述图像中所述文档目标的结构化信息。

13.根据权利要求12所述的方法，其特征在于，所述图像包括多个文档目标，所述根据所述图像以及与所述分类结果对应的光学字符识别模型，获得所述图像中所述文档目标的结构化信息，包括：
根据所述图像获得多个局部图像，所述多个局部图像与所述多个文档目标一一对应；
将所述多个局部图像输入所述分类结果对应的光学字符识别模型，获得所述多个文档目标的结构化信息。

14.根据权利要求1至13任一项所述的方法，其特征在于，所述文档目标包括如下类别：卡证、票据、标签、邮件或者文件。

15.一种图像处理方法，其特征在于，所述方法包括：
接收用户输入的图像，所述图像包括一个或多个文档目标；
输出所述文档目标的分类结果，所述分类结果包括所述文档目标的类别标签，所述分类结果根据所述文档目标的视觉特征和所述文档目标的语义特征获得，所述文档目标的语义特征根据所述文档目标中的文本获得。

16.根据权利要求15所述的方法，其特征在于，所述分类结果还包括与所述类别标签对应的置信度。

17.根据权利要求15或16所述的方法，其特征在于，所述输出所述文档目标的分类结果，包括：
向所述用户呈现所述文档目标的分类结果；或者，
输出所述文档目标的分类结果至结果文件。

18.根据权利要求15至17任一项所述的方法，其特征在于，所述方法还包括：
输出所述文档目标的包围框，所述包围框根据所述文档目标的视觉特征获得。

19.根据权利要求18所述的方法，其特征在于，所述包围框根据基于所述视觉特征回归的初始角点获得。

20.根据权利要求19所述的方法，其特征在于，所述初始角点包括四个，所述包围框根据修正后的角点获得，所述修正后的角点大于或等于四个，所述修正后的角点根据边缘线的交点对所述初始角点修正获得，所述边缘线是基于所述视觉特征回归的边缘信息提取的直线。

21.根据权利要求15至20任一项所述的方法，其特征在于，所述方法还包括：
根据所述图像以及与所述分类结果对应的光学字符识别模型，获得所述图像中所述文档目标的结构化信息。

22.一种图像处理系统，其特征在于，所述系统包括：
通信单元，用于获取图像，所述图像包括一个或多个文档目标；
特征提取单元，用于根据所述文档目标中的文本获取所述文档目标的语义特征；
分类单元，用于根据所述文档目标的视觉特征...

【专利技术属性】
技术研发人员：黄永帅，潘乐萌，张资殷，都林，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人