文本图像的处理方法及装置制造方法及图纸

技术编号：37992362 阅读：11 留言：0更新日期：2023-06-30 10:06

本公开提供了一种文本图像的处理方法及装置，涉及人工智能技术领域，具体为计算机视觉、图像处理、深度学习等技术领域，可应用于智慧金融、智慧政务等场景。实现方案为：提取文本图像的文本图像特征；基于经训练的多个语义查询特征对文本图像特征进行语义预测，以得到与多个语义查询特征分别对应的多个语义结果特征，其中，多个语义结果特征中的至少一部分表征至少一个文字片段的语义信息；以及基于多个语义结果特征对文本图像特征进行解码，以得到文本图像处理结果，其中，文本图像处理结果至少包括至少一个文字片段在文本图像中的位置信息。信息。信息。

全部详细技术资料下载

【技术实现步骤摘要】
文本图像的处理方法及装置

[0001]本公开涉及人工智能
，具体为计算机视觉、图像处理、深度学习等
，可应用于智慧金融、智慧政务等场景。本公开具体涉及一种文本图像的处理方法及装置、文本图像处理网络的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]OCR在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用，文字检测作为OCR系统的前置环节决定了整个系统的效果上限，一个好的文字检测装置对于完整的OCR软件系统起着至关重要的作用。
[0003]文字检测面临各种各样的文档、卡证、票据是极具挑战性的，尤其是面临着复杂背景下的遮挡、扭曲、以及排列分布复杂的场景。现有业界主流的检测方法，包括基于回归的方式以及基于文本和非文本两类分割的方式，这两种方式均存在一定的缺陷。
[0004]随着AI应用进入深水区，用户对于挑战性较高的场景逐渐暴露出比较高的效果需求如财务、医疗场景下的各种票据，由于关键信息是套打在带有底板样式的票据模板上，往往会带来显示文本重叠的问题，另外，某些开放场景如街景店面POI经常有横竖阅读跳变的文字场景。这些都对文字检测带来了识别的挑战。
[0005]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0006]本公开提供了一种文...

【技术保护点】

【技术特征摘要】
1.一种文本图像处理方法，所述方法包括：提取所述文本图像的文本图像特征，其中，所述文本图像包括至少一个文字片段；基于经训练的多个语义查询特征对所述文本图像特征进行语义预测，以得到与所述多个语义查询特征分别对应的多个语义结果特征，其中，所述多个语义结果特征中的至少一部分表征所述至少一个文字片段的语义信息；以及基于所述多个语义结果特征对所述文本图像特征进行解码，以得到文本图像处理结果，其中，所述文本图像处理结果至少包括所述至少一个文字片段在所述文本图像中的位置信息。2.根据权利要求1所述的方法，其中，基于经训练的多个语义查询特征对所述文本图像特征进行语义预测，以得到与所述多个语义查询特征分别对应的多个语义结果特征包括：根据所述文本图像特征确定第一键特征和第一值特征；以及将所述多个语义查询特征、所述第一键特征和所述第一值特征输入语义预测网络，得到所述语义预测网络输出的多个语义结果特征。3.根据权利要求1所述的方法，其中，基于经训练的多个语义查询特征对所述文本图像特征进行语义预测还包括：利用语义预测网络对所述文本图像特征进行语义预测，其中，所述语义预测网络具有基于Region
‑
based的网络框架。4.根据权利要求1所述的方法，其中，基于所述多个语义结果特征对所述文本图像特征进行解码，以得到文本图像处理结果包括：根据所述文本图像特征确定第二键特征和第二值特征；以及将所述多个语义结果特征、所述第二键特征和所述第二值特征输入位置解码器，得到所述位置解码器输出的文本图像处理结果。5.根据权利要求1
‑
4中任一项所述的方法，其中，所述将所述多个语义结果特征、所述第二键特征和所述第二值特征输入位置解码器，得到所述位置解码器输出的文本图像处理结果包括：根据所述多个语义结果特征、所述第二键特征和所述第二值特征确定多个位置解码特征；以及对所述多个位置解码特征进行回归预测，以得到所述文本图像处理结果。6.根据权利要求1
‑
4中任一项所述的方法，其中，所述文本图像处理结果包括：所述至少一个文字片段中的每个文字片段的包围盒信息，其中，所述包围盒表示该文字片段在所述文本图像中的边界。7.一种文本图像处理网络的训练方法，其中，所述文本图像处理网络包括特征提取器、语义预测网络和位置解码器，所述训练方法包括：获取样本文本图像和所述样本文本图像所包括的至少一个文字片段各自的真实语义标签；将所述样本文本图像输入所述特征提取器，以得到样本图像特征；利用所述语义预测网络，基于多个语义查询特征对所述样本图像特征进行语义预测，以得到与所述多个语义查询特征分别对应的多个语义结果特征，其中，所述多个语义结果特征中的至少一部分表征所述至少一个文字片段的语义信息；
基于所述样本文本图像所包括的至少一个文字片段各自的真实语义标签和所述多个语义结果特征，确定损失值；以及基于所述损失值调整所述语义预测网络的参数和所述多个语义查询特征，以得到训练后的语义预测网络和经训练的多个语义查询特征。8.根据权利要求7所述的训练方法，其中，所述真实语义标签包括向量标签，所述获取样本文本图像和所述样本文本图像所包括的至少一个文字片段各自的真实语义标签包括：利用语义编码器，将所述至少一个文字片段中的每个文字片段的语义进行编码，以生成对应的向量标签。9.根据权利要求8所述的训练方法，其中，所述至少一个文字片段包括中文片段和英文片段，所述语义编码器包括用于对所述中文片段进行编码的第一模型以及用于对所述英文片段进行编码的第二模型。10.一种文本图像的处理装置，其中，所述装置包括：第一提取单元，配置成提取所述文本图像的文本图像特征，其中，所述文本图像包括至少一个文字片段；第一预测单元，配置成基于经训练的多个语义查询特征对所述文本图像特征进行语义预测，以得到与所述多个语义查询特征...

【专利技术属性】
技术研发人员：章成全，吕鹏原，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人