一种文本信息提取方法、提取系统、电子设备及存储介质技术方案

技术编号：34720361 阅读：11 留言：0更新日期：2022-08-31 18:05

本申请实施例提供了一种文本信息提取方法、提取系统、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取待提取的目标图像；利用预训练的文本擦除模型对目标图像进行印章擦除，得到去除目标图像上印章的第一图像；利用预训练的文本检测模型对第一图像进行文本行检测，得到至少一组文本行坐标信息；利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别，得到多个目标文本信息。本申请实施例能够实现对带印章图像的文本检测和识别，提高了对带印章图像的信息提取的准确率。的准确率。的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本信息提取方法、提取系统、电子设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种文本信息提取方法、提取系统、电子设备及存储介质。

技术介绍

[0002]目前，许多影像资料都会带有印章，例如，在金融行业，比如保险领域，使用光学字符识别(Optical Character Recognition，OCR)技术把许多业务影像资料(比如投保单、核保资料、理赔文件等)转化成文字并做结构化存储时，由于印章覆盖在影像资料中带文字的区域，对文本检测或文本识别的效果和信息提取的识别准确率都有很大影响。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种文本信息提取方法、提取系统、电子设备及存储介质，能够实现对带印章图像的文本检测和识别，提高了对带印章图像的信息提取的准确率。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种文本信息提取方法，所述方法包括：
[0005]获取待提取的目标图像；
[0006]利用预训练的文本擦除模型对所述目标图像进行印章擦除，得到去除所述目标图像上印章的第一图像；
[0007]利用预训练的文本检测模型对所述第一图像进行文本行检测，得到至少一组文本行坐标信息；
[0008]利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别，得到多个目标文本信息。
[0009]在一些实施例中，所述利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别，得到多个目标文本信息，包括：r/>[0010]根据每组文本行坐标信息对所述第一图像进行文本图像截取，得到文本行图像；
[0011]利用预训练的文本识别模型对每个所述文本行图像进行文本识别，得到多个目标文本信息。
[0012]在一些实施例中，在所述根据每组文本行坐标信息对所述第一图像进行文本图像截取，得到文本行图像之后，所述方法还包括：
[0013]对所述文本行图像进行灰度图像转换，以更新所述文本行图像。
[0014]在一些实施例中，所述预训练的文本擦除模型通过如下方法训练得到：
[0015]构建第一训练样本集，所述第一训练样本集包括多个第一训练样本，每个第一训练样本包括带印章的初始图像和去除印章的样本图像；
[0016]基于EraseNet算法构建端到端的初始文本擦除模型；
[0017]将多个所述带印章的初始图像输入所述初始文本擦除模型进行模型训练，得到去
除印章的第二图像；
[0018]根据所述第二图像和所述去除印章的样本图像确定第一损失值；
[0019]根据所述第二图像和所述去除印章的样本图像对所述初始文本擦除模型的模型参数进行调整，并基于所述第一训练样本集继续训练调整后的模型，直至所述第一损失值满足预设训练结束条件，以得到所述文本擦除模型。
[0020]在一些实施例中，所述基于EraseNet算法构建端到端的初始文本擦除模型，包括：
[0021]基于EraseNet算法构建端到端的第一文本擦除模型；
[0022]利用Mobilenet
‑
v3网络结构优化所述第一文本擦除模型，得到初始文本擦除模型。
[0023]在一些实施例中，所述预训练的文本检测模型通过如下方法训练得到：
[0024]构建第二训练样本集，所述第二训练样本集包括多个第二训练样本，每个第二训练样本包括初始训练图像和检测后样本图像；
[0025]基于DBNet算法构建初始文本检测模型；
[0026]将多个所述初始训练图像输入所述初始文本检测模型进行模型训练，得到第三图像；
[0027]根据所述第三图像和所述检测后样本图像确定第二损失值；
[0028]根据所述第三图像和所述检测后样本图像对所述初始文本检测模型的模型参数进行调整，并基于所述第二训练样本集继续训练调整后的模型，直至所述第二损失值满足预设训练结束条件，以得到所述文本检测模型。
[0029]在一些实施例中，所述基于DBNet算法构建初始文本检测模型，包括：
[0030]基于DBNet算法构建第一文本检测模型；
[0031]利用Resnet
‑
50网络结构优化所述第一文本检测模型，得到初始文本检测模型。
[0032]为实现上述目的，本申请实施例的第二方面提出了一种文本信息提取系统，所述系统包括：
[0033]图像获取模块，用于获取待提取的目标图像；
[0034]印章擦除模块，用于利用预训练的文本擦除模型对所述目标图像进行印章擦除，得到去除所述目标图像上印章的第一图像；
[0035]文本行检测模块，用于利用预训练的文本检测模型对所述第一图像进行文本行检测，得到至少一组文本行坐标信息；
[0036]文本识别模块，用于利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别，得到多个目标文本信息。
[0037]为实现上述目的，本申请实施例的第三方面提出了一种电子设备，包括：
[0038]至少一个存储器；
[0039]至少一个处理器；
[0040]至少一个计算机程序；
[0041]所述至少一个计算机程序被存储在所述至少一个存储器中，所述至少一个处理器执行所述至少一个计算机程序以实现上述第一方面所述的一种文本信息提取方法。
[0042]为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用
于使计算机执行上述第一方面所述的一种文本信息提取方法。
[0043]本申请实施例提出的一种文本信息提取方法、提取系统、电子设备及存储介质，通过获取待提取的目标图像，为了避免了无法对目标图像上被印章遮盖的信息的提取，利用预训练的文本擦除模型对目标图像进行印章擦除，得到去除目标图像上印章的第一图像。为了提高对第一图像中文本信息的识别能力，利用预训练的文本检测模型对第一图像进行文本行检测，得到至少一组文本行坐标信息。并利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别，得到多个目标文本信息。本申请通过结合印章擦除和文本检测识别方法，能够实现对带印章图像的文本检测和识别，提高了对带印章图像的信息提取的准确率。
附图说明
[0044]图1是本申请实施例提供的一种文本信息提取方法的流程图；
[0045]图2是图1中的步骤S140的流程图；
[0046]图3是本申请实施例提供的文本擦除模型的训练流程图；
[0047]图4是图3中的步骤S320的流程图；
[0048]图5是本申请实施例提供的文本检测模型的训练流程图；
[0049]图6是图5中的步骤S520的流程图；
[0050]图7是本申请实施例提供的一种文本信息提取系统的结构示意图；
[0051]图8是本申请实施例提供的电子设本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本信息提取方法，其特征在于，所述方法包括：获取待提取的目标图像；利用预训练的文本擦除模型对所述目标图像进行印章擦除，得到去除所述目标图像上印章的第一图像；利用预训练的文本检测模型对所述第一图像进行文本行检测，得到至少一组文本行坐标信息；利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别，得到多个目标文本信息。2.根据权利要求1所述的一种文本信息提取方法，其特征在于，所述利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别，得到多个目标文本信息，包括：根据每组文本行坐标信息对所述第一图像进行文本图像截取，得到文本行图像；利用预训练的文本识别模型对每个所述文本行图像进行文本识别，得到多个目标文本信息。3.根据权利要求2所述的一种文本信息提取方法，其特征在于，在所述根据每组文本行坐标信息对所述第一图像进行文本图像截取，得到文本行图像之后，所述方法还包括：对所述文本行图像进行灰度图像转换，以更新所述文本行图像。4.根据权利要求1所述的一种文本信息提取方法，其特征在于，所述预训练的文本擦除模型通过如下方法训练得到：构建第一训练样本集，所述第一训练样本集包括多个第一训练样本，每个第一训练样本包括带印章的初始图像和去除印章的样本图像；基于EraseNet算法构建端到端的初始文本擦除模型；将多个所述带印章的初始图像输入所述初始文本擦除模型进行模型训练，得到去除印章的第二图像；根据所述第二图像和所述去除印章的样本图像确定第一损失值；根据所述第二图像和所述去除印章的样本图像对所述初始文本擦除模型的模型参数进行调整，并基于所述第一训练样本集继续训练调整后的模型，直至所述第一损失值满足预设训练结束条件，以得到所述文本擦除模型。5.根据权利要求4所述的一种文本信息提取方法，其特征在于，所述基于EraseNet算法构建端到端的初始文本擦除模型，包括：基于EraseNet算法构建端到端的第一文本擦除模型；利用Mobilenet
‑
v3网络结构优化所述第一文本擦除...

【专利技术属性】
技术研发人员：何小臻，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人