无需细粒度检测的场景文本提取方法、系统技术方案

技术编号:37112457 阅读:14 留言:0更新日期:2023-04-01 05:09
本发明专利技术提供一种无需细粒度检测的场景文本提取方法,首先将所获取的文本图像输入至预训练的文本块检测器中以使文本块检测器对文本图像进行检测剪裁形成文本块图像;再通过预训练的文本块识别器基于文本块特征图获取所述文本块图像的语义特征向量和位置特征向量,基于语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与预测特征相对应的预测文本,通过这种粗粒度检测与多实例识别相结合的框架减轻检测负担,同时利用丰富的上下文信息进行识别,能够通过启发式文本块生成方法依据真实数据集生成的文本块级数据集训练文本块检测器,无需细粒度检测即可实现高精度文本提取。实现高精度文本提取。实现高精度文本提取。

【技术实现步骤摘要】
无需细粒度检测的场景文本提取方法、系统


[0001]本专利技术涉及文字提取
,更为具体地,涉及一种无需细粒度检测的场景文本提取方法、系统、电子设备。

技术介绍

[0002]近年来,场景文本定位与识别的系统取得了很大的成功,在身份认证、车牌识别、视觉问答等众多实际应用中具有重要意义。在深度学习的帮助下,文本提取技术依靠精细注释的数据集取得了令人印象深刻的结果。传统的场景文本定位识别系统通常包含两个独立的任务:文本检测和文本识别。具体来说,检测的目标是为细粒度的文本实例提供精确且紧密的轮廓;识别器的目的是将裁剪好的文本图像转录成可读的字符序列。其中,要求检测器尽可能精确,以便为后续的识别提供合适的文本区域特征。现有的工作大多数遵循着单词/字符级别细粒度和单个实例识别的框架,这种框架过分强调了检测器的作用,同时忽略了丰富的上下文信息在识别中的作用。
[0003]一方面,细粒度的精确检测在现实场景中具有很大的挑战性。例如,当文本分布在多行多列时,容易出现有歧义的检测结果;当文本密集聚集时,检测器很难区分词的边界。同时,由于识别模块对检测结果高度敏感,如果检测边界太松,会引入背景干扰,如果检测边界过紧,也会破坏字符的完整性。
[0004]另一方面,识别器的输入通常是一个孤立的实例(如单词),会丢失附近文本的丰富上下文信息,在遮挡、反射等情况下会导致识别错误。虽然一些工作涉及到基于词典的后处理或额外的语言模型,但它们缺乏灵活性,泛化能力有限。
[0005]因此,亟需一种能够减轻检测器压力,充分利用上下文语义信息,提高灵活性和泛化能力的无需细粒度检测的场景文本提取方法、系统。

技术实现思路

[0006]鉴于上述问题,本专利技术的目的是提供一种无需细粒度检测的场景文本提取方法,以解决当前现有技术中一方面,细粒度的精确检测在现实场景中具有很大的挑战性。例如,当文本分布在多行多列时,容易出现有歧义的检测结果;当文本密集聚集时,检测器很难区分词的边界。同时,由于识别模块对检测结果高度敏感,如果检测边界太松,会引入背景干扰,如果检测边界过紧,也会破坏字符的完整性;另一方面,识别器的输入通常是一个孤立的实例(如单词),会丢失附近文本的丰富上下文信息,在遮挡、反射等情况下会导致识别错误。虽然一些工作涉及到基于词典的后处理或额外的语言模型,但它们缺乏灵活性,泛化能力有限的问题。
[0007]本专利技术提供的一种无需细粒度检测的场景文本提取方法,包括:
[0008]将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像;其中,所述文本块检测器由预先建立的文本块数据集训练而成;所述文本块数据集通过启发式文本块生成方法生成;
[0009]通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图,基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量,基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与所述预测特征相对应的预测文本。
[0010]优选地,通过启发式文本块生成方法生成所述文本块数据集的步骤,包括:
[0011]在预获取的基于单词或文本行的公共基准数据集上标注用于文本检测器训练的文本块标注;所述文本块标注包括位置信息和文本信息;
[0012]基于所述位置信息按照垂直和水平位置对所述公共基础数据集中的公共基础数据进行排序,并为所述公共数据所携带的原始标注生成最小外接矩阵标注;
[0013]基于所述最小外接矩阵标注生成所述公共数据的文本框以形成样本数据;其中,若一个公共数据中所存在的两个文本框的交并比大于预设的文本框阈值,则将所述两个文本框合并为一个文本框;
[0014]将具有文本框和文本块标注的样本数据汇总为数据集作为文本块数据集。
[0015]优选地,将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像的步骤,包括:
[0016]通过特征金字塔网络将所述文本图像输入至所述文本块检测器的残差网络的骨干网络中以获取所述文本图像的全图特征图;
[0017]通过所述文本块检测器中的区域选择网络基于所述全图特征图生成所述文本图像的待检测框;
[0018]通过所述文本检测器中的特征网络模块根据所述待检测框在所述全图特征图中选取每个块对应的块特征;
[0019]通过所述文本块检测器中的全连接层基于所述块特征对所述待检测框进行分类以确定各个类别的文本框,并基于所述各个类别的文本框对所述文本图像进行裁剪以生成文本块图像。
[0020]优选地,通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图,基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量的步骤包括:
[0021]通过所述文本块识别器中的骨干网络对所述文本块图像进行特征提取以获取文本块特征图;
[0022]通过所述文本块识别器中的基于LSTM的注意力模块、位置注意力模块分别基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量。
[0023]优选地,基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与所述预测特征相对应的预测文本的步骤,包括:
[0024]通过所述文本块识别器中的融合模块对所述语义特征向量和所述位置特征向量进行特征融合以获取融合特征向量,并将所述融合特征向量作为预测特征;
[0025]通过预训练的前馈神经网络对所述预测特征进行译码以输出预测文本。
[0026]优选地,所述文本块识别器由合成数据集训练而成;所述合成数据集包括标有上下文标签和视觉标签的文本块图像。
[0027]优选地,在训练所述文本块识别器的过程中,根据基于聚合交叉熵损失的字符计
数监督和交叉熵损失计算损失函数;其中,计算损失函数的步骤包括:
[0028]在所述骨干网络中提取所述文本块特征图;
[0029]根据所述文本块特征图进行密集预测以获取预测参数,并根据所述预测参数获取预测统计值;
[0030]通过预设的ACE损失函数计算被训练的文本块识别器所产生的文本预测与已知的标签的差异参数,并将所述差异参数作为字符计数监督;
[0031]通过预设的交叉熵算法计算被训练的文本块识别器所产生的文本预测与已知的标签的交叉熵损失,并根据所述交叉熵损失与所述字符计数监督计算获取损失函数。
[0032]本专利技术还提供一种无需细粒度检测的场景文本提取系统,实现如前所述的无需细粒度检测的场景文本提取方法,包括:
[0033]文本块检测器,所述文本检测器用于对文本图像进行检测剪裁形成文本块图像;其中,所述文本块检测器由预先建立的文本块数据集训练而成;所述文本块数据集通过启发式文本块生成方法生成;
[0034]文本块识别器,所述文本块识别器用于对所述文本块图像进行特征提取以获取文本块特征图,基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无需细粒度检测的场景文本提取方法,其特征在于,包括:将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像;其中,所述文本块检测器由预先建立的文本块数据集训练而成;所述文本块数据集通过启发式文本块生成方法生成;通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图,基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量,基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与所述预测特征相对应的预测文本。2.如权利要求1所述的无需细粒度检测的场景文本提取方法,其特征在于,通过启发式文本块生成方法生成所述文本块数据集的步骤,包括:在预获取的基于单词或文本行的公共基准数据集上标注用于文本检测器训练的文本块标注;所述文本块标注包括位置信息和文本信息;基于所述位置信息按照垂直和水平位置对所述公共基础数据集中的公共基础数据进行排序,并为所述公共数据所携带的原始标注生成最小外接矩阵标注;基于所述最小外接矩阵标注生成所述公共数据的文本框以形成样本数据;其中,若一个公共数据中所存在的两个文本框的交并比大于预设的文本框阈值,则将所述两个文本框合并为一个文本框;将具有文本框和文本块标注的样本数据汇总为数据集作为文本块数据集。3.如权利要求2所述的无需细粒度检测的场景文本提取方法,其特征在于,将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像的步骤,包括:通过特征金字塔网络将所述文本图像输入至所述文本块检测器的残差网络的骨干网络中以获取所述文本图像的全图特征图;通过所述文本块检测器中的区域选择网络基于所述全图特征图生成所述文本图像的待检测框;通过所述文本检测器中的特征网络模块根据所述待检测框在所述全图特征图中选取每个块对应的块特征;通过所述文本块检测器中的全连接层基于所述块特征对所述待检测框进行分类以确定各个类别的文本框,并基于所述各个类别的文本框对所述文本图像进行裁剪以生成文本块图像。4.如权利要求3所述的无需细粒度检测的场景文本提取方法,其特征在于,通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图,基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量的步骤包括:通过所述文本块识别器中的骨干网络对所述文本块图像进行特征提取以获取文本块特征图;通过所述文本块识别器中的基于LSTM的注意力模块、位置注意力模块分别基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量。5.如权利要求4所述的无需细粒度检测的场景文本提取方法,其特征在于,基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与所述预测
特征相对应的预测文本的步骤,包括:通过所述文本块识别器中...

【专利技术属性】
技术研发人员:周宇魏谨张远曾港艳王伟平
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1