【技术实现步骤摘要】
无需细粒度检测的场景文本提取方法、系统
[0001]本专利技术涉及文字提取
,更为具体地,涉及一种无需细粒度检测的场景文本提取方法、系统、电子设备。
技术介绍
[0002]近年来,场景文本定位与识别的系统取得了很大的成功,在身份认证、车牌识别、视觉问答等众多实际应用中具有重要意义。在深度学习的帮助下,文本提取技术依靠精细注释的数据集取得了令人印象深刻的结果。传统的场景文本定位识别系统通常包含两个独立的任务:文本检测和文本识别。具体来说,检测的目标是为细粒度的文本实例提供精确且紧密的轮廓;识别器的目的是将裁剪好的文本图像转录成可读的字符序列。其中,要求检测器尽可能精确,以便为后续的识别提供合适的文本区域特征。现有的工作大多数遵循着单词/字符级别细粒度和单个实例识别的框架,这种框架过分强调了检测器的作用,同时忽略了丰富的上下文信息在识别中的作用。
[0003]一方面,细粒度的精确检测在现实场景中具有很大的挑战性。例如,当文本分布在多行多列时,容易出现有歧义的检测结果;当文本密集聚集时,检测器很难区分词的边界。同时,由于识别模块对检测结果高度敏感,如果检测边界太松,会引入背景干扰,如果检测边界过紧,也会破坏字符的完整性。
[0004]另一方面,识别器的输入通常是一个孤立的实例(如单词),会丢失附近文本的丰富上下文信息,在遮挡、反射等情况下会导致识别错误。虽然一些工作涉及到基于词典的后处理或额外的语言模型,但它们缺乏灵活性,泛化能力有限。
[0005]因此,亟需一种能够减轻检测器压力,充分利用上 ...
【技术保护点】
【技术特征摘要】
1.一种无需细粒度检测的场景文本提取方法,其特征在于,包括:将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像;其中,所述文本块检测器由预先建立的文本块数据集训练而成;所述文本块数据集通过启发式文本块生成方法生成;通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图,基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量,基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与所述预测特征相对应的预测文本。2.如权利要求1所述的无需细粒度检测的场景文本提取方法,其特征在于,通过启发式文本块生成方法生成所述文本块数据集的步骤,包括:在预获取的基于单词或文本行的公共基准数据集上标注用于文本检测器训练的文本块标注;所述文本块标注包括位置信息和文本信息;基于所述位置信息按照垂直和水平位置对所述公共基础数据集中的公共基础数据进行排序,并为所述公共数据所携带的原始标注生成最小外接矩阵标注;基于所述最小外接矩阵标注生成所述公共数据的文本框以形成样本数据;其中,若一个公共数据中所存在的两个文本框的交并比大于预设的文本框阈值,则将所述两个文本框合并为一个文本框;将具有文本框和文本块标注的样本数据汇总为数据集作为文本块数据集。3.如权利要求2所述的无需细粒度检测的场景文本提取方法,其特征在于,将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像的步骤,包括:通过特征金字塔网络将所述文本图像输入至所述文本块检测器的残差网络的骨干网络中以获取所述文本图像的全图特征图;通过所述文本块检测器中的区域选择网络基于所述全图特征图生成所述文本图像的待检测框;通过所述文本检测器中的特征网络模块根据所述待检测框在所述全图特征图中选取每个块对应的块特征;通过所述文本块检测器中的全连接层基于所述块特征对所述待检测框进行分类以确定各个类别的文本框,并基于所述各个类别的文本框对所述文本图像进行裁剪以生成文本块图像。4.如权利要求3所述的无需细粒度检测的场景文本提取方法,其特征在于,通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图,基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量的步骤包括:通过所述文本块识别器中的骨干网络对所述文本块图像进行特征提取以获取文本块特征图;通过所述文本块识别器中的基于LSTM的注意力模块、位置注意力模块分别基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量。5.如权利要求4所述的无需细粒度检测的场景文本提取方法,其特征在于,基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与所述预测
特征相对应的预测文本的步骤,包括:通过所述文本块识别器中...
【专利技术属性】
技术研发人员:周宇,魏谨,张远,曾港艳,王伟平,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。