一种图像文档的文本抽取方法、装置及电子设备制造方法及图纸

技术编号:26599354 阅读:14 留言:0更新日期:2020-12-04 21:22
本发明专利技术公开了一种图像文档的文本抽取方法、装置及电子设备方法包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。该方法能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。

【技术实现步骤摘要】
一种图像文档的文本抽取方法、装置及电子设备
本专利技术涉及图像处理
,尤其涉及一种图像文档的文本抽取方法、装置及电子设备。
技术介绍
文档抽取可以分为信息抽取和文档结构理解两个部分。以语言模型为基础的信息抽取技术已经发展到了较高水平,比较常用的框架有word2vec+BiLSTM+CRF、BERT、GPT、ERNIE等预训练模型。大规模预训练语言模型能够通过自监督任务在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效地提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,而忽视了文档本身与文本天然对齐的视觉结构信息,而且均是利用识别好的OCR结果进行信息抽取的,不支持类似表格结构的信息抽取,造成结构信息的抽取混乱。
技术实现思路
本专利技术提供了一种图像文档的文本抽取方法、装置及电子设备,能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。根据本专利技术的第一方面,提供了一种图像文档的文本抽取方法,包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。进一步地,所述通过光学字符识别模型对图像文档进行识别,包括:对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。进一步地,根据所识别的信息生成组合向量包括:根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。进一步地,按照下述方式计算所述联合损失函数:其中,为对图像文档进行识别的损失,为文本抽取的损失,为预设的系数。进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。根据本专利技术的第二方面,提供了一种图像文档的文本抽取装置,包括:识别模块,用于通过光学字符识别模型对图像文档进行识别;向量生成模块,用于根据所识别的信息生成组合向量;抽取模块,用于将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;训练模块,用于根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。进一步地,所述识别模块包括倾斜校正模块、文字检测模块、文字识别模块和表格识别模块,得到文字信息、图像信息、坐标信息和表格信息;所述向量生成模块根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。根据本专利技术的第三方面,提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行如第一方面所述的方法。根据本专利技术的第四方面,提供了一种计算机可读存储介质,所述计算机存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。本专利技术提供的图像文档的文本抽取方法、装置及电子设备,至少包括如下有益效果:OCR的输出除了纯文本的文字特征外,还包括单个字符的图像特征、x、y坐标特征、表格特征等结构信息,在文本抽取模型中实现多种特征的嵌入,从而避免了结构信息的抽取混乱;对光学字符识别模型以及文本抽取模型进行联合优化,充分利用了文档的布局信息和文档的语义信息,不再单独优化光学字符识别模型以及文本抽取模型某一部分的结果,大大增加了光学字符识别模型的识别能力、语义分割能力和文档抽取结果的准确度;本申请的文档抽取方法不限于某种网络架构和语言模型、也不限于具体自然语言处理任务;光学字符识别模型也不限于识别的功能和模块结构,文档抽取方法不限于具体抽取和识别文档,适用任何图像文档和语言。附图说明图1为本专利技术提供的图像文档的文本抽取方法一种实施例的流程图。图2为本专利技术提供的图像文档的文本抽取装置一种实施例的结构示意图。图3为本专利技术提供的电子设备一种实施例的结构示意图。具体实施方式为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。参考图1,在一些实施例中,提供一种图像文档的文本抽取方法,包括:步骤S101,通过光学字符识别模型对图像文档进行识别;步骤S102,根据所识别的信息生成组合向量;步骤S103,将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;步骤S104,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。具体地,步骤S101中,所述通过光学字符识别模型对图像文档进行识别,包括:对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。OCR,光学字符识别(OpticalCharacterRecognition)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。光学字符识别模型(OCR)首先是对图像文档进行整体的倾斜校正,倾斜或者扭曲较大的图片会对文字识别和表格识别造成较大干扰,倾斜矫正采用EAST模型实现;由于在倾斜文档中各个文字的大小不一、位置不一致,而EAST模型除了抽取特征层外,还有一个特殊的特征融合层能够融合不用层次的特征,大小文字,分别利用底层和高层的语义信息。文字检测则是利用训练简单,结果易用,不需要进行太多后续复杂处理的DBNet模型。文字识别则是利用CRNN模型,CRNN由CNN+BiLSTM+CTC结构组成。表格识别则利用MaskR-CNN实现。单个字符的图像特征包含了丰富的文字字体、字号大小、颜色等特征,是一种重要的文本信息。在大多数商业票据或者图像文档中,存在大量的表格,若按照纯文本的方法处理表格信息,将造成大量的信息缺失和混乱。上述实施例提供的方法,利用OCR输出的表格结构信息,将描述同一事物的单行、多行信息约束在同一个单元格内。进一步地,步骤S102中,根据所识别的信息生成组合向量包括:根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。组合向量的形式如下:Y=++++。其中,为词嵌入,为位置嵌入,为坐标嵌入,为字符图像嵌入,为表格信息嵌入。进一步地,步骤S103中,将所述组合向量Y输入文本抽取模型进行文本抽取,获得结构化的信息,例如以JSON格式。文档抽取利用本文档来自技高网...

【技术保护点】
1.一种图像文档的文本抽取方法,其特征在于,包括:/n通过光学字符识别模型对图像文档进行识别;/n根据所识别的信息生成组合向量;/n将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;/n其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。/n

【技术特征摘要】
1.一种图像文档的文本抽取方法,其特征在于,包括:
通过光学字符识别模型对图像文档进行识别;
根据所识别的信息生成组合向量;
将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。


2.根据权利要求1所述的方法,其特征在于,所述通过光学字符识别模型对图像文档进行识别,包括:
对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。


3.根据权利要求2所述的方法,其特征在于,根据所识别的信息生成组合向量包括:
根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。


4.根据权利要求3所述的方法,其特征在于,按照下述方式计算所述联合损失函数:



其中,为对图像文档进行识别的损失,为文本抽取的损失,为预设的系数。


5.根据权利要求4所述的方法,其特征在于,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。


6.一种图像文档的文...

【专利技术属性】
技术研发人员:黄园园钱泓锦刘占亮窦志成
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1