一种图像文档的文本抽取方法、装置及电子设备制造方法及图纸

技术编号：26599354 阅读：14 留言：0更新日期：2020-12-04 21:22

本发明专利技术公开了一种图像文档的文本抽取方法、装置及电子设备方法包括：通过光学字符识别模型对图像文档进行识别；根据所识别的信息生成组合向量；将所述组合向量输入文本抽取模型进行文本抽取，获得结构化信息；其中，根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化，所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。该方法能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像文档的文本抽取方法、装置及电子设备
本专利技术涉及图像处理
，尤其涉及一种图像文档的文本抽取方法、装置及电子设备。
技术介绍
文档抽取可以分为信息抽取和文档结构理解两个部分。以语言模型为基础的信息抽取技术已经发展到了较高水平，比较常用的框架有word2vec+BiLSTM+CRF、BERT、GPT、ERNIE等预训练模型。大规模预训练语言模型能够通过自监督任务在预训练阶段有效捕捉文本中蕴含的语义信息，经过下游任务微调后能有效地提升模型效果。然而，现有的预训练语言模型主要针对文本单一模态进行，而忽视了文档本身与文本天然对齐的视觉结构信息，而且均是利用识别好的OCR结果进行信息抽取的，不支持类似表格结构的信息抽取，造成结构信息的抽取混乱。
技术实现思路
本专利技术提供了一种图像文档的文本抽取方法、装置及电子设备，能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。根据本专利技术的第一方面，提供了一种图像文档的文本抽取方法，包括：通过光学字符识别模型对图像文档进行识别；根据所识别的信息生成组合向量；将所述组合向量输入文本抽取模型进行文本抽取，获得结构化信息；其中，根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化，所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。进一步地，所述通过光学字符识别模型对图像文档进行识别，包括：对图像文档进行倾斜校正、文字检测、文字识别和表格识别，得到文字信息、图像信息、坐标...

【技术保护点】
1.一种图像文档的文本抽取方法，其特征在于，包括：/n通过光学字符识别模型对图像文档进行识别；/n根据所识别的信息生成组合向量；/n将所述组合向量输入文本抽取模型进行文本抽取，获得结构化信息；/n其中，根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化，所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。/n

【技术特征摘要】
1.一种图像文档的文本抽取方法，其特征在于，包括：
通过光学字符识别模型对图像文档进行识别；
根据所识别的信息生成组合向量；
将所述组合向量输入文本抽取模型进行文本抽取，获得结构化信息；
其中，根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化，所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。

2.根据权利要求1所述的方法，其特征在于，所述通过光学字符识别模型对图像文档进行识别，包括：
对图像文档进行倾斜校正、文字检测、文字识别和表格识别，得到文字信息、图像信息、坐标信息和表格信息。

3.根据权利要求2所述的方法，其特征在于，根据所识别的信息生成组合向量包括：
根据文字信息得到词嵌入和位置嵌入，根据图像信息到字符图像嵌入，根据坐标信息得到坐标嵌入，根据表格信息得到表格信息嵌入，组合得到所述组合向量。

4.根据权利要求3所述的方法，其特征在于，按照下述方式计算所述联合损失函数：

其中，为对图像文档进行识别的损失，为文本抽取的损失，为预设的系数。

5.根据权利要求4所述的方法，其特征在于，所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。

6.一种图像文档的文...

【专利技术属性】
技术研发人员：黄园园，钱泓锦，刘占亮，窦志成，
申请(专利权)人：北京智源人工智能研究院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人