文档识别方法、装置及电子设备制造方法及图纸

技术编号：31377604 阅读：16 留言：0更新日期：2021-12-15 11:17

本申请公开了一种文档识别方法、装置及电子设备，所述方法包括：获得待识别的目标文档，所述目标文档为PDF格式，且所述目标文档包含至少一个文档页面；获得所述文档页面中页面内容所在的内容区域；根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型。以得到所述文档页面的目标页面类型。以得到所述文档页面的目标页面类型。

全部详细技术资料下载

【技术实现步骤摘要】
文档识别方法、装置及电子设备

[0001]本申请涉及数据处理
，尤其涉及一种文化识别方法、装置及电子设备。

技术介绍

[0002]对于PDF文档的内容识别，包含文档类型的识别和文字的识别。目前主要采用基于深度学习的计算机视觉识别模型实现。计算机视觉识别模型通过大量的样本数据进行训练得到。
[0003]但是，在计算机视觉识别模型的使用过程中，由于经常出现新的文档类型，因此，会导致无法对文档类型进行准确的识别，使得识别结果的错误率较高。

技术实现思路

[0004]有鉴于此，本申请提供一种文档识别方法、装置及电子设备，用以解决目前对文档类型的识别错误率较高的技术问题，如下：
[0005]一种文档识别方法，所述方法包括：
[0006]获得待识别的目标文档，所述目标文档为PDF格式，且所述目标文档包含至少一个文档页面；
[0007]获得所述文档页面中页面内容所在的内容区域；
[0008]根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；
[0...

【技术保护点】

【技术特征摘要】
1.一种文档识别方法，其特征在于，所述方法包括：获得待识别的目标文档，所述目标文档为PDF格式，且所述目标文档包含至少一个文档页面；获得所述文档页面中页面内容所在的内容区域；根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型。2.根据权利要求1所述的方法，其特征在于，所述区域参数包括所述内容区域在所属文档页面中的面积比例参数、所述内容区域在所属文档页面中的区域位置参数和所述内容区域的区域形状参数；其中，根据所述内容区域的区域参数，获得所述文档页面的初始页面类型，包括：将所述区域参数与预设的页面类型的类型参数进行比对，以得到与所述区域参数相匹配的目标类型参数，所述目标类型参数对应的页面类型为所述文档页面的初始页面类型。3.根据权利要求1或2所述的方法，其特征在于，使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型，包括：对所述文档页面进行文字识别，以得到所述文档页面中的文字数据；将所述文字数据与所述初始页面类型对应的类型关键词进行比对，以得到所述文档页面的目标页面类型。4.根据权利要求3所述的方法，其特征在于，所述类型关键词对应有字典树；其中，将所述文字数据与所述初始页面类型对应的类型关键词进行比对，以得到所述文档页面的目标页面类型，包括：将所述文字数据与所述字典树进行匹配，以得到关键词匹配结果，所述关键词匹配结果表征所述文字数据是否与所述字典树相匹配；在所述关键词匹配结果表征所述文字数据与所述字典树相匹配的情况下，将所述字典树对应的类型关键词所属的初始页面类型确定为所述文档页面的目标页面类型。5.根据权利要求3所述的方法，其特征在于，对所述文档页面进行文字识别，以得到所述文档页面中的文字数据，包括：使用计算机视觉识别模型对所述文档页面进行文字识别，以得到第一文本向量序列，所述第一文本向量序列中包含至少一个文本向量；使用自然语言纠错模型对所述第一文本向量序列进行纠错处理，以得到第二文本向量序列，所述第二文本向量序列中包含至少一个文本向量；将所述第一文本向量序列中的文本向量和所述第二文本向量序列中的文本向量进行向量融合，以得到目标文本向量序列；根据所述目标文本向量序列，获得所述文档页面中的文字数据。6.根据权利要求5所述的方法，其特征在于，所述计算机视觉识别模型以样本图像为输入，以样本向量序列为输出进行训练得到；所述自然语言纠错模型以第一文本样本的文本向量序列为输入，以第二文本样本的文本向量序列为输出进行训练得到，所述...

【专利技术属性】
技术研发人员：崔渊，孙科，李艺飞，瞿翊，
申请(专利权)人：上海金仕达软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人