文档解析方法、装置、终端设备和计算机可读存储介质制造方法及图纸

技术编号：37455556 阅读：34 留言：0更新日期：2023-05-06 09:27

本申请提供了一种文档解析方法、装置、终端设备和计算机可读存储介质，方法包括首先获取待解析文档；然后将待解析文档输入至预先建立的边框生成模型，在待解析文档相应位置生成边界框；边界框的数量为一个或多个；最后对边界框中的文字块进行解析，以得到解析结果；其中，边界生成模块是采用带有线框的文档样本对深度目标检测模型进行学习训练得到的。该文档解析方法，采用边框生成模型可以对待解析文档中的文字块生成边界框，然后在对边界框中的文字进行解析，操作简单，并且可以提高文字解析的准确率。的准确率。的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文档解析方法、装置、终端设备和计算机可读存储介质

[0001]本申请涉及文档解析
，具体涉及一种文档解析方法、装置、终端设备和计算机可读存储介质。

技术介绍

[0002]随着网络科技不断发展，我们每天都会接触各种各样不同信息，这些信息通常都是以文档形式存在，但不同文档中信息的样式多种多样，并且文档类型也不尽相同(包括电子文档和纸质文档)；为了获取这些信息，往往需要对文档进行解析，例如海运托书单上有很多信息，在整个海运过程中物流公司需要对海运托书单上的信息进行解析才能获取海运托书单上寄收双方信息以及地址等关键信息。
[0003]目前通常是采用一些字符识别技术来实现对文档中相关信息的自动识别。然而对于文档而言，有一部分带有线框信息，也有相当一部分没有线框信息，而经过实验发现对于带有线框信息的文档会将相同含义的字段写在同一线框，便于解析，但需要先识别线框，操作非常麻烦；而对于没有线框信息的文档其字段排列比较随意，那么信息解析难度会增加，并且解析准确率低。

技术实现思路

[0004]有鉴于此，本申请实施...

【技术保护点】

【技术特征摘要】
1.一种文档解析方法，其特征在于，所述方法包括：获取待解析文档；将所述待解析文档输入至预先建立的边框生成模型，在所述待解析文档相应位置生成边界框；所述边界框的数量为一个或多个；对所述边界框中的文字块进行解析，以得到解析结果；其中，所述边界生成模块是采用带有线框的文档样本对深度目标检测模型进行学习训练得到的。2.根据权利要求1所述的方法，其特征在于，建立所述边框生成模型，包括：获取带有线框的文档样本；确定所述文档样本中线框的区域信息；对所述文档样本进行字符识别，识别出所述文档样本中的文字块以及文字块的位置信息；根据所述文字块的位置信息和所述线框的区域信息，确定每个所述文字块所属的线框；对于所属线框的文字块，根据文字块的坐标计算出每一个文字块的目标边界框；将所述文档样本中的文字块以及文字块的位置信息输入至所述深度目标检测模型，生成文字块的实际边界框；对所述深度目标检测模型的权重进行调整，直至实际边界框与目标边界框的偏差在容许范围内时，训练完成，得到所述边框生成模型。3.根据权利要求1所述的方法，其特征在于，所述获取带有线框的文档样本，包括：采用计算机视觉工具从多个文档样本中筛选出带有线框的文档样本。4.根据权利要求2所述的方法，其特征在于，所述根据文字块的坐标计算出每一个文字块的目标边界框，包括：分别提取所述文字块的最左边、最右边、最上边以及最下边的坐标；根据所述最左边、最右边、最上边以及最下边的坐标计算出每一个文字块的目标边界框。5.根据权利要求2所述的方法，其特...

【专利技术属性】
技术研发人员：卞晓瑜，肖鸣林，何程，
申请(专利权)人：壹沓科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人