样本处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:37721390 阅读:28 留言:0更新日期:2023-06-02 00:20
本申请涉及一种样本处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:将多个样本图像输入预先训练完成的表格匹配模型,得到所述样本图像的第一表格;基于预先设置的多个标准表格与所述第一表格,生成所述样本图像对应的多个第二表格;其中,所述样本图像的所述第二表格与所述样本图像的所述第一表格构成对应所述样本图像的多个所述标准表格;将所述第一表格与所述第二表格加入样本数据集。采用本方法能够基于第一表格生成多个第二表格,可以扩充样本数据集,有利于提高表格匹配模型的识别准确度。高表格匹配模型的识别准确度。高表格匹配模型的识别准确度。

【技术实现步骤摘要】
样本处理方法、装置、计算机设备和存储介质


[0001]本申请涉及图像识别
,特别是涉及一种样本处理方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]现实场景中包含大量的文档图像,其中包含表格图片,表格的结构化的组织形式方便人们进行信息理解和提取,但包括表格在内的文档图像多以图片等非结构化形式存储。应用表格识别技术能够减少表格处理时间,因此表格识别是文档理解领域的重要研究课题。
[0003]在传统技术中,通常采用对大量的表格图片数据进行模型训练得到表格识别模型。
[0004]然而,开源的表格图片数据集缺乏,难以支持对表格识别模型的模型训练。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够对表格图片数据集中的表格图片数据进行补充,支持对表格识别模型的优化的样本处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种样本处理方法。所述方法包括:
[0007]将多个样本图像输入预先训练完成的表格匹配模型,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本处理方法,其特征在于,所述方法包括:将多个样本图像输入预先训练完成的表格匹配模型,得到所述样本图像的第一表格;基于预先设置的多个标准表格与所述第一表格,生成所述样本图像对应的多个第二表格;其中,所述样本图像的所述第二表格与所述样本图像的所述第一表格构成对应所述样本图像的多个所述标准表格;将所述第一表格与所述第二表格加入样本数据集。2.根据权利要求1所述的方法,其特征在于,所述将多个样本图像输入预先训练完成的表格匹配模型,得到所述样本图像的第一表格,包括:将多个样本图像输入预先训练完成的表格匹配模型,得到所述样本图像中表格的版式信息和待识别的目标字段;所述目标字段属于所述版式信息中至少一个字段;基于所述表格的版式信息和所述待识别的目标字段,生成所述样本图像的第一表格。3.根据权利要求2所述的方法,其特征在于,所述将多个样本图像输入预先训练完成的表格匹配模型,得到所述样本图像中表格的版式信息,包括:将多个样本图像输入预先训练完成的表格匹配模型,得到所述样本图像中表格的版式;对所述版式进行字段检测,确定所述版式中各字段名称及各字段区域;获取所述版式对应的版式坐标系,基于各所述字段名称及各字段区域,得到各所述字段名称在所述版式坐标系中对应的坐标位置,将所述各所述字段名称、各所述字段名称在所述版式坐标系中对应的坐标位置作为版式信息。4.根据权利要求2所述的方法,其特征在于,所述基于预先设置的多个标准表格与所述第一表格,生成所述样本图像对应的多个第二表格,包括:获取所述样本图像中表格的版式信息;基于所述版式信息与多个所述标准表格,生成对应所述样本图像的多个第二表格。5.根据权利要求4所述的方法,其特征在于,所述版式信息包括多个表格线段和多个所述表格线段的表格线段位置;所述基于所述版式信息与多个所述标准表格,生成对应所述样本图像的多个第二表格,包括:针...

【专利技术属性】
技术研发人员:孙勤刘天赏陈汝龙
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1