【技术实现步骤摘要】
一种表格解析方法、装置、计算机设备及存储介质
[0001]本申请涉及人工智能和金融科技
,尤其涉及一种表格解析方法
、
装置
、
计算机设备及存储介质
。
技术介绍
[0002]随着人工智能和人类社会的发展,人们对图像解析已不再简单地满足于普通的
OCR(Optical Character Recognition)
技术,而开始转向对图片中的表格进行解析,以其可以还原表格的结构及单元格内的文本信息
。
表格作为数据记录汇总最精简表达方式,是数据分析中的基础,通常以照片或电子扫描图片或
PDF
的形式呈现
。
由于表格中通常包含重要的文字和数据等信息,尤其在金融领域,大量的报表
、
单据都是以表格形式进行数据记录存储,因此,有效提取表格中的信息至关重要
。
[0003]目前表格解析采用的最优算法为
TableMaster
,其是采用神经网络构建模型,利用大量标注好的数据对模型进行训练,使其自主学习,具备还原模型的能力
。
这种算法只针对标准
、
结构较简单
、
非拍照的图像进行解析,然而,实际的业务场景中表格的结构更为复杂,导致在对表格进行解析时,解析难度大,表格结构的解析准确度较低
。
技术实现思路
[0004]本申请实施例的目的在于提出一种表格解析方法
、
装置
、 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种表格解析方法,其特征在于,包括下述步骤:获取全部业务场景的表格图像集,解析所述表格图像集中每张表格图像的表格结构,得到每张所述表格图像中每个单元格的单元格位置和单元格属性;根据所述单元格位置和所述单元格属性,按照预设标签规则生成所述表格图像的结构标签序列,并将所述单元格位置和所述结构标签序列作为所述表格图像集的标注数据,构造样本数据集;按照预设比例将所述样本数据集分为训练集和测试集,将所述训练集输入预构建的待训练模型中,得到训练完成的模型;通过所述测试集验证所述训练完成的模型,得到验证结果,在所述验证结果符合预设条件时,输出最终的模型作为表格解析模型;获取待解析图片,识别所述待解析图片中目标表格的文本行定位框以及所述文本行定位框中的文本信息;将所述待解析图片输入所述表格解析模型中,得到所述目标表格的表格结构信息和每个单元格的位置信息;根据所述位置信息匹配所述文本行定位框,得到每个所述单元格的匹配文本定位框;基于所述结构信息和所述匹配文本定位框对应的文本信息,生成所述目标表格的解析结果
。2.
根据权利要求1所述的表格解析方法,其特征在于,所述根据所述单元格位置和所述单元格属性,按照预设标签规则生成所述表格图像的结构标签序列的步骤包括:根据所述预设标签规则获取所述单元格属性对应的结构标签;将所述结构标签按照所述单元格位置进行拼接,得到所述表格图像的结构标签序列
。3.
根据权利要求1所述的表格解析方法,其特征在于,所述待训练模型包括特征提取层
、
解码嵌入层
、
解码位置编码层
、Transformer
解码层
、
序列预测模块以及单元格位置回归模块;所述将所述训练集输入预构建的待训练模型中,得到训练完成的模型的步骤包括:将所述训练集输入所述特征提取层进行特征提取,得到表格特征数据;将所述训练集的标注数据输入到所述解码嵌入层,得到标注数据特征向量;将所述标注数据特征向量输入到所述解码位置编码层中,得到标注数据位置向量;将所述标注数据特征向量和所述标注数据位置向量相加,得到输入向量;将所述输入向量和所述表格特征数据输入所述
Transformer
解码层,得到表格强化特征;将所述表格强化特征分别输入所述序列预测模块和所述单元格位置回归模块,得到结构预测序列和位置预测结果;基于所述结构预测序列和所述位置预测结果计算损失值,并根据所述损失值调整所述待训练模型的模型参数,继续迭代训练,直至收敛,输出训练完成的模型
。4.
根据权利要求3所述的表格解析方法,其特征在于,所述基于所述结构预测序列和所述位置预测结果计算损失值,并根据所述损失值调整所述待训练模型的模型参数的步骤包括:基于所述结构预测序列和所述标注数据的结构标签序列进行交叉熵损失函数计算,得到序列预测损失值;
基于所述位置预测结果和所述标注数据的单元格位置进行损失函数计算,得到位置预测损失值;对所述序列预测损失值和所述位置预测损失值进行加权计算,得到融合损失值;通过所述序列预测损失值和所述位置预测损失值对应调整所述序列预测模块和所述单元格位置回归模块的模型参数,并通过所述融合损失值调整所述特征提取层和所述
Transformer
解码层的模型参数
。5.
技术研发人员:游锦成,
申请(专利权)人:平安健康保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。