【技术实现步骤摘要】
一种表格解析方法、装置及电子设备
[0001]本申请涉及深度学习领域,特别涉及一种表格解析方法、装置及电子设备。
技术介绍
[0002]表格是一种以结构化格式表示信息的便捷方法,适用于建立和呈现关系数据,是文档页面中最重要的数据对象之一。随着深度学习技术的飞速发展,目标检测、OCR引擎(Optical Character Recognition,文字识别引擎)和文档结构识别等技术也取得了许多新的进展,提供了多种表格识别的解决方案,目前的表格识别领域已经有了较多方案。但是获得表格结构之后,如何对表格中的数据进一步解析以从表格中提取出有效信息,比如获得表格中数据之间的对应关系,始终没有通用的行之有效的方法。
技术实现思路
[0003]本申请公开了一种表格解析方法、装置,以确定组成表格的单元格,并进一步对表格中各单元格进行解析得到表格中的有效信息。
[0004]根据本申请实施例的第一方面,提供一种表格解析方法,该方法应用于电子设备,包括:
[0005]将目标文件输入至单元格检测模型得到所述目标文件中 ...
【技术保护点】
【技术特征摘要】
1.一种表格解析方法,其特征在于,该方法应用于电子设备,包括:将目标文件输入至单元格检测模型得到所述目标文件中各单元格的位置信息;依据所述目标文件中各单元格的位置信息,确定用于反映各单元格之间行列关系的空间邻接矩阵;获得所述目标文件中各单元格的单元格特征信息;所述单元格的单元格特征信息用于标识该单元格;依据所述单元格特征信息和所述空间邻接矩阵对所述目标文件中的单元格进行解析得到解析结果,所述解析结果至少包括:任意两个不同单元格之间的键值对关系;所述两个不同单元格之间的键值对关系用于指示所述两个单元格分别表示的内容具有对应关系、以及该对应关系成立的概率。2.根据权利要求1所述的方法,其特征在于,所述单元格检测模型至少包括:表格检测层、局部掩码对齐层、全局掩码对齐层和后处理层;所述表格检测层,用于检测所述目标文件中的表格区域;所述局部掩码对齐层,用于对所述表格区域进行非空单元格检测得到至少一个非空单元格的候选区域,获得每个候选区域的局部掩码;所述全局掩码对齐层,用于确定所述表格区域中表格框线的位置,以及所述表格区域的全局掩码;所述后处理层,用于针对每一候选区域,依据该候选区域的局部掩码和该候选区域在所述全局掩码中对应的掩码,对该候选区域进行优化,将优化后的候选区域的坐标作为其对应的非空单元格的坐标;依据所述表格框线的位置和所述非空单元格的坐标,确定空单元格的坐标。3.根据权利要求2所述的方法,其特征在于,所述局部掩码对齐层对所述表格区域进行非空单元格检测得到至少一个非空单元格的候选区域,获得每个候选区域的局部掩码包括:在所述表格区域中确定各个非空单元格的单元格边框以及该非空单元格内文本块的位置,将各单元格边框围成的区域作为各非空单元格对应的候选区域;预测各个单元格边框中至少一行像素点中各像素点对应的水平软标签值;所述水平软标签值用于指示所述单元格的置信度;预测各个单元格边框中至少一列像素点中各像素点对应的垂直软标签值;所述垂直软标签值用于指示所述单元格的置信度;针对每一单元格边框,将各个像素点对应的水平软标签值和垂直软标签值作为该单元格边框对应的候选区域的局部掩码。4.根据权利要求1所述的方法,其特征在于,获得所述目标文件中各单元格的单元格特征信息包括:针对所述目标文件中每一单元格,依据所述目标文件中该单元格的位置信息确定所述位置信息对应的位置特征;对该单元格进行语义解析得到该单元格的语义特征;单元格的语义特征用于指示单元格中的数据内容;对该单元格在所述目标文件中的图像进行图像特征提取,得到该单元格的图像特征;
将该单元格的位置特征、语义特征和图像特征中的至少之一确定为单元格的单元格特征信息。5.根据权利要求4所述的方法,其特征在于,所述对该单...
【专利技术属性】
技术研发人员:李再升,乔梁,程战战,钮毅,
申请(专利权)人:上海高德威智能交通系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。