【技术实现步骤摘要】
本申请涉及文件处理,具体而言,涉及一种表格还原方法、模型、装置、设备及存储介质。
技术介绍
1、对可携带文件格式(portable document format,简称pdf)的文档中的表格进行抽取以及理解一直都是智能文档处理(intelligent document processing,简称idp)中的重要组成部分。在对表格进行抽取以及理解时,需要考虑到表格结构的复杂多样性,尤其是跨行跨列的单元格以及无线条单元格。
2、目前,可以基于全卷积神经网络技术对表格进行还原,但是,这种还原方法对表格线条的还原处理效果比较粗糙,容易出现错误还原表格线条以及出现线条缺失的情况,且无线条表格的还原效果较差。同时,这种还原方法应用于有线条表格或者较为规整的无线条表格时,鲁棒性较差。
技术实现思路
1、本申请的目的在于,针对上述现有技术中的不足,提供一种表格还原方法、模型、装置、设备及存储介质,以解决现有技术中表格还原效果较差的问题。
2、为实现上述目的,本申请实施例采用的技术方
...
【技术保护点】
1.一种表格还原方法,其特征在于,包括:
2.根据权利要求1所述的表格还原方法,其特征在于,所述线条检测模型包括:嵌入层以及多个编码模块,所述嵌入层与首个编码模块连接;
3.根据权利要求2所述的表格还原方法,其特征在于,所述编码模块包括如下至少一项:下采样层、编码器以及上采样层;
4.根据权利要求3所述的表格还原方法,其特征在于,所述编码器包括:多头自注意力模块以及前馈网络模块,所述多头自注意力模块中包括:归一化层以及多头自注意力层;
5.根据权利要求1所述的表格还原方法,其特征在于,所述行列预测模型包括:依次连接的多个
...【技术特征摘要】
1.一种表格还原方法,其特征在于,包括:
2.根据权利要求1所述的表格还原方法,其特征在于,所述线条检测模型包括:嵌入层以及多个编码模块,所述嵌入层与首个编码模块连接;
3.根据权利要求2所述的表格还原方法,其特征在于,所述编码模块包括如下至少一项:下采样层、编码器以及上采样层;
4.根据权利要求3所述的表格还原方法,其特征在于,所述编码器包括:多头自注意力模块以及前馈网络模块,所述多头自注意力模块中包括:归一化层以及多头自注意力层;
5.根据权利要求1所述的表格还原方法,其特征在于,所述行列预测模型包括:依次连接的多个行提取模块以及依次连接的多个列提取模块;
6.根据权利要求5所述的表格还原方法,其特征在于,所述行提取模块包括依次连接的全局池化层、行平均池化层以及行投影层;
7.根据权利要求5所述的表格还原方法,其特征在于,所述列提取模块包括依次连接的全局池化层、列平均池化层以及列投影层;
8.根据权利要求1-7任一项所述的表格还原方法,其特征在于,所述邻接单元格合并模型包括:第一分类器以及第二分类器;
9...
【专利技术属性】
技术研发人员:彭敬伟,于业达,刘奕晨,杨威,李杨,
申请(专利权)人:上海恒生聚源数据服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。