一种基于多模态融合的文档版面分类方法技术

技术编号：30963726 阅读：7 留言：0更新日期：2021-11-25 20:29

本发明专利技术公开了一种基于多模态融合的文档版面分类方法，其特征在于，针对目标文档，包括：检测目标文档，获取待分类的检测框；获取检测框的文本信息、框坐标信息和图像特征；采用多模态融合模型，以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。本发明专利技术通过将文本、位置和图像信息的多模态融合，提升了文档版面分类的准确率。提升了文档版面分类的准确率。提升了文档版面分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态融合的文档版面分类方法

[0001]本专利技术属于深度学习领域，具体涉及一种基于多模态融合的文档版面分类方法。

技术介绍

[0002]分析抽取文档中的信息需要用到文档的版面信息，版面信息一般包括几类：页眉、页脚、标题、段落、目录、表格和图像。
[0003]文档一般分为电子文档和图像文档，电子文档可以通过解析获取文档中字符信息，包括文本和位置信息，但无法直接获取文档的版面信息。图像文档中的文本和位置信息不能直接获取，需要通过OCR(Optical Character Recognition)技术获取。
[0004]电子文档的版面信息可根据解析获得的文本和位置信息来制定规则划分。但由于文档类型多变，特别对于双栏文档，规则比较复杂且不能完全覆盖所有情况。图像文档和电子文档转为图像的文档可以用目标检测的方法来定位及分类版面信息。目标检测对表格，图像和目录可以根据图像特征进行较好的分类，而对于其它类别不仅要考虑图像信息，还要涉及到文本和位置信息，用目标检测方法仅考虑图像信息会降低分类的准确率。
[0005]对文档中的版面进行分类目前可以用目标检测的方法，但是会存在以下问题：
[0006]1、对于页眉页脚目标检测方法不能很好的提取到位置特征，页眉页脚的图像特征与部分段落的图像特征相似，仅根据图像特征不易区分；
[0007]2、段落和标题会存在图像特征相似的情况，需要依靠文本才能更好地区分。

技术实现思路

[0008]针对现有技术中存在的问题，本专利技术提供一种...

【技术保护点】

【技术特征摘要】
1.一种基于多模态融合的文档版面分类方法，其特征在于，针对目标文档，所述分类方法包括：检测目标文档，获取待分类的检测框；获取检测框的文本信息、框坐标信息和图像特征；采用多模态融合模型，以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。2.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，所述目标文档是图像类型的；获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术获取目标文档的文本信息和文本坐标信息；根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。3.根据权利要求2所述的基于多模态融合的文档版面分类方法，其特征在于，所述检测框仅采用框内的第一行文本作为其文本信息。4.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，所述目标文档是可直接读取文本信息类型的；获取检测框前需要将所述目标文档转化为图像类型。5.根据权利要求1所述的基于多模态融...

【专利技术属性】
技术研发人员：陶提，许诺，高翔，纪达麒，陈运文，
申请(专利权)人：达观数据苏州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人