【技术实现步骤摘要】
一种文档版面要素检测方法、装置、存储介质及设备
[0001]本申请涉及自然语言处理
,尤其涉及一种文档版面要素检测方法、装置、存储介质及设备。
技术介绍
[0002]随着信息时代的到来,需要处理的信息量呈现几何级别的增长。而文档在人们的日常生活中更是随处可见,如教育行业的教辅、作业和试卷等,在这种情况下,如何实现更加快速、准确的对文档进行版面要素的检测和分析处理,以获得其中的有用信息已成为一项重要的研究课题。
[0003]目前,通常是基于目标检测方案,利用光学字符识别(Optical Character Recognition,简称OCR)识别技术,直接检测出文档所在图像中的各个版面要素,例如页眉、页脚、标题、页码等等。但是,这种检测方案只是根据文档所在图像中的文本语义信息进行检测,检测依据不够充分,当文档所在图像中的版面要素较多时,将会大幅降低检测精度,进而导致文档所在图像最终的版面要素检测结果不够准确。
技术实现思路
[0004]本申请实施例的主要目的在于提供一种文档版面要素检测方法、装置、 ...
【技术保护点】
【技术特征摘要】
1.一种文档版面要素检测方法,其特征在于,包括:获取待检测的目标文档所在的目标图像;根据预设版面要素类型,构建所述预设版面要素对应的编码向量;将所述目标图像和所述编码向量输入预先构建的文档版面要素检测模型,预测得到所述目标文档对应的版面要素检测结果;所述文档版面要素检测模型是利用对比学习和掩码预测的预训练方式,根据预设文档混合要素训练得到的。2.根据权利要求1所述的方法,其特征在于,所述将所述目标图像和所述编码向量输入预先构建的文档版面要素检测模型,预测得到所述目标文档对应的版面要素检测结果,包括:将所述目标图像输入至预先构建的文档版面要素检测模型,提取所述目标图像的图像特征;将所述编码向量输入至预先构建的文档版面要素检测模型,提取所述编码向量对应的特征向量;利用预设图像风格迁移处理算法,对所述编码向量对应的特征向量和所述目标图像的图像特征进行融合处理,得到融合特征;对所述融合特征进行解码处理,得到所述目标图像的解码结果;并对所述解码结果进行目标版面要素检测处理,预测得到所述目标文档对应的版面要素检测结果。3.根据权利要求1所述的方法,其特征在于,所述目标文档对应的版面要素检测结果包括目标文档中各个版面要素的位置信息和属性信息。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取无标注的文档所在的样本图像,并从所述样本图像中随机选取第一样本图像、第二样本图像和第三样本图像;对所述第一样本图像进行页面提取,得到第四样本图像;利用所述第一样本图像、第二样本图像、第四样本图像和目标损失函数,通过对比学习的训练方式,对初始图像特征提取模型进行训练;以及,利用所述第三样本图像,通过掩码预测的训练方式,对所述初始图像特征提取模型进行训练,生成图像特征提取模型,并将所述图像特征提取模型作为所述文档版面要素检测模型的图像特征提取部分的初始化结构。5.根据权利要求4所述的方法,其特征在于,所述目标损失函数为三元组损失函数;所述三元组损失函数用于拉近模型提取出的第一样本图像的图像特征和第四样本图像的图像特征之间的距离以及拉开第二样本图像的图像特征和第四样本图...
【专利技术属性】
技术研发人员:吴嘉嘉,张银田,殷兵,胡金水,刘聪,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。