【技术实现步骤摘要】
文档版面分析方法、模型训练方法、装置和设备
[0001]本公开涉及人工智能
,具体为计算机视觉和深度学习
,可应用于智慧城市和智慧金融场景下,并且更具体地,涉及文档版面分析方法、模型训练方法、装置和设备。
技术介绍
[0002]文档版面分析技术是指对也可以被称为文档图像的、采取图像形式的文档中的内容进行结构化语义理解,从而使得可以预测出文档图像中的例如标题、段落、图表等文本内容的位置。文档版面分析技术可以被用于文档还原、文档录入、文档比对等任务,并且可以被广泛地应用于社会的各行各业,例如办公、教育、医疗、金融等领域,不仅可以极大地提升传统行业的智能化程度和生产效率,也可以方便人们的日常学习与生活。近年来,尽管文档版面分析技术得到了快速发展,但是依然存在很多问题。
技术实现思路
[0003]根据本公开的实施例,提供了一种文档版面分析方法、模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0004]在本公开的第一方面中,提供了一种文档版面分析方法,包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对文本语义特征、文本图像特征和文本位置特征进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。
[0005]在本公开的第二方面中,提供了一种模型训练方法,包括:获取训练文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对文本语义特征、文本图像特征和 ...
【技术保护点】
【技术特征摘要】
1.一种文档版面分析方法,包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对所述文本语义特征、所述文本图像特征和所述文本位置特征进行特征融合,以获得融合特征;以及基于所述融合特征,确定与所述待处理文档图像包括的所述文本内容对应的文本位置信息和/或文本类型信息。2.根据权利要求1所述的方法,其中所述文本内容包括多个行,并且获取所述文本语义特征包括:针对所述多个行中的每行中的多个字,生成与所述多个字相关联的、预设维度的多个语义向量;将所述多个语义向量按顺序级联,以生成针对该行的行文本语义特征;以及将针对所述多个行中的每行的行文本语义特征级联,以生成所述文本语义特征。3.根据权利要求2所述的方法,其中:所述文本图像特征包括所述预设维度的至少一个图像向量;并且所述文本位置特征包括所述预设维度的至少一个位置向量。4.根据权利要求1所述的方法,其中所述文本内容包括多个行,所述文本图像特征包括与所述多个行中的一行相关联的特定文本图像特征信息,并且获取所述文本图像特征包括:确定所述文本位置特征所包括的、与所述一行相关联的特定文本位置特征;获取所述待处理文档图像的图像特征;以及基于所述图像特征和所述特定文本位置特征来确定所述特定文本图像特征信息。5.根据权利要求1所述的方法,其中对所述文本语义特征、所述文本图像特征和所述文本位置特征进行所述特征融合包括:使用多层转换器堆叠网络进行所述特征融合。6.根据权利要求1所述的方法,其中所述文本图像特征包括多个文本图像特征信息,所述文本位置特征包括多个文本位置特征信息,并且对所述文本语义特征、所述文本图像特征和所述文本位置特征进行所述特征融合包括:对所述多个文本图像特征信息和所述多个文本位置特征信息中的对应的文本图像特征信息和文本位置特征信息求和,以获得多个信息和;将所述多个信息和按顺序级联,以获得文本图像位置特征;将所述文本语义特征和所述文本图像位置特征级联,以获得级联特征;以及对所述级联特征进行所述特征融合。7.根据权利要求1所述的方法,其中确定所述文本位置信息和/或所述文本类型信息包括:使用经训练的版面分析模型来确定所述文本位置信息和/或所述文本类型信息。8.一种模型训练方法,包括:获取训练文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;
对所述文本语义特征、所述文本图像特征和所述文本位置特征进行特征融合,以获得融合特征;以及训练版面分析模型,以利用经训练的所述版面分析模型使得满足以下至少一项:基于所述融合特征所确定的至少一个文本位置信息和针对所述训练文档图像预先标注的至少一个标注文本位置信息相同的概率大于位置概率阈值,所述至少一个文本位置信息与所述文本内容所包括的至少一个部分对应;以及基于所述融合特征所确定的至少一个文本类型和针对所述训练文档图像预先标注的至少一个标注文本类型相同的概率大于类型概率阈值,所述至少一个文本类型与所述至少一个部分对应。9.一种文档版面分析装置,包括:第一获取模块,被配置为获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;第一特征融合模块,被配置为对所述文本语义特征、所述文本图像特征和所述文本位置特征进行特征融合,以获得融合特征;以及第一确定模块,被配置为基于所述融合特征,确定与所述待处理文档图像包括的所述文本内容对应的文本位置信息和/或文本类型信息。10.根据权利要求9所述的装置,其中所述文本内容包括多个行,并且所述第一获...
【专利技术属性】
技术研发人员:李煜林,张晓强,王鹏,钦夏孟,章成全,姚锟,韩钧宇,刘经拓,丁二锐,吴甜,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。