基于跨模态信息的文档阅读理解模型训练方法及装置制造方法及图纸

技术编号:33530827 阅读:25 留言:0更新日期:2022-05-19 02:01
本申请公开了一种基于跨模态信息的文档阅读理解模型训练方法及装置,涉及数据处理领域,尤其涉及自然语言处理NLP及深度学习技术。该文档阅读理解模型训练方法的实现方案为:获取问题样本和富文本文档样本;其中,富文本文档样本中包含问题样本的真实答案;对富文本文档样本的图像信息进行光学字符识别OCR处理,得到富文本文档样本的文本信息和布局信息;将富文本文档样本的文本信息、布局信息和图像信息输入至预设的阅读理解模型,获得问题样本的预测答案;根据真实答案和预测答案,训练阅读理解模型。本申请能够提升模型对富文本文档理解的能力,并节省人工成本。并节省人工成本。并节省人工成本。

【技术实现步骤摘要】
基于跨模态信息的文档阅读理解模型训练方法及装置


[0001]本申请涉及数据处理领域,尤其涉及自然语言处理NLP及深度学习技术,特别涉及一种基于跨模态信息的文档阅读理解模型训练方法及文档视觉问答方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中,基于纯文本的阅读理解技术,需要预先对文档文本进行信息抽取,以从文档中获得文本信息。但针对不同来源的文档需要设计不同的抽取方案,极其耗时耗力。

技术实现思路

[0003]本申请提供了一种基于跨模态信息的文档阅读理解模型训练方法、装置、电子设备以及存储介质。
[0004]根据本申请的第一方面,提供了一种基于跨模态信息的文档阅读理解模型训练方法,包括:获取问题样本和富文本文档样本;其中,所述富文本文档样本中包含所述问题样本的真实答案;对所述富文本文档样本的图像信息进行光学字符识别OCR处理,得到所述富文本文档样本的文本信息和布局信息;将所述富文本文档样本的文本信息、所述布局信息和所述图像信息输入至预设的阅读理解模型,获得所述问题样本的预测答案;根据所述真实答案和所述预测答本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态信息的文档阅读理解模型训练方法,包括:获取问题样本和富文本文档样本;其中,所述富文本文档样本中包含所述问题样本的真实答案;对所述富文本文档样本的图像信息进行光学字符识别OCR处理,得到所述富文本文档样本的文本信息和布局信息;将所述富文本文档样本的文本信息、所述布局信息和所述图像信息输入至预设的阅读理解模型,获得所述问题样本的预测答案;根据所述真实答案和所述预测答案,训练所述阅读理解模型。2.根据权利要求1所述的方法,其中,所述富文本为长富文本;所述将所述富文本文档样本的文本信息、所述布局信息和所述图像信息输入至预设的阅读理解模型,获得所述问题样本的预测答案,包括:按照预设步长对所述长富文本文档样本的文本信息进行切分,获得多个段落文本,并将所述问题样本分别与每个所述段落文本相拼接,获得多个段落拼接文本;将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预设的阅读理解模型,获得所述问题样本的预测答案。3.根据权利要求2所述的方法,其中,所述阅读理解模型包括段落编码器、文档编码器、图像编码器和条件随机场CRF模块;所述将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预设的阅读理解模型,获得所述问题样本的预测答案,包括:将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预设的阅读理解模型;基于所述段落编码器对每个所述段落拼接文本和所述布局信息进行编码,获得每个所述段落拼接文本的文本编码;基于所述文档编码器对每个所述段落拼接文本的文本编码进行拼接处理,获得所述长富文本文档样本的文档编码;基于所述图像编码器对所述图像信息进行编码,获得所述长富文本文档样本的视觉特征;将所述长富文本文档样本的文档编码和所述视觉特征进行融合处理,得到所述长富文本文档样本的多模态融合编码,并将所述多模态融合编码输入至所述CRF模块,获得所述问题样本的预测答案。4.根据权利要求3所述的方法,其中,所述阅读理解模型还包括分类器;所述方法还包括:将所述多模态融合编码与所述问题样本的编码进行拼接,获得拼接编码;将所述拼接编码输入至所述分类器,获得所述问题样本与所述长富文本文档样本间的相似度预测值。5.根据权利要求4所述的方法,其中,所述根据所述真实答案和所述预测答案,训练所述阅读理解模型,包括:根据所述真实答案和所述预测答案,生成第一损失值;根据所述相似度预测值和所述问题样本与所述长富文本文档样本间的相似度真实值,生成第二损失值;
根据所述第一损失值和所述第二损失值,训练所述阅读理解模型。6.根据权利要求3至5中任一项所述的方法,其中,所述将所述多模态融合编码输入至所述CRF模块,获得所述问题样本的预测答案,包括:将所述多模态融合编码输入至所述CRF模块;获取所述CRF模块输出的答案序列标注;其中,所述答案序列标注包括答案开始标注、答案内部标注、答案外部标注、答案结束标注和单个字符的答案标注;基于所述答案序列标注,从所述长富文本文档样本中抽取出所述问题样本的预测答案。7.根据权利要求6所述的方法,其中,所述答案序列标注还包括答案片段内的非答案文本标注。8.一种文档视觉问答方法,包括:响应于接收到的问题信息,获取与所述问题信息对应的候选富文本文档;对所述候选富文本文档的图像信息进行光学字符识别OCR处理,得到所述候选富文本文档的文本信息和布局信息;按照预设步长对所述候选富文本文档进行切分,获得多个段落文本,并将所述问题信息分别与每个所述段落文本相拼接,获得多个段落拼接文本;根据所述多个段落拼接文本、所述布局信息和所述图像信息,生成所述问题信息对应的答案信息。9.根据权利要求8所述的方法,所述根据所述多个段落拼接文本、所述布局信息和所述图像信息,生成所述问题信息对应的答案信息,包括:将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预先建立的阅读理解模型,获得所述问题信息对应的答案信息;其中,所述阅读理解模型通过如权利要求1至7中任一项所述的模型训练方法训练得到。10.根据权利要求9所述的方法,其中,所述阅读理解模型包括段落编码器、文档编码器、图像编码器和条件随机场CRF模块;所述将所述多个段落拼接文本、所述布局信息和所述图像信息输入至预先建立的阅读理解模型,获得所述问题信息对应的答案信息,包括:将所述多个段落拼接文本、所述布局信息和所述图像信息输入至所述阅读理解模型;基于所述段落编码器对每个所述段落拼接文本和所述布局信息进行编码,获得每个所述段落拼接文本的文本编码;基于所述文档编码器对每个所述段落拼接文本的文本编码进行拼接处理,获得所述候选富文本文档的文档编码;基于所述图像编码器对所述图像信息进行编码,获得所述候选富文本文档的视觉特征;将所述候选富文本文档的文档编码和所述视觉特征进行融合处理,得到所述候选富文本文档的多模态融合编码,并将所述多模态融合编码输入至所述CRF模块,获得所述问题信息对应的答案信息。11.根据权利要求10所述的方法,其中,所述阅读理解模型还包括分类器;所述方法还包括:将所述多模态融合编码与所述问题样本的编码进行拼接,获得拼接编码;
将所述拼接编码输入至所述分类器,获得所述问题信息与所述候选富文本文档间的相似度预测值。12.根据权利要求11所述的方法,还包括:响应于所述相似度预测值大于或等于阈值,输出所述答案信息。13.根据权利要求12所述的方法,其中,所述输出所述答案信息,包括:基于所述布局信息,确定所述答案信息中各文字的坐标信息;基于所述坐标信息,在所述候选富文本文档中将所述答案信息进行高亮显示。14.根据权利要求12所述的方法,还包括:响应于所述相似度预测值小于所述阈值,忽略所述答案信息。15.根据权利要求10至14中任一项所述的方法,其中,所述将所述多模态融合编码输入至所述CRF模块,获得所述问题信息对应的答案信息,包括:将所述多模态融合编码输入至所述CRF模块;获取所述CRF模块输出的答案序列标注;其中,答案序列标注包括答案开始标注、答案内部标注、答案外部标注、答案结束标注和单个字符的答案标注;基于所述答案序列标注,从所述候选富文本文档中抽取出所述问题信息对应的答案信息。16.根据权利要求15所述的方法,其中,所述答案序列标注还包括答案片段内的非答案文本标注。17.一种基于跨模态信息的文档阅读理解模型训练装置,包括:获取模块,用于获取问题样本和富文本文档样本;其中,所述富文本文档样本中包含所述问题样本的真实答案;第一处理模块,用于对所述富文本文档样本的图像信息进...

【专利技术属性】
技术研发人员:吕尚文李弘宇刘璟吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1