答案生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40276445 阅读：16 留言：0更新日期：2024-02-02 23:03

本申请公开了一种答案生成方法、装置、电子设备及存储介质，可以应用于云技术、人工智能、智慧交通、车联网等各种场景，所述方法包括：确定目标信息拼接结果；将目标信息拼接结果输入答案预测模型，生成目标答案文本；其中，答案预测模型的训练方法包括：将样本信息拼接结果输入待训练多模态编码器得到样本上下文特征；将样本序列起始单词以及样本问题文本对应的样本答案文本，输入待训练解码器的第一预设注意力层，得到样本掩码特征；将样本上下文特征以及样本掩码特征，输入待训练解码器的第二预设注意力层，得到样本答案预测结果；基于样本答案预测结果与样本答案文本之间的差异，得到答案预测模型。本申请提高了模型预测答案的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种答案生成方法、装置、电子设备及存储介质。

技术介绍

1、随着深度学习在文档人工智能领域的发展，自监督预训练多模态模型在文档视觉问答任务上取得了很好的表现。目前主流的文档预训练方法大多数着眼于文档理解，即先使用文字识别工具识别文档文本和布局，然后结合图像信息使用一个大型的多模态编码器进行建模。应用到文档问答任务中时，遵循从文档文本中抽取片段作为答案的方式完成问答。抽取式的范式对输入模型的文本质量具有很高要求，所以，文本识别的准确率对该任务具有很大的影响。

技术实现思路

1、本申请提供了一种答案生成方法、装置、电子设备及存储介质，降低了模型在生成答案时对文本识别模块的依赖，减轻了模型对文本识别模块识别的噪声文本的敏感度，同时提高了模型预测答案的准确率。

2、一方面，本申请提供了一种答案生成方法，所述方法包括：

3、基于目标文本图像以及与所述目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；

4、将所述目标信息拼接结果输入答案预测模型，生成所述目标问题文本对应的目标答案文本；其中，所述答案预测模型的训练方法包括：

5、基于样本文本图像以及与所述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；

6、将所述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；

7、将样本序列起始单词以及所述样本问题文本对应的样本答案文本，输入所述待训练

8、将所述样本上下文特征以及所述样本掩码特征，输入所述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；

9、基于所述样本答案预测结果与所述样本答案文本之间的差异，对所述待训练模型进行训练，得到所述答案预测模型。

10、另一方面提供了一种答案生成装置，所述装置包括：

11、目标拼接结果确定模块，用于基于目标文本图像以及与所述目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；

12、答案文本生成模块，用于将所述目标信息拼接结果输入答案预测模型，生成所述目标问题文本对应的目标答案文本；

13、模型训练模块，用于训练得到所述答案预测模型；

14、其中，所述模型训练模块包括：

15、样本结果确定子模块，用于基于样本文本图像以及与所述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；

16、样本上下文特征确定子模块，用于将所述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；

17、样本掩码特征确定子模块，用于将样本序列起始单词以及所述样本问题文本对应的样本答案文本，输入所述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；所述样本序列起始单词为所述样本上下文特征中的序列起始单词；

18、样本答案预测结果确定子模块，用于将所述样本上下文特征以及所述样本掩码特征，输入所述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；

19、模型训练子模块，用于基于所述样本答案预测结果与所述样本答案文本之间的差异，对所述待训练模型进行训练，得到所述答案预测模型。

20、另一方面提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的答案生成方法。

21、另一方面提供了一种计算机存储介质，所述计算机存储介质存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的答案生成方法。

22、另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行以实现如上所述的答案生成方法。

23、本申请提供的答案生成方法、装置、电子设备及存储介质，具有如下技术效果：

24、本申请基于目标文本图像以及与目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；将目标信息拼接结果输入答案预测模型，生成目标问题文本对应的目标答案文本；其中，答案预测模型的训练方法包括：基于样本文本图像以及与样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；将样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；将样本序列起始单词以及样本问题文本对应的样本答案文本，输入待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；样本序列起始单词为样本上下文特征中的序列起始单词；将样本上下文特征以及样本掩码特征，输入待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；基于样本答案预测结果与样本答案文本之间的差异，对待训练模型进行训练，得到答案预测模型。本申请将多模态编码器与解码器进行拼接后，联合训练得到答案预测模型，由于将答案预测任务建模为生成范式，所以，模型不需要在输入文本中抽取片段作为答案，从而降低了模型在生成答案时对文本识别模块的依赖，减轻了模型对文本识别模块识别的噪声文本的敏感度，同时能够弥补多模态编码器无法给出多跨度答案的缺陷，且解码器的加入提高了答案预测模型的理解能力，提高了模型预测答案的准确率。

本文档来自技高网...

【技术保护点】

1.一种答案生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将样本序列起始单词以及所述样本问题文本对应的样本答案文本，输入所述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述样本初始结果，确定所述样本答案单词序列中各个样本答案单词对应的样本词特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述样本上下文特征以及所述样本掩码特征，输入所述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述样本答案预测结果与所述样本答案文本之间的差异，对所述待训练模型进行训练，得到所述答案预测模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于样本文本图像以及与所述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述在所述样本拼接信息

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求6所述的方法，其特征在于，所述待训练多模态编码器包括待训练文本提取网络、待训练图像提取网络以及待训练特征拼接网络，所述将所述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征，包括：

10.根据权利要求1-9中任意一项所述的方法，其特征在于，所述将所述目标信息拼接结果输入答案预测模型，生成所述目标问题文本对应的目标答案文本，包括：

11.一种答案生成装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述设备包括：处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-10任一所述的答案生成方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-10任一所述的答案生成方法。

14.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1-10任一所述的答案生成方法。

...

【技术特征摘要】

1.一种答案生成方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述样本初始结果，确定所述样本答案单词序列中各个样本答案单词对应的样本词特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述在所述样本拼接信息中嵌入所述样本问题文本、所述样本识别文本序列以及所述样本图像块序列各自对应的样本位置信息，得到所述样本信息拼接结果，...

【专利技术属性】
技术研发人员：王宇波，姜德强，尹坤，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人