答案确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40381530 阅读：7 留言：0更新日期：2024-02-20 22:18

本申请公开了一种答案确定方法、装置、电子设备及存储介质。本申请的实施例涉及人工智能的机器学习以及云技术等技术领域。该方法包括：对目标图像进行文本提取，得到文本提取结果，文本提取结果包括目标图像中的目标文本；根据文本提取结果、针对目标图像提出的问题文本和目标图像，确定编码输入序列；对编码输入序列进行编码处理，得到编码特征序列；根据编码特征序列进行答案位置预测，确定答案位置预测结果，答案位置预测结果用于在目标文本中确定候选答案片段；根据候选答案片段进行答案解码，得到针对问题文本的答案文本。根据本申请的方法，减少了答案解码过程需要进行处理的文本的数量，大大提高了答案文本的生成效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，更具体地，涉及一种答案确定方法、装置、电子设备及存储介质。

技术介绍

1、文档视觉回答是指基于一张图片和一个与该图片相关的自然语言问题，自动生成针对该自然语言问题的答案文本的技术。

2、目前，可以对给定的图片进行文本提取，得到文本提取结果，再基于文本提取结果和针对图片的提问文本进行答案预测，得到提问文本对应的答案文本。然而，采用该手段生成答案文本的效率较低。

技术实现思路

1、有鉴于此，本申请实施例提出了一种答案确定方法、装置、电子设备及存储介质。

2、第一方面，本申请实施例提供了一种答案确定方法，方法包括：对目标图像进行文本提取，得到文本提取结果，文本提取结果包括目标图像中的目标文本；根据文本提取结果、针对目标图像提出的问题文本和目标图像，确定编码输入序列；对编码输入序列进行编码处理，得到编码特征序列；根据编码特征序列进行答案位置预测，确定答案位置预测结果，答案位置预测结果用于在目标文本中确定候选答案片段；根据候选答案片段进行答案解码，得到针对问题文本的答案文本。

3、第二方面，本申请实施例提供了一种答案确定装置，装置包括：文本提取模块，用于对目标图像进行文本提取，得到文本提取结果，文本提取结果包括目标图像中的目标文本；序列确定模块，用于根据文本提取结果、针对目标图像提出的问题文本和目标图像，确定编码输入序列；编码模块，用于对编码输入序列进行编码处理，得到编码特征序列；答案预测模块，用于根据编码特征序列进行答案位置预测，确定

4、可选地，答案文本确定模块，还用于通过非自回归语言模型在时间步t根据候选答案片段的特征序列进行答案预测，得到在时间步t输出的n个初始预测字符，t为正整数，n为大于1的整数；通过自回归语言模型根据候选答案片段的特征序列、在时间步(t-1)的答案序列对应的特征序列、以及在时间步t输出的前(n-1)个初始预测字符对应的字符特征进行答案预测，得到与在时间步t输出的n个初始预测字符中每个初始预测字符的位置相对应的备选字符；当t＝1时，在时间步0的答案序列为空；根据与在时间步t输出的n个初始预测字符中每个初始预测字符的位置相对应的备选字符，对在时间步t输出的n个初始预测字符进行校验，得到校验结果；若校验结果指示位置相应的备选字符和初始预测字符不同，将与对应位置的备选字符不同的初始预测字符确定为目标预测字符，并将在时间步t输出的n个初始预测字符中位于目标预测字符之前的初始预测字符，添加到在时间步(t-1)的答案序列中，获得在时间步t的答案序列；将t累计加1，并以目标预测字符对应的答案位置为开始预测位置，返回执行通过非自回归语言模型在时间步t根据候选答案片段的特征序列进行答案预测，得到在时间步t输出的n个初始预测字符的步骤，直至答案序列中包括结束字符；基于包括结束字符的答案序列，得到针对问题文本的答案文本。

5、可选地，答案文本确定模块，还用于若校验结果指示位置相应的备选字符和初始预测字符相同，将在时间步t输出的n个初始预测字符添加到在时间步(t-1)的答案序列中，获得在时间步t的答案序列；将t累计加1，并以在时间步t输出的n个初始预测字符中的最后一个初始预测字符的下一个答案位置为开始预测位置，返回执行通过非自回归语言模型在时间步t根据候选答案片段的特征序列进行预测，得到在时间步t输出的n个初始预测字符的步骤。

6、可选地，答案文本确定模块，还用于根据候选答案片段中各个候选字符的向量表示以及各个候选字符在候选答案片段中的位置信息，构建候选输入序列；对候选输入序列进行特征提取，得到候选答案片段的特征序列。

7、可选地，答案位置预测结果通过目标分类器获得；装置还包括训练模块，用于根据样本图像、从样本图像中提取的样本文本以及针对样本图像提出的样本问题文本，确定样本编码特征序列；通过初始分类器对样本编码特征序列进行答案位置预测，确定样本答案位置预测结果；根据样本答案位置预测结果，确定分类损失值；从样本文本中获取样本候选答案片段；通过初始非自回归语言模型根据样本候选答案片段的特征序列进行答案预测，得到多个样本初始预测字符；根据多个样本初始预测字符以及针对样本问题文本的样本答案文本，确定非自回归损失值；通过初始自回归语言模型根据样本候选答案片段的特征序列以及多个样本初始预测字符中目标样本预测字符对应的答案序列的特征序列，确定目标样本预测字符之后的样本备选字符，目标样本预测字符为多个样本初始预测字符中任意一个初始预测字符，目标样本预测字符对应的答案序列为多个初始预测字符中位于目标样本预测字符之前的样本初始预测字符构成的序列；根据多个样本初始预测字符中位于目标初始预测字符之后的初始预测字符以及位于目标初始预测字符之后的样本备选字符，确定自回归损失值；计算分类损失值、自回归损失值以及非自回归损失值的和，得到目标损失值；通过目标损失值，调整初始分类器、初始自回归语言模型以及初始非自回归语言模型的参数，得到初始分类器对应的目标分类器、初始自回归语言模型对应的自回归语言模型以及初始非自回归语言模型对应的非自回归语言模型。

8、可选地，样本文本包括多个样本片段；训练模块，还用于确定每个样本片段与样本答案文本之间的最长公共子串，作为每个样本片段对应的最长公共子串；根据样本答案文本的长度、每个样本片段的长度以及每个样本片段对应的最长公共子串的长度，确定每个样本片段与样本答案文本之间的相似度；获取相似度达到相似度阈值的样本片段作为样本候选答案片段。

9、可选地，文本提取结果还包括目标文本中各目标字符在目标图像中的第一位置信息；序列确定模块，还用于对目标图像进行划分，得到多个图像块和各图像块在目标图像中的第二位置信息；根据目标文本中各个目标字符的向量表示、各目标字符的第一位置信息、多个图像块各自的向量表示、各图像块的第二位置信息、问题文本中各个问题字符的向量表示以及各问题字符在问题文本中的位置信息，确定编码输入序列。

10、可选地，序列确定模块，还用于根据每个图像块对应的向量表示以及第二位置信息的向量表示，得到每个图像块各自的嵌入表示；根据每个目标字符的向量表示以及第一位置信息的向量表示，得到每个目标字符各自的嵌入表示；根据每个问题字符对应的向量表示以及在问题文本中的位置信息的向量表示，得到每个问题字符各自的嵌入表示；对多个问题字符对应的嵌入表示、多个目标字符的嵌入表示以及多个图像块对应的嵌入表示进行拼接，得到编码输入序列。

11、可选地，答案位置预测结果包括目标文本中每个目标字符属于答案结束字符的概率以及属于答案开始字符的概率；答案预测模块，还用于从目标文本中获取属于答案起始字符的概率高于第一概率阈值的第一字符以及属于答案结束字符的概率高于第二概率阈值的第二字符；将目标文本中距离最近的第一字符与第二字符之间的文本片段作为一个候选答案片段本文档来自技高网...

【技术保护点】

1.一种答案确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述候选答案片段进行答案解码，得到针对所述问题文本的答案文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据与所述在时间步t输出的N个初始预测字符中每个初始预测字符的位置相对应的备选字符，对所述在时间步t输出的N个初始预测字符进行校验，得到校验结果之后，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述通过非自回归语言模型在时间步t根据所述候选答案片段的特征序列进行答案预测，得到在时间步t输出的N个初始预测字符之前，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述答案位置预测结果通过目标分类器获得；

6.根据权利要求5所述的方法，其特征在于，所述样本文本包括多个样本片段；所述从所述样本文本中获取样本候选答案片段，包括：

7.根据权利要求1所述的方法，其特征在于，所述文本提取结果还包括所述目标文本中各目标字符在所述目标图像中的第一位置信息；

8.根据权利要求7

9.根据权利要求1所述的方法，其特征在于，所述答案位置预测结果包括所述目标文本中每个目标字符属于答案结束字符的概率以及属于答案开始字符的概率；

10.一种答案确定装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：

12.一种计算机可读取存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如权利要求1-9中任一项所述的方法。

13.一种计算机程序产品或计算机程序，其特征在于，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种答案确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述候选答案片段进行答案解码，得到针对所述问题文本的答案文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据与所述在时间步t输出的n个初始预测字符中每个初始预测字符的位置相对应的备选字符，对所述在时间步t输出的n个初始预测字符进行校验，得到校验结果之后，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述通过非自回归语言模型在时间步t根据所述候选答案片段的特征序列进行答案预测，得到在时间步t输出的n个初始预测字符之前，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述答案位置预测结果通过目标分类器获得；

6.根据权利要求5所述的方法，其特征在于，所述样本文本包括多个样本片段；所述从所述样本文本中获取样本候选答案片段，包括：

7.根据权利要求1所述的方法，其特征在于，所述文本提取结果还包括所述目标文本中各...

【专利技术属性】
技术研发人员：尹坤，陈皇，姜德强，曹浩宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人