问答数据生成方法、装置及存储介质制造方法及图纸

技术编号：45415138 阅读：18 留言：0更新日期：2025-06-04 19:02

本申请涉及一种问答数据生成方法、装置及存储介质，所述方法包括：获取文档图像，以及问答对生成提示；根据所述文档图像以及所述问答对生成提示，生成多个初步问答对；对多个所述初步问答对进行质量筛选，得到多个筛选问答对；对多个所述筛选问答对进行一致性校验，得到多个目标问答对。通过文档图像以及问答对生成提示，生成多个初步问答对，并对多个初步问答对进行质量筛选以及一致性校验，得到多个目标问答对，如此可以保证问答对的正确性，且不需要人工干预，可以针对复杂格式和多种类型的文档图像提出合适的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种问答数据生成方法、装置及存储介质。

技术介绍

1、近年来，文档图像广泛应用于日常生活，结合文档图像和相关问题生成答案的融合多模态ai技术也日渐发展。其中，提升融合多模态ai技术中模型性能的关键因素之一是大量的电子文档视觉问答数据，因此获取大量高质量的电子文档视觉问答数据迫在眉睫。

2、相关技术中，传统的电子文档视觉问答数据生成方法主要是依赖规则或模板驱动的方法，据此能够生成大量的电子文档视觉问答数据。例如，对于ocr-vqa电子文档视觉问答数据集，其便是通过固定的问题模板来生成。

3、尽管此方法能够大规模生成问答数据，但其准确性无法得到保证，生成的问答数据通常无法与文档图像的内容匹配。此外，此方法往往需要人工干预，适用范围有限，且模板无法针对复杂格式和多种类型的文档图像提出合适的问题，表现较差。

技术实现思路

1、为了解决上述尽管此方法能够大规模生成问答数据，但其准确性无法得到保证，生成的问答数据通常无法与文档图像的内容匹配。此外，此方...

【技术保护点】

1.一种问答数据生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述文档图像的数量为多个；

3.根据权利要求2所述的方法，其特征在于：

4.根据权利要求1所述的方法，其特征在于，所述文档图像的数量为多个；

5.根据权利要求1所述的方法，其特征在于，在对多个所述初步问答对进行质量筛选，得到多个筛选问答对之前，所述方法还包括：

6.根据权利要求1或5所述的方法，其特征在于，在对多个所述初步问答对进行质量筛选，得到多个筛选问答对之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于...

【技术特征摘要】

1.一种问答数据生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述文档图像的数量为多个；

3.根据权利要求2所述的方法，其特征在于：

4.根据权利要求1所述的方法，其特征在于，所述文档图像的数量为多个；

5.根据权利要求1所述的方法，其特征在于，在对多个所述初步问答对进行质量筛选，得到多个筛选问答对之前，所述方法还包括：

6.根据权利要求1或5所述的方法，其特征在于，在对多个所述初步问答对进行质量筛选，得到多个筛选问答对之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述对多个所述初步问答对进行质量筛选，得到多个筛选问答对，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述相关性提示，对多个所述初步问答对进行质量筛选，得...

【专利技术属性】
技术研发人员：刘禹良，黎宇哲，白翔，刘强，伏凌，
申请(专利权)人：珠海金山办公软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人