基于大语言模型的视障人群文档视觉问答指令生成方法和装置制造方法及图纸

技术编号：42240744 阅读：25 留言：0更新日期：2024-08-02 13:52

基于大语言模型的视障人群文档视觉问答指令生成方法，其方法包括如下步骤:S110，基于公开文档数据集筛选候选文档；S120，对候选文档进行文字识别；S130，将文字识别结果处理为结构化文字信息；S140，根据结构化文字信息通过大语言模型生成面向视障人群问答指令数据。本发明专利技术提供的基于大语言模型的视障人群文档视觉问答指令生成方法，其中，所述方法通过筛选公开文档数据集，并通过其文字识别结果，构建结构化文字信息，并通过不同的面向视障人群的问答示例，利用大语言模型低成本高效率地生成了大量的文档视觉问答指令数据，改进了现有技术无法简单高效生成文档视觉文档指令数据的问题，从而帮助对面向视障人群的文档视觉问答模型的优化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型技术，具体涉及一种基于大语言模型的视障人群文档视觉问答指令数据生成方法和装置。

技术介绍

1、文档，包括电子文档或文档图片，往往存在丰富的板式信息，字体大小、位置信息等表征了不同板式以高效传播信息，如信件的具体格式，说明书的层次标题等。然而，视障人群在阅读文档时通常只通过文字识别或电子解析的结果进行阅读，由于这些结果中不包含视觉板式信息，造成视障人群理解文档内容错误率高、定位关键信息效率低的问题。

2、多模态大模型借助大语言模型所具备的丰富的先验知识，能够得到不错的零样本结果。为了解决该问题，当前的高效方法是通过多模态大模型实现文档图片和问题的输入，并回答相关信息，从而极大提高视觉障碍人群理解文档内容的效率和准确率。然而，由于文档视觉问答指令数据标注成本高，并且调用强大的通用多模态大模型的价格贵、效果差，导致目前缺乏大规模的面向视障人群的文档视觉问答指令数据，这阻碍了面向视障人群的文档视觉问答技术落地。

3、上述问题是目前亟待解决的。

技术实现思路

<...

【技术保护点】

1.基于大语言模型的视障人群文档视觉问答指令生成方法，包括如下步骤:

2.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法，其特征在于，步骤S110所述的基于公开文档数据集筛选候选文档，具体包括：

3.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法，其特征在于，步骤S120所述的对候选文档进行文字识别，具体包括：

4.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法，其特征在于，步骤S130将文字识别结果处理为结构化文字信息，具体包括：

5.如权利要求1所述的基于大语言模型的视障人群文...

【技术特征摘要】

1.基于大语言模型的视障人群文档视觉问答指令生成方法，包括如下步骤:

2.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法，其特征在于，步骤s110所述的基于公开文档数据集筛选候选文档，具体包括：

3.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法，其特征在于，步骤s120所述的对候选文档进行文字识别，具体包括：

4.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法，其特征在于，步骤s130将文字识别结果处理为结构化文字信息，具体包括：

5.如权利要求1所述的基于大语言模型...

【专利技术属性】
技术研发人员：于智，沈宇帆，陈杨，卜佳俊，邢航笛，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人