【技术实现步骤摘要】
本专利技术涉及大模型技术,具体涉及一种基于大语言模型的视障人群文档视觉问答指令数据生成方法和装置。
技术介绍
1、文档,包括电子文档或文档图片,往往存在丰富的板式信息,字体大小、位置信息等表征了不同板式以高效传播信息,如信件的具体格式,说明书的层次标题等。然而,视障人群在阅读文档时通常只通过文字识别或电子解析的结果进行阅读,由于这些结果中不包含视觉板式信息,造成视障人群理解文档内容错误率高、定位关键信息效率低的问题。
2、多模态大模型借助大语言模型所具备的丰富的先验知识,能够得到不错的零样本结果。为了解决该问题,当前的高效方法是通过多模态大模型实现文档图片和问题的输入,并回答相关信息,从而极大提高视觉障碍人群理解文档内容的效率和准确率。然而,由于文档视觉问答指令数据标注成本高,并且调用强大的通用多模态大模型的价格贵、效果差,导致目前缺乏大规模的面向视障人群的文档视觉问答指令数据,这阻碍了面向视障人群的文档视觉问答技术落地。
3、上述问题是目前亟待解决的。
技术实现思路
< ...【技术保护点】
1.基于大语言模型的视障人群文档视觉问答指令生成方法,包括如下步骤:
2.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法,其特征在于,步骤S110所述的基于公开文档数据集筛选候选文档,具体包括:
3.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法,其特征在于,步骤S120所述的对候选文档进行文字识别,具体包括:
4.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法,其特征在于,步骤S130将文字识别结果处理为结构化文字信息,具体包括:
5.如权利要求1所述的基于大
...【技术特征摘要】
1.基于大语言模型的视障人群文档视觉问答指令生成方法,包括如下步骤:
2.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法,其特征在于,步骤s110所述的基于公开文档数据集筛选候选文档,具体包括:
3.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法,其特征在于,步骤s120所述的对候选文档进行文字识别,具体包括:
4.如权利要求1所述的基于大语言模型的视障人群文档视觉问答指令生成方法,其特征在于,步骤s130将文字识别结果处理为结构化文字信息,具体包括:
5.如权利要求1所述的基于大语言模型...
【专利技术属性】
技术研发人员:于智,沈宇帆,陈杨,卜佳俊,邢航笛,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。