【技术实现步骤摘要】
本申请涉及视觉问答,尤其涉及视觉问答方法、装置、设备、存储介质及产品。
技术介绍
1、大语言模型(large language model,llm,大型语言模型)是一种基于深度学习的模型,能够理解和生成人类语言,通常用于自然语言处理任务,如文本生成、翻译、问答等。
2、基于大模型的文档理解系统常用于各类文档场景,可以对输入的文档进行相应的理解,基于理解执行用户提出的任务,如基于输入的文档对用户提出的问题给出对应的答案,或是根据用户提出的需求,对输入的文档进行理解,输出用户需求的关键字段信息等。
3、但是,此类应用一般仅能应用于文本类文档,而现实应用中的文档并不都是文本类文档,也存在大量的视觉类文档,如包含扫描件的文档或包含手持拍摄图片的文档,此外,实际应用中的文档理解任务多种多样,包括各类信息抽取类的抽取式问题,和涵盖逻辑计算推理类的生成式问题。
技术实现思路
1、本申请的主要目的在于提供一种视觉问答方法、装置、设备、存储介质及产品,旨在解决相关技术大语言模型在使用
...【技术保护点】
1.一种视觉问答方法,其特征在于,所述方法包括:
2.如权利要求1所述的视觉问答方法,其特征在于,所述视觉问题数据包括图像数据以及问题数据;
3.如权利要求2所述的视觉问答方法,其特征在于,所述对所述图像数据进行文字识别,获得所述图像数据对应的图像文本数据,包括:
4.如权利要求2所述的视觉问答方法,其特征在于,所述将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据,包括:
5.如权利要求4所述的视觉问答方法,其特征在于,所述预设比例系数包括视觉比例系数、文本比例系数以及
...【技术特征摘要】
1.一种视觉问答方法,其特征在于,所述方法包括:
2.如权利要求1所述的视觉问答方法,其特征在于,所述视觉问题数据包括图像数据以及问题数据;
3.如权利要求2所述的视觉问答方法,其特征在于,所述对所述图像数据进行文字识别,获得所述图像数据对应的图像文本数据,包括:
4.如权利要求2所述的视觉问答方法,其特征在于,所述将所述视觉特征数据、所述文本特征数据及所述问题特征数据融合,生成所述视觉问题数据对应的多模态特征数据,包括:
5.如权利要求4所述的视觉问答方法,其特征在于,所述预设比例系数包括视觉比例系数、文本比例系数以及问题比例系数;
6.如权利要求1-5任一项所述的视觉问答方法,其特征在于,所述根据所述多模态特征数据在预设模板库中进行查找,获得与所述多模态特征数据相匹配的至少一个目标示例问答数据,包括:
【专利技术属性】
技术研发人员:李灿,乔梁,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。