【技术实现步骤摘要】
本申请涉及大模型应用,特别是涉及一种基于vlm-llm协同校验与指令驱动的多模态数据构建方法、装置、系统、计算机设备和计算机可读存储介质。
技术介绍
1、随着人工智能技术的快速发展,多模态大模型在各领域的应用日益广泛。然而,高质量多模态数据集的构建一直是制约模型性能提升的关键瓶颈。目前,多模态数据集构建主要依赖三种方式:人工标注、半自动化标注和大模型自动生成。
2、在传统的人工标注方案中,标注人员需要对图像内容进行理解并生成相应的图文描述和问答对;然而,这种方法仍然需要大量人工参与,不仅成本高昂,而且标注质量受标注人员专业水平影响较大,存在语义理解不足、模态割裂等问题;
3、半自动化标注方案通过引入自动化工具辅助人工标注,一定程度上提高了效率;但这类方法仍存在生成内容粗糙、多模态校验缺失等技术劣势,且后期修正成本高、领域迁移困难。
4、近年来,随着大模型技术的发展,基于大模型的自动数据构建方法逐渐兴起。该类方法使用人工智能大模型对专家知识文本特征进行深度学习和语义理解,生成问答对指令;然而,现有的大模
...【技术保护点】
1.一种基于VLM-LLM协同校验与指令驱动的多模态数据构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,通过LLM模型,对所述图文描述进行逻辑判定,获取符合逻辑和常识的目标图文描述包括:
3.根据权利要求2所述的方法,其特征在于,所述第二Prompt被设置为利用LLM模型的语言分析专家能力,构建内容相似性分析逻辑,并通过相似度分析及阈值判断,获取因模型幻觉导致的异常图文描述。
4.根据权利要求1所述的方法,其特征在于,利用指令驱动机制,基于所述目标图文描述和外部领域知识库,进行可控QA生成,得到多组不
...【技术特征摘要】
1.一种基于vlm-llm协同校验与指令驱动的多模态数据构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,通过llm模型,对所述图文描述进行逻辑判定,获取符合逻辑和常识的目标图文描述包括:
3.根据权利要求2所述的方法,其特征在于,所述第二prompt被设置为利用llm模型的语言分析专家能力,构建内容相似性分析逻辑,并通过相似度分析及阈值判断,获取因模型幻觉导致的异常图文描述。
4.根据权利要求1所述的方法,其特征在于,利用指令驱动机制,基于所述目标图文描述和外部领域知识库,进行可控qa生成,得到多组不同风格、不同深度以及不同结构的细节问答对包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6...
【专利技术属性】
技术研发人员:李来,
申请(专利权)人:杭州魔点科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。