【技术实现步骤摘要】
本专利技术涉及自然语言处理,特别是指一种基于大语言模型和知识图谱的多模态推理方法及装置。
技术介绍
1、生成式大型语言模型(large language models,llms)是一种基于大量文本数据进行预训练的超大型深度学习模型,是人工智能领域上的一项革命性技术。在训练过程中,llms 会从大量数据中学习语言的模式和规律,从而能够生成类似人类,甚至具有创造性的文本,极大地推动了对自然语言处理的能力。人类通过不同模态的信息来感知世界,例如语言、图像、视频和声音等,它们通常相互补充和协同。因此仅拥有文本处理能力的模型远远不能满足人类对人工智能的要求,为此研究人员通过多种方法赋予纯文本的llms视觉、视频、音频等其他模态的理解和感知能力。值得注意的方法是适配器(adapter)的使用,它能够将预训练好的其他模态的编码器与文本 llms 对齐,把其他模态的信息转化成llms能够理解的文本信息。这一方法导致了多模态llms的快速发展。然而,这些方法大多数都只关注多模态信息的转化与理解,忽视了模型的多模态推理能力。在多模态推理过程中,模型仍然容易
...【技术保护点】
1.一种基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述MR-MKG框架包括语言编码器、视觉编码器、知识图编码器、知识适配器和跨模态对齐模块。
3.根据权利要求2所述的基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述语言编码器是基于大语言模型的嵌入层的结构构建;
4.根据权利要求1所述的基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述使用所述文本数据、所述图像数据和所述多模态知识子图,对所述待训练多模态推理模型
...【技术特征摘要】
1.一种基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述mr-mkg框架包括语言编码器、视觉编码器、知识图编码器、知识适配器和跨模态对齐模块。
3.根据权利要求2所述的基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述语言编码器是基于大语言模型的嵌入层的结构构建;
4.根据权利要求1所述的基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述使用所述文本数据、所述图像数据和所述多模态知识子图,对所述待训练多模态推理模型进行训练优化,获得多模态推理模型,包括:
5.根据权利要求4所述的基于大语言模型和知识图谱的多模态推理方法,其特征在于,所述s45的基于所述待训练多模态推理模型,根据所述知识-语言特征以及提示词进行...
【专利技术属性】
技术研发人员:李晶,李俊霖,何道敬,张民,
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。