【技术实现步骤摘要】
本专利技术涉及视觉问答,尤其涉及一种支持情绪化语音输出的多模态智能问答与推荐系统。
技术介绍
1、在过去的几年里,视觉问答越来越受到人们的关注。传统的视觉问答研究的最新研究可以大致分为以下几类:更好的视觉特征,更强大的模型架构和更有效的学习范式。目前大多数最先进的视觉问答方法都采用 transformer 架构。通过在大规模数据集上结合视觉语言预训练,他们在几个代表性基准数据集上已经接近甚至超越了人类水平的表现。最近的一些研究已经考虑如何将知识纳入视觉问答中,这些作者研究了如何将知识库合并到 vqa 数据集中,同时为每个问题都提供了一组相关知识。一个新颖的数据集 ok-vqa中全部问题都需要外部知识,通过该数据集可以评估模型在仅通过查看图像无法获得答案的场景下的推理能力。基于检索式增强的视觉问答这项任务的核心在于知识的获取和整合,很自然地想到添加一个单独的检索模块来调用所需的显性知识作为外部输入,一些研究利用现成的视觉检测模型来生成用于知识检索的图像标签,而其他研究则通过监督方法或辅助任务(例如实体链接)来训练检索模型。互联网被认为是最
...【技术保护点】
1.一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,具体包括多模态问答模块、多模态推荐模块、语音识别模块、以及语音合成模块;
2.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述答案候选集包括若干组答案,对于每一个答案感知示例,利用ChatGLM的推理能力生成一组答案;
3.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述多模态问答模块具体执行以下步骤:
4.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述
...【技术特征摘要】
1.一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,具体包括多模态问答模块、多模态推荐模块、语音识别模块、以及语音合成模块;
2.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述答案候选集包括若干组答案,对于每一个答案感知示例,利用chatglm的推理能力生成一组答案;
3.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述多模态问答模块具体执行以下步骤:
4.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。