当前位置: 首页 > 专利查询>东北大学专利>正文

一种支持情绪化语音输出的多模态智能问答与推荐系统技术方案

技术编号:44835492 阅读:26 留言:0更新日期:2025-04-01 19:35
本发明专利技术提供一种支持情绪化语音输出的多模态智能问答与推荐系统,涉及视觉问答技术领域,具体包括多模态问答模块、多模态推荐模块、语音识别模块、以及语音合成模块;其中多模态问答模块将用户输入的图像转换为自然语言的形式,结合彗星知识库COMET,完成最终的问题回答;语音识别模块用于识别输入到多模态智能问答与推荐系统中的语音数据,并将其处理成文本的形式;多模态推荐模块鉴别传入的数据是否存在模态缺失的情况,生成缺失模态的表示,然后根据用户和物品的交互矩阵,通过图卷积神经网络,学习得到用户和物品的向量表示,并进行可靠性计算,最后将多模态推荐的结果,送回到多模态问答模块中;语音合成模块将语音输出给用户。

【技术实现步骤摘要】

本专利技术涉及视觉问答,尤其涉及一种支持情绪化语音输出的多模态智能问答与推荐系统


技术介绍

1、在过去的几年里,视觉问答越来越受到人们的关注。传统的视觉问答研究的最新研究可以大致分为以下几类:更好的视觉特征,更强大的模型架构和更有效的学习范式。目前大多数最先进的视觉问答方法都采用 transformer 架构。通过在大规模数据集上结合视觉语言预训练,他们在几个代表性基准数据集上已经接近甚至超越了人类水平的表现。最近的一些研究已经考虑如何将知识纳入视觉问答中,这些作者研究了如何将知识库合并到 vqa 数据集中,同时为每个问题都提供了一组相关知识。一个新颖的数据集 ok-vqa中全部问题都需要外部知识,通过该数据集可以评估模型在仅通过查看图像无法获得答案的场景下的推理能力。基于检索式增强的视觉问答这项任务的核心在于知识的获取和整合,很自然地想到添加一个单独的检索模块来调用所需的显性知识作为外部输入,一些研究利用现成的视觉检测模型来生成用于知识检索的图像标签,而其他研究则通过监督方法或辅助任务(例如实体链接)来训练检索模型。互联网被认为是最简单的外部知识来源,本文档来自技高网...

【技术保护点】

1.一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,具体包括多模态问答模块、多模态推荐模块、语音识别模块、以及语音合成模块;

2.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述答案候选集包括若干组答案,对于每一个答案感知示例,利用ChatGLM的推理能力生成一组答案;

3.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述多模态问答模块具体执行以下步骤:

4.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述语音识别模块具体执行...

【技术特征摘要】

1.一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,具体包括多模态问答模块、多模态推荐模块、语音识别模块、以及语音合成模块;

2.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述答案候选集包括若干组答案,对于每一个答案感知示例,利用chatglm的推理能力生成一组答案;

3.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,所述多模态问答模块具体执行以下步骤:

4.根据权利要求1所述的一种支持情绪化语音输出的多模态智能问答与推荐系统,其特征在于,...

【专利技术属性】
技术研发人员:张弛赵晗程文瀚王大玲
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1