一种基于多模态知识增强的生成式对话方法和系统技术方案

技术编号：38243750 阅读：17 留言：0更新日期：2023-07-25 18:05

本发明专利技术公开了一种基于多模态知识增强的生成式对话方法，本发明专利技术基于视觉语义特征利用注意力机制对全局文本特征进行了增强，基于全局文本特征利用注意力机制对视觉语义特征进行增强，将增强的结果进行融合得到了将图像和文本初步融合的多模态上下文特征，再基于知识特征向量对多模态上下文特征进行注意力权重分配得到了融合有外部知识的增强多模态上下文特征，利用本发明专利技术提供的方法将外部知识、对应的语义特征和文本特征进行了融合从而得到了较为合理的对话回复。本发明专利技术还提供了一种基于多模态知识增强的生成式对话系统。于多模态知识增强的生成式对话系统。于多模态知识增强的生成式对话系统。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态知识增强的生成式对话方法和系统

[0001]本专利技术属于自然语言处理对话生成领域，具体涉及一种基于多模态知识增强的生成式对话方法和系统。

技术介绍

[0002]对话是人类沟通交流和进行日常活动的主要方式之一，通过对话我们可以预订车票出游，可以和同事讨论工作，可以和家人朋友聊天沟通感情。
[0003]在自然语言处理任务中，如何开发一个能与人类自然交流的智能对话系统是一项长期研究目标，同时这也是一项复杂的任务。
[0004]随着人工智能技术的发展，当下社会中对话系统的应用也越来越普遍，很多智能助理(比如阿里小蜜，微软小冰等)能根据用户的输入给出相应的回复，不仅满足了用户的需求，还节省了大量的人力和资源。
[0005]不过，此类对话系统大多只是在单模态(即文本模态)上应用，而忽略了在对话过程中某些重要的图像信息。比如用户在购物咨询时，有时候会用图像来代替描述自己的需求。因此，面向任务的多模态对话系统有一定的研究价值。
[0006]虽然一些现有的工作已经提出使用最先进的多模态模型来生成多模态对话，但它们主要集中在基于单个图像的问答式对话生成，而不是每个对话回合的每个图像。这种学习范式限制了多模态对话生成模型在现实场景中的应用范围，在现实场景中，对话发生在随时间变化的可视上下文中。
[0007]同时，由于知识图谱领域的发展以及网络上公开百科知识库的完善，近年来也有研究者们尝试通过引入知识图谱中提供的信息来生成回复，推动对话的进行，但是大多数研究止步于知识的前期融合，而没有...

【技术保护点】

【技术特征摘要】
1.一种基于多模态知识增强的生成式对话方法，其特征在于，包括：获得多模态上下文，所述多模态上下文包括文本上下文和图像上下文，获得与文本上下文相匹配的知识序列，分别对知识序列、文本上下文进行向量表示得到知识特征向量和文本特征向量，同时对图像上下文本进行特征提取得到视觉语义特征；将知识特征向量和文本特征向量进行融合后通过文本编码器得到全局文本特征；利用全局文本特征对视觉语义特征进行注意力加权得到增强视觉语义特征，利用视觉语义特征对全局文本特征进行注意力加权得到增强全局文本特征，将增强视觉语义特征和增强全局文本特征进行拼接，将拼接结果通过全连接得到多模态上下文特征，利用知识特征向量对多模态上下文特征进行注意力加权得到增强多模态上下文特征；采用BART编码器对增强多模态上下文特征进行编码得到高阶特征，采用BART解码器以自回归方式解码高阶特征得到隐状态向量，将隐状态向量的维度转换为BART预训练语言模型的词表维度，将转换维度的隐状态向量归一化后映射到概率空间得到词表中单词的预测概率，基于单词的预测概率生成对话。2.根据权利要求1所述的基于多模态知识增强的生成式对话方法，其特征在于，所述利用全局文本特征对应视觉语义特征进行注意力加权得到增强视觉语义特征，包括：基于每个视觉语义特征的词向量与全局文本特征的所有词向量的相似度得到视觉语义特征注意力权重，对每个视觉语义特征的词向量分配对应的视觉语义特征注意力权重得到增强视觉语义特征。3.根据权利要求2所述的基于多模态知识增强的生成式对话方法，其特征在于，所述基于每个视觉语义特征的词向量与全局文本特征的所有词向量的相似度得到视觉语义特征注意力权重，包括：采用缩放点积方法将每个视觉语义特征的词向量与全局文本特征的词向量分别进行相似度匹配得到第一相似度向量集，对第一相似度向量集进行加和后归一化得到对应视觉语义特征的词向量的视觉语义特征注意力权重。4.根据权利要求1所述的基于多模态知识增强的生成式对话方法，其特征在于，所述获得与文本上下文相匹配的知识序列，包括：采用NLP工具对文本上下文进行命名实体识别得到实体名称序列，获得知识库，知识库中包括多个知识实体，每个知识实体包括多个知识属性，将实体名称序列中知识实体的词向量与知识库中知识实体的词向量进行余弦相似度比较，保留相似度TOPK的知识实体，并整合相似度TOPK的知识实体对应的知识属性得到知识序列。5.根据权利要求1所述的基于多模态知识增强的生成式对话方法，其特征在于，通过嵌入层分别对知识序列、文本上下文进行向量表示得到知识特征向量和文本特征向量；采用基于CLIP模型预训...

【专利技术属性】
技术研发人员：王曰海，徐洁雯，杨建义，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人