视觉对话方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：31502032 阅读：26 留言：0更新日期：2021-12-22 23:21

本申请公开了一种视觉对话方法、装置、计算机设备及存储介质，涉及视觉对话技术领域。该方法包括：在第t轮视觉对话过程中，将历史对话序列输入提问者模型，得到提问者模型输出的第t问题，历史对话序列中包含第t轮视觉对话之前各轮视觉对话生成的问题和回答；将第t问题、样本图像以及历史对话序列输入回答者模型，得到回答者模型输出的第t回答和第t视觉关注分布；基于第t视觉关注分布和历史视觉关注分布，对提问者模型和回答者模型进行强化学习。使得可以通过比较当前轮视觉对话对应的视觉关注分布和历史视觉关注分布，从对样本图像中候选对象的视觉关注维度，对提问者模型和回答者模型进行强化学习，丰富了视觉对话过程中奖励的种类。种类。种类。

全部详细技术资料下载

【技术实现步骤摘要】
视觉对话方法、装置、计算机设备及存储介质

[0001]本申请实施例涉及视觉对话
，特别涉及一种视觉对话方法、装置、计算机设备及存储介质。

技术介绍

[0002]视觉对话(Visual Dialog)是视觉问答(Visual Question Answeringl，VQA)的拓展，其主要任务为：视觉对话智能体与人类以自然的会话语言对视觉内容进行有意义的对话，具体而言，给定图像、对话历史和关于图像的问题，视觉对话智能体必须将问题置于图像中，从历史推断上下文，并准确地回答问题。
[0003]相关技术中，通过强化学习的方法来优化视觉对话智能体，该方法提出了一种猜图游戏的设定，看不见图的提问者需要提出一系列问题来收集关于图片的信息，能看见图的回答者根据图片来回答问题，并在强化学习过程中基于预测图像表示和目标图像表示进行奖励分发，以鼓励对话智能体准确预测图片。
[0004]但是，相关技术中仅采用预测图像表示和目标图像表示来奖励视觉对话过程，奖励方式单一。

技术实现思路

[0005]本申请实施例提供了...

【技术保护点】

【技术特征摘要】
1.一种视觉对话方法，其特征在于，所述方法包括：在第t轮视觉对话过程中，将历史对话序列输入提问者模型，得到所述提问者模型输出的第t问题，所述历史对话序列是基于样本图像进行视觉对话得到的，所述历史对话序列中包含所述第t轮视觉对话之前各轮视觉对话生成的问题和回答，t为正整数；将所述第t问题、所述样本图像以及所述历史对话序列输入回答者模型，得到所述回答者模型输出的第t回答和第t视觉关注分布，所述第t视觉关注分布用于表征所述第t轮视觉对话过程中，所述提问者模型对所述样本图像中各个候选对象的关注情况；基于所述第t视觉关注分布和历史视觉关注分布，对所述提问者模型和所述回答者模型进行强化学习。2.根据权利要求1所述的方法，其特征在于，所述基于所述第t视觉关注分布和历史视觉关注分布，对所述提问者模型和所述回答者模型进行强化学习，包括：基于所述第t视觉关注分布和所述历史视觉关注分布，确定第一视觉关注奖励和第二视觉关注奖励中的至少一种，所述第一视觉关注奖励用于表征在t轮视觉对话过程中，所述提问者模型对所述样本图像中各个候选对象的关注分布差异，所述第二视觉关注奖励用于表征在t轮视觉对话过程中，所述提问者模型对所述样本图像中各个候选对象的关注状态差异；基于所述第一视觉关注奖励和所述第二视觉关注奖励中的至少一种，对所述提问者模型和所述回答者模型进行强化学习。3.根据权利要求2所述的方法，其特征在于，所述基于所述第t视觉关注分布和所述历史视觉关注分布，确定第一视觉关注奖励，包括：基于所述第t视觉关注分布和至少一个历史视觉关注分布，确定候选分布差异；基于至少一个所述候选分布差异，确定所述第一视觉关注奖励。4.根据权利要求2所述的方法，其特征在于，所述基于所述第t视觉关注分布和所述历史视觉关注分布，确定第二视觉关注奖励，包括：基于所述第t视觉关注分布和所述历史视觉关注分布，确定第t累计视觉关注状态，所述第t累计视觉关注状态用于表征在t轮视觉对话过程中，所述提问者模型对所述样本图像中各个候选对象的累计关注状态；基于所述第t累计视觉关注状态和第t
‑
1累计视觉关注状态，确定所述第二视觉关注奖励，所述第t
‑
1累计视觉关注状态用于表征在t
‑
1轮视觉对话过程中，所述提问者模型对所述样本图像中各个候选对象的累计关注状态。5.根据权利要求4所述的方法，其特征在于，所述基于所述第t视觉关注分布和所述历史视觉关注分布，确定第t累计视觉关注状态，包括：对所述第t视觉关注分布进行归一化处理和极化处理，得到第t视觉关注状态，所述第t视觉关注状态用于表征在所述第t轮视觉对话过程中，所述提问者模型对所述样本图像中各个候选对象的关注状态；基于所述第t视觉关注状态和所述第t
‑
1累计视觉关注状态，确定所述第t累计视觉关注状态。6.根据权利要求5所述的方法，其特征在于，所述对所述第t视觉关注分布进行归一化处理和极化处理，得到第t视觉关注状态，包括：
对所述第t视觉关注分布进行归一化处理，得到第t中间关注分布；响应于所述第t中间关注分布指示候选对象对应的关注概率大于概率阈值，将所述候选对象对应的视觉关注状态确定为1，所述视觉关注状态为1表示在所述第t轮视觉对话过程中，所述提问者模型已关注所述候选对象；响应于所述第t中间关注分布指示候选对象对应的关注概率小于所述概率阈值，将所述候选对象对应的视觉关注状态确定为0，所述视觉关注状态为0表示在第t轮视觉对话过程中，所述提问者模型未关注所述候选对象；将所述样本图像中各个候选对象对应视觉关注状态的集合确定为所述第t视觉关注状态。7.根据权利要求6所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：徐子彭，孟凡东，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人