一种利用噪声描述文本的可控推理性视觉问题生成方法技术

技术编号：34472138 阅读：40 留言：0更新日期：2022-08-10 08:46

本发明专利技术涉及多媒体领域的视觉问题生成技术领域，尤其涉及一种利用噪声描述文本的可控推理性视觉问题生成方法，包括输入图片和能得到的有关图片的简单描述；利用锚点场景图生成模块和所述图片及描述生成锚点场景图；以所述锚点场景图为基础利用推理性问题生成模块得到具有显式推理性的自然语言问题，该发明专利技术不仅规避了传统方法基于数据驱动产生的模式局限性，也不需要高昂的人工成本，同时生成的问题在内容和难度等方面都是可控的，在不同的应用场景下定制和扩展也很方便，可以根据目的高效、大量地扩增视觉问答数据集。大量地扩增视觉问答数据集。大量地扩增视觉问答数据集。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用噪声描述文本的可控推理性视觉问题生成方法

[0001]本专利技术涉及多媒体领域的视觉问题生成
，尤其涉及一种利用噪声描述文本的可控推理性视觉问题生成方法。

技术介绍

[0002]视觉问题生成的目标是令机器根据给定的视觉信息自动生成一个自然语言问题。与其他视觉文本生成任务不同，问题生成更注重对视觉信息提炼后提出对人类来说有意义、有逻辑的疑问。近年来，视觉问题生成任务越来越受关注，不仅为视觉问答任务构建了大量的训练数据，同时也被应用于对话系统等人工智能领域。
[0003]现有的方法通常会考虑没有附件条件和依据条件信息来生成这两种情况。因此，如何更好地结合、对齐视觉信息，突破数据驱动的模式限制，低成本、可控地生成推理性、可解释性的问题，仍然是亟待解决的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种利用噪声描述文本的可控推理性视觉问题生成方法，旨在利用给定图片和一些简单描述，自动生成大量内容和难度都可控的有显式推理性的问题，且该过程能够不依赖于数据驱动的训练或大量人工预处理，使得...

【技术保护点】

【技术特征摘要】
1.一种利用噪声描述文本的可控推理性视觉问题生成方法，其特征在于，包括输入图片和所述图片的描述；利用所述图片及描述生成锚点场景图；以所述锚点场景图为基础生成推理性问题并得到具有显式推理性的自然语言问题。2.如权利要求1所述的一种利用噪声描述文本的可控推理性视觉问题生成方法，其特征在于，所述利用所述图片及描述生成锚点场景图的具体步骤为：利用场景图生成任务的方法附加物体属性分类训练生成初步场景图；利用所述初步场景图提取视觉概念；利用所述视觉概念从有噪声的描述文本中抽取可用信息，并提取其中的实体和三元组关系；利用显著性检测算法提取出所述图像中的目标区域；将所述区域映射到场景图中；将所述区域的物体作为中心锚点，使得最终锚点场景图的内容聚焦于此并根据推理长度逐层向外扩散，从而获得锚点场景图。3.如权利要求所述的一种利用噪声描述文本的可控推...

【专利技术属性】
技术研发人员：王树徽，毕超，
申请(专利权)人：镇江智栎高科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人