【技术实现步骤摘要】
一种基于概念交互和关联语义的文本视觉问答系统及方法
本专利技术属于视觉问答
,尤其涉及一种基于概念交互和关联语义的文本视觉问答系统及方法。
技术介绍
随着视觉和语言交互领域的发展,文本视觉问答算法近些年取得了巨大的进步。作为视觉问答的一个分支,文本视觉问答算法把算法的重心放在如何挖掘图片中文本和物体关系,并用来支持问题回答,它在现实应用当中也是应用广泛,例如针对残障人士的视觉助理,针对低龄儿童教育助手等等。相比较于传统的视觉问答算法,文本视觉问答算法的目标是要求模型能够同时理解图像当中的视觉信息和文本信息,在这些重要线索的前提之下进行推理,并最终回答这个关于图像当中文本的问题。如果要完成如上的这些要求,此任务将涉及到多个领域的知识,例如物体检测,文本识别和多模态推理等等。因为其系统算法的复杂性,它现在是机器智能方面一个亟待解决的问题。目前大多数的视觉问答算法主要将其注意力聚焦在注意力机制和基于图的方法中。注意力机制要求模型将权值分配给图像当中的物体或者文本,重要的信息给定的权值较大,不相关的信息给定的权值比较小 ...
【技术保护点】
1.一种基于概念交互和关联语义的文本视觉问答系统,其特征在于,包括物体位置提取模块、与所述物体位置提取模块连接的第一全连接层、文本信息提取模块、与所述文本信息提取模块连接的第二全连接层、分别与所述第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与所述OCR-object图卷积网络连接的多门步机制图卷积网络以及与所述多门步机制图卷积网络连接的转换器网络,所述转换器网络与双向转换器表征编码器BERT连接;/n所述物体位置提取模块,用于利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息;/n所述第一全连接层,用于将所述 ...
【技术特征摘要】
1.一种基于概念交互和关联语义的文本视觉问答系统,其特征在于,包括物体位置提取模块、与所述物体位置提取模块连接的第一全连接层、文本信息提取模块、与所述文本信息提取模块连接的第二全连接层、分别与所述第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与所述OCR-object图卷积网络连接的多门步机制图卷积网络以及与所述多门步机制图卷积网络连接的转换器网络,所述转换器网络与双向转换器表征编码器BERT连接;
所述物体位置提取模块,用于利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息;
所述第一全连接层,用于将所述视觉特征及其对应的位置信息进行融合,得到物体的位置信息;
所述文本信息提取模块,用于利用OCR识别模型检测图像中的文本信息及其对应的位置信息;
所述第二全连接层,用于对所述文本信息及其对应的位置信息进行融合,得到文本的位置信息;
所述OCR-object图卷积网络,用于根据物体的位置信息和文本的位置信息,提取物体的位置信息和文本的位置信息的重叠关系;
所述多门步机制图卷积网络,用于对重叠关系进行编码;
所述双向转换器表征编码器BERT,用于提取问题文本的问题信息;
所述转换器网络,用于根据问题信息以及编码信息得到文本视觉回答。
2.根据权利要求1所述的基于概念交互和关联语义的文本视觉问答系统,其特征在于,所述OCR-object图卷积网络包括OCR-OCR子图,object-object子图以及OCR-object子图;
所述OCR-OCR子图,用于对图像中检测到的文本与文本之间的关系进行建模,建立任意两个文本之间的联系。
所述object-object子图,用于对图像中检测到的物体与物体之间的关系进行建模,建立任意两个物体之间的联系。
所述OCR-object子图,用于对文本和物体之间的关系进行建模,得到物体的位置信息和文本的位置信息的重叠关系。
3.一种基于概念交互和关联语义的文本视觉问答方法,其特征在于,包括以下步骤:
S1、利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息,并利用第一全连接层将所述视觉特征及其对应的位置信息进行融合,得到物体的位置信息;
S2、利用OCR识别模型检测图像中的文本信息及其对应的位置信息,并利用第二全连接层对文本信息及其对应的位置信息进行融合,得到文本的位置信息;
S3、利用双向转换器表征编码器BERT提取问题文本的问题信息;
S4、根据物体的位置信息和文本的位置信息,利用OCR-object图卷积网络得到物体的位置信息和文本的位置信息的重叠关系;
S5、利用多门步机制图卷积网络对所述重叠关系进行编码;
S6、将所述问题信息以及编码信息输入至转换器网络,得到文本视觉回答,完成基于概念交互和关联语义的文本视觉问答。
4.根据权利要求3所述的基于概念交互和关联语义的文本视觉问答方法,其特征在于,所述步骤S1中进行融合的表达式如下:
其中,Fv表示融...
【专利技术属性】
技术研发人员:高联丽,李向鹏,宋井宽,
申请(专利权)人:贵州大学,电子科技大学,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。