一种基于多模态事件本体的图像事件识别方法技术

技术编号:34738522 阅读:13 留言:0更新日期:2022-08-31 18:29
本发明专利技术公开了一种基于多模态事件本体的图像事件识别方法,包含以下步骤:图像关键词获取:使用多标签分类技术,获取输入图像信息中的重要关键词;筛选事件类集合:利用获取到的关键词,通过与事件类六元组表示结构中的要素信息进行文本匹配,在多模态事件本体模型中寻找匹配度最高的事件类集合;图像匹配:对所述筛选过的高匹配度的事件类集合中所有事件类的图像,将其与输入图像进行基于特征的匹配,选择得分最高的对应事件类,即为最终图像事件识别的结果。本发明专利技术可以使图像事件识别过程趋于结构化和标准化,从而提高事件识别的准确度。确度。确度。

【技术实现步骤摘要】
一种基于多模态事件本体的图像事件识别方法


[0001]本专利技术涉及图像识别
,尤其涉及一种基于多模态事件本体的图像事件识别方法。

技术介绍

[0002]图像是人类理解世界的一个重要辅助工具。随着人工智能技术的快速发展,机器对图像的处理也不再仅局限于简单的分类任务,而是逐步聚焦于对图像信息的深层理解与应用。
[0003]事件是指在特定时间和环境下发生的、由若干角色参与的、表现出特定动作或状态变化的过程。将事件以“对象”、“动作”、“时间”、“环境”、“状态”、“语言表现”的六元组形式表示,可以得到事件的规范化描述。
[0004]图像事件识别主要是通过图像处理技术识别图像中所发生的事件,其目标是尽可能细致地描述该事件中的参与者(人或物)、环境信息以及事件类别等,这包括基于视觉的直观判断和基于常识的辅助推理过程。因此,在识别过程中,除了聚焦于图像的视觉特征之外,还应注重对其语义信息的理解。可以说,图像的目标分类和识别等技术都为语义理解服务。
[0005]事件类指由类型相同或相似的事件所构成的集合,是对多个事件的抽象总结。事件本体是指针对通用或特定领域的应用场景,将多种相关事件类进行筛选组合,并结合事件类关系以及一定的推理规则,所得到的一种可以覆盖所有场景的知识库。事件本体可以将海量的非结构化文本事件整合成一种趋于结构化的形式,使事件的表示形式更加清晰。
[0006]目前研究界开始考虑将多模态信息应用于图像的深度理解过程中。多模态技术是将文本、图像和语音等各种类型的信息结合起来的技术,各个模态互为补充,以提高机器的理解能力。
[0007]多模态事件本体即是将多模态思想融合到事件本体模型中,具体地,它使用由文本和图像共同构成的“多模态信息”作为事件(类)描述的其中一个要素。因此,在进行图片识别时,它不仅可以增强文本语义信息的补充,还可以使用视觉特征作为事件判断的额外辅助,由此提高事件识别技术的准确度,故需要一种基于多模态事件本体的图像事件识别方法。

技术实现思路

[0008]基于以上问题,本专利技术提出了一种基于多模态事件本体的图像事件识别方法,用于解决现有技术中识别图像事件时语义信息理解不足的问题。
[0009]为了实现上述目的,本专利技术采用了如下技术方案:
[0010]一种基于多模态事件本体的图像事件识别方法,包含以下步骤:
[0011]图像关键词获取:使用多标签分类技术,获取输入图像的重要关键词;
[0012]筛选事件类集合:利用获取到的关键词,通过与事件类六元组表示结构中的要素
信息进行文本匹配,在事件本体模型中寻找匹配度最高的事件类集合;
[0013]图像匹配:对所述筛选过的高匹配度的事件类集合中所有事件类的图像,将其与输入图像进行匹配,选择得分最高的对应事件类,即为最终图像事件识别的结果。
[0014]进一步地,所述的图像关键词获取步骤还包括:
[0015]图像区域提取:提取图像的重点区域,获得包含图像重点部分的若干子图,这些子图代表图像的主要信息;
[0016]多标签分类器:基于多标签分类技术,将所述区域提取技术中产生的子图分别进行处理,得到各区域子图对应的关键词集合;
[0017]关键词标注:对所述区域子图的关键词集合进行词性标注,并根据词性对关键词集合做新的划分。
[0018]更进一步地,在所述区域提取部分,采用Selective Search或者RPN(Region Proposal Network)技术获取图像的代表区域,并且使每个代表区域子图尽量只保留一项重点目标。
[0019]更进一步地,在多标签分类部分,让所述代表区域子图经过多标签分类CNN模型,得到该子图对应的关键词,每个子图产生的关键词放入不同集合中,生成图像关键词序列;另外需要根据分类汇总结果,产生对象总数等属性。
[0020]这里的多标签分类器采用基于假设的HCP(Hypotheses

CNN

Pooling)结构。
[0021]进一步地,筛选对应事件类集合步骤还包括:
[0022]要素匹配:根据已有的多模态事件本体模型,将获取到的图像关键词与之进行相应的事件要素匹配,筛选所需事件类集合;
[0023]外部知识补充:利用外部知识对要素匹配的结果进一步筛选。
[0024]更进一步地,在要素匹配部分中,需要借助语义相似度等文本匹配技术完成事件要素的匹配过程,产生匹配程度较高的事件类集合。
[0025]更进一步地,在外部知识补充部分中,需要根据语料库、语义词典或网络资源等,计算所述图像关键词与事件类的“多模态信息”要素中文本部分的语义相关度,根据结果对事件类集合进行二次筛选。
[0026]进一步地,图像匹配步骤还包括:
[0027]特征提取:提取输入的待识别图像与经过二次筛选的事件类集合中所有候选图像的特征;
[0028]基于特征匹配:分别计算输入图像与所有待筛选图像特征间的相似度,将相似度计算作为进行最终选择的得分函数,按照匹配结果进行排序,得分最高者即为该图像所属的事件类。
[0029]与现有技术相比,本专利技术的有益效果是:
[0030]使用多模态事件本体模型作为图像事件识别过程的补充信息,其中的结构化信息使信息匹配的过程更趋于标准化与结构化;使用语料库、知识库等作为要素匹配的辅助工具,降低了机器由于缺乏理解能力而匹配错误的概率;引用了多模态技术,充分结合了图像与文本所涵盖的信息,提升了图像识别过程的准确度。
[0031]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。
本专利技术的具体实施方式由以下实施例及其附图详细给出。
附图说明
[0032]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0033]图1是本申请一种基于多模态事件本体的图像事件识别方法的步骤流程图;
[0034]图2是本申请一种基于多模态事件本体的图像事件识别方法的结构框图。
具体实施方式
[0035]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。在下列段落中参照附图以举例方式更具体地描述本专利技术。根据下面说明和权利要求书,本专利技术的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本专利技术实施例的目的。
[0036]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态事件本体的图像事件识别方法,其特征在于,包含以下步骤:图像关键词获取:使用多标签分类技术,获取输入图像的重要关键词;筛选事件类集合:利用获取到的关键词,通过与事件类六元组表示结构中的要素信息进行文本匹配,在事件本体模型中寻找匹配度最高的事件类集合;图像匹配:对所述筛选过的高匹配度的事件类集合中所有事件类的图像,将其与输入图像进行基于特征的匹配,选择得分最高的对应事件类,即为最终图像事件识别的结果。2.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法,其特征在于,图像关键词获取步骤还包括以下部分:图像区域提取:提取图像的重点区域,获得包含图像重点部分的若干子图,这些子图代表图像的主要信息;多标签分类器:基于多标签分类技术,将所述区域提取技术中产生的子图分别进行处理,得到各区域子图对应的关键词集合;关键词标注:对所述区域子图的关键词集合进行词性标注,并根据词性对关键词集合做新的划分。3.如权利要求2所述的方法,其特征在于,在所述区域提取部分,采用Selective Search或者RPN技术获取图像的代表区域,并且使每个代表区域子图尽量只保留一项重点目标。4.如权利要求2所述的方法,其特征在于,在多标签分类部分,让所述代表区域子图经过多标签分类CNN模型,...

【专利技术属性】
技术研发人员:刘炜何晴彭艳谢少荣方世忠褚晓波李晶翟杨赵荦杨天源
申请(专利权)人:上海市文化和旅游局上海市广播电视局上海市文物局上海市文物保护研究中心
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1