当前位置: 首页 > 专利查询>武汉大学专利>正文

基于跨语义注意力模型的实例检索方法及相关设备技术

技术编号:38315810 阅读:12 留言:0更新日期:2023-07-29 08:57
本发明专利技术提供一种基于跨语义注意力模型的实例检索方法及相关设备。该方法包括:从多个镜头中选取任一镜头作为目标镜头,获取目标镜头中的动作预测得分向量和地点预测得分向量;对地点预测得分向量和动作预测得分向量进行修正,得到修正后的地点预测得分向量和修正后的动作预测得分向量;基于修正后的动作预测得分向量、修正后的地点预测得分向量、待查询动作以及待查询地点计算得到关联检索得分;重复上述步骤,直至多个镜头都被选取,得到多个关联检索得分;基于多个关联检索得分得到待查询的动作和待查询的地点对应的检索结果。通过本发明专利技术,有效避免检索结果出现语义矛盾的镜头,提高了“动作

【技术实现步骤摘要】
基于跨语义注意力模型的实例检索方法及相关设备


[0001]本专利技术涉及计算机视觉
,尤其涉及一种基于跨语义注意力模型的实例检索方法及相关设备。

技术介绍

[0002]相比于概念检索,实例检索的目标不再是查找某一类对象,而是从这一类对象的众多个体中去查找特定的个体。目前,单一语义的视频实例检索技术已经取得了令人欣喜的进展,但是,基于多重概念的复合语义实例检索还远远达不到单一语义实例检索的精度。
[0003]现有的“动作

地点”复合语义实例检索方法直接简单地将“动作”和“地点”检索结果相叠加,从而得到“动作

地点”二元语义的检索结果。由于地点和动作往往有着较强的逻辑关系,知道地点可以推测可能发生的动作,反过来,知道动作也可以推测人物所处的地点。所以这种没有考虑动作和地点二者间在影视剧中存在的语义关联信息,孤立地检索动作和地点的方法,可能导致检索结果出现语义矛盾的镜头。

技术实现思路

[0004]本专利技术的主要目的在于提供一种基于跨语义注意力模型的实例检索方法及相关设备,旨在避免检索结果出现语义矛盾的镜头,提高复合语义检索的精度。
[0005]第一方面,本专利技术提供一种基于跨语义注意力模型的实例检索方法,所述基于跨语义注意力模型的实例检索方法包括:
[0006]从多个镜头中选取任一镜头作为目标镜头,获取目标镜头中的动作预测得分向量以及地点预测得分向量;
[0007]基于注意力嵌入矩阵、语义嵌入矩阵以及动作预测得分向量对地点预测得分向量进行修正,得到修正后的地点预测得分向量;
[0008]基于注意力嵌入矩阵、语义嵌入矩阵以及地点预测得分向量对动作预测得分向量进行修正,得到修正后的动作预测得分向量;
[0009]基于修正后的动作预测得分向量、修正后的地点预测得分向量、待查询动作以及待查询地点计算得到待查询动作和待查询地点的关联检索得分;
[0010]从未被选取过的镜头中选取任一镜头作为目标镜头,返回执行获取目标镜头中的动作预测得分向量以及地点预测得分向量的步骤,直至多个镜头都被选取,得到多个关联检索得分;
[0011]基于多个关联检索得分得到待查询的动作和待查询的地点对应的检索结果。
[0012]可选的,所述基于注意力嵌入矩阵、语义嵌入矩阵以及动作预测得分向量对地点预测得分向量进行修正,得到修正后的地点预测得分向量的步骤,包括:
[0013]将动作预测得分向量代入第一预设公式,计算得到动作注意力向量和动作语义向量,其中,第一预设公式如下:
[0014][0015]其中,k
A
用于表示动作注意力向量,s
A
用于表示动作预测得分向量,M
L
用于表示动作修正地点模块中的注意力嵌入矩阵,M
L
∈R
|A|
×
A|
,v
A
用于表示动作语义向量,W
L
用于表示动作修正地点模块中的语义嵌入矩阵,W
L
∈R
|A|
×
|A|
,|A|是动作类别总数,R
|A|
×
|A|
用于表示尺寸为A乘A的实数矩阵;
[0016]将地点预测得分向量以及动作注意力向量代入第二预设公式,计算得到动作到地点的注意力矩阵,其中,第二预设公式如下:
[0017][0018]其中,M
A

L
用于表示动作到地点的注意力矩阵,s
L
用于表示地点预测得分向量;
[0019]将动作语义向量和动作到地点的注意力矩阵代入第三预设公式,计算得到地点预测得分更新向量,其中,第三预设公式如下:
[0020][0021]其中,用于表示地点预测得分更新向量;
[0022]将地点预测得分更新向量和地点预测得分向量代入第四预设公式,计算得到修正后的地点预测得分向量,其中,第四预设公式如下:
[0023][0024]其中,用于表示修正后的地点预测得分向量。
[0025]可选的,所述基于注意力嵌入矩阵、语义嵌入矩阵以及地点预测得分向量对动作预测得分向量进行修正,得到修正后的动作预测得分向量的步骤,包括:
[0026]将地点预测得分向量代入第五预设公式,计算得到动作注意力向量和动作语义向量,其中,第五预设公式如下:
[0027][0028]其中,k
L
用于表示地点注意力向量,s
L
用于表示地点预测得分向量,M
L

用于表示地点修正动作模块中的注意力嵌入矩阵,M
L

∈R
|L|
×
|L|
,v
L
用于表示地点语义向量,W
L

用于表示地点修正动作模块中的语义嵌入矩阵,W
L

∈R
|L|
×
|L|
,|L|用于表示地点类别总数,R
|L|
×
|L|
用于表示尺寸为L乘L的实数矩阵;
[0029]将动作预测得分向量以及地点注意力向量代入第六预设公式,计算得到地点到动作的注意力矩阵,其中,第六预设公式如下:
[0030][0031]其中,M
L

A
用于表示地点到动作的注意力矩阵,s
A
用于表示动作预测得分向量;
[0032]将地点语义向量和地点到动作的注意力矩阵代入第七预设公式,计算得到动作预测得分更新向量,其中,第七预设公式如下:
[0033][0034]其中,用于表示动作预测得分更新向量;
[0035]将动作预测得分更新向量和动作预测得分向量代入第八预设公式,计算得到修正后的地点预测得分向量,其中,第八预设公式如下:
[0036][0037]其中,用于表示修正后的动作预测得分向量。
[0038]可选的,所述基于修正后的动作预测得分向量、修正后的地点预测得分向量、待查询动作以及待查询地点计算得到待查询动作和待查询地点的关联检索得分的步骤,包括:
[0039]从修正后的动作预测得分向量中选取待查询动作对应维度的第一预测得分子向量;
[0040]从修正后的地点预测得分向量中选取待查询地点对应维度的第二预测得分子向量;
[0041]计算第一预测得分子向量和第二预测得分子向量的乘积,以所述乘积作为待查询动作和待查询地点的关联检索得分。
[0042]可选的,所述基于多个关联检索得分得到待查询的动作和待查询的地点对应的检索结果的步骤,包括:
[0043]对多个关联检索得分进行最大池化操作,得到待查询的动作和待查询的地点对应的检索结果。
[0044]可选的,在所述基于注意力嵌入矩阵、语义嵌入矩阵以及动作预测得分向量对地点预测得分向量进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨语义注意力模型的实例检索方法,其特征在于,所述基于跨语义注意力模型的实例检索方法包括:从多个镜头中选取任一镜头作为目标镜头,获取目标镜头中的动作预测得分向量以及地点预测得分向量;基于注意力嵌入矩阵、语义嵌入矩阵以及动作预测得分向量对地点预测得分向量进行修正,得到修正后的地点预测得分向量;基于注意力嵌入矩阵、语义嵌入矩阵以及地点预测得分向量对动作预测得分向量进行修正,得到修正后的动作预测得分向量;基于修正后的动作预测得分向量、修正后的地点预测得分向量、待查询动作以及待查询地点计算得到待查询动作和待查询地点的关联检索得分;从未被选取过的镜头中选取任一镜头作为目标镜头,返回执行获取目标镜头中的动作预测得分向量以及地点预测得分向量的步骤,直至多个镜头都被选取,得到多个关联检索得分;基于多个关联检索得分得到待查询的动作和待查询的地点对应的检索结果。2.如权利要求1所述的基于跨语义注意力模型的实例检索方法,其特征在于,所述基于注意力嵌入矩阵、语义嵌入矩阵以及动作预测得分向量对地点预测得分向量进行修正,得到修正后的地点预测得分向量的步骤,包括:将动作预测得分向量代入第一预设公式,计算得到动作注意力向量和动作语义向量,其中,第一预设公式如下:其中,k
A
用于表示动作注意力向量,s
A
用于表示动作预测得分向量,M
L
用于表示动作修正地点模块中的注意力嵌入矩阵,M
L
∈R|
A|
×
|A|
,v
A
用于表示动作语义向量,W
L
用于表示动作修正地点模块中的语义嵌入矩阵,W
L
∈R
|A|
×
|A|
,|A|是动作类别总数,R
|A|
×
|A|
用于表示尺寸为A乘A的实数矩阵;将地点预测得分向量以及动作注意力向量代入第二预设公式,计算得到动作到地点的注意力矩阵,其中,第二预设公式如下:其中,M
A

L
用于表示动作到地点的注意力矩阵,s
L
用于表示地点预测得分向量;将动作语义向量和动作到地点的注意力矩阵代入第三预设公式,计算得到地点预测得分更新向量,其中,第三预设公式如下:其中,用于表示地点预测得分更新向量;将地点预测得分更新向量和地点预测得分向量代入第四预设公式,计算得到修正后的地点预测得分向量,其中,第四预设公式如下:
其中,用于表示修正后的地点预测得分向量。3.如权利要求1所述的基于跨语义注意力模型的实例检索方法,其特征在于,所述基于注意力嵌入矩阵、语义嵌入矩阵以及地点预测得分向量对动作预测得分向量进行修正,得到修正后的动作预测得分向量的步骤,包括:将地点预测得分向量代入第五预设公式,计算得到动作注意力向量和动作语义向量,其中,第五预设公式如下:其中,k
L
用于表示地点注意力向量,s
L
用于表示地点预测得分向量,M
L

用于表示地点修正动作模块中的注意力嵌入矩阵,M
L

∈R
|L|
×
|L|
,v
L
用于表示地点语义向量,W
L

用于表示地点修正动作模块中的语义嵌入矩阵,W
L

∈R
|L|
×
|L|
,|L|用于表示地点类别总数,R
|L|
×
|L|
用于表示尺寸为L乘L的实数矩阵;将动作预测得分向量以及地点注意力向量代入第六预设公式,计算得到地点到动作的注意力矩阵,其中,第六预设公式如下:其中,M
L

A
用于表示地点到动作的注意力矩阵,s
A
用于表示动作预测得分向量;将地点语义向量和地点到动作的注意力矩阵代入第七预设公式,计算得到动作预测得分更新向量,其中,第七预设公式如下:其中,用于表示动作预测得分更新向量;将动作预测得分更新向量和动作预测得分向量代入第八预设公式,计算得到修正后的地点预测得分向量,其中,第八预设公式如下:其中,用于表示修正后的动作预测得分向量。4.如权利要求1所述的基于跨语义注意力模型的实例检索方法,其特征在于,所述基于修正后的动作预测得分向量、修正后的地点预测得分向量、待查询动作以及待查询地点计算得到待查询动作和待查询地点的关联检索得分的步骤,包括:从修正后的动作预测得分向量中选取待查询动作对应维度的第一预测得分子向量;从修正后的地点预测得分向量中选取待查询地点对应维度的第二预测得分子向量;计算第一预测得分子向量和第二预测得分子向量的乘积,以所述乘积作为待查询动作和待查询地点的关联检索得分。5.如权利要求1所述的基于跨语义注意力模型的实例检索方法,其特征在于,所述基于多个关联检索得分得到待查询的动作和待查询的地点对应的检索结果的步骤,包括:对多个关联检索得分进行最大池化...

【专利技术属性】
技术研发人员:梁超鲁安康郭佳昊杨晶垚王中元
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1