当前位置: 首页 > 专利查询>天津大学专利>正文

基于自然语言描述的视频监控行人搜索的注意力模型方法技术

技术编号:20075776 阅读:18 留言:0更新日期:2019-01-15 00:50
一种基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。本发明专利技术使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。

Attention Model Method for Video Surveillance Pedestrian Search Based on Natural Language Description

A method of attention model based on natural language description for pedestrian search in video surveillance is presented. The attention weight formed by fused feature vectors is used to weigh the attention of image feature vectors, and the degree of connection between text and image is obtained. At the same time, the text is weighted by the attention weight formed by the text feature vector, and the importance of the text is obtained. After multiplying the relationship between text and image and the importance of the text, the attention score is obtained. The invention uses three different attention weighting methods, which can more effectively highlight the importance of each word text vector and improve the representativeness and effectiveness of the feature vector, and can more fully and effectively use the feature vector. It can make full use of the effective features in the eigenvectors to improve the training and testing results. It can solve some related problems such as artificial intelligence, machine learning and video surveillance pedestrian search based on natural language description.

【技术实现步骤摘要】
基于自然语言描述的视频监控行人搜索的注意力模型方法
本专利技术涉及一种视频监控行人搜索的注意力模型方法。特别是涉及一种基于自然语言描述的视频监控行人搜索的注意力模型方法。
技术介绍
随着人工智能和深度学习的不断发展,人们对于人工智能和深度学习领域的要求也越来高。从图像和文本中提取的特征向量以及有效使用这些特征向量对于深度学习的训练和测试过程十分的重要,甚至可以起到决定性的作用。为了可以使深度学习可以更加有效的使用特征向量,人们提出了许多注意力模型并被广泛应用于各种类型不同的深度学习任务中,例如图像分类,图像识别和字幕生成等。与此同时,在基于属性的视频监控行人搜索领域中,不同种类的注意力模型也经常被使用。相对于广泛使用的基于属性的行人搜索,利用人类自然语言描述进行视频监控行人搜索更有利于实际场景的使用,但是实现的难度也要高于基于属性的行人搜索。在基于人类自然语言描述的视频监控行人搜索任务中,现有的注意力模型算法的效果并不理想。
技术实现思路
本专利技术所要解决的技术问题是,提供一种可以充分有效的使用特征向量而达到更好的行人搜索结果的基于自然语言描述的视频监控行人搜索的注意力模型方法。本专利技术所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索的注意力模型方法,包括如下步骤:1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为2)将所述的融合向量输入到全连接层中进行训练,得到向量即:其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:其中,注意力向量中共有j个元素xj,为注意力向量中第i个元素的权重;4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:其中,为第n张图像和第k个单词对应的文本特征向量的权重矩阵,为第n张图像和第k个单词对应的文本特征向量的偏置向量;5)将向量输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量即其中,注意力向量中共有j个元素zj,为注意力向量中第i个元素的权重;6)将注意力向量与文本特征向量进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度即:7)将注意力向量与图像特征向量为进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度即:8)将联系程度与重要程度进行乘积运算,得到注意力评价分数Sco,即:其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。本专利技术的基于自然语言描述的视频监控行人搜索的注意力模型方法,具有如下特点:(1)新颖性:提出了适用于基于自然语言描述的视频监控行人搜索的注意力模型算法。(2)有效性:使用三种不同的注意力加权方式,更有效的突出每个单词文本向量的重要程度以及提高了特征向量的代表性和有效性,可以更加充分有效的使用特征向量。(3)实用性:可以充分的利用特征向量中有效的特征,提高训练和测试的效果。可以解决一些人工智能,机器学习以及基于自然语言描述的视频监控行人搜索等相关方面的工作和问题。附图说明图1是本专利技术基于自然语言描述的视频监控行人搜索的注意力模型方法的流程图。具体实施方式下面结合实施例和附图对本专利技术的基于自然语言描述的视频监控行人搜索的注意力模型方法做出详细说明。本专利技术的基于自然语言描述的视频监控行人搜索的注意力模型方法,利用融合的特征向量形成的注意力权重对图像特征向量进行注意力加权,得到文本与图像之间的联系程度。与此同时,利用文本特征向量形成的注意力权重对该文本进行注意力加权,得到该文本的重要程度。将文本与图像之间的联系程度与该文本的重要程度相乘后得到注意力评价分数。具体包括如下步骤:1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为2)将所述的融合向量输入到全连接层中进行训练,得到向量即:其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:其中,注意力向量中共有j个元素xj,为注意力向量中第i个元素的权重;4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:其中,为第n张图像和第k个单词对应的文本特征向量的权重矩阵,为第n张图像和第k个单词对应的文本特征向量的偏置向量;5)将向量输入神经网络的Softmax层中进行归一化,并计算权重值TSn,将所有权重值作为元素构成注意力向量即其中,注意力向量中共有j个元素zj,为注意力向量中第i个元素的权重;6)将注意力向量与文本特征向量进行内积运算,得到经过注意力向量加权的标量分数--文本的重要程度即:7)将注意力向量与图像特征向量为进行内积运算,得到经过注意力向量加权的标量分数--文本与图像之间的联系程度即:8)将联系程度与重要程度进行乘积运算,得到注意力评价分数Sco,即:其中,注意力评价分数是用于表示文本中每个单词与图像的相关程度,分数越大,则每个单词与图像的相关程度越高。本文档来自技高网...

【技术保护点】
1.一种基于自然语言描述的视频监控行人搜索的注意力模型方法,其特征在于,包括如下步骤:1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为

【技术特征摘要】
1.一种基于自然语言描述的视频监控行人搜索的注意力模型方法,其特征在于,包括如下步骤:1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为2)将所述的融合向量输入到全连接层中进行训练,得到向量即:其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:其中,注意力向量中共有j个元素xj,为注意力向量中第i个元素的权重;4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:其中,为...

【专利技术属性】
技术研发人员:冀中李晟嘉
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1