A method of attention model based on natural language description for pedestrian search in video surveillance is presented. The attention weight formed by fused feature vectors is used to weigh the attention of image feature vectors, and the degree of connection between text and image is obtained. At the same time, the text is weighted by the attention weight formed by the text feature vector, and the importance of the text is obtained. After multiplying the relationship between text and image and the importance of the text, the attention score is obtained. The invention uses three different attention weighting methods, which can more effectively highlight the importance of each word text vector and improve the representativeness and effectiveness of the feature vector, and can more fully and effectively use the feature vector. It can make full use of the effective features in the eigenvectors to improve the training and testing results. It can solve some related problems such as artificial intelligence, machine learning and video surveillance pedestrian search based on natural language description.
【技术实现步骤摘要】
基于自然语言描述的视频监控行人搜索的注意力模型方法
本专利技术涉及一种视频监控行人搜索的注意力模型方法。特别是涉及一种基于自然语言描述的视频监控行人搜索的注意力模型方法。
技术介绍
随着人工智能和深度学习的不断发展,人们对于人工智能和深度学习领域的要求也越来高。从图像和文本中提取的特征向量以及有效使用这些特征向量对于深度学习的训练和测试过程十分的重要,甚至可以起到决定性的作用。为了可以使深度学习可以更加有效的使用特征向量,人们提出了许多注意力模型并被广泛应用于各种类型不同的深度学习任务中,例如图像分类,图像识别和字幕生成等。与此同时,在基于属性的视频监控行人搜索领域中,不同种类的注意力模型也经常被使用。相对于广泛使用的基于属性的行人搜索,利用人类自然语言描述进行视频监控行人搜索更有利于实际场景的使用,但是实现的难度也要高于基于属性的行人搜索。在基于人类自然语言描述的视频监控行人搜索任务中,现有的注意力模型算法的效果并不理想。
技术实现思路
本专利技术所要解决的技术问题是,提供一种可以充分有效的使用特征向量而达到更好的行人搜索结果的基于自然语言描述的视频监控行人搜索的注意力模型方法。本专利技术所采用的技术方案是:一种基于自然语言描述的视频监控行人搜索的注意力模型方法,包括如下步骤:1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为2)将所述的融合向量输入到全连接层中进行训练,得到向量即:其中,为融合向量的权重矩阵,为图像特征向量In和文本特 ...
【技术保护点】
1.一种基于自然语言描述的视频监控行人搜索的注意力模型方法,其特征在于,包括如下步骤:1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为
【技术特征摘要】
1.一种基于自然语言描述的视频监控行人搜索的注意力模型方法,其特征在于,包括如下步骤:1)设由卷积神经网络提取的第n张图像特征向量为In;第n张图像对应的自然语言描述中含有若干个单词;第k个单词的文本特征向量为图像特征向量In和文本特征向量融合得到的融合向量为2)将所述的融合向量输入到全连接层中进行训练,得到向量即:其中,为融合向量的权重矩阵,为图像特征向量In和文本特征向量所对应的融合向量的偏置向量;3)将向量输入神经网络的Softmax层中进行归一化,并计算权重值Sn,将所有权重值作为元素构成注意力向量即:其中,注意力向量中共有j个元素xj,为注意力向量中第i个元素的权重;4)将第k个单词的文本特征向量为输入到全连接层中进行训练,得到向量即:其中,为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。