一种基于长短时记忆网络扫视路径学习的人群识别方法技术

技术编号:22239025 阅读:24 留言:0更新日期:2019-10-09 18:48
本发明专利技术涉及一种基于长短时记忆网络扫视路径学习的人群识别方法,采集不同人群组别的眼动数据构建训练样本集,利用LSTM网络来有监督地学习出不同类别扫视模式与人群组别标记之间的映射关系,根据训练后的网络来对待评估观察者的扫视序列进行得分判定,实现基于扫视路径学习的人群识别,与其他手段结合帮助提高人群识别的准确性,促进相关应用的发展。

A Crowd Recognition Method Based on Long-term and Short-term Memory Network Scanning Path Learning

【技术实现步骤摘要】
一种基于长短时记忆网络扫视路径学习的人群识别方法
本专利技术属于图像处理领域,涉及一种人群识别方法,即通过对不同人群的扫视路径进行有监督学习,来建立扫视模式与人群组别之间的映射关系,实现基于扫视路径学习的人群识别。
技术介绍
每秒钟大约有108阶比特数据流进入人眼,远超过大脑能够全部处理和吸收的信息量。面对如此大量与复杂的视觉输入,人类视觉系统仍然能够有效地获取场景重要内容,来增加对外部世界的了解。这主要是因为选择性视觉注意机制的存在。视觉注意是人类视觉感知的一项重要特征,是大部分视觉任务的关键因素,其本质在于快速提取场景重要区域,并对其分配主要计算资源。对人类的视觉注意过程进行研究不仅有助于探索人类视觉加工的内在机理,也能够为大数据时代下资源的合理分配与信息的高效处理提供解决方案,来帮助解决医疗诊断、社会安全等多个领域中的应用问题。在目前关于视觉注意的研究中,研究者们主要关注于人们在观察视觉输入时表现出的共性眼动特征。LaurentItti等人在文章“AModelofSaliency-BasedVisualAttentionforRapidSceneAnalysis”,IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.20,no.11,pp.1254-1259,1998中通过提出模拟视网膜神经元细胞感受野的中心-周围对比度机制来估计场景不同区域被人们关注的概率。基于深度学习强大的表示与学习能力,近期视觉注意的研究则倾向于探索由原始图像到被关注概率图的直接映射关系。WenguanWang和JianbingShen在文章“Deepvisualattentionprediction,”IEEETransactionsonImageProcessing,vol.27,no.5,pp.2368-2378,2018中通过设计改进卷积神经网络来预测像素级的被关注概率图,相对于之前工作进一步提升对于图像关注区域估计的有效性与稳定性。尽管对图像关注区域进行估计能够揭示出人类关注区域位置等重要信息,却无法对视觉注意中注视点跳转及整个扫视路径的生成过程进行描述。为了更加全面地理解与阐明视觉注意,研究者们开始关注到扫视路径的预测问题,即估计连续多个时刻的注视点位置,以生成扫视路径的方式来建模人类视觉系统对于当前场景的动态解析过程。MingJiang等人在文章“Learningtopredictsequencesofhumanvisualfixations,”IEEETransactionsonNeuralNetworksandLearningSystems,vol.27,no.6,pp.1241-1252,2016中提出利用马尔可夫决策过程来建模扫视过程的时变性,在不同的扫视阶段学习不同的参数,并通过迭代地寻找新动作与基于该动作提取对应的特征组合来生成扫视路径。相对于场景关注区域估计与扫视路径预测等共性机制的研究,目前仅有少数工作关注到不同群体在观察同组图像时呈现出的视觉注意差异性。JohannesHewig等人在文章“GenderDifferencesforSpecificBodyRegionsWhenLookingatMenandWomen”,JournalofNonverbalBehavior,vol.32,pp.67–78,2008中首次聚焦于不同性别人群的眼动差异性分析。他们分别为不同性别组提供30幅人像图像,并对人像进行手动区域划分。最后通过统计不同组别下各个划分区域的注视点总数及关注时间等特征来发掘不同人群组别的视觉注意差异性。OlivierLeMeur在文章“VisualAttentionSaccadicModelsLearntoEmulateGazePatternsFromChildhoodtoAdulthood”,IEEETransactionsonImageProcessing,vol.26,no.10,pp.4777-4789,2017中通过统计来自5个年龄段组别101个观察者在30幅儿童读物图像上的眼动数据来发现不同组别下扫视幅度和方向联合概率分布的差异性,并提出针对不同年龄段组别建立不同的扫视路径预测模型。虽然在传统聚焦于视觉注意共性机制研究的基础上出现了针对不同人群视觉注意差异性分析的工作,目前的研究主要是利用统计的手段来获取不同人群在某些特定眼动指标(注视点数、关注时间、扫视幅度和方向联合概率分布)下的差异性。一方面,大多数指标主要关注于单个注视点特征,即使是扫视幅度和方向联合概率分布也只针对相邻的两个注视点进行计算,没有考虑前期扫视路径序列对于当前注视点选择的影响,缺少对于整个动态扫视过程的学习与分析。完整的扫视路径不仅能够揭示多个关注区域的位置信息,还包含关注区域连接关系以及序列动态信息,具有重要的学习与挖掘价值。另一方面,之前研究的主要目标在于进行不同人群视觉注意差异性的分析,缺少直接基于扫视路径学习的人群识别模型。
技术实现思路
要解决的技术问题为了避免现有技术的不足之处,本专利技术提出一种基于长短时记忆网络扫视路径学习的人群识别方法。利用长短时记忆(LongShort-TermMemory,LSTM)网络的序列数据学习能力来探索扫视路径数据内在本质与相互关系,实现基于扫视路径学习的人群识别。在学习模型的基础上,通过待评估观察者的扫视路径表现给出人群组别判定的结果。技术方案一种基于长短时记忆网络扫视路径学习的人群识别方法,其特征在于步骤如下:步骤1:构建测试图像库首先根据具体人群识别问题来选择图像构建测试图像库;步骤2:采集不同人群组别扫视序列组织眼动实验分别采集不同组别观察者在测试图像库上的眼动数据,获取其中扫视路径序列;步骤3:提取扫视序列特征提取观察者在测试图像上扫视序列对应的特征,为下一步训练LSTM网络做准备;3a)图像过分割采用简单线性迭代聚类算法SLIC将图像分成多个过分割区域,其中每个过分割区域由相邻且具有相似特性的像素点组成;3b)提取扫视序列特征利用语义哈希算法来对采集的扫视路径进行特征提取:对于当前扫视路径上的每一个注视点,找到其所在图像过分割区域,提取该过分割区域中心大小为d×d×3的原始图像块,将其对应的向量输入到语义哈希编码特征提取网络中,提取中心层Nc维二值特征;即对于长度为m的扫视路径序列,得到其所对应的Nc×m扫视路径特征;步骤4:训练LSTM网络首先构建训练LSTM网络需要用到的训练样本集:训练样本集由扫视路径特征与对应的人群组别标记组成,LSTM网络的学习目标是建立由扫视路径特征到人群组别标记之间的映射关系;其次是利用训练样本集训练LSTM网络:依次将一个扫视路径上连续注视点对应的语义哈希编码特征作为网络输入,迭代得到最顶层回归层的人群组别预测得分,再使用基于时间的反向传播算法根据预测得分与对应标记的预测误差迭代调整网络参数,得到基于扫视路径的人群识别模型;步骤5:测试待评估观察者扫视序列利用眼动仪记录当前待评估观察者在测试图像上的扫视路径;采用同训练过程同样的方式提取各个扫视路径特征,即对于每一个扫视路径,找到其上每一个注视点所在的过分割区域,并提取该过分割中心对应的语义哈本文档来自技高网
...

【技术保护点】
1.一种基于长短时记忆网络扫视路径学习的人群识别方法,其特征在于步骤如下:步骤1:构建测试图像库首先根据具体人群识别问题来选择图像构建测试图像库;步骤2:采集不同人群组别扫视序列组织眼动实验分别采集不同组别观察者在测试图像库上的眼动数据,获取其中扫视路径序列;步骤3:提取扫视序列特征提取观察者在测试图像上扫视序列对应的特征,为下一步训练LSTM网络做准备;3a)图像过分割采用简单线性迭代聚类算法SLIC将图像分成多个过分割区域,其中每个过分割区域由相邻且具有相似特性的像素点组成;3b)提取扫视序列特征利用语义哈希算法来对采集的扫视路径进行特征提取:对于当前扫视路径上的每一个注视点,找到其所在图像过分割区域,提取该过分割区域中心大小为d×d×3的原始图像块,将其对应的向量输入到语义哈希编码特征提取网络中,提取中心层Nc维二值特征;即对于长度为m的扫视路径序列,得到其所对应的Nc×m扫视路径特征;步骤4:训练LSTM网络首先构建训练LSTM网络需要用到的训练样本集:训练样本集由扫视路径特征与对应的人群组别标记组成,LSTM网络的学习目标是建立由扫视路径特征到人群组别标记之间的映射关系;其次是利用训练样本集训练LSTM网络:依次将一个扫视路径上连续注视点对应的语义哈希编码特征作为网络输入,迭代得到最顶层回归层的人群组别预测得分,再使用基于时间的反向传播算法根据预测得分与对应标记的预测误差迭代调整网络参数,得到基于扫视路径的人群识别模型;步骤5:测试待评估观察者扫视序列利用眼动仪记录当前待评估观察者在测试图像上的扫视路径;采用同训练过程同样的方式提取各个扫视路径特征,即对于每一个扫视路径,找到其上每一个注视点所在的过分割区域,并提取该过分割中心对应的语义哈希编码,得到编码后的扫视序列,将该序列输入到训练后的人群识别模型中,得到该序列对应的回归层得分;步骤6:判断待评估观察者人群组别根据训练集上观察者的平均得分来依次计算两个相邻组别之间的平均得分划分阈值;对于每两个相邻组别,首先利用训练后LSTM网络预测该两个组别下各个观察者在所有测试图像上的平均得分,再利用最大类间方差法来对这两个相邻组别观察者的平均得分进行阈值划分;以此类推,对于n个组别的人群识别问题,得到n‑1个相邻组别划分阈值;最后计算待评估观察者扫视路径序列的平均得分,并判断该平均得分所在组别区间,完成人群识别判断。...

【技术特征摘要】
1.一种基于长短时记忆网络扫视路径学习的人群识别方法,其特征在于步骤如下:步骤1:构建测试图像库首先根据具体人群识别问题来选择图像构建测试图像库;步骤2:采集不同人群组别扫视序列组织眼动实验分别采集不同组别观察者在测试图像库上的眼动数据,获取其中扫视路径序列;步骤3:提取扫视序列特征提取观察者在测试图像上扫视序列对应的特征,为下一步训练LSTM网络做准备;3a)图像过分割采用简单线性迭代聚类算法SLIC将图像分成多个过分割区域,其中每个过分割区域由相邻且具有相似特性的像素点组成;3b)提取扫视序列特征利用语义哈希算法来对采集的扫视路径进行特征提取:对于当前扫视路径上的每一个注视点,找到其所在图像过分割区域,提取该过分割区域中心大小为d×d×3的原始图像块,将其对应的向量输入到语义哈希编码特征提取网络中,提取中心层Nc维二值特征;即对于长度为m的扫视路径序列,得到其所对应的Nc×m扫视路径特征;步骤4:训练LSTM网络首先构建训练LSTM网络需要用到的训练样本集:训练样本集由扫视路径特征与对应的人群组别标记组成,LSTM网络的学习目标是建立由扫视路径特征到人群组别标记之间的映射关系;其次是利用训练样本集训练LSTM网络:依次将一个扫视路径上连续注视点对应的语义哈希编码特征作为网络输入,迭代得到最顶层回归层的人群组别预测得分,再使用基于时间的反向传播算法根据预测得分与对应标记的预测误差迭代...

【专利技术属性】
技术研发人员:夏辰韩军伟郭雷李宽李红霞
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1