当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于眼动的提取图像兴趣区域的交互式图像检索方法技术

技术编号:13039344 阅读:75 留言:0更新日期:2016-03-23 10:52
本发明专利技术公开了一种基于眼球追踪的交互式图像检索方法。本发明专利技术旨在克服现有的基于内容的图像检索方法的不足,主要是对传统的基于内容的图像检索方法的低召回率、低准确率以及不具有更好的人机交互性能的缺点进行改进。基于眼球追踪的图像内容检索方法能够很好的结合用户的注视兴趣区域来进行最大程度上的抓取用户的检索兴趣,从而最大程度上预测用户的检索意图,根据用户在浏览图片过程中对不同图片不同区域的注视时长、次数等眼球运动特征进行对用户搜索意图建模,根据该模型来解决传统的基于内容的图像检索的方法的不足,尤其是解决检索过程中更好的人机交互性能,从而促进召回率和准确率的提高。

【技术实现步骤摘要】

本专利技术属于信息检索领域(基于内容的图像检索),涉及眼动数据的获取及应用 到基于内容的图像检索内容,尤其是基于眼动数据在基于内容图像检索如何提高检索效果 和改善用户体验的方法。
技术介绍
图像,作为一种内容丰富,表现直观的多媒体信息,一直以来受到人们的青睐。随 着多媒体技术、计算机技术、通信技术以及互联网的迅速发展,各种各样的图像信息不断的 涌进人们的生活和工作。各种应用不断地产生,使得图像信息的检索成为迫切需要解决的 问题。对于图像的管理,在早期都是采用档案文件管理的方式。到上世纪70、80年代,对图 像数据赋予属性信息,并且在图像信息中把这些信息格式化,再利用这些格式化的信息管 理和查询图像。但是这些方法存在着一些无法克服的缺点:(1)图像的内容广泛,涉及到的 各个领域,对于图像属性信息的自动生成对于目前的技术来说是不可行的。(2)人工生成的 图像属性信息由于不同的人对图像信息的含义解释不同就会造成主观误差。即使相同的人 在不同的环境下也会有不同的理解。(3)图像承载的信息量比语言文字要大得多,寥寥数语 是不能完全表达图像的含义的。大型数据库的出现,上述问题变得更加严重了。于是人们 提出了基于内容的图像检索技术(Content-BasedImageRetrieve,CBIR),认为表示可视 化的信息最直观最有效的方法是用图像中隐藏的特征来表示,并且把计算机视觉、数据库 管理、人机交互和信息查找的综合研究引入了该领域。简单的说基于内容图像检索技术就 是对图像的内容进行语义分析,从中抽取其颜色、纹理、形状、对象空间关系以及对象语义 等特征,在此基础上,利用图像相似度量函数(similaritymetric)计算或评价图像之间的 相似性,评价的准则是预先定义的,并将最相似的一些图像作为检索结果返回给用户。由于 利用了图像本身的物理内容标注或索引图像,避免了人工描述图像的主观性,大大增加了 图像?目息的检索效率,解决了基于文本检索中存在的问题。 特征(内容)提取是基于内容检索的基础。目前图像的特征有底层特征和高层语 义特征。人们期望计算机在能够接受人类用自然语言对图像内容的描述(即语义特征或高 层特征)后,可自动检索出期望的图像。但由于计算机对图像信息的理解跟人类对图像信 息理解存在不一致性,导致底层特征和语义特征存在差距,g卩"语义鸿沟"。因此具有高智能 的图像检索系统目前还没有实现。 研究发现图像的主要信息往往集中在图像的少数区域中,并且往往这些少数区域 更能够吸引人们更多注意力,这些少数区域即是兴趣区域。在图像检索过程中如果能够有 效提取这些兴趣区域,就能够很好的提取到图像的关键语义,进一步有效提升检索的效果。 在观察外界对象过程中,人们往往通过频繁的注视来表达对对象的关注和兴趣。 人眼的运动传递了大量反应人体心理活动的信息。因此通过眼动仪采集用户观察图像过程 中注视点的分布,可以实现兴趣区域的获取,进一步缩小语义鸿沟。
技术实现思路
本专利技术旨在克服现有的基于内容的图像检索方法的不足,主要是对传统的基于内 容的图像检索方法的低召回率、低准确率以及不具有更好的人机交互性能的缺点进行改 进。基于眼球追踪的图像内容检索方法能够很好的结合用户的注视兴趣区域来进行最大程 度上的抓取用户的检索兴趣,从而最大程度上预测用户的检索意图,根据用户在浏览图片 过程中对不同图片不同区域的注视时长、次数等眼球运动特征进行对用户搜索意图建模, 根据该模型来解决传统的基于内容的图像检索的方法的不足,尤其是解决检索过程中更好 的人机交互性能,从而促进召回率和准确率的提高。 为了解决上述技术问题,本专利技术提出的一种基于眼动的提取图像兴趣区域的交互 式图像检索方法,包括以下步骤: 步骤一、让用户坐于眼动仪前,并使用户的眼睛到眼动仪屏幕之间的距离在 60-75cm之间,将图片库加载到与眼动仪连接的计算机中,保证图片随机在眼动仪屏幕上 显示,同时,眼动仪屏幕上有一个跳动的小圆点来辅助用户矫正,所述眼动仪的采样率为 300HZ; 步骤二、用户在浏览图片的过程中,利用眼动仪收集用户的眼动数据,将用户的离 散的注视点聚集为注视点簇,将注视点簇中时长少于150ms的点去掉,对收集到的眼动数 据进行降噪,得到了每幅图像的所有有效注视点; 步骤三、将注视点的屏幕坐标转换为注视点的图像坐标; 步骤四、利用JSEG图像分割算法将图像分割成若干区域,然后根据注视点的图像 坐标,判断哪些区域有注视点的分布,将有注视点的区域标记为兴趣区域,并且兴趣区域的 兴趣值与该兴趣区域的注视点数目成正比; 步骤五、提取兴趣区域的底层图像特征,至少包括HSV颜色直方图和sift特征; 步骤六、用户通过人机交互方式从图片库中选取查询图像,利用迭代匹配的方法 计算查询图像的兴趣区域与图片库中待匹配图像的兴趣区域之间的相似度,根据注视时间 长度计算区域相似度的加权平均值作为图像间的相似度;将得到的相似度值进行降序排 序,并按照该顺序展示给用户相应的图像。 进一步讲,实现步骤二的具体的伪代码如下: 其中:用户在浏览图片的过程中的所有注视点的集合记为:EYEDATA= (Gi,G2,… Gn),注视点G1=(XpYj,(XyYj为注视点在屏幕上的X坐标和Y坐标;注视点聚集的最小 阈值为Κ,即每个注视点簇J中至少有Κ个注视点;每个图片分割为若干个区域,记为:\表示图片I被分割为Ν个区域之后的第i个区域;设两个注 视点簇融合为一个新的注视点簇之间的最大阈值为L,即若两个注视点簇之间的距离小于 L,则将这两个注视点簇融合为一个新的注视点簇; 两个注视点簇之间的距离采用欧氏距离,即:其中,&和G,分别代表注视点(Xρ幻和(X,,Y,),降噪之后的注视点集合记为得聚集之后的注视点簇记为降噪之后的注视点;两个注视点簇的融合过 程如下:定义一个注视点簇中心点函数F(Gi,G1+1),并且中心点记做1? := 步骤三中:将注视点的屏幕坐标转换为注视点的图像坐标的过程如下; 设:图像I在屏幕中的相对于屏幕左上角的位置为(辑,#),的屏幕坐标为 If 转换之后的注视点的图像坐标记为级=有:步骤四中:记每个兴趣区域^的对应兴趣值为C i 其中,山为每个分割区域r#对应的注视点的时长,即r#J啲累加和,即〇· 步骤六的具体过程如下:图像的特征的打分函数为fT(P),根据步骤四得到的用户在每幅图像上的每个兴 趣区域的兴趣值为Q,则对应的每幅图像I的兴趣值为:给定一个查询图像q和图片库中任意的一幅图像d,该两幅图像的特征打分函数 为: 其中,#和缚分别代表兴趣区域和的重要性值,即兴趣值;狹·^和|龙,分 另|J代表查询图像q和图片库中任意的一幅图像d的兴趣区域的数量;最后,查询图像q和图 片库中任意的一幅图像d的综合打分函数戈根据打分函数的 分值进行降序排序,得到了与用户查询图像相关的图像列表。 与现有技术相比当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种基于眼动的提取图像兴趣区域的交互式图像检索方法,其特征在于,包括以下步骤:步骤一、让用户坐于眼动仪前,并使用户的眼睛到眼动仪屏幕之间的距离在60‑75cm之间,将图片库加载到与眼动仪连接的计算机中,保证图片随机在眼动仪屏幕上显示,同时,眼动仪屏幕上有一个跳动的小圆点来辅助用户矫正,所述眼动仪的采样率为300HZ;步骤二、用户在浏览图片的过程中,利用眼动仪收集用户的眼动数据,将用户的离散的注视点聚集为注视点簇,将注视点簇中时长少于150ms的点去掉,对收集到的眼动数据进行降噪,得到了每幅图像的所有有效注视点;步骤三、将注视点的屏幕坐标转换为注视点的图像坐标;步骤四、利用JSEG图像分割算法将图像分割成若干区域,然后根据注视点的图像坐标,判断哪些区域有注视点的分布,将有注视点的区域标记为兴趣区域,并且兴趣区域的兴趣值与该兴趣区域的注视点数目成正比;步骤五、提取兴趣区域的底层图像特征,至少包括HSV颜色直方图和sift特征;步骤六、用户通过人机交互方式从图片库中选取查询图像,利用迭代匹配的方法计算查询图像的兴趣区域与图片库中待匹配图像的兴趣区域之间的相似度,根据注视时间长度计算区域相似度的加权平均值作为图像间的相似度;将得到的相似度值进行降序排序,并按照该顺序展示给用户相应的图像。...

【技术特征摘要】

【专利技术属性】
技术研发人员:任清涛陈永强张鹏宋大为
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1