当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于文本的车辆图像细粒度检索系统技术方案

技术编号:23512815 阅读:27 留言:0更新日期:2020-03-18 00:07
本发明专利技术提供一种基于文本的车辆图像细粒度检索系统,该系统允许用户以自然语言检索的方式来获取所需信息,相比于利用图像检索图像的方法降低了检索门槛;文本和图像间跨模态的语义匹配任务转变成了更为直接、可解释性强、简易且已研究成熟的文本间语义匹配任务;定期对近端时间的检索文本进行分析,提取兴趣词和兴趣度建立兴趣词表,并利用该兴趣词表预测用户的检索动向,为图像生成更加契合近期用户兴趣点的细粒度描述文本,实现图像描述文本库的动态更新,以此提高本方法的灵活性和检索性能;能够精确捕捉车辆各部位细粒度的特征,从而能更准确地辨识相同车型的不同车辆。

A fine-grained vehicle image retrieval system based on text

【技术实现步骤摘要】
一种基于文本的车辆图像细粒度检索系统
本专利技术涉及交通图像处理领域,更具体地,涉及一种基于文本的车辆图像细粒度检索系统。
技术介绍
目前,盗抢车辆、利用车辆实行犯罪行为的案件屡屡增加,严重影响了社会的稳定。为了逃避警方的追查,嫌疑人常会做出更换车辆牌照,拆除或屏蔽车辆定位器等行为。此种情况下,需依靠车辆外观特征对目标车辆进行追踪和定位。车辆图像检索是智能交通系统的重要组成部分,它在路面监控拍摄的图像集中检索出外观特征与检索条件相符的车辆图像,以协助警方追踪失窃,肇事逃逸或其他犯罪活动相关车辆。衡量待检索图像和检索条件间的语义相似度是一项极具挑战性的任务。早期,警方只能依靠人工排查的方式,效率低下,无法应对海量图像数据检索任务。随着现代信息技术的不断发展,这种检索方式已被机器自动检索的方法所替代。主流的机器自动检索车辆图像任务直接使用目标车辆图像作为检索条件,采用图像哈希算法建立图像集索引,通过计算哈希编码向量间的相似度为待检索图像进行评分和排序。然而,在实际情况中,通常很难构建这样一张符合检索条件的图像输入。例如,一辆白色宝马X5,其右大灯故障,后备箱盖有“新手上路”贴纸,无法为其构建一张同时包括右大灯和后备箱盖的图像。此外,也难以提供目标车辆右大灯故障的图像。这类场景下,自然语言形式的检索条件能够更加全面地概括目标车辆的外观特征,对于上述例子,用户只需输入文本“白色宝马X5右大灯故障后备箱盖‘新手上路’贴纸”即可进行检索。以自然语言检索来获取所需信息的方式能够有效降低检索门槛,满足用户对数据便捷式获取的广泛需求。现有的工作主要集中于以图像作为输入的检索方式,即“以图检图”。然而在实际情况中,通常很难构建一张符合检索条件的图像,致使这类方法的应用场景受到限制。此外,也存在部分工作通过自动生成文本索引来检索图像,但生成的文本缺乏对图像细粒度特征的描述。
技术实现思路
本专利技术提供一种基于文本的车辆图像细粒度检索系统,该系统根据历史检索记录预测用户的检索动向,导向生成图像的细粒度描述文本。为了达到上述技术效果,本专利技术的技术方案如下:一种基于文本的车辆图像细粒度检索系统,包括线上模块和线下模块;线下模块包括兴趣词提取单元、图像细粒度描述文本生成单元、描述文本编码单元和描述文本索引建立单元;线上模块包括检索文本编码单元和排序单元;所述兴趣词提取单元用于每隔s天,将收集到的r条检索记录的集合QS={Q1,...,Qr}和已生成的描述文本集T输入到本单元,以预测未来一段时间内检索动向;所述图像细粒度描述文本生成单元用于结合兴趣词表生成契合检索动向的图像细粒度描述文本;所述描述文本编码单元用于将图像细粒度描述文本生成单元生成的描述文本集T中每个文本词序列Ti={ti1,...,til}转换成分布式编码,用于线上部分评价检索文本与描述文本间相似度的依据;所述描述文本索引建立单元用于在描述文本的分布式编码向量之上建立了Kd-tree索引;所述检索文本编码单元用于在获取检索文本的词序列Q={q1,...,qm}后,本单元采用与描述文本编码单元相同的处理方式,先将词嵌入到分布式空间,然后输入到双向LSTM捕捉词间上下文顺序信息,生成检索文本的分布式编码qv;所述排序单元利用BBF算法选出与检索文本相关的描述文本,并对两者相似度进行评定,排序输出描述文本对应的图像;其中,基于文本的车辆图像细粒度检索任务从车辆图像数据集中选出与以车辆细粒度特征作为查询条件的检索文本语义内容相关的图像子集,并按相关性排序输出,根据训练集描述文本构建词典VOC,词典长度lVOC表示总词数,利用集合Q={q1,...,qm}表示检索文本的词序列,m为检索文本长度,对于包含n幅车辆图像的集合I={I1,...,In},为每幅图像Ii生成一段能够描述其细粒度语义信息的文本,表示为词序列Ti={ti1,...,til},每幅图的描述文本的词个数l不同,由此构造描述文本集合T={T1,...,Tn},对于检索文本Q和特定描述文本Ti,利用一种上下文结构感知的方式分别将它们转换成分布式编码qv和tvi,用于评定两者间语义相似度,按相似度排序输出相关描述文本对应的车辆图像作为检索结果。进一步地,所述兴趣词提取单元工作的具体过程是:1)、根据描述文本集T计算QS中每个词c的逆文档频率IDF,如式(1)所示,逆文档频率IDF能够根据词的常见程度衡量其普遍重要性,对于词c,若其在大部分描述文本中都出现过,则其无法对区分文本语义提供充分的参考价值,相应地,词c的逆文档频率IDF值将会相对较小;相反,若词c在描述文本集中出现次数少,表示其对文本语义的区分具有较大参考价值,相应地,其逆文档频率IDF值也会相对较大:2)、计算QS中每个词c的词频-逆文档频率TF-IDF均值,如式(2),其中fi,c为词c出现在检索文本Qi中的频率,词频-逆文档频率TF-IDF综合了词频和逆文档频率,可用来评估词对于描述文本集的重要程度,利用词频-逆文档频率TF-IDF均值衡量词c的兴趣度,表示为interestc=TF-IDFaverage(c)·α,其中α为预设的固定参数:3)、维护一张长度固定,表项为“兴趣词”(word)、“兴趣值”(inter)的兴趣词表,对于QS中每个词c,若其已存在于兴趣词表中,利用步骤2)获得的兴趣度更新“兴趣值”,即interc=interc+interestc;若其不存在于兴趣词表,则直接在兴趣词表中插入“(c,interestc)”项,若兴趣词表已满不能插入,则与词表中兴趣值最小的一项进行比较,决定是否替换,上述过程完成后,对于词表中未参与更新的词cn,其兴趣值应当衰减,表示为intercn=intercn·β,β为预设的衰减参数,当intercn小于阈值μ时,从兴趣词表中删除该项;在完成一轮兴趣词表的更新后,词表可能并未被填满,所以定义兴趣词表中元素个数为N,这是一个每次更新都可能变化的值,且不会超过词表的固定长度。进一步地,所述图像细粒度描述文本生成单元由区域检测模块、区域融合模块和语言生成模块组成,对于数据集中每幅图像Ii,本单元首先利用区域检测模块将其分解成包含车辆各部位的区域集合,然后,区域融合模块根据兴趣词表确定各区域的重要程度,进而整合出一个高度概括各区域语义内容的D维特征向量最后,语言生成模块根据特征向量vp生成描述文本Ti。进一步地,所述区域检测模块使用Faster-RCNN网络作为区域检测器,以一张图像作为输入,会定位图像中车辆的各个部位,包括引擎盖、右大灯、后备箱盖,并框出其所在区域,进而对这些区域的语义信息进行编码,获得区域特征编码集合其中M为确定的区域个数,D为区域特征编码维度。进一步地,所述区域融合模块接收区域特征编码集合V和兴趣词表,输出参考了兴趣词表的区域融合特征vp,由于兴趣词表是历史检索记录统计的结果,一幅图像通常不会涵盖所有的兴趣词,对于图像各区域,首先确定那些与该区域语义信本文档来自技高网
...

【技术保护点】
1.一种基于文本的车辆图像细粒度检索系统,其特征在于,包括线上模块和线下模块;/n线下模块包括兴趣词提取单元、图像细粒度描述文本生成单元、描述文本编码单元和描述文本索引建立单元;/n线上模块包括检索文本编码单元和排序单元;/n所述兴趣词提取单元用于每隔s天,将收集到的r条检索记录的集合QS={Q

【技术特征摘要】
1.一种基于文本的车辆图像细粒度检索系统,其特征在于,包括线上模块和线下模块;
线下模块包括兴趣词提取单元、图像细粒度描述文本生成单元、描述文本编码单元和描述文本索引建立单元;
线上模块包括检索文本编码单元和排序单元;
所述兴趣词提取单元用于每隔s天,将收集到的r条检索记录的集合QS={Q1,...,Qr}和已生成的描述文本集T输入到本单元,以预测未来一段时间内检索动向;
所述图像细粒度描述文本生成单元用于结合兴趣词表生成契合检索动向的图像细粒度描述文本;
所述描述文本编码单元用于将图像细粒度描述文本生成单元生成的描述文本集T中每个文本词序列Ti={ti1,...,til}转换成分布式编码,用于线上部分评价检索文本与描述文本间相似度的依据;
所述描述文本索引建立单元用于在描述文本的分布式编码向量之上建立了Kd-tree索引;
所述检索文本编码单元用于在获取检索文本的词序列Q={q1,...,qm}后,本单元采用与描述文本编码单元相同的处理方式,先将词嵌入到分布式空间,然后输入到双向LSTM捕捉词间上下文顺序信息,生成检索文本的分布式编码qv;
所述排序单元利用BBF算法选出与检索文本相关的描述文本,并对两者相似度进行评定,排序输出描述文本对应的图像;
其中,基于文本的车辆图像细粒度检索任务从车辆图像数据集中选出与以车辆细粒度特征作为查询条件的检索文本语义内容相关的图像子集,并按相关性排序输出,根据训练集描述文本构建词典VOC,词典长度lVOC表示总词数,利用集合Q={q1,...,qm}表示检索文本的词序列,m为检索文本长度,对于包含n幅车辆图像的集合I={I1,...,In},为每幅图像Ii生成一段能够描述其细粒度语义信息的文本,表示为词序列Ti={ti1,...,til},每幅图的描述文本的词个数l不同,由此构造描述文本集合T={T1,...,Tn},对于检索文本Q和特定描述文本Ti,利用一种上下文结构感知的方式分别将它们转换成分布式编码qv和tvi,用于评定两者间语义相似度,按相似度排序输出相关描述文本对应的车辆图像作为检索结果。


2.根据权利要求1所述的基于文本的车辆图像细粒度检索系统,其特征在于,所述兴趣词提取单元工作的具体过程是:
1)、根据描述文本集T计算QS中每个词c的逆文档频率IDF,如式(1)所示,逆文档频率IDF能够根据词的常见程度衡量其普遍重要性,对于词c,若其在大部分描述文本中都出现过,则其无法对区分文本语义提供充分的参考价值,相应地,词c的逆文档频率IDF值将会相对较小;相反,若词c在描述文本集中出现次数少,表示其对文本语义的区分具有较大参考价值,相应地,其逆文档频率IDF值也会相对较大:



2)、计算QS中每个词c的词频-逆文档频率TF-IDF均值,如式(2),其中fi,c为词c出现在检索文本Qi中的频率,词频-逆文档频率TF-IDF综合了词频和逆文档频率,可用来评估词对于描述文本集的重要程度,利用词频-逆文档频率TF-IDF均值衡量词c的兴趣度,表示为interestc=TF-IDFaverage(c)·α,其中α为预设的固定参数:



3)、维护一张长度固定,表项为“兴趣词”(word)、“兴趣值”(inter)的兴趣词表,对于QS中每个词c,若其已存在于兴趣词表中,利用步骤2)获得的兴趣度更新“兴趣值”,即interc=interc+interestc;若其不存在于兴趣词表,则直接在兴趣词表中插入“(c,interestc)”项,若兴趣词表已满不能插入,则与词表中兴趣值最小的一项进行比较,决定是否替换,上述过程完成后,对于词表中未参与更新的词cn,其兴趣值应当衰减,表示为intercn=intercn·β,β为预设的衰减参数,当intercn小于阈值μ时,从兴趣词表中删除该项;
在完成一轮兴趣词表的更新后,词表可能并未被填满,所以定义兴趣词表中元素个数为N,这是一个每次更新都可能变化的值,且不会超过词表的固定长度。


3.根据权利要求2所述的基于文本的车辆图像细粒度检索系统,其特征在于,所述图像细粒度描述文本生成单元由区域检测模块、区域融合模块和语言生成模块组成,对于数据集中每幅图像Ii,本单元首先利用区域检测模块将其分解成包含车辆各部位的区域集合,然后,区域融合模块根据兴趣词表确定各区域的重要程度,进而整合出一个高度概括各区域语义内容的D维特征向量最后,语言生成模块根据特征向量vp生成描述文本Ti。


4.根据权利要求3所述的基于文本的车辆图像细粒度检索系统,其特征在于,所述区域检测模块使用Faster-RCNN网络作为区域检测器,以一张图像作为输入,会定位图像中车辆的各个部位,包括引擎盖、右大灯、后备箱盖,并框出其所在区域,进而对这些区域的语义信息进行编码,获得区域特征编码集合其中M为确定的区域个数,D为区域特征编码维度。


5.根据权利要求4所述的基于文本的车辆图像细粒度检索系统,其特征在于,所述区域融合模块接收区域特征编码集合V和兴趣词表,输出参考了兴趣词表的区域融合特征vp,由于兴趣词表是历史检索记录统计的结果,一幅图像通常不会涵盖所有的兴趣词,对于图像各区域,首先确定那些与该区域语义信息相关的兴趣词,削弱无关兴趣词的影响,在这一过程中,利用了兴趣值来进一步衡量兴趣词的参考价值;然后,再根据兴趣词的关注结果确定各区域的关注程度,并在此基础上生成一个高度概括各区域语义特征的图像整体特征编码。


6.根据权利要求5所述的基于文本的车辆图像细粒度检索系统,其特征在于,所述区域融合模块的具体处理过程是:
1)、根据自学习的词嵌入向量生成工具word2vec对兴趣词表中各词进行编码,将词特征映射到与图像区域特征编码相同的向量空间,获得编码集合
2)、计算图像区域特征编码与兴趣词特征编码的相似度矩阵第i个区域与第j个兴趣词的相似度如式(3)获取;
<...

【专利技术属性】
技术研发人员:王世祺余建兴印鉴
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1