一种网络图像自主收集与筛选方法技术

技术编号:8271462 阅读:183 留言:0更新日期:2013-01-31 03:41
本发明专利技术提供了一种网络图像自主收集与筛选方法,该方法利用互联网日益丰富的海量图像数据,借助搜索引擎提供的强大的图像检索能力实现网络图像的自主收集与筛选。本发明专利技术为获取图像目标类别数据库数据集提供了一种自动化的解决方案,这样既可避免大量的人工劳动,又能消除由于人工收集数据集而带来的有偏性。

【技术实现步骤摘要】
本专利技术涉及构建计算机视觉与模式识别图像数据库领域,特别涉及一种用于构建图像目标类别数据库的网络图像自主收集与筛选方法
技术介绍
图像目标类别数据库是进行计算机视觉与模式识别研究的必要条件,研究建立高质量图像目标类别数据库的方法和系统对于计算机视觉与模式识别的研究工作具有重要的意义。目前,建立图像数据库的绝大多数方法均出现以下问题I)收集图像数据以及数据的标记工作需要大量的人工劳动,极大的限制了数据库的规模,这成为扩大图像数据库规模时一个很难突破的瓶颈。 2)人工收集和标记图像数据库的过程并非一个完全客观地过程,不同知识文化背景的人所收集的图像数据以及对其进行的标记总是不同的,这就导致建立的图像数据库往往是有偏的,即无法确保对各种计算机视觉和模式识别算法进行评测的客观性。
技术实现思路
本专利技术的目的在于提供一种网络图像自主收集与筛选方法。为达到上述目的,本专利技术采用了以下技术方案I)图像主题提取选取单幅图像,然后选择网络搜索引擎对单幅图像进行检索得到搜索结果,对搜索结果进行提取后得到图像主题;2)网络图像及相关文本信息自动下载根据图像主题从网络下载图像及与图像相关的文本信息至本地数据本文档来自技高网...

【技术保护点】
一种网络图像自主收集与筛选方法,其特征在于,包括以下步骤:1)图像主题提取选取单幅图像,然后选择网络搜索引擎对单幅图像进行检索得到搜索结果,对搜索结果进行提取后得到图像主题;2)网络图像及相关文本信息自动下载根据图像主题从网络下载图像及与图像相关的文本信息至本地数据库得数据集;3)图像数据筛选利用图像信息及与图像相关的文本信息对数据集内的图像进行筛选得目标图像集。

【技术特征摘要】
1.一种网络图像自主收集与筛选方法,其特征在于,包括以下步骤 1)图像主题提取 选取单幅图像,然后选择网络搜索引擎对单幅图像进行检索得到搜索结果,对搜索结果进行提取后得到图像主题; 2)网络图像及相关文本信息自动下载 根据图像主题从网络下载图像及与图像相关的文本信息至本地数据库得数据集; 3)图像数据筛选 利用图像信息及与图像相关的文本信息对数据集内的图像进行筛选得目标图像集。2.根据权利要求I所述一种网络图像自主收集与筛选方法,其特征在于,所述图像主题提取的步骤为首先,借助网络上的以图搜图服务对选取的单幅图像进行检索,得到与单幅图像相关的文本检索信息;其次,利用先验语义知识以及统计方法对文本检索信息进行提取处理得到图像主题。3.根据权利要求2所述一种网络图像自主收集与筛选方法,其特征在于,所述对文本检索信息进行提取处理包括以下步骤 调用WordNet的语义网络对文本检索信息进行过滤,滤除介词、冠词、抽象名词、动词、形容词以及副词;如果过滤后只剩一个单词,那么该单词便是图像主题;如果过滤后剩余多个单词,以剩余的单词作为关键词分别在基于文本的图像检索中搜索图像的网址,获取前15-20幅图像的网址;将图像的网址分别利用以图搜图服务进行检索,得到与网址相关的文本检索信息;对所有与网址相关的文本检索信息进行分词后统计词频,词频最高的单词即为单幅图像的图像主题。4.根据权利要求I所述一种网络图像自主收集与筛选方法,其特征在于,...

【专利技术属性】
技术研发人员:薛建儒王乐高占宁
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1