一种基于磁盘的词汇树模型构建方法技术

技术编号:15691039 阅读:129 留言:0更新日期:2017-06-24 03:55
本发明专利技术公开了一种基于磁盘的词汇树模型构建方法,包括以下步骤:A、将图片分为若干个样本组;B、分别提取每个样本组里所有图片的特征点描述子,分别对各样本组的特征点描述子进行聚合分类,将样本组分类出的每个子样本的几何中心向量以及子样本所对应的描述子组写入到外部存储器中;C、将所有样本组子样本的几何中心向量读入内存,对所有子样本的几何中心向量进行聚合分类,共包含K个子类;D、针对该K个子类,对每一个子类做最大层数为L‑1以及子节点数为K的分层聚合分类,完成词汇树模型的构建。采用该方法其充分利用外部存储器的存储空间,避免对计算机内存提出过大要求。

A method of building a vocabulary tree model based on disk

The invention discloses a construction method of lexical tree model based on disk, which comprises the following steps: A, the picture is divided into several sample groups; B, extracted feature points all image descriptor of each sample group, descriptors of each sample were aggregated classification, the classification of the sample group each sub sample geometry center vector and the corresponding sub sample group descriptor into the external memory; C, all samples sample geometric center vector is read into memory, the geometric center vector all sub samples of polymer classification, includes K subclass; D, for the K subclass of each subclass of maximum L layers 1 and the number of nodes for K hierarchical aggregation classification, construct complete vocabulary tree model. This method makes full use of the storage space of external memory to avoid excessive requirements for computer memory.

【技术实现步骤摘要】
一种基于磁盘的词汇树模型构建方法
本专利技术涉及词汇树模型构建方法领域,更具体的说是涉及一种基于磁盘的词汇树模型构建方法。
技术介绍
利用词汇树对图片进行搜索,是把从训练集中提取到的特征进行K-Means聚类,生成的每个簇集定义为一个单词,每个单词再关联一个倒排档,然后把从查询图片中提取到的特征量化到这些单词当中,利用TF-IDF模型对查询图片与库中图片的相似度进行评测。利用分层聚类生成的词汇树,使特征量化时不必遍历所有单词,极大缩短了量化所需时间。在使用词汇树进行特征分类前,需要通过训练得到一个合适的词汇树模型,在训练时,需要将大量的特征点进行分层聚合分类。向树状结构模型中添加图片可以形成基于词汇树的图像数据库,针对不同数量级别的树形图像数据库,所需要词汇树模型大小也不一样。当数据库的量级超过百万张图片时,训练可以支持如此大规模的数据库的词汇树模型可能需要近十万张图片,这一过程一般需要系统提取数以亿级的图片特征描述子,而相应的硬件系统所需要的内存也将达到上百GB,其对计算机的内存要求高,这是一般的计算机很难以满足的。
技术实现思路
本专利技术为了解决上述技术问题提供一种基于磁盘的词汇树本文档来自技高网...

【技术保护点】
一种基于磁盘的词汇树模型构建方法,其特征在于,包括以下步骤:A、将图片分为若干个样本组;B、分别提取每个样本组里所有图片的特征点描述子,根据特征点描述子之间的欧氏距离,分别对各样本组的特征点描述子进行聚合分类,分为K类且最大层数为L,将样本组分类出的每个子样本的几何中心向量以及子样本所对应的描述子组写入到外部存储器中,其中,K和L均为大于1的自然数;C、将所有样本组子样本的几何中心向量读入内存,对所有子样本的几何中心向量进行聚合分类,共包含K个子类;D、针对该K个子类,对每一个子类做最大层数为L‑1以及子节点数为K的分层聚合分类,完成词汇树模型的构建。

【技术特征摘要】
1.一种基于磁盘的词汇树模型构建方法,其特征在于,包括以下步骤:A、将图片分为若干个样本组;B、分别提取每个样本组里所有图片的特征点描述子,根据特征点描述子之间的欧氏距离,分别对各样本组的特征点描述子进行聚合分类,分为K类且最大层数为L,将样本组分类出的每个子样本的几何中心向量以及子样本所对应的描述子组写入到外部存储器中,其中,K和L均为大于1的自然数;C、将所有样本组子样本的几何中心向量读入内存,对所有子样本的几何中心向量进行聚合分类,共包含K个子类;D、针对该K个子类,对每一个子类做最大层数为L-1以及子节点数为K的分层聚合分类,完成词...

【专利技术属性】
技术研发人员:施茂燊
申请(专利权)人:深圳前海大造科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1