当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于文本选取模型的无监督文本定位方法技术

技术编号:19178639 阅读:36 留言:0更新日期:2018-10-17 00:36
本发明专利技术公开了一种基于文本选取模型的无监督文本定位方法。本发明专利技术通过SLIC和DBSCAN图像分割生成若干个超像素,并创新地将超像素区域作为文本候选区域,解决了候选区域在数量和精度上的平衡;其次,本发明专利技术利用同一张图中文本对象之间的相似性建立文本选取模型,生成样本参考图,其中,样本参考图包括强文本图和非文本图,并以样本参考图为依据,通过双阈值机制自适应地提取以超像素为单位的文本样本,避免了传统算法对于数据库的依赖性;最后,通过文本样本训练得到文本分类器并对超像素区域进行文本/非文本分类;该方法召回率高,避免了传统算法中依赖数据库、通用性较差、候选区域数量爆炸的问题,实现了无监督的文本定位目标。

An unsupervised text location method based on text selection model

The invention discloses an unsupervised text location method based on text selection model. The invention divides SLIC and DBSCAN images to generate several superpixels, and innovatively uses the superpixel region as a text candidate region to balance the quantity and precision of the candidate regions. Secondly, the invention establishes a text selection model based on the similarity between text objects in the same graph, and generates a sample reference. Sample reference includes strong text map and non-text map, and adaptively extracts text samples based on superpixel by double threshold mechanism, avoiding the dependence of traditional algorithm on database. Finally, text classifier and superpixel region are trained by text sample. Text / non-text classification; this method has high recall rate, avoids the problem of relying on database, poor versatility, and the number of candidate regions explosion in traditional algorithms, and achieves unsupervised text localization.

【技术实现步骤摘要】
一种基于文本选取模型的无监督文本定位方法
本专利技术涉及一种基于文本选取模型的无监督文本定位方法,属于计算机视觉领域。
技术介绍
随着高像素数码相机、智能手机、平板电脑等摄像电子产品的广泛应用,人们周围数字图像快速增长。而数字图像中的文本是非常重要的信息来源,对图像本身最直观的说明。倘若可以准确提取图像中的文本信息,就能够有助于人们快速准确地理解图像的内容,文本定位是提取图像中的文本信息的重要环节。在计算机视觉领域,文本定位一直被视为重要的研究领域。文本定位的主要目标是寻找出自然场景图像中的文本区域。利用文本定位技术提取自然场景图像中的文本,有利于对自然场景图像内容的分析、理解,可以广泛用于视觉感知辅助、汽车自动驾驶、机器人视觉、盲人导航以及司法鉴识等领域,而寻找出自然场景图像中的文本区域,是准确提取图像中文本信息的前提条件,具有重要的研究意义和广泛的应用前景。同时,自然场景图像中的文本大小、颜色、方向变化多样,背景错综复杂,造成进行文本定位非常困难。因此,无论是从理论研究的重要性还是从实际应用必要性出发,研究文本定位技术在现代社会都有着十分重要研究价值和现实意义。文本定位是文本识别本文档来自技高网...

【技术保护点】
1.基于文本选取模型的无监督文本定位方法,其特征在于,所述方法是,通过简单线性迭代聚类(Simple Linear Iterative Clustering,SLIC)和基于密度的聚类方法(Density‑Based Spatial Clustering of Applications with Noise,DBSCAN)将图像分割生成若干个超像素,并且创新地将超像素区域作为文本候选区域;其次,该方法利用同一张图中文本对象之间的相似性建立文本选取模型,生成样本参考图,其中,样本参考图包括强文本图和非文本图,并以样本参考图为依据,通过双阈值机制自适应地提取以超像素为单位的文本样本,避免了传统文本...

【技术特征摘要】
1.基于文本选取模型的无监督文本定位方法,其特征在于,所述方法是,通过简单线性迭代聚类(SimpleLinearIterativeClustering,SLIC)和基于密度的聚类方法(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)将图像分割生成若干个超像素,并且创新地将超像素区域作为文本候选区域;其次,该方法利用同一张图中文本对象之间的相似性建立文本选取模型,生成样本参考图,其中,样本参考图包括强文本图和非文本图,并以样本参考图为依据,通过双阈值机制自适应地提取以超像素为单位的文本样本,避免了传统文本定位算法对于数据库的依赖性;最后,通过超像素文本样本训练得到文本分类器并对超像素区域进行文本/非文本分类,实现无监督文本定位。2.根据权利要求1所述方法,其特征在于,所述方法的具体步骤为:步骤(1):对输入的原始图像进行SLIC与DBSCAN超像素分割,得到M个高级超像素,用SPi来表示这些高级超像素,其中{SPi},i=1,...,M;步骤(2):将原始图像输入文本选取模型中,生成MSER图与显著图;并将MSER图与显著图结合,生成样本参考图,其中,样本参考图包括强文本图和非文本图;步骤(3):文本选取模型根据样本参考图和双阈值机制,选出超像素正样本、超像素负样本以及待分类超像素;步骤(4):将选取出的超像素样本输入N个单核单特征的SVM弱分类器,按照多核增强方法进行训练,得到多核SVM强分类器;步骤(5):将待分类超像素输入多核SVM强分类器,得到初始结果图;通过将初始结果图与样本参考图进行融合,生成最终结果图;步骤(6):将最终结果图中的连通区域按照特征相似性以及空间分布的连续性进行分组,并用最小包围矩形的方法得到候选文本连通区域集合,以文本框的形式输出文本定位的结果。3.根据权利要求2所述方法,其特征在于,所述方法的步骤(1)具体为:初始图像首先通过SLIC进行超像素分割,得到大小及分布相对均匀的初始超像素集合;通过DBSCAN对这些超像素进行聚类,得到高级超像素集合,这些高级超像素将密度相近、位置相邻的初始超像素聚和成一个高级超像素。4.根据权利要求2所述方法,其特征在于,所述步骤(2)中...

【专利技术属性】
技术研发人员:孔军孙金花蒋敏侯健
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1