当前位置: 首页 > 专利查询>天津大学专利>正文

基于字符串核的手绘草图识别方法技术

技术编号:6548782 阅读:327 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于支持向量机的核矩阵近似方法,该方法包括以下步骤:首先基于区域填充的思想将手绘草图映射为特征字符串,其次通过支持向量机(Support?Vector?Machine,SVM)基于字符串核(String?Kernelho)对训练样本进行训练,获得分类器,然后通过训练得到的分类器对待识别的草图进行分类和识别,将模糊,不规则的手绘草图映射为精确的几何形状。与现有技术相比,本发明专利技术的方法与草图的位置,大小,绘制方式无关,允许用户按照自己习惯的方式进行草图绘制。基于字符串核的草图识别方法识别准确率较高,且实现简单。

【技术实现步骤摘要】

本专利技术涉及基于核方法的手绘草图识别。
技术介绍
本专利技术所涉及的
技术介绍
包括以下三个方面一、手绘草图识别手绘草图识别是将笔式交互获取的模糊的草图表达映射至精确的图形表达,即从人机交互过程中不断增长的草图信息中挖掘草图形状约束,在领会用户本来意图的基础上,把自由的、不规则的草图识别成为规则的、精确的几何形状。目前主要存在三种方式的图形识别方法,即基于笔划表示的方法;基于直线、弧、 曲线等图元表示的方法;基于几何特征的图形识别方法。1、基于比划的表示方法通常情况下,草图识别系统通过笔式交互方式获取的草图表现为若干由用户在落笔与提笔间的取样点序列构成的笔划。笔划是图形重要的构成信息。早期的系统视笔划为符号,赋予它特定的含义,将笔划的识别等同于图形的识别。单笔划识别中,较为经典的是 Rubine方法,该方法简单有效,但它要求用户必须以固定模式的笔划来勾勒图形,而且图形构成比较简单。2、基于图元的表示方法基于图元表示将图形表示为直线、弧、曲线等图元在一定空间关系下的组合。基于图元的方法通常包含分割、拟合、规整、识别等步骤。用户绘制的草图可以自动拆分成图元及其关系,图形模板的训练不需要用户干预,模板库容易扩展,适应性强。但不可避免地训练模板以及对图形测试所有己定义的属性增加了系统开销。3、基于几何特征的识别基于几何特征的方法直接将图形当成识别单元,直接提取草图的几何特征用于分类。通常它要以一定的方式先分割好不同的图形几何特征的抽取实质上是将笔划信息降维,但由于图形的复杂性,很难以固定维数的几何特征保留笔划的完整信息,部分信息在降维过程中丢失了。因此,几何特征的方法识别的精确性不高一些视觉不相似的图形的几何特征表示可能相近。二、字符串核(Sting Kernel)核方法表示一组相关的机器学习和数据挖掘算法。核方法的关键组成部分是核函数,核函数可以度量输入数据的相似性。基于这些核函数,可以通过支持向量机(SVM)完成分类、回归等任务。字符串核可处理输入数据类型为字符串的数据,通过字符串核函数度量两个输入字符串的相似性。字符串核可分为多种,例如谱-类似的,计算两个输入字符串的公共子串的字符串核,基于比对的字符串核,由概率模型获得的字符串核。字符串核已应用于蛋白质同源检测、文本分类等领域。三、支持向量机(SupportVector Machine, SVM) 支持向量机(Support Vector Machine, SVM)是著名的基于核方法的系统。支持向量机(support vector machine, SVM)借助于最优化方法解决机器学习问题的新工具。它由Vapnik及其合作者专利技术,在1992年计算机学习理论的会议上介绍进入机器学习领域,之后受到了广泛的关注。近年来在其理论研究和算法实现方面都取得了突破性进展,并成为克服“维数灾难”和“过学习”等传统困难的有力手段。SVM的理论体系涵盖的对象极为广泛,如对偶表示、特征空间、学习理论、优化理论和算法等。SVM在文本分类、 手写识别、图像分类、生物信息学等领域中获得了比较好的应用。该算法在集合L变为空,或者λ足够小的时候停止。
技术实现思路
基于上述现有技术,本专利技术提出了一种,结合手绘草图识别、字符串核、支持向量机这三项已有技术,实现一种能够持续训练/积累的新的手绘草图识别方法。本专利技术提出了一种,该方法包括以下步骤步骤一,将手绘草图映射为特征字符串,对输入的手绘草图进行等距离采样,采样距离阈值根据经验选择5像素,并且限定采样的时间阈值内(0.7秒)连续采样一个草图; 将采样的手绘草图映射成特征字符串,还包括以下步骤取一正整数η;计算采样到的手绘草图的外接矩形,并将草图的外接矩形均分为η2 份;每一个分割后获得的小矩形都可以使用二维坐标X,y来表示,其中1<X,并且 x,y e N;当且仅当一个小矩形的中心点落在了手绘草图围成的区域内时,我们认为该小矩形被填充了 ;将一个手绘草图映射成了一个长度为η2的特征字符串;步骤二,通过支持向量机基于字符串核对作为训练样本的采样草图进行训练,获得分类器,使用格搜索进行参数调优,选择最佳的惩罚因子C,gama, η ;字符串核通过两个字符串间的编辑距离来度量这两个字符串的相似度;所述编辑距离为字符串一变换为字符串二所用的最少字符操作数;步骤三,通过训练得到的分类器对待识别的草图进行分类和识别,将模糊、不规则的手绘草图映射为精确的几何形状。所述字符操作包括删除字符一 ;(2)插入字符二 ;(3)将一个字符改为另一个字符的操作。所述最佳的惩罚因子C,gama, η的取值分别为5个像素,9个字符,0. 01秒。所述映射过程的计算公式如下首先,定义函数f :Ν2 — {0,1,2,Λ,η}“、fx若(X,y)对应的小矩形被填充 /(x^) = |o其他其次,计算特征字符串的过程如下 Initialize :x = 1,y = 1,η = k,众 e0 +,s=〃 “;For (χ = 1 ;x ^ η ;χ++)For (y = 1 ;y ^ η ;y++){Int tmp = f (χ, y);S = strcat (S, tmp);}Output S ;至此就将一个手绘草图映射成了一个长度为η2的特征字符串。与现有技术相比,本专利技术的一种基于字符串核的草图识别方法,该方法与草图的位置,大小,绘制方式无关,允许用户按照自己习惯的方式进行草图绘制。基于字符串核的草图识别方法识别准确率较高,且实现简单。附图说明图1为手绘三角形的特征字符串映射(η = 5)示意图;图2为实验图形集示意图;图3为手绘草图及其识别结果图;图4为本专利技术的的整体流程图。 具体实施例方式首先基于区域填充的思想将手绘草图映射为特征字符串,其次通过支持向量机 (Support Vector Machine, SVM)基于字符串核(String Kernelho)对训练样本进行训练, 获得分类器,然后通过训练得到的分类器对待识别的草图进行分类和识别,将模糊,不规则的手绘草图映射为精确的几何形状。本专利技术的系统运行于visual C++6. 0环境下,基于Iibsvm软件包,使用C++语言开发的。首先,在visual C++6.0中建立一个单文档视图的工程;将添加了字符串核 (String Kernel)的Iibsvm软件包移植到建立的工程中,编写特征字符串映射模块的代码。准备训练数据采集了 1150个样本,其中1000个样本作为训练数据,150个作为测试数据,并将草图映射为特征字符串,将获得的特征字符串写入文件中保存。训练分类器使用特征字符串训练分类器,并使用格搜索的方式进行参数调节,即惩罚因子C,gama, η调节。详细描述如下一、作为本专利技术输入的手绘草图采样&识别在该步骤中需要做的是,将采样到的待识别手绘草图映射为特征字符串,使用训练得到的分类器对其进行分类,从而完成手绘草图的识别。1)预处理对输入的手绘草图进行等距离采样,采样距离阈值根据经验选择5像素,并且限定采样的时间阈值内(0.7秒)连续采样一个草图,对输入比划的顺序和方向无要求,即若用户落笔与上一次提笔之间的时间间隔大于0.7秒,则系统认为用户的上一个草图输入结束,并开始绘制一个新的草图。本文档来自技高网
...

【技术保护点】
1.一种基于字符串核的手绘草图识别方法,该方法包括以下步骤:步骤一,将手绘草图映射为特征字符串,对输入的手绘草图进行等距离采样,采样距离阈值根据经验选择5像素,并且限定采样的时间阈值内(0.7秒)连续采样一个草图;将采样的手绘草图映射成特征字符串,还包括以下步骤:取一正整数n;计算采样到的手绘草图的外接矩形,并将草图的外接矩形均分为n2份;每一个分割后获得的小矩形都可以使用二维坐标x,y来表示,其中1≤x,y≤n并且x,y∈N;当且仅当一个小矩形的中心点落在了手绘草图围成的区域内时,我们认为该小矩形被填充了;将一个手绘草图映射成了一个长度为n2的特征字符串;步骤二,通过支持向量机基于字符串核对作为训练样本的采样草图进行训练,获得分类器,使用格搜索进行参数调优,选择最佳的参数C,gama,并使用获得的C,gama及步骤一中选定的正整数n对整个训练集进行训练,获取支持向量机模型;字符串核通过两个字符串间的编辑距离来度量这两个字符串的相似度;所述编辑距离为字符串一变换为字符串二所用的最少字符操作数;步骤三,通过训练得到的分类器对待识别的草图进行分类和识别,将模糊、不规则的手绘草图映射为精确的几何形状。...

【技术特征摘要】
1.一种基于字符串核的手绘草图识别方法,该方法包括以下步骤步骤一,将手绘草图映射为特征字符串,对输入的手绘草图进行等距离采样,采样距离阈值根据经验选择5像素,并且限定采样的时间阈值内(0.7秒)连续采样一个草图;将采样的手绘草图映射成特征字符串,还包括以下步骤取一正整数η ;计算采样到的手绘草图的外接矩形,并将草图的外接矩形均分为η2份; 每一个分割后获得的小矩形都可以使用二维坐标χ,y来表示,其中1 < χ,y < η并且χ, y e N;当且仅当一个小矩形的中心点落在了手绘草图围成的区域内时,我们认为该小矩形被填充了 ;将一个手绘草图映射成了一个长度为η2的特征字符串;步骤二,通过支持向量机基于字符串核对作为训练样本的采样草图进行训练,获得分类器,使用格搜索进行参数调优,选择最佳的参数C,gama,并使用获得的C,gama及步骤一中选定的正整数η对整个训练集进行训练,获取支持向量机模型;字符串核通过两个字符串间的编辑距离来度量这两个字符串的相似度;所述编辑距离为字符串一变换为字符串二所用的最少字符操作数;步骤三,通过训练得到的分...

【专利技术属性】
技术研发人员:廖士中段孟华
申请(专利权)人:天津大学
类型:发明
国别省市:12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1