一种基于手势的汉字交互输入与识别方法技术

技术编号:8683076 阅读:248 留言:0更新日期:2013-05-09 03:00
本发明专利技术属于计算机视觉和模式识别领域,涉及一种基于手势的汉字交互输入与识别方法。本发明专利技术能够让用户在不佩戴任何的硬件设备情况下,通过一个普通网络摄像头,用手作为媒介按照正规书写汉字和词组的规则与顺序来完成汉字的输入、识别与选择等功能。该发明专利技术突破了以往键盘输入、接触屏输入、语音输入汉字的局限,对使用者的限制较小,识别准确率较高,作为一种全新的输入方式,在人机界面、数字家庭、游戏与娱乐等领域有着很好的应用前景。

【技术实现步骤摘要】

本专利技术属于计算机视觉和模式识别领域,涉及。
技术介绍
近二十年来借助于触摸屏幕(板)和手写笔的联机手写识别技术大大增加了汉字输入的实时性与交互性,已经被广泛地置于各种手机、便携计算机终端,用于文字记录、签名验证、图标标注等应用。但使用这种的输入方式,用户还是脱离不开硬件设备,并受到设备(触摸板(屏))的尺寸限制,不能完全达到自然、自由的人机交互目的。而随着计算机视觉技术的不断发展与完善,基于视觉的手势与人体动作的识别与跟踪技术的已成为新型人机交互接口中一个重要的研究方向。用户可以不携带任何硬件设备直接用最自然的手势和肢体语言等与计算机进行交流,例如在如三星、海信等品牌的电视机和微软基于Kinect的游戏中的基于手势的菜单选择和基于肢体动作的视频互动游戏等。而利用单目视觉(一个摄像机或一个普通摄像头)实时获取人手形态与位置进行汉字的实时交互性输入与识别因成本低廉、实施容易,在数字家庭、游戏、娱乐、助残等领域具有较强的实际应用价值。国内完成类似目的工作有《手写虚拟汉字识别研究及其在多通道短信交互系统中的应用》,华南理工大学博士学位论文,2007年4月。该文所述方法主要通过跟踪食指在简单背景下小范围区域内识别手写汉字,对汉字的输入、选择等控制不能完全用手势进行,应用范围有限、给用户的交互体验感较差,此外该文仅利用了二维手写汉字的脱机图像特征,采用神经网络类分类方法进行汉字识别,存在着训练与识别阶段的存储和计算量较大、对于大汉字集识别效率底等缺点。目前单目下基于手势汉字自然交互输入与识别方法的难点在于:(I)有效手势区域的分割与识别。从视频图像中分割出人手部区域是手写汉字的基础。但在比较复杂的背景条件下,如人脸、人体或者其它非用于汉字输入的手部等肤色区域同时存在于视频之中的情况,对有效手势的正确分割与识别具有一定的难度。(2)汉字输入与交互控制的设计。完全利用手势进行汉字的输入与在纸或触摸屏上书写不同,手势的运动轨迹是连续的,书写汉字过程中没有离开纸面或触摸屏面的动作,视频记录是整个汉字书写的手势轨迹,那么因此形成的汉字除了本身应具有的笔画之外,还多了一些笔画之间的过渡,以及用户无意识的手部动作的轨迹等,这给汉字的识别增加了难度。此外每个汉字的开始与结束也无法通过抬落笔进行判断,所以需要设计具有良好交互性的汉字输入与控制手势并对其进行跟踪识别。(3)汉字的特征选取与分类器设计。对于复杂汉字在书写时可能出现部首之间的重叠、字体变形、字体以一定角度倾斜、旋转等,所以必须找到满足以上条件的汉字不变性特征作为汉字识别的基础。最后最重要的是设计一种计算复杂度较低的分类器才能保证在联机书写汉字时,在对复杂背景进行手势分割、有效手势识别后,利用汉字特征能快速的在大字集中进行正确检测出汉字,因此汉字特征选取与分类器的设计是整个系统能达到实时自然交互性目的关键。
技术实现思路
本专利技术提供一种单目视觉环境下利用手势进行汉字交互输入与识别方法。本专利技术的技术方案如下:包括预处理部分和联机部分。一、预处理部分步骤1:建立视觉汉字特征向量库。1-1确定待识别汉字范围形成总库RC,根据RC的规模按汉字在日常中的使用频度高低分为k个子字库{Re。,Rck_J,在子库中为每个汉字编号:Ci(Ci e Rcj, i=(0,...,n_l)),j=(0,…,k-1))。1-2建立视觉汉字的方向边谱。1-2-1在极坐标系下,令视觉汉字方向边的基准向量为集合本文档来自技高网
...

【技术保护点】
一种基于手势的汉字交互输入与识别方法,其特征在于,该方法包括预处理部分和联机部分一、预处理部分步骤1:建立视觉汉字特征向量库;1?1确定待识别汉字范围形成总库RC,根据RC的规模按汉字在日常中的使用频度高低分为k个子字库{Rc0,...,Rck?1},在子库中为每个汉字编号:ci(ci∈Rcj,i=(0,...,n?1)),j=(0,...,k?1));1?2建立视觉汉字的方向边谱;1?2?1在极坐标系下,令视觉汉字方向边的基准向量为集合其中为从原点起始水平向右的第0号方向边的基准向量,用极坐标表示为,其中第一分量代表第0号方向边的基准向量的长度,第二分量代表其角度;其它15个方向边的基准向量计算规则如下公式:d→4k+2=(2,(2k+1)π/4),k∈[0,...,3];d→4k=(1,kπ/2),k∈[0,...,3];d→1=(3/2,θ1=arccos(2/5));d→3=(5/2,π/2-θ1);d→5=(5/2,π/2+θ1);d→7=(5/2,π-θ1);d→9=(5/2,π+θ1);d→11=(5/2,π3/2-θ1);d→13=(5/2,π3/2+θ1);d→15=(5/2,2π-θ1)1?2?2记录一个视觉汉字书写过程中的所有方向边,近似量化到这16个基准向量所在方向上,统计每个方向上的方向边的数量,并以增量二维标的形式存到DE={de0,...,de15}中,DE即为视觉汉字的方向边谱,其中dei代表第i个方向上的方向边累增坐标集合:dei={(x0,y0),…,(xm?1,ym?1)};1?3计算方向边谱的Hu矩作为视觉汉字的特征向量HC={hc0,...,hc6};1?4重复执行步骤1?2和1?3分别对{Rc0,...,Rck?1}中每个视觉汉字进行处理,为每个子汉字库构建视觉汉字的方向边谱库DeC={DeC0,...,DeCk?1},以及视觉汉字 特征向量库HcC={HcC0,...,HcCk?1};步骤2:利用一种局部保形映射LPP(Locality?Preserving?Projections)算法进行维数约减,得到视觉汉字低维流形空间;主要通过训练HcC中的样本计算出一个显示的高维低维映射函数,将HcC中的高维视觉汉字特征向量的局部关系映射到隐含的低维特征子空间中,用于后续视觉汉字的识别;算法主要包括以下步骤:2?1构造一个二维视觉汉字特征向量相似度矩阵G,横纵轴分别为视觉汉字特征向量编号;2?1?1计算与每个视觉汉字特征向量HCi(i=0,...,n?1),相似度最高的l个特征向量HCj(j=0,...,l?1);相似度计算采用公式:2?1?2采用热核函数其中t为一常数;计算每对HCi与HCj之间的权重值gij(j=0,...,l?1),并且令gij=gji,gii=1;2?2通过LPP的最小化目标函数过程推导和求得广义特征值的计算,得到高维低维映射矩阵W和高低维映射的显式表达式PT=WTQ(Q为高维特征向量,P为低维特征向量);2?3重复执行步骤2?1和2?2,为k个子汉字库分别训练k个低维流形空间:{Xlow0,...,Xlowk?1};步骤3:建立汉字语义联想数据库;通过汉语词汇语义为汉字之间建立关联,减少具有相关语义的汉字的输入量;在该库中每行有14个属性:第一个为汉字序号也是主键,后面依次为1个汉字字符,7个视觉汉字特征向量和5个按照语义出现概率大小排列的最有可能成词组的汉字序号;步骤4:训练肤色模型;通过在各种环境光亮度下对多个人手肤色进行采样,训练肤色高斯模型;二、联机部分,包括视频图像预处理、图像分割获得潜在手势区域、控制手势识别、控制手势跟踪、计算视觉汉字的特征向量和识别视觉汉字;步骤5:视频图像预处理;对摄像机获得的一帧视频图像进行预处理,包括色彩平衡、图像去噪、肤色提取、二值化和形态学处理,生成一个二值图像,其中肤色的部分作为前景像素(值为1),非肤色的部分作为背景像素(值为0),最后得到肤色区域块集合;步骤6:图像分割获得潜在手势区域;6?1为二值图像中的肤色区域分别计...

【技术特征摘要】
1.一种基于手势的汉字交互输入与识别方法,其特征在于,该方法包括预处理部分和联机部分 一、预处理部分 步骤1:建立视觉汉字特征向量库; 1-1确定待识别汉字范围形成总库Re,根据RC的规模按汉字在日常中的使用频度高低分为k个子字库{Re。,Rck_J,在子库中为每个汉字编号:Ci (Ci e Rcj, i= (O,...,n_l)),j=...

【专利技术属性】
技术研发人员:王祎樊鑫李豪杰罗钟铉刘斌贾棋王智慧
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1