一种用于手写汉字识别的用户书写风格自适应方法技术

技术编号:3806214 阅读:259 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种用于手写汉字识别的用户书写风格自适应方法,主要包括普通ILDA书写者自适应方法,基于权重的ILDA书写者自适应方法。其原理为利用具有用户个性风格的增量学习样本动态更新LDA识别模型,使更新后的LDA识别模型能自适应用户的书写风格。从而达到提高识别率的效果。本发明专利技术创新性的把ILDA应用于汉字识别领域,解决了手写汉字识别引擎对特定用户识别率不高的问题。利用本发明专利技术提供的方法,手写汉字识别引擎能自适应用户的手写风格,提高识别准确度。

【技术实现步骤摘要】

本专利技术属于利用计算机处理设备识别手写文字图像的
,特别是涉 及一种用于手写汉字识别的书写自适应方法。技术背景手写汉字识别一般是指用户通过手写输入设备(比如手写板、触摸屏、 鼠标等)书写汉字,同时计算机将手写输入设备采集到的汉字书写轨迹转换为 相应的汉字机器内码的识别技术。传统的手写识别技术通常所采用的输入方式 为单字符识别,即书写一个汉字识别一个汉字。使用的识别引擎与用户无关, 即识别引擎事先通过大量的训练样本训练出来,对于不同用户,识别引擎使用 的模型及参数都是一样的,事先由开发人员训练并设置好。由于采用了大数据 量的训练样本,所以识别引擎能满足书写规范的用户的识别准确率要求。但是 不同用户的书写风格差异很大,每个用户书写风格除了存在共性外,往往还包 括自己个性化的地方,与用户无关的识别引擎针对这类用户时书写汉字时,识 别准确率往往不尽人意,有待改进。
技术实现思路
本专利技术的目的在于克服传统的识别引擎无法适应特定用户的书写风格的 不足,提供一种让识别引擎能动态适应用户书写风格从而提高识别率的方法。 本专利技术采用的技术方案为,其步骤如下(1) 、选取用户少量的增量学习样本;(2) 、动态更新模板均值;(3) 、基于ILDA的增量学习,通过采用增量的线性判决分析ILDA方法 进行增量学习;(4) 、动态更新识别分类器;所述步骤(1)为选择用户少量的样本,用于更新模板及识别引擎。用户 样本的选择应能充分体现用户的书写风格。设增量学习样本均值为_y ,总个数 为丄。原始样本总个数为AA,原始样本总均值为x,则新的样本总均值为「 iVx+丄y x =-^w +丄所述步骤(2)利用增量学习样本动态更新模板均值,其步骤包括(A) 、恢复模板样本均值。当前识别引擎使用的模板都是经过线性判决分 析LDA变换,LDA变换的目的是使各个汉字类别能最大程度的分开,从而提 高识别率。但是在动态更新模板过程中,需要使用到原始模板均值。为此需要 对汉字模板进行逆LDA变换。设LDA变换矩阵为『w。,其逆矩阵为巧i ,类别c经过LDA变换后的模板为xw。r原始模板均值为xe ,通过以下公式可求得 原始模板均值。义c =『/」义/rf。c(B) 、增量学习样本特征提取。对于每一个样本,都采用八方向特征提取 方法对增量学习样本提取其八方向特征。(C) 、更新模板均值。设样本类别数为p,每一类别经过LDA逆变换后的原始模板均值为^"原始样本个数为"e,增量学习样本的均值为;^,增量学习样本的个数为。则新的样本均值为5可由以下公式求得<formula>formula see original document page 6</formula>所述步骤(3)利用增量学习样本,更新LDA模型。LDA变换矩阵由类间 散度矩阵&与类内散度矩阵&决定。由于引入了增量学习样本,^与^都发 生了变化。所以需要重新计算出&与&。其步骤包括(A) 、求类间散度矩阵S;,计算S;的公式为<formula>formula see original document page 6</formula>其中"'e为此类别样本总数,A为每一类别的模板均值,;'为所有类别的总均值,T代表矩阵的转置。(B) 、求类内散度矩阵6^,计算^、的公式为<formula>formula see original document page 6</formula>用此公式计算类内散度矩阵5;,计算量大且没有利用以前计算的&矩阵,通过对此公式进行化简,可得新的计算公式<formula>formula see original document page 6</formula>此公式中,^为原先识别引擎的样本类内散度矩阵,^为增量学习样本的类内散度矩阵。通过此公式,可以快速的求出S、矩阵。(C) 、求新LDA变换矩阵。计算D^^A的特征向量,以特征向量作为列向量生成LDA变换矩阵^^ 。所述步骤(4)动态更新识别分类器,利用新的LDA变换矩阵《a,对每 一类别新的模板均值做LDA变换,变换公式如下-经过(1) ~ (4)步骤,基于增量LDA的书写者自适应过程更新完毕。本专利技术首次提出了与用户相关的手写自适应技术,手写识别引擎能自动的 根据用户的书写风格自动调整其识别模型及参数,把用户无关的识别系统转变 为用户相关的识别系统,从而大大提高了对相关用户手写汉字的识别准确率, 同时,该识别引擎对于其他用户,其识别准确率仍能基本保持不变。附图说明图l是本专利技术的系统结构框图2是本专利技术的动态更新模板均值的流程框图3是对基于ILDA的增量学习的流程框图4是识别引擎进行汉字识别的流程框图。具体实施例方式下面结合附图对本专利技术做进一步的说明,实施本专利技术所用的识别设备可以 采用手写板书写汉字,用计算机进行识别,用纯平型显示器显示用户图形界面, 可采用C语言编制各类处理程序,便能较好地实施本专利技术。本专利技术的系统结构如附图l所示,采用八方向特征提取方法对增量学习样 本进行特征提取,更新每一个类别的模板均值,接着求出新的类内散度矩阵和 类间散度矩阵,通过类内散度矩阵与类间散度矩阵求出新的LDA变换矩阵, 最后通过新的LDA变换矩阵对新的模板均值进行变换,计算出新的模板与分类器。本专利技术中的选择用户少量的样本,用于更新模板及识别引擎,具体实施方 法为在用户样本选择时,应能充分体现用户的书写风格。设增量学习样本均值为y,总个数为L。原始样本总个数为N,原始样本总均值为;c,由于在实际 实施过程中,每一个类别L的个数不一样,有的甚至相差很大,把增量学习样本的个数统一成固定值,并以假设占原始样本总个数N的r百分比。则新的样本总均值为-,—iVx+(iVxr)_y — x+rxj; X 一 (l + "xiV 一 (l + 。本专利技术中的利用增量学习样本动态更新模板均值过程如附图2所示,具体 包括以下三个骤(A) 、恢复模板样本均值。当前识别引擎使用的模板都是经过LDA变换, LDA变换的目的是使各个汉字类别能最大程度的分开,从而提高识别率。但是 在动态更新模板过程中,需要使用到原始模板均值。为此需要对汉字模板进行 逆LDA变换。设LDA变换矩阵为『w。,其逆矩阵为巧i ,类别c经过LDA变换后的模板为Xw。c原始模板均值为Xe ,通过公式以下可求得原始模板均值。(B) 、增量学习样本特征提取。对于每一个样本,都采用八方向特征提取 方法对增量学习样本提取其八方向特征。(C) 、更新模板均值。设样本类别数为p,每一类别经过LDA逆变换后的8原始模板均值为^c,原始样本个数为"e,增量学习样本的均值为;^,增量学习样本的个数为/"则新的样本均值为A可由以下公式求得<formula>formula see original document page 9</formula>本专利技术中的利用增量学习样本过程如附图3所示,更新LDA模型,其具 体实施步骤包括以下三个步骤LDA变换矩阵由类间散度矩阵&与类内散度矩阵&决定。由于引入了增 量学习样本文档来自技高网...

【技术保护点】
一种用于手写汉字识别的用户书写风格自适应方法,其特征在于包括如下步骤: (1)、选取用于更新模板及识别引擎的用户增量学习样本; (2)、采用增量学习样本动态更新模板均值; (3)、采用增量学习样本更新线性判决分析模型;   (4)、动态更新识别分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:金连文黄志斌
申请(专利权)人:华南理工大学
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1