当前位置: 首页 > 专利查询>微软公司专利>正文

便于模式识别的系统和方法技术方案

技术编号:2933889 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种便于模式识别的系统和方法。本发明专利技术包括一个模式识别系统,该系统具有一个使用特征抽取层和分类层的卷积神经网络。所述特征抽取层由卷积层组成以及所述分类层由完全连接层组成。所述模式识别系统可以以利用一个所计算的交叉熵误差被训练。所计算的交叉熵误差用来更新所述模式识别系统的可训练参数。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及模式识别,尤其涉及一种使用了一种便于模式识别的卷积神经网络的系统和方法。
技术介绍
模式识别可以是例如以从一个笔/图形输入板输入设备捕获的键击或扫描的文件为基础的。但是许多常规的模式识别系统要求有目标语言的知识。在许多实例中,使用神经网络的模式识别系统的参数是用于一个特定的目标语言例如,英文和/或日文)的手工调整。同样地,这些模式识别系统是不容易适应利用别的用于这样的手工调整系统的语言的。而另一些常规的模式识别系统要求有暂时的输入按键的知识,因此,可以是计算复杂的。专利技术简述为了使能够对本专利技术的一些方面有一个基本的理解,下面介绍的是本专利技术的一个简单概述。此概述不是对本专利技术的广泛的看法。它不限定本专利技术的识别键/关键元素或者不限定描绘本专利技术的范围。它唯一的目的是以一个简单形式介绍一些本专利技术的概念来作为后面的更多详细描述的序言。本专利技术提供一个模式识别系统,它可以被利用来执行手写模式识别和/或来自扫描文件的字符识别。此模式识别系统是基于一个卷积神经网络(CNN)结构,例如,包括特征抽取层和利用交叉熵极小化的分类层训练。与本专利技术一个方面相一致,模式识别系统接收一位图输入模式(例如,二维的)和提供若干概率输出。模式识别系统向输入训练数据学习而不需要语言特定的知识,临时笔划输入,笔方向的信息和/或笔划顺序。模式识别系统提供用于位像模式(类)估计的输出概率。此输出的概率可以被,例如,语言分类器,语言模式和/或分割模式利用。该模式识别系统可以被训练利用交叉熵误差最小化。例如,此模式识别系统可以被训练用随机梯度下降极小化交叉熵误差。特征抽取层包括特征映射的卷积层,在这里,一个特征映射充分使用相同组的系数和权重以修改所接收的输入;然而不同的特征映射利用不同组的系数,因此,特征映射可以从所接收的输入中抽取不同特征。特征抽取层的输出被连接到分类层。分类层包括隐藏单元的完全连接层。隐藏单元的数量可以依赖,例如,对于将被学习的任务的复杂性上,训练的数量和/或质量。最后分类层提供输出概率。本专利技术的另一个方面提供一个模式识别系统,该模式识别系统具有卷积层和完全连接层。此模式识别系统接收一位图输入模式(例如,二维的)和提供若干输出概率。此模式识别系统可以被训练利用交叉熵误差极小化(例如,使用随机梯度下降极小化交叉熵误差)。卷积层包括若干特征映射,在这里一个特征映射使用相同组的可训练的参数(例如,系数或权重)来修改所接收的输入;然而,不同的特征映射使用不同组的可训练的参数(例如,系数或权)。特征映射接收至少输入模式的一部分。因此,特征映射可以从所接收的输入中抽取不同特征。卷积层的输出被连接到完全连接层。完全连接层接收卷积层的输出和将被卷积层抽取的特征进行分类。完全连接层提供若干输出概率,输出概率包括与一个类别相联系的概率。完全连接层由若干隐藏单元组成。完全连接层可以具有自己本身组的可训练参数。该模式识别系统可以利用交叉熵误差极小化被训练,至少部分的基于下列等式E=-ΣnΣk=1c{tnkln(ykn)+(1-tnk)ln(1-ynk),]]>在这里E是被减小的能量,n是索引模式,t是目标值,ynk是模式识别系统在单元k上对于模式n的输出,用于模式n,和k索引类(例如,用于手写数字,有10类,c=10)。这个误差等式有时被参考在文章如Kullback-Leibler发散(或者KL距离)。在一个例子里,这个交叉熵误差(E)与一个第一常量相乘。在另一个例子中,第二个常量被加到E上。更进一步的,模式识别系统可以使用随机梯度下降被训练。该模式识别系统可以被训练以识别一字符表或一字母表的子集。例如,如果输入从图形输入板发生,该模式识别系统可以被充分利用于由一支笔的一个或两个笔划所产生的所有字符。在中文或日文字符的情况下,这对应于全部字母的少于500类的一个子集。而本专利技术的另一个方面提供一个模式识别系统,该模式识别系统具有一个第一卷积层,一个第二卷积层,一个第一完全连接层和一个第二完全连接层。可选地,该模式识别系统可以包括一个处理部件。该第一卷积层和第二卷积层抽取位像输入模式(例如,二维的)的特征。该第一完全连接层和第二完全连接层作为一个分类器工作。该第一卷积层包括若干第一特征映射,该特征映射接收输入模式的至少一部分。该第一特征映射包括第一可训练参数以及提供与第一特征相联系的输出。该第一特征映射由可训练参数(例如,系数或权重)的小核心(例如,5×5)组成,该可训练参数乘或求和输入并得到的用于不同位置的结果。有效的,该卷积可以被看作一个可训练过滤器,该过滤器从它的输入图像中抽取一个“特征”图像。对于在输入图像中的不同空间位置(例如,当从一个位置转移到另一个位置),用于一个第一特征映射的第一可训练参数可以是相等的。该第二卷积层接收该第一特征映射的输出。该第二卷积层包括若干具有第二特征映射的第二特征特征映射,该第二特征映射接收第一特征映射的至少一部分输出。该第二特征映射包括第二可训练参数以及提供与第二特征相联系的输出。类似地,该第二特征映射由可训练参数(例如,系数或权重)的小核心(例如,5×5)组成,该可训练参数乘以及求和输入并且得到的用于不同位置的结果。再一次,有效的,该卷积可以被看作一个可训练过滤器,该过滤器从它的输入图像中抽取一个“特征”图像。这个特征可以是底层采样,例如,该过滤器可以估计所有其它的位置。这个次采样不仅可以减少计算,而且可以减少被学习的自由参数的数目,该自由参数导致一个较小的内存面积和比较好的概括。第一完全连接层和第二完全连接层是完全连接并且实现一个用于被第一卷积层和第二卷积层所计算的特征的分类器。该第一完全连接层可以具有可训练参数。第一完全连接层和第二完全连接层由若干隐藏单元组成。在两个完全连接层之间的隐藏单元的数目控制模式识别系统的能力。第二完全连接层提供输出概率和可以具有可训练参数。该输出概率可以是一个与一个分类(例如,被模式识别系统识别的目标模式)相联系的概率。该模式识别系统可以利用交叉熵误差极小化被训练。例如,模式识别系统可以使用随机梯度下降极小化交叉熵误差测量被训练,以教会网络为一个类输出一个概率。本专利技术的另一个方面提供一个用于模式识别系统的训练系统,具有一个模式识别系统,一个交叉熵误差计算器,一个反相传播梯度下降部件和一个可训练参数更新部件。该模式识别系统接收一个模式输入(例如,训练的模式)和提供若干类概率输出。该模式识别系统可以利用一个卷积神经网络结构。该交叉熵误差计算器从模式识别系统和训练类信息(例如,目标类)中接收若干类概率输出。该交叉熵误差计算器计算一个至少部分根据若干类概率输出和训练类信息(例如,对象类)上的交叉熵误差。该交叉熵误差计算器因此能计算一个在该训练类信息(例如,目标类)和模式识别系统的若干类概率输出之间的差异。反相传播梯度下降部件可以利用一个随机梯度下降运算算法(例如,即时更新)使用一个噪声或平均梯度的近似译文,以更新该训练的参数。例如,该反相传播梯度下降部件可以利用下面的等式来更新训练的参数Wt=Wt-1-ϵ∂E(W)∂W]]>这里W是一组可训练本文档来自技高网...

【技术保护点】
一个模式识别系统,包括:至少一个接收非时间输入模式的卷积层,所述卷基层由若干特征映射组成,所述特征映射接收至少一部分所述非时间输入模式,所述特征映射包括可训练参数,所述至少一个卷积层提供与从所述非时间输入模式中抽取的特征相关的输出;和, 至少一个接收所述至少一个卷积层的输出的完全连接层,所述至少一个完全连接层把从所述至少一个卷积层中抽取的特征分类,所述至少一个完全连接层提供若干输出,此输出由一个与一个类相关的概率,所述模式识别系统利用交叉熵误差极小化被训练。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:PY斯马德JC普拉特DW斯坦克劳斯
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1