一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法技术

技术编号：23764715 阅读：59 留言：0更新日期：2020-04-11 19:13

本发明专利技术涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域，具体地指一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法，通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变。

A method of miniaturization of natural language model of handwritten text recognizer under the unified recognition framework

全部详细技术资料下载

【技术实现步骤摘要】
一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法
本专利技术涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域，具体地指一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法。
技术介绍
伴随着移动计算(MobileComputing)对无线通信、网络、移动技术、云端计算和移动智能终端的整合，笔式用户接口成为研究的热点。智能手机、平板电脑、手提电脑、导航仪等移动智能终端的迅猛发展使得手写体信息输入深受大家欢迎和认可。当前，此类设备主要以手写体单字(一次1个)输入辅以联想候选项集实现信息输入，这大大的限制了输入的自由性及速度；尽管也有一次输入数个单字(一次2、3个)的手写体串输入，但其识别率和速度还有待进一步提高。像人们平时写字一样，手写体文本输入(一次书写多行且每行多字)是进一步提高信息输入速度和自由度的最佳选择，必将进一步方便大家生产及生活。尽管以文本的形式手写输入信息较单字手写输入具有较高的速度且满足人类书写习惯，但手写体文本的识别却挑战巨大。该挑战主要源于手写体文本识别过...

【技术保护点】
1.一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法，其特征在于，包括以下步骤：/n通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变，具体过程如下：采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型，如式(7)所示，/nP

【技术特征摘要】
1.一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法，其特征在于，包括以下步骤：
通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变，具体过程如下：采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型，如式(7)所示，
P1(ωi|ωi-2ωi-1)＝λ1P(ωi|ωi-2ωi-1)+λ2P(ωi|ωi-1)+λ3P(ωi)式(7)
式中，P(ωi|ωi-2ωi-1)，P(ωi|ωi-1)和P(ωi)分别为三元、二元和一元模型，其中λ1，λ2和λ3为统合参数，把从语料库中学习到的以上三个元组模型的概率存储在字典中，占内存大，故采用一个拟合函数，直接根据输入的单字ωi，ωi-1和ωi-2的编码，由拟合函数生成元组对应的概率；
鉴于有三个变量，因此可以采用三元高阶多项式函数，如式(8)所示，

式(...

【专利技术属性】
技术研发人员：高金锋，姚汝贤，马贺红，张瑜，张俊明，赖晗，
申请(专利权)人：黄淮学院，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人