灵活的集成识别和语义处理制造技术

技术编号:21554075 阅读:56 留言:0更新日期:2019-07-07 01:36
本发明专利技术提供了一种用于自然语言处理的字符识别和语义的方法,包括通过卷积神经网络(CNN)特征提取器从输入字符图像序列中提取特征向量序列。特征向量序列包括多个特征向量,每个特征向量表示输入字符图像序列中相应输入字符的近似匹配。本方法还包括:连续地应用顺序分类器在特征向量序列上,作为多个连续特征向量的大小的滑动窗口,从特征向量序列中的第一特征向量滑动到特征向量序列中的最后特征向量;当滑动窗口在特征向量序列上滑动时,在滑动窗口内应用的连续特征向量中,识别出目标特征向量的输出字符。

Flexible Integrated Recognition and Semantic Processing

【技术实现步骤摘要】
【国外来华专利技术】灵活的集成识别和语义处理【相关引用】本申请要求2017年11月17日提交的美国专利申请62/588,199和2018年11月15日提交的美国专利申请16/191,501的优先权,其公开内容通过引用整体并入到本专利技术。
本专利技术涉及语言字符识别的方法和系统,特别涉及手写字符识别。
技术介绍
手写识别是现代社会的一项重要功能,因为它通常是自动化各种普通手工任务(例如识别名称、邮政地址、和诸多填写表格、银行支票、邮件等上的其他信息)的先决条件。尽管光学字符识别(OCR)在过去几十年中受到了很多关注和发展,但由于存在草书书写、触摸笔画和形状混淆(confusioninshapes)的问题,它仍然是一个具有挑战性的问题。这对具有图形字符起源的文字(如中文)尤其突出。大多数现有的识别或分类深度学习模型都被设计为在单个输入字符上单独执行。在输入字符顺序出现并基于连通性形成不同含义的情况下,例如,字符变为单词、单词变为短语,大多数现有技术都忽略了识别阶段或分类阶段中的相互关系。现有技术通过添加称为语义或自然语言处理(NLP)的附加阶段来解决此问题,以引入关系来纠正任何错误。但是,在NLP阶段可能无法轻易地纠正错误。最常提议的方法是要求开发人员使用基于卷积神经网络(CNN)的全新架构,这需要培训,需要设计和准备训练数据集。但是,这些基于CNN的技术通过仅使用一个特征向量的分类器来一次性地识别单个单词。Maidana等所写的论文:DeepNeuralNetworksforHandwrittenChineseCharacterRecognition(用于手写汉字识别的深度神经网络),2017BrazilianConferenceonIntelligentSystems(BRACIS),IEEE,2017年10月,提供了这种基于CNN的识别技术的细节,其公开内容通过引用整体并入到本专利技术。一个现有识别系统是基于N-gram建模技术。N-gram建模识别系统的基本工作原理是在目标输入字符之前或之后立即取N个连续输入字符以及目标输入字符的假设,以便在N-gram词典数据库中进行近似匹配。为了使识别达到可接受的准确度,N-gram词典数据库的尺寸必然很大。运行时近似匹配涉及构建一个分层搜索树,这也是资源密集型的。此外,这种分层搜索不容易并行化,因为每个搜索都受先前搜索结果的影响,从而需要顺序地进行搜索。图1显示了NLPN-gram建模识别系统的基本工作原理,其中输入字符串101是由2-gram识别系统识别。目标输入字符102和紧随其后的两个字符103和104被搜索,并在2-gram数据库105中近似匹配。搜索构建一个分层搜索树106以到达结果节点。另一种现有的识别系统类型是基于递归神经网络(RNN)。使用包含已知上下文的字符短语和词汇的训练数据集来训练RNN。尽管这些基于RNN的识别系统在逻辑结构和操作方面相对简单,但由于训练数据集相当有限,因此识别准确性往往会受到影响,尤其是当系统遇到训练数据集之外的输入时。而且,人工生成的训练数据集失去了真实感,因为难以获得有关稀有字符的真实训练数据。随着训练数据集中的更多可变参数,训练的复杂性会迅速增加。根据训练数据集的大小,识别性能和准确性差异很大。
技术实现思路
本专利技术提供了一种语言字符识别和语义的方法和装置,其可以被集成到各种NLP方法和系统中。本专利技术的目的是提供一种手写语言字符识别方法,该方法比基于传统技术的方法更精确且计算资源消耗更少。根据本专利技术的一个实施例,提供了一种将识别阶段和语义阶段集成为单个步骤的方法。阶段集成包括将预先训练的CNN分解为两个逻辑组件:特征提取器和顺序分类器。基于上下文、功能和/或应用域(例如语言、地理范围、商业领域等),利用上下文、功能和/或应用域特定语句、词汇和术语来训练和/或设计顺序分类器。在一个优选实施例中,手写语句、词汇和术语的训练数据集是由特征向量表示,顺序分类器的训练构建了一个字符特征超空间。顺序分类器可以相对容易和快速地进行重新训练和/或重新设计,而更复杂和资源密集的特征提取器可以跨多个上下文、功能和应用域重新使用。根据一个实施例,特征提取器是基于CNN的字符特征提取器。在运行之前,首先被一个训练数据集训练,训练数据集包含一个可用数字的所选语言字符(例如10,000个字符)和每个字符一个可用数字的不同手写样式和/或形式的图像(如每个字符200个图像)。在运行时,输入字符串被馈送到特征提取器,其中确定与输入字符串中的字符近似匹配的字符图像序列。从匹配的字符图像序列,提取特征向量序列。然后,将顺序分类器顺序地应用于特征向量序列,作为多个连续特征向量大小的滑动窗口。窗口的“滑动”可以沿着特征向量序列向前或向后。根据一个实施例,顺序分类器滑动窗口的大小至少为2。滑动窗口聚焦于任何一个目标特征向量,其与相邻特征向量构成至少两个连续特征向量(或字符)窗口。如此,顺序分类器识别出对应于目标特征向量的一个字符,并通过以下任一步骤生成输出字符:从其紧靠前的连续特征向量和紧随后的连续特征向量进行双向推理;从紧随其后的连续特征向量进行前向推理;从其紧靠前的连续特征向量进行后向推理。根据另一个实施例,顺序分类器的滑动窗口的大小是3。滑动窗口以一个目标特征向量为中心,该目标特征向量与其前一个特征向量及其紧随其后的下一个特征向量构成三个连续特征向量(或字符)窗口。如此,顺序分类器识别出对应于目标特征向量的一个字符,并通过从其紧靠前的特征向量和紧随后的特征向量的双向推理来生成输出字符。根据各种实施例,滑动窗口的其他尺寸也是可能的。然而,一般而言,窗口越短,字符识别的准确性就越低;另一方面,窗口越长,训练数据集就越大,字符特征超空间中可能解决方案的维数就越多。特征向量(或字符)之间的关系也可以在顺序分类器中容易地确定。在由三个特征向量(或字符)组成的滑动窗口的示例性情况下,该关系可以是双向推理—通过从紧靠前的特征向量和紧随后的特征向量进行推理来识别中间字符;前向推理—通过从紧随后的两个连续特征向量进行推理来识别字符;后向推理—通过从紧靠前的两个连续特征向量进行推理来识别字符。本专利技术的优点包括:更快地发展CNN,从一次识别单个输入字符到识别顺序输入字符;与传统的NLPN-gram建模识别技术相比,减少了识别执行时间和纠错处理时间;特征提取器的深度学习训练可以与大多数现有的逐字手写识别技术交互操作。【附图说明】参考以下附图更详细地描述本专利技术的实施例,其中:图1显示了一种NLPN-gram建模识别系统的基本原理;图2显示了根据本专利技术的一个实施例的基于CNN的识别系统的集成识别语义阶段的简化逻辑结构和数据流图;图3显示了根据本专利技术一个实施例的基于CNN的识别系统的训练策略;图4A、4B、4C和4D显示了根据本专利技术一个实施例的基于CNN的识别系统的集成识别语义阶段的运行操作;图4A显示了句子中第一个字符的识别,图4B显示了句子中第二个字符的识别,图4C显示了句子中第三个字符的识别,图4D显示了句子中第四个字符的识别。【具体实施方式】在以下描述中,作为优选示例阐述了用于手写识别的NLP方法和装置等。对本领域技术人员显而易见的是,在不脱离本专利技术范围和精神的情况下,可以进行本文档来自技高网
...

【技术保护点】
1.一种用于自然语言处理的字符识别和语义的方法,包括:通过基于卷积神经网络CNN的特征提取器,从输入字符图像序列中提取特征向量序列,其中所述特征向量序列包括多个特征向量,每个特征向量表示所述输入字符图像序列中相应输入字符的近似匹配;连续地应用顺序分类器,作为多个连续特征向量的大小的滑动窗口,所述滑动窗口应用在每个特征向量上,作为所述特征向量序列中一个目标特征向量;当所述滑动窗口在所述特征向量序列上滑动时,所述顺序分类器识别所述滑动窗口内的所述目标特征向量的输出字符,包括使用所述应用的连续特征向量,在字符特征超空间中找到所述输出字符。

【技术特征摘要】
【国外来华专利技术】2017.11.17 US 62/588,199;2018.11.15 US 16/191,5011.一种用于自然语言处理的字符识别和语义的方法,包括:通过基于卷积神经网络CNN的特征提取器,从输入字符图像序列中提取特征向量序列,其中所述特征向量序列包括多个特征向量,每个特征向量表示所述输入字符图像序列中相应输入字符的近似匹配;连续地应用顺序分类器,作为多个连续特征向量的大小的滑动窗口,所述滑动窗口应用在每个特征向量上,作为所述特征向量序列中一个目标特征向量;当所述滑动窗口在所述特征向量序列上滑动时,所述顺序分类器识别所述滑动窗口内的所述目标特征向量的输出字符,包括使用所述应用的连续特征向量,在字符特征超空间中找到所述输出字符。2.根据权利要求1所述的方法,其中所述滑动窗口的所述多个连续特征向量的大小是至少三个特征向量。3.根据权利要求1所述的方法,其中所述目标特征向量是所述滑动窗口内每个应用的连续特征向量的中间特征向量。4.根据权利要求1所述的方法,其中所述滑动窗口在所述特征向量序列上从所述特征向量序列的起始特征向量向前滑动到所述特征向量序列的末端特征向量。5.根据权利要求1所述的方法,其中所述滑动窗口在所述特征向量序列上从所述特征向量序列的末端特征向量向后滑动到所述特征向量序列的起始特征向量。6.根据权利要求1所述的方法,其中使用词典的上下文、功能或应用域特定训练数据集来训练所述顺序分类器。7.根据权利要求1所述的方法,其中使用包含多个所选语言...

【专利技术属性】
技术研发人员:邓羽真
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1