灵活的集成识别和语义处理制造技术

技术编号：21554075 阅读：56 留言：0更新日期：2019-07-07 01:36

本发明专利技术提供了一种用于自然语言处理的字符识别和语义的方法，包括通过卷积神经网络(CNN)特征提取器从输入字符图像序列中提取特征向量序列。特征向量序列包括多个特征向量，每个特征向量表示输入字符图像序列中相应输入字符的近似匹配。本方法还包括：连续地应用顺序分类器在特征向量序列上，作为多个连续特征向量的大小的滑动窗口，从特征向量序列中的第一特征向量滑动到特征向量序列中的最后特征向量；当滑动窗口在特征向量序列上滑动时，在滑动窗口内应用的连续特征向量中，识别出目标特征向量的输出字符。

Flexible Integrated Recognition and Semantic Processing

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】灵活的集成识别和语义处理【相关引用】本申请要求2017年11月17日提交的美国专利申请62/588,199和2018年11月15日提交的美国专利申请16/191,501的优先权，其公开内容通过引用整体并入到本专利技术。
本专利技术涉及语言字符识别的方法和系统，特别涉及手写字符识别。
技术介绍
手写识别是现代社会的一项重要功能，因为它通常是自动化各种普通手工任务(例如识别名称、邮政地址、和诸多填写表格、银行支票、邮件等上的其他信息)的先决条件。尽管光学字符识别(OCR)在过去几十年中受到了很多关注和发展，但由于存在草书书写、触摸笔画和形状混淆(confusioninshapes)的问题，它仍然是一个具有挑战性的问题。这对具有图形字符起源的文字(如中文)尤其突出。大多数现有的识别或分类深度学习模型都被设计为在单个输入字符上单独执行。在输入字符顺序出现并基于连通性形成不同含义的情况下，例如，字符变为单词、单词变为短语，大多数现有技术都忽略了识别阶段或分类阶段中的相互关系。现有技术通过添加称为语义或自然语言处理(NLP)的附加阶段来解决此问题，以引入关系来纠正任何错误。但是，在NLP阶段可能无法轻易地纠正错误。最常提议的方法是要求开发人员使用基于卷积神经网络(CNN)的全新架构，这需要培训，需要设计和准备训练数据集。但是，这些基于CNN的技术通过仅使用一个特征向量的分类器来一次性地识别单个单词。Maidana等所写的论文：DeepNeuralNetworksforHandwrittenChineseCharacterRecognition(用于手写汉字识别...

【技术保护点】
1.一种用于自然语言处理的字符识别和语义的方法，包括：通过基于卷积神经网络CNN的特征提取器，从输入字符图像序列中提取特征向量序列，其中所述特征向量序列包括多个特征向量，每个特征向量表示所述输入字符图像序列中相应输入字符的近似匹配；连续地应用顺序分类器，作为多个连续特征向量的大小的滑动窗口，所述滑动窗口应用在每个特征向量上，作为所述特征向量序列中一个目标特征向量；当所述滑动窗口在所述特征向量序列上滑动时，所述顺序分类器识别所述滑动窗口内的所述目标特征向量的输出字符，包括使用所述应用的连续特征向量，在字符特征超空间中找到所述输出字符。

【技术特征摘要】
【国外来华专利技术】2017.11.17 US 62/588,199;2018.11.15 US 16/191,5011.一种用于自然语言处理的字符识别和语义的方法，包括：通过基于卷积神经网络CNN的特征提取器，从输入字符图像序列中提取特征向量序列，其中所述特征向量序列包括多个特征向量，每个特征向量表示所述输入字符图像序列中相应输入字符的近似匹配；连续地应用顺序分类器，作为多个连续特征向量的大小的滑动窗口，所述滑动窗口应用在每个特征向量上，作为所述特征向量序列中一个目标特征向量；当所述滑动窗口在所述特征向量序列上滑动时，所述顺序分类器识别所述滑动窗口内的所述目标特征向量的输出字符，包括使用所述应用的连续特征向量，在字符特征超空间中找到所述输出字符。2.根据权利要求1所述的方法，其中所述滑动窗口的所述多个连续特征向量的大小是至少三个特征向量。3.根据权利要求1所述的方法，其中所述目标特征向量是所述滑动窗口内每个应用的连续特征向量的中间特征向量。4.根据权利要求1所述的方法，其中所述滑动窗口在所述特征向量序列上从所述特征向量序列的起始特征向量向前滑动到所述特征向量序列的末端特征向量。5.根据权利要求1所述的方法，其中所述滑动窗口在所述特征向量序列上从所述特征向量序列的末端特征向量向后滑动到所述特征向量序列的起始特征向量。6.根据权利要求1所述的方法，其中使用词典的上下文、功能或应用域特定训练数据集来训练所述顺序分类器。7.根据权利要求1所述的方法，其中使用包含多个所选语言...

【专利技术属性】
技术研发人员：邓羽真，
申请(专利权)人：香港应用科技研究院有限公司，
类型：发明
国别省市：中国香港,81

全部详细技术资料下载我是这个专利的主人