文本识别方法和计算机程序产品技术

技术编号：15919476 阅读：37 留言：0更新日期：2017-08-02 04:39

本发明专利技术涉及一种文本识别方法，其中所述方法由计算设备的处理器执行，并且包括以下步骤：提供置信矩阵，其中所述置信矩阵是输入序列的数字表示；输入正则表达式；搜索输入序列的与正则表达式匹配的符号序列，其中，处理器使用置信矩阵的置信度值来计算得分值，其中所述得分值是输入序列的符号序列与正则表达式之间的匹配品质的指示。此外，本发明专利技术涉及一种计算机程序产品，该计算机程序产品在由计算设备的处理器执行时，执行该方法。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】文本识别方法和计算机程序产品本公开涉及一种文本识别方法和计算机程序产品。
技术介绍
从历史手稿或其它文件类型以及从语音文本序列进行计算机辅助信息检索仍然是非常困难和受限制的。基于样本序列的直接搜索是非常慢的过程，并且不能推广到其它书写风格或语音中的其它口音。基于预先转录的计算机代码(例如ASCII)的搜索是快速的，但是其需要昂贵(时间和人力资源)的并且容易出错的手动转录过程。在文献A.Graves,etal.,“ANovelConnectionistSystemforUnconstrainedHandwritingRecognition(一种用于无约束手写识别的新型联结系统)”，IEEETransactionsofpatternanalysisandmachineintelligence(IEEE模式分析与机器智能汇刊)，vol.31,no.5,May2009(2009年第31卷第5期)中，公开了一种用于识别无约束手写文本的方法。该方法基于设计用于序列标注任务的递归神经网络，对于该序列标注任务，数据难以分割并包含远程双向相互依赖(interdependent)。文献US2009/0077053A1公开了一种用于搜索一组墨水数据(inkdata)中的术语的方法。该方法包括以至少一个分割图的形式将墨水数据转换成中间格式的中间数据的操作。分割图的每个节点包括至少一个墨水段，该墨水段与对应于至少一个识别单元的假设相关联。该方法还包括用于对中间数据执行的、搜索术语的操作。
技术实现思路
目的是提供改进的文本识别技术。提供了根据独立权利要求1的文本识别方法和根据独立权利要求9的...
文本识别方法和计算机程序产品

【技术保护点】
一种文本识别方法，其中所述方法由计算设备的处理器执行，并且包括以下步骤：提供置信矩阵，其中所述置信矩阵是输入序列的数字表示，输入正则表达式，搜索所述输入序列的与所述正则表达式相匹配的符号序列，其中，所述处理器使用所述置信矩阵的置信度值来计算得分值，其中所述得分值是所述输入序列的符号序列与所述正则表达式之间的匹配品质的指示，其中所述搜索的步骤是对所述置信矩阵执行的。

【技术特征摘要】
【国外来华专利技术】2014.12.05 EP 14196570.71.一种文本识别方法，其中所述方法由计算设备的处理器执行，并且包括以下步骤：提供置信矩阵，其中所述置信矩阵是输入序列的数字表示，输入正则表达式，搜索所述输入序列的与所述正则表达式相匹配的符号序列，其中，所述处理器使用所述置信矩阵的置信度值来计算得分值，其中所述得分值是所述输入序列的符号序列与所述正则表达式之间的匹配品质的指示，其中所述搜索的步骤是对所述置信矩阵执行的。2.根据权利要求1所述的方法，其中，提供所述置信矩阵的步骤包括将书面文本或语音文本转换成所述置信矩阵。3.根据权利要求1或2所述的方法，其中，所述正则表达式包括正则表达式组，其中，所述正则表达式定义所述正则表达式中用于在置信矩阵...

【专利技术属性】
技术研发人员：韦尔夫·伍兹里希，
申请(专利权)人：星球智能有限责任公司，
类型：发明
国别省市：德国,DE

全部详细技术资料下载我是这个专利的主人