文本识别方法和计算机程序产品技术

技术编号:15919476 阅读:37 留言:0更新日期:2017-08-02 04:39
本发明专利技术涉及一种文本识别方法,其中所述方法由计算设备的处理器执行,并且包括以下步骤:提供置信矩阵,其中所述置信矩阵是输入序列的数字表示;输入正则表达式;搜索输入序列的与正则表达式匹配的符号序列,其中,处理器使用置信矩阵的置信度值来计算得分值,其中所述得分值是输入序列的符号序列与正则表达式之间的匹配品质的指示。此外,本发明专利技术涉及一种计算机程序产品,该计算机程序产品在由计算设备的处理器执行时,执行该方法。

【技术实现步骤摘要】
【国外来华专利技术】文本识别方法和计算机程序产品本公开涉及一种文本识别方法和计算机程序产品。
技术介绍
从历史手稿或其它文件类型以及从语音文本序列进行计算机辅助信息检索仍然是非常困难和受限制的。基于样本序列的直接搜索是非常慢的过程,并且不能推广到其它书写风格或语音中的其它口音。基于预先转录的计算机代码(例如ASCII)的搜索是快速的,但是其需要昂贵(时间和人力资源)的并且容易出错的手动转录过程。在文献A.Graves,etal.,“ANovelConnectionistSystemforUnconstrainedHandwritingRecognition(一种用于无约束手写识别的新型联结系统)”,IEEETransactionsofpatternanalysisandmachineintelligence(IEEE模式分析与机器智能汇刊),vol.31,no.5,May2009(2009年第31卷第5期)中,公开了一种用于识别无约束手写文本的方法。该方法基于设计用于序列标注任务的递归神经网络,对于该序列标注任务,数据难以分割并包含远程双向相互依赖(interdependent)。文献US2009/0077053A1公开了一种用于搜索一组墨水数据(inkdata)中的术语的方法。该方法包括以至少一个分割图的形式将墨水数据转换成中间格式的中间数据的操作。分割图的每个节点包括至少一个墨水段,该墨水段与对应于至少一个识别单元的假设相关联。该方法还包括用于对中间数据执行的、搜索术语的操作。
技术实现思路
目的是提供改进的文本识别技术。提供了根据独立权利要求1的文本识别方法和根据独立权利要求9的计算机程序产品。其它实施例是从属权利要求的主题。一方面,提供了一种文本识别方法。该方法由计算设备的处理器执行,并且包括以下步骤:提供置信矩阵,其中所述置信矩阵是输入序列的数字表示;输入正则表达式;搜索所述输入序列的与所述正则表达式相匹配的符号序列,其中,所述处理器使用所述置信矩阵的置信度值来计算得分值,其中所述得分值是所述输入序列的符号序列与所述正则表达式之间的匹配品质的指示。所述搜索的步骤是对所述置信矩阵执行的。换句话说,正则表达式可直接应用于置信矩阵,用于解码符号序列。另一方面,公开了一种计算机程序产品,其中所述计算机程序产品在由计算设备的处理器执行时,适于执行所述方法的步骤。该计算机程序产品可存储在非暂时性介质上。置信矩阵(也称为ConfMat)是任意长度的二维矩阵,其在横轴(x轴或t轴)的每个位置处包含N维向量。每个向量元素对应于某个符号通道。例如,在数字0到9被编码的情况下,需要N=10个符号通道。可以引入附加通道,NaC通道(非字符通道)。NaC通道表示所有其它编码符号通道的补充(例如,未知符号或符号转换)。矩阵内的每个横向位置对应于输入序列的某个位置。这可以是1:1映射或1:S映射,其中矩阵列x对应于输入序列位置x*S。S称为子采样因子。置信度值是实数值,该实数值与输入序列中相应位置处的某个符号的置信度或甚至概率相关。置信度值越高,分类器(例如,分类器模块)越高或越多地确定在特定序列位置处“看到”特定符号。置信度值可为伪概率。这种概率估计允许清洗(clean)数学处理。此外,可使用其它置信度值。正则表达式(也称为RegEx)是字符序列,描述一组字符串,使用这些字符串形成搜索模式,例如用于字符串匹配或“查找和替换”操作。正则表达式中的每个字符都可要么被理解为具有特定意义的元字符,要么被理解为具有其字面意义的正规字符。模式序列本身是一表达式,该表达式是语言中的语句,该语句专门设计用于以最简洁灵活的方式表示规定对象,以指导一般文本文件、特定文本形式或随机输入字符串的文本处理的自动化。输入序列可以以书面文本或语音文本的形式提供。提供置信矩阵的步骤可包括将书面文本或语音文本转换成置信矩阵,例如使用分类器模块来转换。可通过扫描文档来提供书面文本,以便提供文本的数字版本。该文档可包括手写文本。语音文本可作为音频文件提供。输入序列可包括一个或多个符号。数个符号可形成符号序列。该符号可包括字母(例如A到Z、a到z)、数字(例如0到9)、标点符号(例如“.”,“?”或“-”)、控制符号(例如“@”)和空格。正则表达式可包括一个或多个嵌入式词典。嵌入式词典提供一个或多个术语,并可被视作占位符。嵌入式词典可包含任何字符串。例如,词典可包括城市列表。可通过词典将城市包含在正则表达式中。正则表达式可包括正则表达式组(也称为RegEx组)。正则表达式可定义正则表达式中用于在置信矩阵上解析的标记区。RegEx组是左右括号之间的字符子序列。RegEx组可被标记,以便可在工作流程中通过RegEx组的标识访问子序列。正则表达式可包括数个可被标记的RegEx组。例如,正则表达式组可定义为RegEx="(?<HNr>[0-9]{1,4}[A-Za-z]?)?(?<street>[[:dictStreet:]])"。诸如“14AHamburgerStraβe”的地址可在地址部分之间没有间隙地手写(如此手写“14AHamburgerStraβe”)。使用正则表达式,该地址将被正确识别为HNr.(门牌号):14A和街道名称:HamburgerStraβe。将不会错误识别为HNr.:14和街道名称“AHamburgerStraβe”。地址在没有正则表达式组的情况下不可能被解析。为了分析和标记地址的元素,包括词典的正则表达式是必要的。这允许直接搜索给定置信矩阵的“最佳”符号序列。置信矩阵可以是结构化或半结构化输入序列的数字表示。该方法还可包括以下步骤:使用正则表达式解析结构化或半结构化输入序列。RegEx组是用于结构化及半结构化文本的强大解析工具。该方法可为所有定义的RegEx组提供相应的子序列,便于将输入序列智能解析成相关的子组成部分。该方法还可包括以下步骤:标记输入序列,其中输入序列的每个元素分配有得分值。结构化数据具有唯一的数据模型。结构化数据的单个元素可被直接标记。例如,在一表格中,每列都有其标识。可使用语法和词汇使半结构数据进入结构化形式。在构造半结构化数据之后,可对单个元素进行标记。数据是否是结构化、半结构化甚至非结构化的都不会影响置信矩阵。然而,它对使用正则表达式解码置信矩阵,即评估置信矩阵有影响。数据的结构可包括用于解码的所谓约束。换言之,只可能但没有意义的标识是“允许的”。这些解码条件使用正则表达式来表示。因为识别元素的类型和数量不是已知的,所以正则表达式对于解码半结构化数据是必要的。在RegEx表示特定单词的情况下,RegEx可以是简单的字符串;或者,在即将解析具有复杂模式的序列的情况下(例如对于邮政地址、电子邮件地址、日期和时间等),RegEx可以是包括一个或多个嵌入式词典和/或RegEx组的复杂表达式。有效匹配可作为按得分排序的列表提供。RegEx组可表示子序列,并因此支持非常复杂的解析方案。RegEx组可用于复制与RegEx组相关联的输入序列的内容。例如,RegEx组可包括五位数字(例如邮政编码)。在输入序列中查找到的五位数字的所有示例都可通过RegEx组复制。该方法还可包括,将输入序列转录成符号序列或字符编码方案。例如,输本文档来自技高网...
文本识别方法和计算机程序产品

【技术保护点】
一种文本识别方法,其中所述方法由计算设备的处理器执行,并且包括以下步骤:提供置信矩阵,其中所述置信矩阵是输入序列的数字表示,输入正则表达式,搜索所述输入序列的与所述正则表达式相匹配的符号序列,其中,所述处理器使用所述置信矩阵的置信度值来计算得分值,其中所述得分值是所述输入序列的符号序列与所述正则表达式之间的匹配品质的指示,其中所述搜索的步骤是对所述置信矩阵执行的。

【技术特征摘要】
【国外来华专利技术】2014.12.05 EP 14196570.71.一种文本识别方法,其中所述方法由计算设备的处理器执行,并且包括以下步骤:提供置信矩阵,其中所述置信矩阵是输入序列的数字表示,输入正则表达式,搜索所述输入序列的与所述正则表达式相匹配的符号序列,其中,所述处理器使用所述置信矩阵的置信度值来计算得分值,其中所述得分值是所述输入序列的符号序列与所述正则表达式之间的匹配品质的指示,其中所述搜索的步骤是对所述置信矩阵执行的。2.根据权利要求1所述的方法,其中,提供所述置信矩阵的步骤包括将书面文本或语音文本转换成所述置信矩阵。3.根据权利要求1或2所述的方法,其中,所述正则表达式包括正则表达式组,其中,所述正则表达式定义所述正则表达式中用于在置信矩阵...

【专利技术属性】
技术研发人员:韦尔夫·伍兹里希
申请(专利权)人:星球智能有限责任公司
类型:发明
国别省市:德国,DE

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1