当前位置: 首页 > 专利查询>西门子公司专利>正文

检索在文件中的文本块的方法技术

技术编号:2925770 阅读:207 留言:0更新日期:2012-04-11 18:40
说明了一种检索在文件中的文本块的方法,特别在要分选的邮政邮件例如大宗邮件中使用。借助参照文本块的表征性特征数据记录应该能够在任意种类的文件中检索或者识别这些参照文本块。在此,作为表征性特征抽取该文本块的与结构有关的特征,并且与一个参照文本块的一个特征数据记录的特征比较,使得在多个文本块之间尽可能进行相似特征的一种简单的识别。与结构有关的特征的第一次抽取例如可以通过把一个文本块拆分为多个行进行,行的高度或者距离在邮件的一个特征数据记录中存储。由此通过比较该特征数据记录能够检查不同文本块的相似性。

【技术实现步骤摘要】
【国外来华专利技术】M在文件中的文本块的方法 本专利技术涉及一种根据权利要求1的前序部分的在文件中检索文本块的方法。在可能会包含文本、图像、符号等的印刷品例如数字化的文件或者邮政邮 件中,经常重要的是,在同一印刷品内或者在另一个印刷品内检索规定的文本±央或者文秘落,无需阅读内容或辦释该文本块,因为解释(例如舰OCR 系统)可能太耗时或者可能出错。此外,这还应用在对图像数据库的检索、在 文件管理中或者还在表格分析。为此首先要从一个样本文本i央产生一个特征数 据记录并且存放或者存储在数据库中。需要时在同一印刷品或者其他的印刷品 中为要识别的文本:t^^叟索候选文本块。从找到的纟M文本块中根据同一方法产 生一^4寺征数据记录,并且把该特征数据记录与在数据库中存储的特征数据记 录比较。通常大量要搜索的印刷品和/或该印刷品的复杂性使得检索这些文本块的 搜索空间很大,特别是在維邮政邮件时。因此必须寻找在该搜索空间中分离特征数据记录的特征和识别方法。为此 使用不同的说明文本块的特征。挑战在于在非常复杂的印刷品或者在数量非常大的印刷品中,当这些印 刷品总共具有大量并且与要查找的文本块具有大的相似性的文本块的情况下来 对文本块进柳别。对于选择适宜的特征而言例如要分选的邮政邮件的,是特别重要的。人 们区分普通邮件和大宗邮件。前者可以容易地借助已知的方法区分,因为它们 例如M:它们的色度彼此十分不同。然而一类大宗邮件例如具有相同的色度。 它们通常具有相同的元素例如符号、徽标和邮票,仅仅是接收者地址的区域有 所不同。因此4OT地址特征(例如开销大的字识别)是十分必要的。本专利技术的技术问题在于提出一种用于在复杂印刷品中检索文本块的简单方法,而无需对文本块的内容进4,率释(例如i!5iOCR系统)。 特别是该方法应该适合优化分选邮局要,的大宗邮件。根据本专利技术,该技术问题Mil权利要求1的特征得以解决。 細于在文件(最好是鄉邮政邮件,如大宗邮件)中检索文本块的方法 出发,应该能够借助参照文本块的表征性特征数据记录检索或者识别任意种类 文件中的所述文本块。在此抽取文本块的与结构有关的和不需文本解释的特征 作为表征性特征,并且与一个参照文本块的一^#征数据记录的特征比较,以 便执行多个文本±央之间的相似特征的尽可能简单的识别。一般而言, 一个文本i娥供多种m^宜特tea行说明的可能,从而能够 产生一个所属的特征数据记录,该特征数据记录唯一表征该文本块并且与其他 文本块区分。尤其重要的是不比进行文本块的内容解释从而不进行根据字义 文本内容的比较。在许多应用中对于文本块的图像似的识另鹏出了很高的要求。因iw专利技术 的方法表示下面的优点-高鲁棒性,基于纯识别结构的例如图形的文本±央而不进行字义的解释,-高识别速率,其可以与樹氐的识另咄错率结合,-文本±央或者有目标的邮政邮件的简单的拒收,-实时性,亦即在几毫秒的确定的时间内一定产生识别结果,和-不^51规定存储容量的特征的^ffi。本专利技术的有利的扩展方案在从属^R利要求中进行了说明。在第一 烦文本i央进行分类时抽取该文本块的一个或者(可能的话)多个与粗略结构相关的特征,其涉及,文本块的图形特征。这些特征与解释文本相比兽,非常简单地和快3Iiik3a行。例如涉及文本块的大小、该文本i央在印刷品内的位置、该文本块的填充度、该文本块内的行数、该文本块内4亍之间的间 隔的大小和/或该文本块中的行的文字高度。除了第一次分类之外,在第二次对文本i央进行分类时可以抽取该文本块的 一个或者多个与结构相关的细致特征,它们仅涉及该文本块的单个行的图形特 征。然而如所述在此不进行单个文本元素的任何解释。这里4,的特征可以从 下述内容中选择 一行内的关系域(Zusammenhangsgebieten)数、关系域的频 度、 一行中的色值转换和(如果可能的话)多行时它们的矩阵形式和/或行轮廓。为分配这些特征作为特征数据记录而采用特征矢量,其在识别处理中为分 逾比较例如两个文本块而被调用。特别是,例如包含一个笔路(Schriflzug)与一行上缘的距离和笔路与该行下缘的距离的行轮廓的特征例如借助沿该行的离散扫描值登记在一个矩阵矢量 中。一般而言,把印刷品文本块的与结构有关的特征按照以下方式在特征数据记录中安排使得可执行地保持同一类歹俩^t寺征之间的比较。换句话说,为 识别文本块,根据粗略分类或者(可能的话)细致分类,按照特征数据记录的所属关系来将这對寺征翻记^a行相互比较。但是可能会发生下述情况在要检查的文本块的两4^寺征数据记录之间存 在出现细微不一致的特征盼瞎况下,对特征进行新的分配,SM31把不一致的特征例如分配给一个空位,使得仅比较两^tr征数据记录的相同类型的特征。换句话说,在两个文本块的两4^寺征数据记录之间有一个不一致的特征而其他特征相同的情况下对该特征数据记录中的一4it征数据记录进行新的分配,使得能够比较两^f寺征数据记录的相同类另啲最大数目的特征。这样一种情况例 如可以在文本块中有一^H昔误的文本部分时出现,特别由于一个邮件的文本块 中的一个错误的行相对于一个完整的文本块在另一个位置其应该与第一文本块 相似。下面在一个实施例中根据附图说明本专利技术。在该实施例中说明分选装置中邮件的识别。这些邮件在邮局物流(Postlogistik)中通常M51多个分选设备,这些邮件在这,选设备中始终ltt新识别。 附图中,图l:示出地址区域被拆分为行, 图2:示出行l^廓的生成,图3A:示出一个由P件的一个地址区域的一次检测,图3B:示出在带有错误行的一个新的由附中的相同地址区域的一次检测, 图3C:示出行的新对应关系。为了改进邮政邮件的图像识别,必须使用支持的特征和所属的识别方法, 该方法详细说明文本块以及特别是地址,并且检查它们的相似性。为此的前提 是在邮政邮件内形成被检测的文本对象。这些文本对象可以分为两类,确切说國普通文本,其例如表示广告字样等,或者-地址,其指定一个邮件的接收人或者邮寄人。一般,齡邮件包含至少一个文本±央,然而通常是多个。特别是为区分结 构上非常相似的地址区域,必须规定非常详细地说明它的表征性特征。 为说明文本i央把特征分为-产生该文本的粗略说明的特征,用于预分类,以及 一非常详细地说明该文本的特征,用于细分类。首先,从效,虑尽力把在其布局中与要查找的文本块不相应的文本iM早排除。这具有这样的优点,仅当需要时才使用与复杂的分析方法结合的复杂 的特征。由此相似性的计算在品质上和时间上被优化。用于第一分类的特征具有粗略检查文本块的相似性的用途。这^tr征特别涉及..-文本块的大小,-在邮件内该文本块的位置,-行数,-行间隔的大小, -文字高度,和 -该文本块的填充度。图1示出在把全范围的地址区域(图中上部)拆分为三个行l、 2、 3 (图中下部)时怎样把有关的特征数据记录理解为行和行间隔。文字大小(例如该 行的最大的大写字母)于是相应于行高度。根据该特征结合简单的距离尺寸和 决定方法,育^够执行两个文本的相似性的粗略的分析或者分类。这些特征被简单地、快3Ii也并且可靠地被检测,并且存储要求可以忽略不计。对于根据这一准则记载的文本块使用综合的方法检查其相似性。为此一方 面检t个文本的结构,另一方面,精确检查产生的本文档来自技高网...

【技术保护点】
检索在文件中的文本块的方法,其特征在于,抽取文本块中的与结构有关的特征并与参照文本块的特征数据记录的特征进行比较。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:K沃姆
申请(专利权)人:西门子公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1