检索在文件中的文本块的方法技术

技术编号：2925770 阅读：207 留言：0更新日期：2012-04-11 18:40

说明了一种检索在文件中的文本块的方法，特别在要分选的邮政邮件例如大宗邮件中使用。借助参照文本块的表征性特征数据记录应该能够在任意种类的文件中检索或者识别这些参照文本块。在此，作为表征性特征抽取该文本块的与结构有关的特征，并且与一个参照文本块的一个特征数据记录的特征比较，使得在多个文本块之间尽可能进行相似特征的一种简单的识别。与结构有关的特征的第一次抽取例如可以通过把一个文本块拆分为多个行进行，行的高度或者距离在邮件的一个特征数据记录中存储。由此通过比较该特征数据记录能够检查不同文本块的相似性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】M在文件中的文本块的方法本专利技术涉及一种根据权利要求1的前序部分的在文件中检索文本块的方法。在可能会包含文本、图像、符号等的印刷品例如数字化的文件或者邮政邮件中，经常重要的是，在同一印刷品内或者在另一个印刷品内检索规定的文本±央或者文秘落，无需阅读内容或辦释该文本块，因为解释(例如舰OCR 系统)可能太耗时或者可能出错。此外，这还应用在对图像数据库的检索、在文件管理中或者还在表格分析。为此首先要从一个样本文本i央产生一个特征数据记录并且存放或者存储在数据库中。需要时在同一印刷品或者其他的印刷品中为要识别的文本:t^^叟索候选文本块。从找到的纟M文本块中根据同一方法产生一^4寺征数据记录，并且把该特征数据记录与在数据库中存储的特征数据记录比较。通常大量要搜索的印刷品和/或该印刷品的复杂性使得检索这些文本块的搜索空间很大，特别是在維邮政邮件时。因此必须寻找在该搜索空间中分离特征数据记录的特征和识别方法。为此使用不同的说明文本块的特征。挑战在于在非常复杂的印刷品或者在数量非常大的印刷品中，当这些印刷品总共具有大量并且与要查找的文本块具有大的相似性的文本块的情况下来对文本块进柳别。对于选择适宜的特征而言例如要分选的邮政邮件的，是特别重要的。人们区分普通邮件和大宗邮件。前者可以容易地借助已知的方法区分，因为它们例如M:它们的色度彼此十分不同。然而一类大宗邮件例如具有相同的色度。它们通常具有相同的元素例如符号、徽标和邮票，仅仅是接收者地址的区域有所不同。因此4OT地址特征(例如开销大的字识别)是十分必要的。本专利技术的技术问题在于提出一种...

【技术保护点】
检索在文件中的文本块的方法，其特征在于，抽取文本块中的与结构有关的特征并与参照文本块的特征数据记录的特征进行比较。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：K沃姆，
申请(专利权)人：西门子公司，
类型：发明
国别省市：DE[德国]

全部详细技术资料下载我是这个专利的主人