邮件地址阅读器、分类机以及字符串识别方法技术

技术编号:2935893 阅读:286 留言:0更新日期:2012-04-11 18:40
用于识别邮件表面上的收件人地址的地址阅读方法和装置。在本发明专利技术中,输入邮件表面的图象,并将其分割为至少一个字符串候选项。根据分割的字符串候选项从图象中提取至少一个地址区域候选项。根据指示收件人地址区域的通常位置的预定位置信息、指示适于所述预定位置信息的字符串的字符方向的字符方向信息、以及指示最可能存在于收件人地址中的字符串的关键字符串信息,通过分析每个地址区域候选项,将地址区域候选项之一选择为邮件的收件人地址区域。将选择的地址区域候选项的字符串中的字符识别为用于对邮件进行分类的收件人地址。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种用于识别邮件(信函、包裹、明信片、期刊)表面上的地址或者姓名的地址阅读方法及装置。更具体地,本专利技术涉及一种用于通过确定一个地址区域是否最可能是含有与特定地址或者姓名比如邮件的收件人相应的地址或者姓名的地址区域来识别邮件表面上的地址和姓名的地址阅读方法及装置。在从邮件表面识别地址的常规方法中,执行下述步骤(1)将邮件的图象进行光电转换并作为数字图象输入到地址识别器中,(2)从邮件的数字图象中提取地址区域候选项,其中每个地址区域候选项包括多个字符行和地址行候选项,以及(3)读取地址区域候选项中所包括的字符,并解释为字符串。在Proc.of International Workshop on Industrial Applications ofMachine Intelligence and Vision(MIV-89),IEEE,April 10,1989中H.Yashiro等人著的“A New Method of Document Structure ExtractionUsing Generic Layout Knowledge”中公开了用于完成上述步骤(2)的技术。该篇文件描述了如果图象区域包括一个字符行,则提取包括该图象区域的区域作为地址区域候选项。在T.Akiyama等人著的“Document Image Segmentation MethodBased on Projection Profiles and State Densities”中公开了用于完成上述步骤(2)的另一种技术。该篇文件描述到,首先提取可能说明了一个地址的区域,然后提取该区域内的一个字符行。当提取该地址区域候选项时,拾取几个地址区域。在Proc.of Icpr’96,IEEE,1996中N.Nakajima著的“Analysis ofAddress Layout on Japanese Handwritten Mail”中描述了另外一种技术。该篇文件说明了一种使用格式信息的方法,格式信息比如是图象中地址区域候选项的排列、地址区域候选项的形状、地址区域候选项中字符行的排列以及邮件图象的形状。一般地,即使根据格式信息选择了一个地址区域,选择结果也取决于字符方向和处理结果。仅利用格式信息难于正确区分字符方向。例如,在图3A所示的地址区域300中,字符行“Flower,AZ 11111”显示为部分地址。在某些情况下,根据字符行在地址区域300中的位置或者形状,不能确定邮件形状与地址区域中字符行方向之间的关系。字符行方向是一行字符中各连续字符的布置方向。在一行字符中,通常将一个字符写在前一个字符的右侧。在图3A的情况下,字符行方向是从左到右。矩形邮寄品的常规地址识别设备在以下情况下不能确定正确的字符行方向(1)当邮件形状是长方形,地址区域候选项中的字符行方向是横向的,从左向右书写时。图3A的较上方向是字符的上部。(2)当邮件的形状是长方形,地址区域候选项中的字符行方向是横向的,与从字符顶到底相反的方向书写时。字符行是横向的,从右到左书写。(3)当字符行的方向和字符的方向是向右的时。在图3A中,字符行是垂直的,从左向右书写。(4)当邮件形状为长方形,在上述情形(3)中,字符行方向和字符下的方向都为向右方向。字符行是垂直的,从右向左书写。因此,根据上述,通过利用格式信息不能从几个地址区域候选项中选择一个正确的地址区域,因为格式信息不针对这些情况。日本专利公开出版物8-224550公开一种通过获得地址区域信息来执行地址处理的装置。在该篇文件中,第一步骤分析作为候选项提取的地址区域中的字符行候选项的排列,第二步骤选择该地址区域候选项的首行。第三步骤识别该首行中的模式,并且识别所识别的模式是否是有效地址。第四步骤和最后步骤如果确定有效则选择包括该地址首行的地址区域作为正确地址。当将上述常规技术应用于地址识别设备比如邮件分类机时,存在以下问题。在读邮件地址时,需要时间通过提取特定区域在地址区域候选项中精确地执行收件人地址字符识别。因此,处理大量邮件的邮件分类机,在机器需要速度和精度时,不能使用上述常规技术,因为它非常费时。另外,象图画或标记这样的噪声,它相对于邮件中所述的邻近地址中的字符是模糊的,和相对于邮政编码不清楚的字符以及象广告这样的地址能够产生问题。另外,根据与格式有关的信息难于确定地址区域候选项中的字符方向,因为字符方向取决于字符本身以及含有该字符的字符串的信息。本专利技术提供一种地址阅读方法和装置,用于从由邮件表面获得的几个地址区域候选项中选择一个特定的地址,作为一个最可能的含有例如收件人地址的地址区域,并且用于识别所选择的地址区域中所含的字符串。邮件包括信函、明信片、包裹、期刊等。地址例如包括收件人和目的地址。收件人例如可能是个人、公司、单位、部门等。目的地址例如可能包括套房、公寓或者楼层号等、城市、州和邮政编码、国家。本专利技术提供一种地址阅读方法和装置,用于识别在一个特定地址区域中所含的字符,该特定地址区域是从多个地址区域候选项中选择出来的最可能含有收件人地址的地址区域。本专利技术通过输入邮件表面的图象并且将该图象分割为至少一个字符串候选项来完成以上所述。然后,根据该字符串候选项提取至少一个地址区域候选项,并且将至少一个地址区域候选项选择为邮件的收件人地址区域。该选择是通过根据预定位置信息、适于预定位置信息的字符方向信息、以及关键字符串信息对至少一个地址区域候选项中的每一个进行分析实现的。然后,通过分析其内所含的字符串,识别所选择的地址区域候选项中所含的收件人地址。本专利技术的地址阅读方法和装置例如可以构成邮件分类机的一部分,邮件分类机包括一个扫描器和一个分类器。扫描器扫描邮件表面,将表面图象输入到本专利技术的地址阅读方法和装置中。分类器接收本专利技术的地址阅读方法和装置所输出的已识别的收件人地址,并且根据所识别的收件人地址对邮件进行分类。将一个地址区域候选项选择为例如最可能含有收件人地址,是通过对地址区域候选项中的字符串与关键字符串进行比较实现的。该关键字符串是对于待考虑的地址区域,例如收件人地址的一部分,最可能存在于地址区域候选项中的字符串。如果该关键字符串存在于地址区域候选项的字符串中,并且对于位置信息和字符方向,该关键字符串位于适当的位置和字符方向,则将该地址区域候选项选择为一个最可能含有收件人地址的地址区域候选项。参照附图,通过以下详细描述,本专利技术的范围会更加明显,虽然这种详细描述和具体例子指示了本专利技术的优选实施方式,但是只是用于说明,因为对于本领域内熟练的技术人员而言,根据这种详细描述,在本专利技术的实质和范围内做出各种改变和修改将是明显的。附图说明图1示出本专利技术的一个实施方式的数据流;图2示出本专利技术的一个实施方式的处理流;图3A至图3C示出地址区域候选项的例子;图4A至图4H示出利用预定信息将被识别的字符串方向的例子;图5示出本专利技术中使用的字符串搜索处理的数据流;图6示出分割字符串网络的例子;图7示出分类结果网络的例子;图8示出根据分类结果网络形成的分类结果表;图9A和图9B示出一个搜索树和根据搜索树形成的搜索树表;图10示出字符串搜索处理的处理流;图11A至图11E示出在位置关系分析处理中使用预定信息的本文档来自技高网...

【技术保护点】
一种识别邮件表面上的收件人地址的地址阅读方法,所述地址阅读方法包括以下步骤: 输入邮件表面的图象; 将所述图象分割为至少一个字符串候选项; 根据所述至少一个字符串候选项提取至少一个地址区域候选项; 根据指示收件人地址区域的通常位置的预定位置信息、指示适于所述预定位置信息的字符串的字符方向的字符方向信息、以及指示最可能存在于收件人地址中的字符串的关键字符串信息,通过分析所述至少一个地址区域候选项中的每一个,将所述至少一个地址区域候选项中的一个选择为邮件的收件人地址区域;以及 将所选择的地址区域候选项中字符串中的字符识别为收件人地址。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:古贺昌史影広达彦上田洋渡边成藤泽浩道
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1