名片识别方法、装置及系统制造方法及图纸

技术编号:13457813 阅读:65 留言:0更新日期:2016-08-03 16:11
本发明专利技术涉及一种名片识别方法、装置及系统,所述名片识别方法、装置及系统基于对待识别的名片图像的预处理以及对预处理后得到的优化名片图像进行字符分割和特征向量提取,先后经过粗选及精选确定文字识别样本,再根据文字识别样本进行语义分析和动态调整后,根据关键字将分割的内容行中的文字内容归类到电话薄中的相应字段并进行存储,采用本发明专利技术所提出的名片识别方法、装置及系统,不需要复杂版面分析及划分,且特征向量的计算量较小,抗干扰能力较强,能够较好地实现对待识别的名片图像的字符分割、识别及内容归类,为名片识别提供了一种有效可行的技术手段。

【技术实现步骤摘要】

本专利技术涉及图像识别
,特别是涉及一种名片识别方法、装置及系统
技术介绍
纸质名片作为一种简明、美观的信息载体在日常的商务活动、社交活动中扮演着重要的角色,用户在获得纸质名片后,为了便于查看和保存,往往需要将纸质名片上的各项信息,如姓名、公司、电话等重要信息存储在移动终端上,以便于在需要时能够及时获取到相关信息。一般情况下,用户是通过手动输入的方式将姓名、公司、电话等重要信息逐项输入到移动终端并保存的,但是这种手动输入的方式不仅存在效率低下的问题,而且很容易出错。针对用户将纸质名片上的信息智能化录入移动终端的需求,基于光学字符识别(OpticalCharacterRecognition,OCR)技术的名片识别应运而生。OCR是一种通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品上的文字转化为图像信息,再利用文字识别技术将图像信息转化为计算机可处理信息的技术,被广泛应用于银行票据、大量文字资料、文案的录入和处理等领域,OCR不仅提高了信息录入的效率,而且可节省大量的人力物力。目前基于OCR的名片识别方法的特征表示通常采用像素分布、像素值总和等特征表示,识别算法主要通过比较高斯距离而实现,在特征计算空间复杂度、时间复杂度以及识别准确度等方面仍存在局限性,且特征向量位数大,占用空间大,计算量大,抗干扰能力差,容易受字体字号等因素的影响,导致名片识别效率不高,用户的体验度不高。r>
技术实现思路
基于此,有必要针对纸质名片识别率不高、用户的体验度不高的问题,提供一种名片识别方法、装置及系统,该名片识别方法、装置及系统能够较好地实现名片内容归类及存储,提高了名片识别和信息录入的效率。为解决上述问题,本专利技术采取如下的技术方案:一种名片识别方法,所述方法包括以下步骤:获取待识别的名片图像,并对所述名片图像进行预处理,得到优化名片图像;对所述优化名片图像进行投影,得到单个文字区域图像,提取所述单个文字区域图像的粗选特征向量和精选特征向量;根据所述粗选特征向量和预设粗选特征向量集进行粗选处理,获得粗选特征向量样本集;根据所述精选特征向量和所述粗选特征向量样本集进行精选处理,获得文字识别样本;根据所述文字识别样本进行语义分析和动态调整,识别出所述内容行的文字内容,根据关键字将所述文字内容归类到电话薄中的相应字段并进行存储。一种名片识别装置,所述装置包括:预处理模块,用于获取待识别的名片图像,并对所述名片图像进行预处理,得到优化名片图像;分割提取模块,用于对所述优化名片图像进行投影,得到单个文字区域图像,提取所述单个文字区域图像的粗选特征向量和精选特征向量;粗选模块,用于根据所述粗选特征向量和预设粗选特征向量集进行粗选处理,获得粗选特征向量样本集;精选模块,用于根据所述精选特征向量和所述粗选特征向量样本集进行精选处理,获得文字识别样本;识别模块,用于根据所述文字识别样本进行语义分析和动态调整,识别出所述内容行的文字内容,根据关键字将所述文字内容归类到电话薄中的相应字段并进行存储。一种名片识别系统,所述系统包括摄取待识别名片的图像的摄像装置和连接所述摄像装置的如上所述的名片识别装置,所述摄像装置摄取待识别的名片的图像,并将名片图像上传至所述名片识别装置;所述名片识别装置对所述名片图像进行文字识别,并将识别出的文字内容归类到电话薄中的相应字段并进行存储。上述名片识别方法、装置及系统,基于对待识别的名片图像的预处理以及对预处理后得到的优化名片图像进行字符分割和特征向量提取,先后经过粗选及精选确定文字识别样本,再根据文字识别样本进行语义分析和动态调整后,根据关键字将分割的内容行中的文字内容归类到电话薄中的相应字段并进行存储,采用本专利技术所提出的名片识别方法、装置及系统,不需要复杂版面分析及划分,且特征向量的计算量较小,抗干扰能力较强,能够较好地实现对待识别的名片图像的字符分割、识别及内容归类,为名片识别提供了一种有效可行的技术手段。附图说明图1为本专利技术其中一个实施例中名片识别方法的流程示意图;图2为本专利技术其中一个具体实施方式中名片识别方法的流程示意图;图3为本专利技术其中一个实施例中名片识别装置的结构示意图。具体实施方式下面将结合附图及较佳实施例对本专利技术的技术方案进行详细描述。OCR是一种通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品上的文字转化为图像信息,再利用文字识别技术将图像信息转化为计算机可处理信息的技术,例如,电子设备(例如平板电脑、智能手机、扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后利用字符识别方法将形状翻译成计算机能够处理的文字信息,上述过程即是对文本资料进行扫描,然后对图像文件进行分析处理,获取文字信息的过程。本专利技术技术将以OCR图像分析处理技术为基础,对纸质名片进行智能化识别和管理,从而为名片的信息录入和保存提供一种优秀、高效的技术手段。在其中一个实施例中,参见图1所示,一种名片识别方法,所述方法包括以下步骤:S100获取待识别的名片图像,并对所述名片图像进行预处理,得到优化名片图像。在本步骤中,待识别的名片的图像可以利用电子设备,如平板电脑、智能手机、扫描仪或数码相机等对待识别的纸质名片进行拍摄而得到;在文字识别
,对图像进行预处理,能够突出需要的有用的数据信息,同时减少背景噪音等的干扰,有利于提高文字识别的准确性。作为一种具体的实施方式,对名片图像进行预处理的过程包括:对名片图像进行灰度化处理、二值化处理、降噪处理和倾斜校正处理。在本实施方式中,对名片图像进行预处理过程中,分别对名片图像进行灰度化处理、二值化处理、降噪处理和倾斜校正处理,经过灰度化处理和二值化处理后,名片图像由原来的彩色图像转化为具有黑白效果的图,使得在对图像进行进一步处理时,图像的集合性质只与像素值为0或255的点的位置有关,不再涉及像素的多级值,从而简化处理过程,减小数据的处理量和压缩量;灰度化和二值化处理后,对得到的图像再进行降噪处理和倾斜校正后,即可获得优化名片图像,该优化名片图像是后续文字识别的基础。S110对所述优化名片图像进行投影,得到单个文字区域图像,提取所述单个文字区域图像的粗选特征向量和精选特征向量。在文字识别
,通过对图像中的文字所在的行的方向及与行的方向相对的纵向方向进本文档来自技高网...

【技术保护点】
一种名片识别方法,其特征在于,包括以下步骤:获取待识别的名片图像,并对所述名片图像进行预处理,得到优化名片图像;对所述优化名片图像进行投影,得到单个文字区域图像,提取所述单个文字区域图像的粗选特征向量和精选特征向量;根据所述粗选特征向量和预设粗选特征向量集进行粗选处理,获得粗选特征向量样本集;根据所述精选特征向量和所述粗选特征向量样本集进行精选处理,获得文字识别样本;根据所述文字识别样本进行语义分析和动态调整,识别出所述内容行的文字内容,根据关键字将所述文字内容归类到电话薄中的相应字段并进行存储。

【技术特征摘要】
1.一种名片识别方法,其特征在于,包括以下步骤:
获取待识别的名片图像,并对所述名片图像进行预处理,得到优化名片图
像;
对所述优化名片图像进行投影,得到单个文字区域图像,提取所述单个文
字区域图像的粗选特征向量和精选特征向量;
根据所述粗选特征向量和预设粗选特征向量集进行粗选处理,获得粗选特
征向量样本集;
根据所述精选特征向量和所述粗选特征向量样本集进行精选处理,获得文
字识别样本;
根据所述文字识别样本进行语义分析和动态调整,识别出所述内容行的文
字内容,根据关键字将所述文字内容归类到电话薄中的相应字段并进行存储。
2.根据权利要求1所述的名片识别方法,其特征在于,根据所述粗选特征
向量和预设粗选特征向量集进行粗选处理,获得粗选特征向量样本集,以及根
据所述精选特征向量和所述粗选特征向量样本集进行精选处理,获得文字识别
样本的过程包括:
将所述粗选特征向量与所述预设粗选特征向量集中的各个预设粗选特征向
量进行相似度计算,得到各个所述预设粗选特征向量对应的第一相似度,将所
述第一相似度大于第一阈值的预设粗选特征向量的集合作为所述粗选特征向量
样本集,根据所述粗选特征向量样本集获得对应的精选特征向量样本集;
将所述精选特征向量与所述精选特征向量样本集中的各个精选特征向量样
本进行相似度计算,得到各个所述精选特征向量样本对应的第二相似度,将所
述第二相似度大于第二阈值的精选特征向量样本对应的文字作为所述文字识别
样本。
3.根据权利要求2所述的名片识别方法,其特征在于,
当所述第二相似度小于或者等于所述第二阈值时,从预设精选特征向量样
本集中提取预设精选特征向量样本加入至所述精选特征向量样本集中,并将所
述精选特征向量与当前精选特征向量样本集中的各个精选特征向量样本进行相
似度计算,直至得到所述第二相似度首次大于所述第二阈值时对应的当前精选

\t特征向量样本集中的精选特征向量样本,将所述第二相似度首次大于所述第二
阈值时对应的当前精选特征向量样本集中的精选特征向量样本对应的文字作为
所述文字识别样本。
4.根据权利要求2或3所述的名片识别方法,其特征在于,
所述第一相似度为所述粗选特征向量与所述预设粗选特征向量集中的各个
预设粗选特征向量之间的余弦距离,
所述第二相似度为所述...

【专利技术属性】
技术研发人员:谭鑫凌海峰夏丽丽郭维坚陈天明
申请(专利权)人:世纪龙信息网络有限责任公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1