一种文字获取、识别、检索、分析方法及其设备技术

技术编号:35290933 阅读:14 留言:0更新日期:2022-10-22 12:36
本发明专利技术公开了文字识别技术领域的一种文字获取、识别、检索、分析方法及其设备,包括图像采集模块、文字获取模块、文字扫描模块、文字分析模块和文字储存模块,其方法步骤包括:S1:使用图像采集模块采集带有文字的自然场景图像信息;S2:使用文字获取模块对图像上的图像文字图片框选;S3:使用文字扫描模块将框选的图像文字按照字符的高度进行逐行扫描,直至扫描完所有的字符,该文字获取、识别、检索、分析方法及其设备,通过图像采集模块采集自然场景图像信息上的字符信息,并通过文字扫描模块对图片文字进行逐行的快速扫描,并通过匹配对比文字数据库来进行快速识别,支撑多种语种的对应识别,识别速度快,识别效率高,准确率高。准确率高。

【技术实现步骤摘要】
一种文字获取、识别、检索、分析方法及其设备


[0001]本专利技术涉及文字识别
,具体为一种文字获取、识别、检索、分析方法及其设备。

技术介绍

[0002]利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期,出现了多种字体和手写体文字识别机,其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究,文字识别可应用于许多领域,如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理,以及水、电、煤气、房租、人身保险等费用的征收业务中的大量信用卡片的自动处理和办公室打字员工作的局部自动化等。以及文档检索,各类证件识别,方便用户快速录入信息,提高各行各业的工作效率。
[0003]文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等,扫描OCR文字识别软件,支持全能扫描拍照识别翻译技术,是图片转文字中一款支持文字提取及文字编辑功能的拍图识字翻译软件。
[0004]现有的文字识别设备,结构复杂,在识别过程中,识别文字的准确率较低,且识别速度较慢,效率低。

技术实现思路

[0005]本专利技术的目的在于提供一种文字获取、识别、检索、分析方法及其设备,以解决上述
技术介绍
中提出了现有的文字识别设备,结构复杂,在识别过程中,识别文字的准确率较低,且识别速度较慢,效率低的问题。
[0006]为实现上述目的,本专利技术提供了一种文字获取、识别、检索、分析设备包括图像采集模块、文字获取模块、文字扫描模块、文字分析模块和文字储存模块。
[0007]优选的,所述图像采集模块用于采集带有文字的自然场景图像信息。
[0008]优选的,所述文字获取模块用于获取自然场景图像信息上的字符信息。
[0009]优选的,所述文字扫描模块用于对自然场景图像信息上的字符信息进行扫描。
[0010]优选的,所述文字分析模块用于将扫描后的字符信息与数据库中的字符信息进行
匹配,并将其字符信息转换成数据库中字符信息相对应的文字。
[0011]优选的,所述文字储存模块用于储存文字数据库和扫描后的字符信息。
[0012]本专利技术还提供一种文字获取、识别、检索、分析方法,包括如下步骤:
[0013]S1:使用图像采集模块采集带有文字的自然场景图像信息;
[0014]S2:使用文字获取模块对图像上的图像文字图片框选;
[0015]S3:使用文字扫描模块将框选的图像文字按照字符的高度进行逐行扫描,直至扫描完所有的字符;
[0016]S4:将扫描后的字符信息与储存在文字储存模块中的文字数据库的字符信息进行匹配,找到相似度最高的的字模文字,并通过文字分析模块转换为可编辑文字的形式输出。
[0017]优选的,所述图像文字图片框选采用矩形文本框的形式进行框选,并与图片文字字符的高度和宽度像素边缘相切。
[0018]优选的,所述文字数据库中包括楷体、宋体、黑体、隶书、行楷、仿宋的字体模型库,还包括简体中文、繁体中文、英文、日文、韩文文字模型库。
[0019]与现有技术相比,本专利技术的有益效果是:该文字获取、识别、检索、分析方法及其设备,通过图像采集模块采集自然场景图像信息上的字符信息,使用文字获取模块对图像上的图像文字图片框选,并通过文字扫描模块对图片文字进行逐行的快速扫描,将扫描后的字符信息与储存在文字储存模块中的文字数据库的字符信息进行匹配,找到相似度最高的的字模文字,并通过文字分析模块转换为可编辑文字的形式输出,支撑多种语种的对应识别,识别速度快,识别效率高,准确率高。
具体实施方式
[0020]下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]本专利技术提供了一种文字获取、识别、检索、分析设备包括图像采集模块、文字获取模块、文字扫描模块、文字分析模块和文字储存模块。
[0022]其中,图像采集模块用于采集带有文字的自然场景图像信息。
[0023]其中,文字获取模块用于获取自然场景图像信息上的字符信息。
[0024]其中,文字扫描模块用于对自然场景图像信息上的字符信息进行扫描。
[0025]其中,文字分析模块用于将扫描后的字符信息与数据库中的字符信息进行匹配,并将其字符信息转换成数据库中字符信息相对应的文字。
[0026]其中,文字储存模块用于储存文字数据库和扫描后的字符信息。
[0027]本专利技术还提供一种文字获取、识别、检索、分析方法,包括如下步骤:
[0028]S1:使用图像采集模块采集带有文字的自然场景图像信息;
[0029]S2:使用文字获取模块对图像上的图像文字图片框选;
[0030]S3:使用文字扫描模块将框选的图像文字按照字符的高度进行逐行扫描,直至扫描完所有的字符;
[0031]S4:将扫描后的字符信息与储存在文字储存模块中的文字数据库的字符信息进行
匹配,找到相似度最高的的字模文字,并通过文字分析模块转换为可编辑文字的形式输出。
[0032]其中,图像文字图片框选采用矩形文本框的形式进行框选,并与图片文字字符的高度和宽度像素边缘相切。
[0033]其中,文字数据库中包括楷体、宋体、黑体、隶书、行楷、仿宋的字体模型库,还包括简体中文、繁体中文、英文、日文、韩文文字模型库。
[0034]综上所述,本专利技术通过图像采集模块采集自然场景图像信息上的字符信息,使用文字获取模块对图像上的图像文字图片框选,并通过文字扫描模块对图片文字进行逐行的快速扫描,将扫描后的字符信息与储存在文字储存模块中的文字数据库的字符信息进行匹配,找到相似度最高的的字模文字,并通过文字分析模块转换为可编辑文字的形式输出,支撑多种语种的对应识别,识别速度快,识别效率高,准确率高。
[0035]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字获取、识别、检索、分析设备,其特征在于:包括图像采集模块、文字获取模块、文字扫描模块、文字分析模块和文字储存模块。2.根据权利要求1所述的一种文字获取、识别、检索、分析设备,其特征在于:所述图像采集模块用于采集带有文字的自然场景图像信息。3.根据权利要求1所述的一种文字获取、识别、检索、分析设备,其特征在于:所述文字获取模块用于获取自然场景图像信息上的字符信息。4.根据权利要求1所述的一种文字获取、识别、检索、分析设备,其特征在于:所述文字扫描模块用于对自然场景图像信息上的字符信息进行扫描。5.根据权利要求1所述的一种文字获取、识别、检索、分析设备,其特征在于:所述文字分析模块用于将扫描后的字符信息与数据库中的字符信息进行匹配,并将其字符信息转换成数据库中字符信息相对应的文字。6.根据权利要求1所述的一种文字获取、识别、检索、分析设备,其特征在于:所述文字储存模块用于储存文字数据库和扫描...

【专利技术属性】
技术研发人员:张洪岭
申请(专利权)人:合肥长月科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1