一种基于智能语料库的图片中不规则和有颜色文字识别系统技术方案

技术编号：36450863 阅读：40 留言：0更新日期：2023-01-25 22:47

本申请公开了一种基于智能语料库的图片中不规则和有颜色文字识别系统，涉及语言文字识别技术领域，包括以下步骤：S1、建立了完备的数据库，以支持将字拆分成其组成的偏旁和部首，若没有偏旁则无需拆分，然后通过图像识别技术，对拆分所得偏旁和部首进行识别抓取并编号，而后将编号填入数据库，使一个文字对应一个或多个编号；S2、区域性色块提取，通过图像识别技术，首先将所识别区域内的不同颜色，按照16色标准划分为多个板块，通过色差的方式进行凸出；通过区域性色块提取和区域性文字提取。该技术可对颜色较为复杂的PPT文件或其它图片文件中的文字和语句，按照不同类型或者话语进行自动提取，并按顺序将文字或语句排列和分段，大大提高了图片文字提取及转录时的便捷度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于智能语料库的图片中不规则和有颜色文字识别系统

[0001]本专利技术属于语言文字识别
，具体是一种基于智能语料库的图片中不规则和有颜色文字识别系统。

技术介绍

[0002]文字识别是一种借助图像处理实现识读附着于实体表面上文字信息的技术，文字识别作为一种信息处理的手段具有广阔的应用背景和巨大的市场需求,在诸如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理等方面具有十分重大的意义，而在众多识别领域中对于图片的识别是非常重要的一部分，一般图片中的颜色非常丰富，而且会有很多不规则的字体，这就增加了图片文字识别的难度。
[0003]现在市场上对于图片中不规则字体和带有颜色的文字的识别，一般是利用图像识别技术对图片中的文字直接进行提取，但因色彩、光等因素的影响，提取效果不佳，经常会有错别字或者明显的语句不通顺的情况发生，而且一般只能针对单一颜色进行识别，且不能自行对识别出来的文字进行判断，因此现在的...

【技术保护点】

【技术特征摘要】
1.一种基于智能语料库的图片中不规则和有颜色文字识别系统，其特征在于，包括以下步骤：S1、建立完备的文字部首偏旁数据库，将字拆分成其组成的偏旁和部首，若没有偏旁则无需拆分，接着通过图像识别技术，对拆分的偏旁和部首抓取，并对偏旁和部首进行编号，而后将编号填入数据库，使一个文字对应一个或多个编号；S2、区域性色块提取，通过图像识别技术，首先将所识别区域内的不同颜色，按照16色标准划分为多个板块，通过色差的方式进行凸出，而后将凸出颜色部分的区域，进行标记；S3、区域性文字提取，对已标记出的颜色区域，再次进行图像识别，如果该区域内颜色种类仍然为两种以上，则继续重复S2步骤，如果该区域内颜色种类为两种，则继续进行图像识别，并将识别出的图像与S1中数据库的图像进行对比；S4、分析对比结果，如果对比结果存在于数据库，则对当前图形编号，如果对比结果不存在于数据库，则视为当前区域没有文字；S5、整理结果，将分析对比结果进行组合，对应的编号则从数据库中，提取出完整的文字进行输出。2.如权利要求1所述的一种基于智能语料库的图片中不规则和有颜色文字识别系统，其特征在于：S1中，所述每个文字都有完整的编号，图像识别过程中，会将对偏旁和部首的方位记录。3.如权利要求1所述的一种基于智能语料库的图片中不规则和有颜色文字识别系统，其特征在于：S2中，通...

【专利技术属性】
技术研发人员：胥备，任开文，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人