基于词袋模型特征点检索的矢量字符识别方法及系统技术方案

技术编号:33084462 阅读:61 留言:0更新日期:2022-04-15 10:44
本发明专利技术特别涉及一种基于词袋模型特征点检索的矢量字符识别方法,包括如下步骤:S100、针对任一字符矢量图,读取该矢量图数据得到字符轮廓信息;S200、将字符轮廓信息解析成控制点坐标;S300、将控制点坐标绘制成控制点灰度图;S400、根据控制点灰度图提取ORB特征矢量;S500、将ORB特征矢量作为输入,通过词袋树索引从视觉词典中查找相似度最高的字符ID;S600、通过字符ID映射关系得到该矢量字符对应的字体以及unicode编码。通过以上方案,使得矢量图文件不转格式就能直接进行字符识别,同时还具有如下多个优点:其一,字符识别范围大,准确率高,并可扩展到更大的字符集;其二,字符识别速度快,单字识别速度在1.5ms左右;其三,进行字符识别的同时还可以判断字体。符识别的同时还可以判断字体。符识别的同时还可以判断字体。

【技术实现步骤摘要】
基于词袋模型特征点检索的矢量字符识别方法及系统


[0001]本专利技术涉及矢量图识别
,特别涉及一种基于词袋模型特征点检索的矢量字符识别方法及系统。

技术介绍

[0002]OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。目前开源的OCR方法中,综合性能最佳的是百度飞桨的PP

OCRv2。
[0003]目前,使用OCR方法进行中文字符识别是主要的字符识别方法,适用的识别对象是位图文件(如bmp、jpg、png等),而对于以矢量路径方式存储字符的矢量图文件(例如svg、ps),需要渲染成位图才能使用OCR方法。同时,现有OCR方法在中文字符覆盖范围、字符识别正确率以及识别速度难以兼具,具有诸多缺点:其一,字符识别范围小,准确率不高,传统的OCR方法字符识别正确率在95%左右;深度学习OCR方法如PP

OCR,识别准确率在99%左右,字符识别范围连英文、数字、符号在内约6000字,部分国标字无法识别;其二、字符识别速度慢,速度最快的PP

OCRv2在未开启cpu指令集加速的情况下,单字识别速度在12ms左右,开启后可加速到8ms左右,以单页700字计算,仍需要5~6秒每页;其三、无法区分字体,目前所有中文OCR方法均无识别字体的能力,无法用于隐形水印嵌入等需要根据字体类型进行操作的任务。

技术实现思路

[0004]本专利技术的目的在于提供一种基于词袋模型特征点检索的矢量字符识别方法和系统,大幅提高矢量字符的识别正确率和识别速度。
[0005]为实现以上目的,本专利技术采用的第一个技术方案为:一种基于词袋模型特征点检索的矢量字符识别方法,包括如下步骤:S100、针对待检索矢量图文件中任一字符矢量图,读取该矢量图数据得到字符轮廓信息;S200、将字符轮廓信息解析成控制点坐标;S300、将控制点坐标绘制成控制点灰度图;S400、根据控制点灰度图提取ORB特征矢量;S500、将ORB特征矢量作为输入,通过词袋树索引从视觉词典中查找相似度最高的字符ID,视觉词典和词袋树索引是事先根据已有字符的ORB特征矢量通过词袋模型算法构建而成;S600、通过字符ID映射关系得到该矢量字符对应的字体以及unicode编码。
[0006]为实现以上目的,本专利技术采用的第二个技术方案为:一种基于词袋模型特征点检
索的矢量字符识别系统,包括控制点坐标计算模块,用于读取字符矢量图数据得到字符轮廓信息并将其解析成控制点坐标;制图模块,用于根据控制点坐标将该字符所有控制点绘制成控制点灰度图;特征提取模块,用于根据控制点灰度图提取ORB特征矢量;检索模块,根据输入的ORB特征矢量通过词袋树索引从视觉词典中查找相似度最高的字符ID并输出;查询模块,根据字符ID的映射关系得到其对应的字体以及unicode编码;其中,检索模块中的视觉词典和词袋树索引是事先根据已有字符的ORB特征矢量通过词袋模型算法构建而成。
[0007]与现有技术相比,本专利技术存在以下技术效果:通过以上方案,使得矢量图文件不转格式就能直接进行字符识别,同时还具有如下多个优点:其一,字符识别范围大,准确率高,字符识别范围包含GB2312字符集6763个中文字符,并可扩展到更大的字符集,且对训练字体范围内字符识别正确率为100%;其二,字符识别速度快,单字识别速度在1.5ms左右,以单页700字计算,仅需1秒每页;其三,进行字符识别的同时还可以判断字体,除特征点极少的字符外(例如:丶),均可准确判断字体类型。
附图说明
[0008]图1是本专利技术的流程示意图;图2是仿宋“啊”字的控制点灰度图;图3是本专利技术的原理框图。
具体实施方式
[0009]下面结合图1至图3,对本专利技术做进一步详细叙述。
[0010]参阅图1,本专利技术公开了一种基于词袋模型特征点检索的矢量字符识别方法,包括如下步骤:S100、针对待检索矢量图文件中任一字符矢量图,读取该矢量图数据得到字符轮廓信息,以.svg格式为例,每个字符的轮廓信息为一个path标签的d属性,示例如下:<path d="M 0.9375
ꢀ‑
10.28125 L 1.640625
ꢀ‑
9.796875
ꢀ……
"/>;S200、将字符轮廓信息解析成控制点坐标;S300、将控制点坐标绘制成控制点灰度图,控制点灰度图如图2所示,每个字符对应的控制点灰度图不同,图2中是仿宋“啊”字的控制点灰度图;S400、根据控制点灰度图提取ORB特征矢量,ORB是Oriented Fast and Rotated Brief的简称,可以用来对图像中的关键点快速创建特征向量,这些特征向量可以用来识别图像中的对象;S500、将ORB特征矢量作为输入,通过词袋树索引从视觉词典中查找相似度最高的字符ID,同时还可以输出相似度评分,完全一致评分为1;视觉词典和词袋树索引是事先根据已有字符的ORB特征矢量通过词袋模型算法构建而成;S600、通过字符ID映射关系得到该矢量字符对应的字体以及unicode编码,这样遍历所有字符即完成矢量图文件内所有字符的识别。
[0011]词袋模型(Bag of words,简称BoW):词袋模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。如果文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些,我们就倾向于判断它是一篇描绘乡村的文档,而不是描述城镇的。词袋模型在处理特征矢量搜索方面简单高效,因而被引入图像检索领域,可以与多种计算机视觉特征矢量结合来完成通过图片搜索相似图的任务。由于词袋模型可以方便快速的在使用过程中不断加入新的图片进行训练,
特别适用于回环检测任务。基于词袋模型的特征点检索方法,该方法广泛应用于视觉SLAM(机器人使用摄像头观察周围环境,进行同步定位与建图)中的回环检测(指机器人在地图构建过程中,通过视觉等传感器信息检测是否发生了轨迹闭环,即判断自身是否进入历史同一地点)。因此,本专利技术中,为不同字体的不同字符分别提取ORB特征矢量后将其保存,然后就可以通过词袋树索引和视觉词典,来实现快速的从保存的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词袋模型特征点检索的矢量字符识别方法,其特征在于:包括如下步骤:S100、针对待检索矢量图文件中任一字符矢量图,读取该矢量图数据得到字符轮廓信息;S200、将字符轮廓信息解析成控制点坐标;S300、将控制点坐标绘制成控制点灰度图;S400、根据控制点灰度图提取ORB特征矢量;S500、将ORB特征矢量作为输入,通过词袋树索引从视觉词典中查找相似度最高的字符ID,视觉词典和词袋树索引是事先根据已有字符的ORB特征矢量通过词袋模型算法构建而成;S600、通过字符ID映射关系得到该矢量字符对应的字体以及unicode编码。2.如权利要求1所述的基于词袋模型特征点检索的矢量字符识别方法,其特征在于:所述的步骤S500中,词袋树索引和视觉词典通过如下步骤创建:S510、挑选需要进行识别的常用字体,获取这些字体的.ttf或.ttc文件;S520、设定识别字符范围,对每个字体的每个字符进行数字顺序编号形成字符ID;S530、依次遍历每个字符执行步骤S540,得到所有字符的ORB特征矢量后执行步骤S550;S540、通过该字符的unicode码在.ttf或.ttc文件中查找指定字符得到该字符的轮廓信息,根据步骤S200

S400得到该字符的ORB特征矢量;S550、将所有字符的ORB特征矢量集合,通过词袋模型算法进行词袋聚类,创建视觉词典和词袋树索引。3.如权利要求2所述的基于词袋模型特征点检索的矢量字符识别方法,其特征在于:所述的步骤S300中,包括如下步骤:S310、将控制点坐标规范化到一定大小的方形坐标区域;S320、将控制点绘制成白底黑点的控制点灰度图。4.如权利要求2所述的基于词袋模型特征点检索的矢量字符识别方法,其特征在于:所述的步骤S520中,包括如下步骤:S521、计算识别字符范围内包含的总字符数量N;S522、对第一字体的N个字符按顺序编号为1~N;S553、对第二字体的N个字符按顺序编号为(N+1)~2N;S554、以此类推,针对M个字体的N个字符按顺序编号为1~(M*N),其中编号即为字符ID。5.如权利要求2所述的基于词袋模型特征点检索的矢量字符识别方法,其特征在于:所述的步骤S310中,方形区域大小为128*128px;步骤S550中,词袋模型算法为DBow2或DBow3或FBow。6.如权利要求2所述的基于词袋模型特...

【专利技术属性】
技术研发人员:田辉张志翔郭玉刚
申请(专利权)人:合肥高维数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1