文字识别方法、电子设备、存储介质技术

技术编号:19935055 阅读:20 留言:0更新日期:2018-12-29 04:51
本发明专利技术公开了一种文字识别方法、电子设备、存储介质,其方法包括:获取包含第一文字的图片;提取图片中第一文字的笔画信息;根据笔画信息,获取第一文字的线段数据集;将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。提取第一文字的笔画信息,将图片文字拆分为具体的直线信息或曲线信息,得到第一文字具体的线段数据集,实现将文字转化为数据集。通过将第一文字的线段数据集与预设数据库中的线段数据集比对,计算数据集间的重合度,直观的根据数据信息,得到的第一文字的识别结果更加准确,提高文字识别率。

【技术实现步骤摘要】
文字识别方法、电子设备、存储介质
本专利技术涉及电子书领域,具体涉及一种文字识别方法、电子设备、存储介质。
技术介绍
电子书与纸质书籍相比,更方便用户随时随地阅读,且可以减轻用户携带纸质书籍的重量。电子书可以通过扫描纸质书籍等方式进行制作,如扫描纸质书籍得到的图片,根据图片制作电子书。但直接根据图片制作电子书,不能对图片中的内容进行编辑、排版、校对等处理,得到的电子书质量较差,影响用户阅读体验效果。因此,在制作电子书时,还需要对图片中包含的文字等内容进行识别,以便更好的对其进行编辑、排版、校对等处理,方便制作得到的电子书显示效果更佳,更符合用户的阅读习惯。因此,需要一种对图片中包含的文字进行识别的方法,以便可以准确地识别出文字,进而对文字进行编辑、排版、校对等处理,制作出显示效果更佳的电子书。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文字识别方法、电子设备、存储介质。根据本专利技术的一个方面,提供了一种文字识别方法,其包括:获取包含第一文字的图片;提取图片中第一文字的笔画信息,笔画信息包含直线信息和/或曲线信息;根据笔画信息,获取第一文字的线段数据集;将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。根据本专利技术的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:获取包含第一文字的图片;提取图片中第一文字的笔画信息,笔画信息包含直线信息和/或曲线信息;根据笔画信息,获取第一文字的线段数据集;将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。根据本专利技术的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:获取包含第一文字的图片;提取图片中第一文字的笔画信息,笔画信息包含直线信息和/或曲线信息;根据笔画信息,获取第一文字的线段数据集;将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。根据本专利技术提供的文字识别方法、电子设备、存储介质,获取包含第一文字的图片;提取图片中第一文字的笔画信息,笔画信息包含直线信息和/或曲线信息;根据笔画信息,获取第一文字的线段数据集;将第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为第一文字的识别结果。提取图片中第一文字的笔画信息,对其各笔画线段精准定位,将图片文字拆分为具体的直线信息或曲线信息,得到第一文字各笔画对应的具体的线段数据集,实现将文字转化为数据集。通过将第一文字的线段数据集与预设数据库中多个文字的线段数据集比对,计算数据集间的重合度,利用直观的数据信息,得到的第一文字的识别结果更加准确,提高文字识别率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术实施例一的文字识别方法的流程图;图2示出了根据本专利技术实施例二的文字识别方法的流程图;图3示出了根据本专利技术实施例四的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一图1示出了根据本专利技术实施例一的文字识别方法的流程图,如图1所示,文字识别方法具体包括如下步骤:步骤S101,获取包含第一文字的图片。在本实施例中,为取得准确地识别效果,第一文字以印刷体文字为例进行说明,但第一文字可以不限定仅印刷体,规范字体也可适用于本实施例。在获取图片时,为方便识别第一文字,可以限定获取的一张图片中对应的包含一个第一文字,减少识别时的其他干扰信息。若图片中包含除一个第一文字外的其他内容时,如非文字内容的标点、符号,多余的空白内容等,可以对图片进行切割处理,去除第一文字之外的其他内容,使其仅包含一个第一文字,方便进行识别。步骤S102,提取图片中第一文字的笔画信息。本实施例中对文字的识别基于第一文字的笔画信息。笔画信息包含直线信息和/或曲线信息,其是将第一文字具体的笔画进一步抽象为笔画信息,将图片中的第一文字具体化为准确的数据,以便识别时更准确。如第一文字“十”,其笔画包括横和竖,抽象为笔画信息包含两条直线信息,分别为从左到右的一条直线信息和从上到下的一条直线信息;第一文字“九”,其笔画包括横弯钩和撇,抽象为笔画信息包含直线信息和曲线信息,分别为从左到右的一条直线信息、从上到下的两条曲线信息。在提取图片中的笔画信息时,需要提取出图片中各笔画对应的线条。线条包括独立线条、交叉线条等。对独立线条的提取,可以对图片中的线条进行细化处理,从图片中获取线条的轮廓,提取得到独立线条;对交叉线条的提取,可以根据图片中各线条轮廓,获取各线条轮廓的特征点,确定线条的拐点、走向等;再根据各线条交叉点对线条进行拆分、合并等处理,得到交叉线条等。根据提取的线条得到对应的笔画信息。以上均为举例说明,具体提取方式可根据实施情况设置,此处不作限定。步骤S103,根据笔画信息,获取第一文字的线段数据集。在提取得到笔画信息后,对具体的各个直线信息、曲线信息进一步细化,得到具体的线段数据。根据直线信息获取第一文字的第一线段数据子集,根据曲线信息进行拟合处理获取第一文字的第二线段数据子集,将第一线段数据集和/或第二线段数据集进行合并得到第一文字的线段数据集。其中,在获取线段数据集时,需要对图片建立坐标系,如以图片左上角为坐标原点,横向向右建立x轴,纵向向下建立y轴,根据坐标系可以得到整个图片的所有坐标信息。对于第一线段数据子集,其主要获取包含各个直线的端点位置信息(直线两个端点的坐标信息)和倾斜角度信息的第一线段数据子集。端点位置信息根据直线两端的点位置坐标信息,得到两个端点的坐标信息,如一条直线的端点位置信息为(5,3)和(4,10);倾斜角度信息即横向直线或直线延长线与x轴的夹角信息,或纵向直线或直线延长线与y轴的夹角信息;如倾斜角度信息为与x轴成-5度夹角。对于第二线段数据子集,由于曲线信息存在拐点,不能仅根据端点位置信息确定,需要对曲线进行拟合处理,如将其按照曲线拐点或曲线弯曲度等本文档来自技高网...

【技术保护点】
1.一种文字识别方法,其包括:获取包含第一文字的图片;提取所述图片中第一文字的笔画信息,所述笔画信息包含直线信息和/或曲线信息;根据所述笔画信息,获取所述第一文字的线段数据集;将所述第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与所述第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为所述第一文字的识别结果。

【技术特征摘要】
1.一种文字识别方法,其包括:获取包含第一文字的图片;提取所述图片中第一文字的笔画信息,所述笔画信息包含直线信息和/或曲线信息;根据所述笔画信息,获取所述第一文字的线段数据集;将所述第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与所述第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为所述第一文字的识别结果。2.根据权利要求1所述的方法,其中,所述根据所述笔画信息,获取所述第一文字的线段数据集进一步包括:根据直线信息获取所述第一文字的第一线段数据子集,和/或,根据曲线信息进行拟合处理获取所述第一文字的第二线段数据子集;将所述第一线段数据集和/或所述第二线段数据集进行合并得到所述第一文字的线段数据集。3.根据权利要求2所述的方法,其中,所述根据直线信息获取所述第一文字的第一线段数据子集,和/或,根据曲线信息进行拟合处理获取所述第一文字的第二线段数据子集进一步包括:根据直线信息,获取包含直线的端点位置信息和倾斜角度信息的第一线段数据子集;和/或,根据曲线信息,将对应的曲线进行拟合处理,得到多个线段;根据多个线段获取包含各个线段的端点位置信息和倾斜角度信息的第二线段数据子集。4.根据权利要求3所述的方法,其中,所述将所述第一文字的线段数据集与预设数据库中的多个文字的线段数据集进行比对,查找与所述第一文字的线段数据集的重合度大于预设阈值的预设数据库中的第二文字,作为所述第一文字的识别结果进一步包括:查找预设数据库中与所述第一文字的线段数据集中线段个数相同,且根据端点位置信息和/或倾斜角度信息计算得到的重合度大于预设阈值的预设数据库中的第二文字,作为所述第一文字的识别结果。5.根据权利要求1-4中任一项所述的方法,其中,所述方法还包括:根据第二文字的字体信息,确定所述第一文字的...

【专利技术属性】
技术研发人员:张恒李铭瀚于刚方建华
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1