生僻字处理方法、计算设备及计算机存储介质技术

技术编号:18204028 阅读:70 留言:0更新日期:2018-06-13 06:14
本发明专利技术公开了一种生僻字处理方法、计算设备及计算机存储介质,其中,方法包括:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。由此可见,利用本发明专利技术方案,可以根据生僻字图片得到生僻字填充对象,避免了呈现给用户的文档中对应生僻字区域的文本对象的缺失,进而可以使用户阅读更顺畅;同时,避免了由于生僻字区域的文本对象的缺失而导致出现的排版混乱问题。

【技术实现步骤摘要】
生僻字处理方法、计算设备及计算机存储介质
本专利技术涉及文本识别
,具体涉及一种生僻字处理方法、计算设备及计算机存储介质。
技术介绍
目前,随着手机等移动终端的普及以及电子书阅读器的发展,电子书越来越受阅读用户的青睐。与此同时,在电子阅读器中,为使文档内容能够根据阅读设备的特性,以最适于阅读的方式显示,需将版式文档转成流式文档,例如,将PDF文档转成电子出版文档(ElectronicPublication,简称ePUB)。然而,由于PDF等版式文档的字符编码方式有限,导致大量生僻字只能以路径线的形式表示出来,针对这些生僻字,在转成ePUB的过程中,则会出现对应位置的字符无法抽取出来,进而使得呈现给用户的文档内容存在缺失;以及,由于对应生僻字的位置的字符的缺失,使得在对流式文档进行排版时,会将生僻字前后的文本识别成两行,造成排版混乱。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的生僻字处理方法、计算设备及计算机存储介质。根据本专利技术的一个方面,提供了一种生僻字处理方法,包括:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。根据本专利技术的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。根据本专利技术的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。本专利技术公开了一种生僻字处理方法、计算设备及计算机存储介质,其中,方法包括:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。由此可见,利用本专利技术方案,可以根据生僻字图片得到生僻字填充对象,避免了呈现给用户的文档中对应生僻字区域的文本对象的缺失,进而可以使用户阅读更顺畅;同时,避免了因对应生僻字区域的文本对象的缺失,导致在对流式文档进行排版时,将生僻字区域前后的文本对象识别成两行,因而造成的排版混乱问题。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的生僻字处理方法的流程图;图2示出了根据本专利技术另一个实施例的生僻字处理方法的流程图;图3示出了根据本专利技术实施例的一种计算设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的生僻字处理方法的流程图。如图1所示,该方法包括以下步骤:步骤S101:对待识别文档的每行文本对象进行识别。在将版式文档转成流式文档的过程中,需从版式文档中抽取出文本内容,以在流式文档中显示出对应的文本内容。本步骤中,通过对待识别文档的每行文本对象进行识别,进而抽取出文本内容。其中,待识别文档为版式文档;文本对象包括通过字符编码方式编码出的字符文本,以及通过路径线描绘出的生僻字。在本实施例中,不对识别待识别文档的文本对象的方式做具体限定,本领域技术人员应该理解的是,该识别方式可以为现有技术中任意能够用于识别版式文档的文本对象的方式。步骤S102:根据每行文本对象的识别结果,利用预设规则确定生僻字区域。在识别出每行文本对象之后,根据对应该行文本对象的各个位置的识别结果,利用预设规则确定生僻字区域。具体地,在进行版式文档的文本对象的识别时,字符文本通过现有的文本识别技术可以较容易识别出;而由于生僻字是通过路径线描绘出的,不是通过编码得到的,因此会识别失败。即,在识别结果中对应生僻字所在的位置未识别出字符文本。基于此,本步骤中,利用预设规则,根据各个位置的识别结果确定生僻字区域。其中,预设规则为任意可以确定版式文档中某一位置存在生僻字的一条或多条规则,例如,预设规则为对应位置存在路径线,或对应位置无文本内容。步骤S103:对生僻字区域进行截图处理,得到生僻字图片。生僻字区域对应的识别结果为未识别出字符文本,但是,该生僻字区域中存在路径线,本步骤中,对生僻字区域进行截图处理,得到生僻字图片,换言之,生僻字图片保留了版式文档中对应生僻字区域的原始信息,进而可以利用该生僻字图片来完善流式文档中对应生僻字区域的文本内容。步骤S104:根据生僻字图片得到生僻字填充对象,将生僻字填充对象填充到生僻字区域中。在将版式文档转成流式文档的过程中,需要抽取出版式文档的文本内容,在本步骤中,根据生僻字图片中保留的生僻字区域的原始信息得到生僻字填充对象,即得到对应生僻字区域的文本内容;然后,将该生僻字填充对象填充到流式文档中。具体地,根据生僻字图片得到生僻字填充对象的方式包括直接将生僻字图片作为生僻字填充对象,和/或,对生僻字图片进行字符识别,根据识别结果确定生僻字填充对象;然后,将生僻字填充对象填充到流式文档中对应生僻字区域的位置中,进而得到了完整的文本内容,避免在抽取版式文档的文本内容的过程中,因未识别出生僻字,导致得到的流式文档的文本内容存在缺失;以及,在对流式文档进行排版时,避免因流式文档中的文本内容存在缺失,造成行识别或段落识别的错误,进而引起排版混乱的情况发生。根据本实施例提供的生僻字处理方法,对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域,以便于针对该生僻字区域采取相应的处理方法以得到对应的文本内容;对生僻字区域进行截图处理,得到生僻字图片,其中,生僻字图片保留了版式文档中对应生僻字区域的原始信息;根据生僻字图片得到生僻字填充对象,即得到对应生僻字区域的文本内容;然后,将生僻字填充对象填充到生僻字区域中,进而得到了完整的文本内容。由此可见,利本文档来自技高网...
生僻字处理方法、计算设备及计算机存储介质

【技术保护点】
一种生僻字处理方法,包括:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。

【技术特征摘要】
1.一种生僻字处理方法,包括:对待识别文档的每行文本对象进行识别;根据每行文本对象的识别结果,利用预设规则确定生僻字区域;对所述生僻字区域进行截图处理,得到生僻字图片;根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中。2.根据权利要求1所述的方法,其中,所述根据每行文本对象的识别结果,利用预设规则确定生僻字区域进一步包括:根据每行文本对象的识别结果,确定指定区域;其中,所述指定区域位于两个已识别的文本对象之间;判断指定区域是否符合预设规则;若是,则确定所述指定区域为生僻字区域。3.根据权利要求2所述的方法,其中,所述判断指定区域是否符合预设规则进一步包括:判断所述指定区域的宽度是否位于预设字符宽度范围内,若是,则判定所述指定区域符合预设规则;和/或,判断所述指定区域内是否包含路径线,若是,则判定所述指定区域符合预设规则;和/或,判断所述指定区域是否覆盖有文本内容,若否,则判定所述指定区域符合预设规则。4.根据权利要求1-3任一项所述的方法,其中,所述对所述生僻字区域进行截图处理,得到生僻字图片进一步包括:根据生僻字区域左侧的文本对象的右边缘确定截图处理的左边缘,根据生僻字区域右侧的文本对象的左边缘确定截图处理的右边缘,根据生僻字区域两侧的文本对象中较高的上边缘确定截图处理的上边缘,以及根据生僻字区域两侧的文本对象中较低的下边缘确定截图处理的下边缘,得到生僻字图片。5.根据权利要求1-4任一项所述的方法,其中,所述根据生僻字图片得到生僻字填充对象,将所述生僻字填充对象填充到所述生僻字区域中进一步包括:对所述生僻字图片进行字符识别;若识别结果输出一个字符,则以所述字符作为生僻字填充对象;若识别结果输出多个字符或者未能得到识别...

【专利技术属性】
技术研发人员:张恒
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1