文字信息的排版方法、电子设备及计算机存储介质技术

技术编号:17442051 阅读:33 留言:0更新日期:2018-03-10 14:45
本发明专利技术公开了一种文字信息的排版方法、电子设备及计算机存储介质,该方法包括:分别针对文字信息中包含的多个汉字以及与多个汉字相对应的多个拼音字母进行识别,得到与多个汉字相对应的汉字集合以及与多个拼音字母相对应的字母集合;根据相邻字母之间的间距,将字母集合中的多个字母划分为多个字母组;按照预设的调整规则对字母集合中的各个字母组的划分方式进行调整,以使字母集合中包含的每个字母组分别对应于汉字集合中包含的一个汉字;分别将字母集合中包含的每个字母组与汉字集合中对应于该字母组的汉字进行关联排版。本发明专利技术能够实现排版过程中的信息识别和格式转换操作,并且能够使排版后的每个汉字和拼音一一对应。

【技术实现步骤摘要】
文字信息的排版方法、电子设备及计算机存储介质
本专利技术涉及计算机领域,具体涉及一种文字信息的排版方法、电子设备及计算机存储介质。
技术介绍
随着电子书的日益流行,越来越多的原始书籍材料被转换为电子书文档,以方便用户阅读。在转换过程中,需要针对原始书籍材料中包含的文字信息进行识别,并根据识别后的结果进行重新排版。例如,由于版式排版的文件(如PDF格式文件)的版面是固定的,阅读过程中始终以原始编辑版式显示,缩放后不会自动根据页宽进行重新排版,不易被修改,安全性比较高,而且不受操作系统平台的限制。所以,很多原始书籍材料均为版式排版文件,相应地,当用户需要对版式排版的文件进行编辑的时候,需要把版式排版文件转换为流式排版的文件,比如将PDF格式的文件转化为WORD格式的文件。但是,在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:在格式转换的过程中,文字信息往往会出现行或列的错乱从而给识别过程带来困难。尤其是当文字信息中同时包含汉字以及与汉字相对应的拼音时,由于拼音与汉字的错位等情况,往往导致识别结果出错,用户必须人工校对方可进行排版。由此可见,现有的排版方式无法针对同时包含汉字和拼音的文字信息进行准确识别。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文字信息的排版方法、电子设备及计算机存储介质。根据本专利技术的一个方面,提供了一种文字信息的排版方法,包括:分别针对文字信息中包含的多个汉字以及与多个汉字相对应的多个拼音字母进行识别,得到与多个汉字相对应的汉字集合以及与多个拼音字母相对应的字母集合;根据相邻字母之间的间距,将字母集合中的多个字母划分为多个字母组;按照预设的调整规则对字母集合中的各个字母组的划分方式进行调整,以使字母集合中包含的每个字母组分别对应于汉字集合中包含的一个汉字;分别将字母集合中包含的每个字母组与汉字集合中对应于该字母组的汉字进行关联排版。根据本专利技术的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:分别针对文字信息中包含的多个汉字以及与多个汉字相对应的多个拼音字母进行识别,得到与多个汉字相对应的汉字集合以及与多个拼音字母相对应的字母集合;根据相邻字母之间的间距,将字母集合中的多个字母划分为多个字母组;按照预设的调整规则对字母集合中的各个字母组的划分方式进行调整,以使字母集合中包含的每个字母组分别对应于汉字集合中包含的一个汉字;分别将字母集合中包含的每个字母组与汉字集合中对应于该字母组的汉字进行关联排版。根据本专利技术的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:分别针对文字信息中包含的多个汉字以及与多个汉字相对应的多个拼音字母进行识别,得到与多个汉字相对应的汉字集合以及与多个拼音字母相对应的字母集合;根据相邻字母之间的间距,将字母集合中的多个字母划分为多个字母组;按照预设的调整规则对字母集合中的各个字母组的划分方式进行调整,以使字母集合中包含的每个字母组分别对应于汉字集合中包含的一个汉字;分别将字母集合中包含的每个字母组与汉字集合中对应于该字母组的汉字进行关联排版。根据本专利技术提供的文字信息的排版方法、电子设备及计算机存储介质,通过分别针对文字信息中包含的多个汉字以及与多个汉字相对应的多个拼音字母进行识别,得到与多个汉字相对应的汉字集合以及与多个拼音字母相对应的字母集合,并根据相邻字母之间的间距,将字母集合中的多个字母划分为多个字母组;然后按照预设的调整规则对字母集合中的各个字母组的划分方式进行调整,以使字母集合中包含的每个字母组分别对应于汉字集合中包含的一个汉字;最后分别将字母集合中包含的每个字母组与汉字集合中对应于该字母组的汉字进行关联排版,从而可以得到流式排版的文件。根据本专利技术的方案,能够实现排版过程中的信息识别和格式转换操作,不会出现行与列的混乱,并且能够使排版后的每个汉字和拼音一一对应,省去了人工校对的过程,能够针对同时包含汉字和拼音的文字信息进行准确识别。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术一个实施例提供的文字信息的排版方法的流程图;图2示出了本专利技术另一个实施例提供的文字信息的排版方法的流程图;图3示出了根据本专利技术另一个实施例提供的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了本专利技术一个实施例提供的文字信息的排版方法的流程图。如图1所示,该方法包括以下步骤:步骤S110:分别针对文字信息中包含的多个汉字以及与多个汉字相对应的多个拼音字母进行识别,得到与多个汉字相对应的汉字集合以及与多个拼音字母相对应的字母集合。其中,上述文字信息可以为版式排版的信息,也可以为其他排版方式的信息。由于上述文字信息中包含的多个汉字为多个位于同一行或同一列的汉字,且多个汉字相对应的多个拼音字母为多个位于同一行或同一列的拼音字母。在本步骤中,首先对文字信息中的位于同一行的多个汉字进行识别,然后对上述多个汉字对应的位于同一行的多个拼音字母进行识别,对于多个位于同一列的汉字以及其对应的位于同一列的多个拼音字母也采取上述方式进行识别。从而得到与上述多个汉字相对应的汉字集合以及与多个拼音字母相对应的字母集合。其中,上述的汉字集合既可以是汉字行也可以汉字列,只要能够实现针对一组汉字的存储即可,本专利技术并不限定汉字集合的具体实现方式。同理,上述的拼音集合既可以拼音行也可以是拼音列。步骤S120:根据相邻字母之间的间距,将字母集合中的多个字母划分为多个字母组。由于在相邻两个汉字分别所对应的拼音中,前一个汉字所对应的拼音的最后一个字母和后一个汉字所对应的拼音的首字母之间的间距大于平均相邻字母之间的间距,根据这个特征,可以预先设置间距阀值,当相邻两个字母之间的间距阀值大于预设的间距阀值时,在该相邻的两个字母之间插入一个分隔符,通过插入分隔符将上述字母集合中的多个字母划分为多个字母组。其中,上述预设间距阈值根据一个字母的平均宽度确定,和/或,上述预设间距阈值根据字母集合中的多个字母之间的平均间距确定。上述一个字母的平均宽度可以根据所有的字母的宽度总和以及字母的个数计算得出,还可以通过其它的方法确定。可选地,预设的间距阀值可以为相邻字母之间的平均间距,或者为稍微小于或者大于相邻字母之间的平均间距的间距值,还可以根据其它值具体设定,在本文档来自技高网...
文字信息的排版方法、电子设备及计算机存储介质

【技术保护点】
一种文字信息的排版方法,包括:分别针对所述文字信息中包含的多个汉字以及与所述多个汉字相对应的多个拼音字母进行识别,得到与所述多个汉字相对应的汉字集合以及与所述多个拼音字母相对应的字母集合;根据相邻字母之间的间距,将所述字母集合中的多个字母划分为多个字母组;按照预设的调整规则对所述字母集合中的各个字母组的划分方式进行调整,以使所述字母集合中包含的每个字母组分别对应于所述汉字集合中包含的一个汉字;分别将所述字母集合中包含的每个字母组与所述汉字集合中对应于该字母组的汉字进行关联排版。

【技术特征摘要】
1.一种文字信息的排版方法,包括:分别针对所述文字信息中包含的多个汉字以及与所述多个汉字相对应的多个拼音字母进行识别,得到与所述多个汉字相对应的汉字集合以及与所述多个拼音字母相对应的字母集合;根据相邻字母之间的间距,将所述字母集合中的多个字母划分为多个字母组;按照预设的调整规则对所述字母集合中的各个字母组的划分方式进行调整,以使所述字母集合中包含的每个字母组分别对应于所述汉字集合中包含的一个汉字;分别将所述字母集合中包含的每个字母组与所述汉字集合中对应于该字母组的汉字进行关联排版。2.根据权利要求1所述的方法,其中,所述根据相邻字母之间的间距,将所述字母集合中的多个字母划分为多个字母组的步骤具体包括:判断每相邻的两个字母之间的间距是否大于预设间距阈值;若是,在该相邻的两个字母之间插入一个分隔符,通过各个分隔符将所述字母集合中的多个字母划分为多个字母组;其中,所述预设间距阈值根据一个字母的平均宽度确定,和/或,所述预设间距阈值根据所述字母集合中的多个字母之间的平均间距确定。3.根据权利要求2所述的方法,其中,所述判断每相邻的两个字母之间的间距是否大于预设间距阈值,若是,在该相邻的两个字母之间插入一个分隔符的步骤具体包括:每当判断出相邻的两个字母之间的间距大于预设间距阈值时,根据所述文字信息确定所述多个汉字以及与所述多个汉字相对应的多个拼音字母之间的位置关系;根据所述位置关系判断所述相邻的两个字母是否对应于同一个汉字,若否,在所述相邻的两个字母之间插入一个分隔符。4.根据权利要求1-3所述的方法,其中,所述预设的调整规则包括:分别针对每个字母组,判断该字母组中包含的字母的数量是否大于预设拼音数量;若是,将该字母组拆分为至少两个字母组,以使拆分后的每个字母组分别对应于所述汉字集合中包含的一个汉字。5.根据权利要求4所述的方法,其中,所述将该字母组拆分为至少两个字母组,以使拆分后的每个字母组分别对应于所述汉字集合中包含的一个汉字的步骤具体包括:确定所述汉字集合中包含的与该字母组相对应的首个汉字,查询所述首个汉字所对应的汉字拼音;根据所述首个汉字所对应的汉字拼音将该字母组拆分为至少两个字母组,以使拆分后的每个字母组分别对应于所述汉字集合中包含的一个汉字。6.根据权利要求5所述的方法,其中,所述根据所述首个汉字所对应的汉字拼音将该字母组拆分为至少两个字母组的步骤具体包...

【专利技术属性】
技术研发人员:张恒
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1