电子书的处理方法和装置制造方法及图纸

技术编号:10821369 阅读:224 留言:0更新日期:2014-12-26 02:41
本发明专利技术提供一种电子书的处理方法和装置。所述处理方法包括:获取电子书多个页面的页面内容数据;从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;基于识别出的图和文字行块确定图注识别特征;根据确定的图注识别特征为识别出的图标注图注。如此,能够自动完成图与图注的关联识别,优化图文类电子书的线上展示,能够保障其在线上重排版展示时不会出现格式错乱,并提高数据处理效率,减少人工编辑的成本,以及提高图注识别的准确率。

【技术实现步骤摘要】
电子书的处理方法和装置
[0001 ] 本专利技术涉及计算机应用
,尤其涉及一种电子书的处理方法和装置。
技术介绍
随着计算机技术的快速发展,文库阅读网站引进大批量的电子书,且大多数的电子书都是简单图文类。要将这些图文类的电子书导入到线上展示,并保障在线上重排版展示。出现在电子书中的图通常都会有注解或说明,在此将这些注解或说明称为图注。在导入过程中,需要将这些图与其对应的图注关联,为图标注出对应的图注,才能不出现格式错舌L。如果仍单纯依靠原人工编辑的方式来进行排版,则效率低,易出错,且成本较高。
技术实现思路
本专利技术的目的在于提供一种电子书的处理方法和装置,利用计算机技术对电子书中的图进行图注标注,从而图文类的电子书在线上重排版展示时,避免出现格式错乱,提高数据处理效率、降低成本。 根据本专利技术的一方面,提供一种电子书的处理方法,包括:获取电子书多个页面的页面内容数据;从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;基于识别出的图和文字行块确定图注识别特征;根据确定的图注识别特征为识别出的图标注图注。 根据本专利技术的另一方面,提供一种应用上述电子书的处理方法的装置,包括:数据获取单元,用于获取电子书多个页面的页面内容数据;分块识别单元,用于从所述数据获取单元获取的页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;图注识别单元,用于基于所述分块识别单元识别出的图和文字行块确定图注识别特征;图注标注单元,用于根据所述图注识别单元确定的图注识别特征为识别出的图标注图注。 本专利技术实施例提供的电子书的处理方法和装置,能够对图文类电子书中的页面内容数据进行文字行块和图的识别,并根据识别出的文字行块和图确定图注识别的特征,从而为识别出的图标注图注。如此,能够自动完成图与图注的关联识别,优化图文类电子书的线上展示,能够保障其在线上重排版展示时不会出现格式错乱,并提高数据处理效率,减少人工编辑的成本,以及提高图注识别的准确率。 【附图说明】 图1为本专利技术实施例的电子书的处理方法的流程图。 图2为本专利技术实施例的电子书的处理装置的结构示意图。 图3为本专利技术实施例的JSON格式的页面内容数据示意图之一。 图4为本专利技术实施例的JSON格式的页面内容数据示意图之二。 图5为本专利技术实施例的JSON格式的页面内容数据示意图之三。 图6为本专利技术实施例的未进行图注标注的示例效果图。 图7为本专利技术实施例的图注标注后的示例效果图。 【具体实施方式】 本专利技术的基本构思是对电子书中的页面内容数据进行文字行块和图的识别,并根据识别出的文字行块和图确定图注识别的特征,从而为识别出的图标注图注。 电子书通常为PDF格式,已有成熟的技术对PDF文件进行解析,获取电子书任一页面的页面内容数据,如文字、文字的位置、高度、宽度以及图的数据等。在本专利技术的实施例中,以JSON格式的页面内容数据作为示例对本专利技术的电子书的处理方法和装置进行描述,但是本专利技术的处理方法和装置不限于PDF格式的电子书的处理,也不限于JSON格式的页面内容数据的处理,而是适用于可解析出关于文字和图的数据的任何格式的页面内容数据的电子书。例如,所述电子书也可以是markdown、epub、rtf、word、html格式等,而所述页面内容数据还可以是xml、azw、indesign等格式。 下面结合附图对本专利技术实施例电子书的处理方法和装置进行详细描述。 图1示出了本专利技术实施例的电子书的处理方法的流程图。 参照图1,在步骤S110,获取电子书多个页面的页面内容数据,其中,所述页面内容数据包括电子书中的文字数据和图,所述文字数据包括,但不限于,文字及其位置、宽度和高度等。文字的位置可以用X坐标和Y坐标来表示。所述文字数据可以是单个文字的数据,也可以是多个文字的数据。 如前所述,根据本专利技术的示例性实施例,所述页面内容数据是JSON格式的内容数据,例如,页面内容数据中的文字数据和图可分别被表示为JSON名称/值对的集合或JSON对象,文字数据中的文字及其位置、宽度和高度可分别被表示为JSON名称/值对,文字的位置包括其X坐标和Y坐标。 图3为本专利技术实施例的JSON格式的页面内容数据示意图之一。图3示出获取的JSON格式的电子书页面数据的示例性片段。 在步骤S120,从在步骤SllO获取的页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行。这里所提及的属性包括,但不限于,文字字体的大小、文字行的高度、文字行的宽度、文字行的位置或/和文字行的行间距等。 具体地,将Y坐标相同且高度相同的文字或符号合并为单行。图3中的两个虚线框内示出不同的两个单行的文字数据,例如,上端的虚线框内的那些看似天差地远的元素组合在一起,〃文字行的行高为h1:16.971,Y坐标为yl:442.372,而〃造就了欧洲的文明。〃文字行的行高 h2:16.971,Y 坐标为 y2:442.372,明显地,hi = h2 = 16.971,yl =y2 = 442.372,在从页面内容数据识别文字行块时,可以将上述两项文字行合并为单行。同理,在图3下端的虚线框的数据内容中,两个文字行的行高相等,均为16.971,Y坐标相同,均为554.593,可以将这两个文字行合并为一个单行。 另外,同一个文字行块可能包含多个单行,各个单行的顶点的X坐标和单行的高度通常是一致的,基于此,优选地,可以计算得到多个单行的顶点(如起始字符的左上角处)的X坐标、Y坐标以及这些单行的宽度和高度,并将单行的顶点的X坐标和行的高度相同的多个连续的行识别为一个文字行块。 图4为本专利技术实施例的JSON格式的页面内容数据示意图之二。图4示出获取的JSON格式的电子书页面数据的另一示例性片段。 图4中的三个虚线框示出三个单行的文字数据。第一个虚线框中的文字〃教和希腊罗马世界的关联。基督教时常遭到罗马政府迫害〃的行高h5 = 16.971,X坐标x5 =55.207,Y坐标y5 = 583.85。第二个虚线框中的四个文字行块的Y坐标相同,y6 = y7 =y8 = y9 = 612.232,行高均为16.971,可以确定该四个文字行块为一个单行。第三个虚线框中的文字行块〃施以酷刑〃的行高h5 = 16.971,Y坐标y5 = 640.615,为一个单行。上述三个单行的顶点的X坐标相同,x5 = x6 = xlO = 55.207,且三个单行的行高也相同,在步骤S120从获取的页面内容数据识别文字行块时,可以将这三个单行识别为同一个文字行块。 此外,根据本专利技术优选实施例,按照如上的步骤识别出页面内容数据的文字行块和图后,还可以根据文字行块和图的X坐标、Y坐标,按照从页面的左上到右下的顺序进行排序。 在步骤S130,基于在步骤S120识别出的图和文字行块确定图注识别特征,图注识别特征包括图注文字字体大小和图注起始字符特征的至少一个。所述图注起始字符特征可以是起始字符是特定的前缀字符(如字符“图”或“?”等这样明显特征的字符),也可以是数字(如 “ I ”本文档来自技高网...
电子书的处理方法和装置

【技术保护点】
一种电子书的处理方法,其特征在于,所述处理方法包括:获取电子书多个页面的页面内容数据;从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;基于识别出的图和文字行块确定图注识别特征;根据确定的图注识别特征为识别出的图标注图注。

【技术特征摘要】
1.一种电子书的处理方法,其特征在于,所述处理方法包括: 获取电子书多个页面的页面内容数据; 从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行; 基于识别出的图和文字行块确定图注识别特征; 根据确定的图注识别特征为识别出的图标注图注。2.根据权利要求1所述的处理方法,其特征在于,所述图注识别特征包括以下至少一个:图注文字字体大小和图注起始字符特征。3.根据权利要求2所述的处理方法,其特征在于,所述页面内容数据包括文字数据和图,所述文字数据包括文字及其位置、宽度和高度。4.根据权利要求3所述的处理方法,其特征在于,所述基于识别出的图和文字行块确定图注识别特征的步骤包括: 将位于所述图周围的文字行块当中,文字字体大小小于正文文字字体大小或者其起始字符是数字或特定的前缀字符的文字行块确定为所述图的备选图注,所述正文文字字体大小是所述多个页面的页面内容数据中出现频率最高的文字字体大小。5.根据权利要求3所述的处理方法,其特征在于,所述基于识别出的图和文字行块确定图注识别特征的步骤包括: 将位于所述图周围的文字行块当中,满足以下判断条件的文字行块确定为所述图的备选图注: 文字行块的文字字体大小小于正文文字字体大小,并且所述文字行块所在页面中出现所述文字行块的文字字体大小的行数低于所述页面中出现图的个数的预定倍数,所述正文文字字体大小是所述多个页面的页面内容数据中出现频率最高的文字字体大小,或者 文字行块的起始字符是特定的前缀字符或者是数字,并且所述文字行块所在页面中图的个数与确定的备选图注的个数相等, 其中,优先将位于图的底部的满足所述判断条件的文字行块确定为所述图的备选图注。6.根据权利要求5所述的处理方法,其特征在于,所述基于识别出的图和文字行块确定图注识别特征的步骤包括: 基于已确定的备选图注确定出现频率最高的文字字体大小以及其在全部的备选图注中所占比例, 如果所述出现频率最高的文字字体大小在全部的备选图注中所占比大于预定的字体大小比例阈值,则将确定图注文字字体大小为所述出现频率最高的文字字体大小。7.根据权利要求6所述的处理方法,其特征在于,所述根据标注的备选图注确定图注识别特征的步骤还包括: 基于已确定的备选图注确定出现频率最高的起始字符以及其在全部的备选图注中所占比例,其中,一并统计起始字符是数字的起始字符的出现频率, 如果所述出现频率最高的起始字符在全部的备选图注中所占比大于预定的图注前缀比例阈值,则确定图注起始字符特征是所述起始字符或者是数字。8.根据权利要求7所述的处理方法,其特征在于,所述根据确定的图注识别特...

【专利技术属性】
技术研发人员:谢双宾徐广金曹羽刘文昱
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1