【技术实现步骤摘要】
电子书的处理方法和装置
[0001 ] 本专利技术涉及计算机应用
,尤其涉及一种电子书的处理方法和装置。
技术介绍
随着计算机技术的快速发展,文库阅读网站引进大批量的电子书,且大多数的电子书都是简单图文类。要将这些图文类的电子书导入到线上展示,并保障在线上重排版展示。出现在电子书中的图通常都会有注解或说明,在此将这些注解或说明称为图注。在导入过程中,需要将这些图与其对应的图注关联,为图标注出对应的图注,才能不出现格式错舌L。如果仍单纯依靠原人工编辑的方式来进行排版,则效率低,易出错,且成本较高。
技术实现思路
本专利技术的目的在于提供一种电子书的处理方法和装置,利用计算机技术对电子书中的图进行图注标注,从而图文类的电子书在线上重排版展示时,避免出现格式错乱,提高数据处理效率、降低成本。 根据本专利技术的一方面,提供一种电子书的处理方法,包括:获取电子书多个页面的页面内容数据;从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;基于识别出的图和文字行块确定图注识别特征;根据确定的图注识别特征为识别出的图标注图注。 根据本专利技术的另一方面,提供一种应用上述电子书的处理方法的装置,包括:数据获取单元,用于获取电子书多个页面的页面内容数据;分块识别单元,用于从所述数据获取单元获取的页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;图注识别单元,用于基于所述分块识别单元识别出的图和文字行块确定图注识别特征;图注标注单元,用于根据所述 ...
【技术保护点】
一种电子书的处理方法,其特征在于,所述处理方法包括:获取电子书多个页面的页面内容数据;从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行;基于识别出的图和文字行块确定图注识别特征;根据确定的图注识别特征为识别出的图标注图注。
【技术特征摘要】
1.一种电子书的处理方法,其特征在于,所述处理方法包括: 获取电子书多个页面的页面内容数据; 从所述页面内容数据识别文字行块和图,其中,每个文字行块包括单个文字行或具有相同属性的连续的文字行; 基于识别出的图和文字行块确定图注识别特征; 根据确定的图注识别特征为识别出的图标注图注。2.根据权利要求1所述的处理方法,其特征在于,所述图注识别特征包括以下至少一个:图注文字字体大小和图注起始字符特征。3.根据权利要求2所述的处理方法,其特征在于,所述页面内容数据包括文字数据和图,所述文字数据包括文字及其位置、宽度和高度。4.根据权利要求3所述的处理方法,其特征在于,所述基于识别出的图和文字行块确定图注识别特征的步骤包括: 将位于所述图周围的文字行块当中,文字字体大小小于正文文字字体大小或者其起始字符是数字或特定的前缀字符的文字行块确定为所述图的备选图注,所述正文文字字体大小是所述多个页面的页面内容数据中出现频率最高的文字字体大小。5.根据权利要求3所述的处理方法,其特征在于,所述基于识别出的图和文字行块确定图注识别特征的步骤包括: 将位于所述图周围的文字行块当中,满足以下判断条件的文字行块确定为所述图的备选图注: 文字行块的文字字体大小小于正文文字字体大小,并且所述文字行块所在页面中出现所述文字行块的文字字体大小的行数低于所述页面中出现图的个数的预定倍数,所述正文文字字体大小是所述多个页面的页面内容数据中出现频率最高的文字字体大小,或者 文字行块的起始字符是特定的前缀字符或者是数字,并且所述文字行块所在页面中图的个数与确定的备选图注的个数相等, 其中,优先将位于图的底部的满足所述判断条件的文字行块确定为所述图的备选图注。6.根据权利要求5所述的处理方法,其特征在于,所述基于识别出的图和文字行块确定图注识别特征的步骤包括: 基于已确定的备选图注确定出现频率最高的文字字体大小以及其在全部的备选图注中所占比例, 如果所述出现频率最高的文字字体大小在全部的备选图注中所占比大于预定的字体大小比例阈值,则将确定图注文字字体大小为所述出现频率最高的文字字体大小。7.根据权利要求6所述的处理方法,其特征在于,所述根据标注的备选图注确定图注识别特征的步骤还包括: 基于已确定的备选图注确定出现频率最高的起始字符以及其在全部的备选图注中所占比例,其中,一并统计起始字符是数字的起始字符的出现频率, 如果所述出现频率最高的起始字符在全部的备选图注中所占比大于预定的图注前缀比例阈值,则确定图注起始字符特征是所述起始字符或者是数字。8.根据权利要求7所述的处理方法,其特征在于,所述根据确定的图注识别特...
【专利技术属性】
技术研发人员:谢双宾,徐广金,曹羽,刘文昱,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。